March 18, 2013

データが浮き上がらせるもの

近頃、ビッグデータという言葉をよく見聞きします。


ご存知の方も多いと思いますが、現代社会において収集・蓄積されるさまざまなデータで、今まで扱ってきたサイズとは比べものにならないくらい巨大な量のデータです。数量や一定の文字列などであればいいのですが、データの構造が決まっているとは限らないため、普通のデータベースなどで扱うのは困難という面もあります。

例えば、顧客の氏名、年齢、性別、住所、電話番号などのように、データの種類や構造が決まっていれば扱いやすいですが、ツィッター上のつぶやきとか、SNS上の書き込みやコメント、ネット上でやり取りされる音声や画像、動画データなど、種類も構造もバラバラなデータであったりします。

ビッグデータビジネスの時代Harvard Business Review

コンビニのPOSデータやレンタル店の貸出履歴、ネット上に蓄積される電子取引の履歴とか閲覧履歴、大量のログ、Eメールの内容とか、GPSやセンサーなどによる位置データ、移動のデータなどもあります。歯医者の治療歴からDNA情報、気温や風速から下水道のメーターまで、ありとあらゆるデータがあります。

インターネットやIT機器の進化に伴い、いろいろなデータが大量に蓄積されるようになりました。以前のようにアンケートをとったり、計数カウンター片手に集計しなくても、有用な各種のデータが簡単に取得できるようになってきました。これを分析することにより、興味深い知見や予測などを導き出すことが出来ます。

その用途はビジネスにとどまらず、病気の予防、犯罪対策、災害対策、環境保護、学術的研究など、さまざまな分野に革新をもたらす可能性が指摘されています。今までは得られなかったような知見、驚くべき発見、これまでにない対策などを生み出すことが期待されます。

データの活用の例で身近なのは、通販サイトで見かける、「これを買った人は、これも買っています」といったリコメンド機能でしょうか。店で買い物や食事をすると、消費行動や好みを分析して、再訪を促すのに最適な割引クーポン券を送ったりするようなサービスもあります。

ビッグデータ革命ビッグデータ戦略

あるスーパーでは、ビールを買う客は、なぜか紙おむつを一緒に買うという分析結果が出て、二つを並べて置いてみたところ、売り上げが伸びたなんていう話もあります。実際にスーパーの陳列棚を注意深く見てみると、いろいろ工夫されていたりするのかも知れません。

有名な話では、地元のスーパーから自分の娘宛てに、赤ちゃん用のオムツや粉ミルクのクーポンが送られてきたことに怒った父親が、娘はまだ17歳だと怒鳴り込んだというのがあります。店員は平謝りでしたが、実はデータのほうが正しく、娘さんは妊娠していたという話です。

さきのアメリカ大統領選でオバマ陣営は、膨大なデータを収集・分析し、徹底的に選挙運動に利用したと言います。地域や人種、宗教、所得などによる再分化された有権者ごとに、どんな手段が有効か、どうすれば有権者登録してくれるか、どのハリウッドスターが応援すると効果的かなど、全て計算して活動していたと言います。

コンピュータが大量の画像や動画の中から特定の人物を抽出したり、動画の内容の類似性を判断するといった、先進的な技術もどんどん開発されています。まだ分析結果から結論を導き出すのが難しい分野や、これからの部分も多いようですが、ビッグデータの利用は私たちの生活をますます便利にしていく可能性を秘めています。

ビッグデータビッグデータ早わかり

人々の移動を研究し、都市交通の問題について新たな知見を得ようとしている人たちもいます。どこの国にも統計局や公文書館のような施設がありますが、そうした公的機関が公表している人々の位置・移動データやケータイのGPSなどのデータを利用して、独自の処理を施したのが下の図です。

アメリカの各都市の白地図の上に、移動した人のデータを線で表しています。都市での最短移動時間を表した図、、移動する人の多さがわかる図などがあります。その中には、自転車での移動データを解析したものもあって、その移動経路の傾向がわかるようになっています。

「人々の移動データを地図上に表す」と言葉で言うのは簡単ですが、実際にはなかなか難しいものがあります。地図上に何かのデータを重ねる手法は、いろいろあると思いますが、よく考えると、見てわかりやすい地図、何かの結論が得られるような地図にするのは、かなり難しい作業です。

例えば、各地の降水量を表す図として、地図を色分けしただけでは、その差は抽象的になってしまいます。一方、降水量を3Dグラフにすると、後ろのデータが見えなくなってしまったりします。桁違いに違う量だと、表現として極端になってしまい、直感的にわからなかったりもするでしょう。

Shortest Path Tree of Seattle Area for Bicycle Travel
Shortest Path Tree of Seattle Area for Bicycle Travel

この地図も、膨大なデータを全て重ねてしまうと真っ黒になって、何もわからなくなるはずです。量の多さを線の太さで表して、直感的に把握できるようにしていますが、その太さも統計学的な手法や一定のアルゴリズムで処理しないと、太くなりすぎる場所が出てくるなど、何の地図かわからなくなってしまうでしょう。

アメリカの都市の地図ですので、馴染みのない者が見てもピンと来ないものがありますが、ひと目でわかるのは、樹木のような特徴的な形になっていることです。生物の進化を表した系統樹と呼ばれる図がありますが、それにも似ています。血管から枝分かれした毛細血管のように見えるかも知れません。

町の道路の全てが碁盤の目のようになっているわけではないとしても、実際の街は、ある程度、街路が交差し、網の目状になっているはずです。街路が進化の系統樹のようになっている都市なんて見たことがありません。隣のブロックに行くのに、いちいち樹木の根元のほうまで戻らなければならないとしたら不便すぎます。

ところが、人々の移動データを集め、図にしてみると、まるで樹木のような形になるわけです。つまり、血管が毛細血管へと分かれていくような形に移動する人が多いことがわかります。ここまではっきり出るとは、なかなか予測できなかった結果なのではないでしょうか。

最短距離ということならば、普通の地図から簡単に得られます。ほぼ同じ距離のルートがいくつもあるかも知れません。しかし、実際には自転車で移動しやすい道というのがあるでしょう。道の太さ、交通規制、混雑具合、走りやすさなどで、必ずしも最短距離のルートが最短の時間で到達できるとは限りません。

Shortest Path Tree of San Francisco Area for Bicycle Travel
Shortest Path Tree of San Francisco Area for Bicycle Travel

同じような距離でも、細くて見通しの悪い道路だと、どうしてもスピードが抑えられ、逆に見通しの良い幹線道路だと平均スピードが上がるといった事情もあるに違いありません。もちろん、少し遠回りでも、わかりやすい幹線を通る人が多いとか、迷わずに行けるので速いということもあるでしょう。

一人ひとりの移動者は、特に意識していなかったとしても、自然と自転車の交通量の多くなる道が出来てくるということを表しています。ただ、線の太い道路が、実際に幅の広い幹線道路とは限りません。自転車で走りやすいことが知られている道路や専用道が、実際の幅とは違う太い線で描かれる可能性もあるわけです。

アメリカの都市の地図なので、見ても具体的なことは、よくわかりませんが、日本の地図に同じようなデータを解析して載せたら、興味深いことがわかるかも知れません。自転車で通りやすい道とか、横断しにくいので敬遠されている場所など、その都市の実際の走行事情が現われるのではないでしょうか。

こうしてビジュアル化され、特異な点が浮かび上がれば、事故を減らしたり、ボトルネックを解消して混雑を緩和するなど、実際の走行空間の整備に役立つに違いありません。過度に集中しているようなら、違うルートに誘導すべく、走行環境の改善を行うようなことも考えられます。

データを選択することで、曜日ごと、時間ごとなどで描き分けることも可能です。コンピュータで最適に交通量を分散させる方法を計算させ、各駐輪場の混雑を平均化して、満車を減らし、迷惑駐輪を減らすようなことも考えられるかも知れません。単なる移動データも集積すれば、いろいろと有効に利用できる可能性があります。

Multimodal Shortest Path Tree of Portland, Oregon
Multimodal Shortest Path Tree of Portland, Oregon

今後、自転車レーンの設置を進めていく上でも貴重なデータとなるでしょう。自転車レーンは、細切れの部分的なものでは有効に機能しません。街全体をネットワークとして結ぶように設置すれば、つながっていないレーンと比べ、都市交通として何倍にも有効に機能するはずです。

このネットワークとしての自転車レーンという考え方を理解する人でも、なんとなくネットワークは網の目状になるとイメージしている人が多いのではないでしょうか。アメリカとの違いもありますし、歩道走行の問題もありますから、実際のところはわかりませんが、系統樹のように整備するのが合理的な可能性もあります。

少なくとも、こうしたデータ解析により、交通量の多いルート、ニーズの高い道路から整備を始めていくことは出来るでしょう。無駄に網の目状にすることで、ニーズの低いレーンを優先してしまうようなことを防ぎ、優先順位をつけることで効果的にネットワークを確立できるかも知れません。

日本では、まだまだ自転車の走行空間という意識が低く、そこまでいくのは時間がかかりそうです。しかし、ビッグデータの活用が広がっていく中で、逆にデータのほうから自転車の走行空間の整備、あるいは自転車レーンのネットワーク形成の有用性がはじき出され、その議論に火がつかないものかと密かに期待しています。





侍ジャパン3連覇は成りませんでした。まあ、毎回日本優勝では、世界レベルでは盛り上がらないでしょう。

このエントリーをはてなブックマークに追加

 デル株式会社


Amazonの自転車関連グッズ
Amazonで自転車関連のグッズを見たり注文することが出来ます。



 楽天トラベル






この記事へのトラックバックURL

この記事へのコメント
こん○○は。

>樹木のような特徴的な形
放射状に動くのは名古屋界隈の鉄道だけだと思っていました、意外や意外。人々のニーズをきめ細かく反映、は一見便利そうですがそこまでしてみんな覘いたり覘かれたりが好きなのかなァ?との疑問も。デスクワーカーが背広を羽織り、髪を逆立て、角ばった横長の眼鏡をかけ、IDカードをこれ見よがしに提げ、安全地帯のモニターの前でふんぞり返って他人の揚げ足ばっか取ってる様が目に浮かび胸糞が悪くなりました。

>違うルートに誘導すべく、走行環境の改善
ボトルネックを意図的に作る・残すことで特定の地域・区画の交通量をコントロールするのは有効だと思います。しかしながらそれはどこもかしこも「いつかはクラウン」に合わせた道路拡張・区画整理など必要なかった、という意味にもとれるわけで…遠回りでしたね。

>三連覇
コレは下衆の勘繰りですので話半分、否、1/10くらいに…読売にとって此度のチーム(編成)はまさに自らの威信を賭けた、「日本一を目指すばかりで国際試合に選手を出そうとしない」批判をかわす絶好の機会でした(そのくせ監督は元広島、「こんなこともあろうかと!」)。前年成績の良かったヤツを選ぶのは当然ながら、日の丸を掲げつつも優勝を目指す意味がやや小さかったように感じられます。「ベストではなかった」との見方があるようですが、巨人の選手が春先本調子でないのはいつものこと。長いシーズンを戦ううえである程度は不可避でしょう、答えは半年後、明らかになる筈。

ともあれこれで当分、WBCと言えば「ホール・ボディー・カウンター」に戻るわけです、ね?
Posted by alaris540 at March 20, 2013 11:46
alaris540さん、こんにちは。コメントありがとうございます。
人々が実際に移動している様子を他人に知られたいとは思っていないと思いますが、例えばケータイやスマホの位置情報やGPSのデータなどが、自動的に収集されていたりします。
契約者と紐付けされた端末固有のデータ以外にも、個人を特定しない形でアプリなどが、利用者の許諾を得た上で収集するGPSデータなどもあるでしょう。
機械的にカウントする交通量センサーなどもあると思いますし、必ずしもカメラモニターで調べているわけではないと思います。
意図して調査したデータに限らず、昨今の技術の進歩で、何かに付随して取得されるような膨大な量のデータが、ビッグデータと呼ばれる所以でもあると思います。

ここで想定しているのは自転車の走行量のことで、自転車が走りやすい道路を整備することで、自転車が一ヶ所の駐輪場に集中するような状態を、分散させることが出来るのではないかとの趣旨です。クルマの流入を制限するといった議論もあるでしょうが、それとは別です。

“wonderful bicycle city”が増えて欲しいところですね。
Posted by cycleroad at March 21, 2013 23:54
 
※全角800字を越える場合は2回以上に分けて下さい。(書込ボタンを押す前に念のためコピーを)