Subscribed unsubscribe Subscribe Subscribe

ジャバ・ザ・ハットリの日記

日本→シンガポール→ベルリンへと家族と共に流れ着き、ベルリンのスタートアップで働くソフトウェアエンジニアの日記

エンジニアとしての仕事観を揺さぶられる本『サッカー データ革命』

本書を読んで、エンジニアとしての仕事観を大いに揺さぶられた。もちろんいい意味で。
内容はサッカーにビッグデータの分析を持ち込んで活躍するデータサイエンティスト達の成果とその手法だ。

サッカー データ革命 ロングボールは時代遅れか

サッカー データ革命 ロングボールは時代遅れか

ブラッド・ピットが主演で映画にもなったマネーボールのサッカー版と言えば分かりやすくご理解いただけるだろう。しかし本書には人間ドラマのような要素はほどんど無し。次々にデータサイエンティストの分析した成果とその手法の解説が出てくるのみ。学術論文から引っ張ってきた文献なども多く登場して、エンジニアや研究者好みの構成となっている。こう書くと「それでおもしろいのか?」と思われるかもしれないが、そういう不安は大いに裏切ってくれた。そもそも中途半端な人間ドラマなんかよりも、膨大なサッカーのデータを元にした分析結果とその手法の方がよほど興味深いのだ。
サッカーで盲目的に信じていたことがデータで反証されたり、逆に立証されたりするのだから、読みながらいちいち「んんん」となっていた。少しだけ紹介すると、

  • 応援しているチームが攻め込んでいる時、相手の接触によりゴールラインを割れてコーナーキックを得たとする。その時、大方の観客は拍手したり歓声を挙げたりする。コーナーキックを得たことで、その後のゴールを期待するのだ。ただ、データではコーナーから枠内シュートに繋がる確率20.5%、シュートの成功率11%。つまりコーナーキックからゴールに至る確率はたったの2.2%。ほぼ入らないのだ。記憶に残っているコーナーキックがある?それはめったに無いから印象に残っているだけ。
  • ある選手が魔法がかかったようにノッている時がある。連続してゴールを決めまくり、不思議なオーラをまとってフィールドに立っているのを見たことがある。でもデータから言えるのはそれはただの錯覚。連続してシュートを決める確率は偶発的に生じるものと全く同じでしかない。
  • 誰でも大好きなスペクタクルな攻撃的サッカー。2点とられても3点取り返すような試合は興奮するし、それがサッカーの醍醐味だ、と。ただデータ分析すると0点に抑えることは、1点を取るよりも勝ち点換算では価値が高い。

こんなデータが次々に紹介され、その分析方法が解説されているのだ。もう読み出したら止まらなかった。
データサイエンティスト達はなにもシニカルにサッカーを観るために分析しているのではない。基本は所属しているチームが勝つためにやっている。「サッカーで勝つためにすること?そらトレーニングだろ。練習だ!」とだけ思っている人は本書を読んで、最先端のチームが「勝つためにやっていること」を垣間見た方がいい。

「サッカーは極端に得点の少ないスポーツ。1−0とかで終わってしまい時には運の作用が多く作用する。そんなサッカーをデータで分析できるのか?」という疑問は残る。

それはその通りでどんなに膨大なデータを駆使したデータサイエンティストであっても、ある日に行われるバルサVSレアルの試合結果を予想することは非常に困難だ。実力の拮抗したチームの対戦結果予想は極めて困難なのだ。だが、それは「どっちのチームがスコアなん対なにで勝つと思いますか?」という質問がダメなのだ。

それはコインを投げて表か裏かを当てることとよく似ている。当たる時もあれば当たらない時もある。ただ膨大なデータ、この例で言うと1000回ぐらいコイントスをして、表が出る回数は何回ぐらいか?という質問なら非常に高い確率で言い当てることができる(要は半分)。そこから分析が出発する。

大きなところからデータで納得させる。1試合の平均ゴール数は2.66ゴールであり、これはヨーロッパ主要リーグとここ20年間をとおしてほとんど振れ幅が無いというデータ。これには反論の余地もない。誰でも「まーそれぐらいだろうな」と思うだろう。
で、そこから徐々に細かい分析まで落とし込んでいく。すると本書を読み終えるころには、もうデータのとりこになっているはず。

私は今でも2005年のチャンピオンズリーグの決勝、ACミランVSリバプールのドラマを覚えている。長年優勝から遠ざかっていたリバプールに念願のトロフィーを持って帰ってくれるのかとファンは待ち望んでいた。だが実情は国内のリーグ戦でもそこそこの成績。はっきりいってチャンピオンズリーグの決勝までよく残れたもんだ、思っていた。対戦相手はそのシーズンを絶好調でのりきったACミラン。試合が始まると前半だけでミランが3点を決めて3-0で折り返した。前半が3-0の0のチームなんてもう負けにきまっている。だが、もう後がないリバプールは後半に怒涛の攻めを見せて、こともあろうか3点を取り返し、さらに延長の末のPKで勝利をもぎ取ったのだ。奇跡としかいいようの無い決勝戦だった。全身が震えるような感動が体中に走ったのを今でも覚えている。

そんな奇跡のようなできごとをデータサイエンティスト達はこう結論付ける。一定の確率で起こってもおかしくないできごとであり、チャンピオンズリーグの決勝で3点を逆転するゲームは想定の範囲内。
ある意味その裏付けデータと分析手法がもう2005年の決勝で感じたのとはまったく別の意味でまた感動してしまった。

そんなサッカーのデータを四六時中ながめて分析している彼らの仕事ぶりに本書で触れて、はたして自分も仕事の中で彼らほどデータに真摯に向き合っているのか?と自問した。

私はウェブサービスにおいてそのインフラと主にバックエンドの処理に携わっているから、おのずと毎日データには触れている。でも「ユーザーがここをクリックしたら、それに相当するレコードをデータベースから引っ張ってきてサッと出す」という仕事に終わってしまっているのが現状だ。そのデータを本書のように深く掘り下げて考えぬけば、ユーザがまったく気づいていない、すごい価値を掘り起こすことができるはずなのだ。

実際私は本書を読んでそれを応用したコードをあるプロジェクトに入れ込んだ。専門のデータサイエンティストには遠く及ばないかもしれないが、彼らの仕事ぶりを知って、「オレもやってやろう」と思ったのだ。小手先の分析テクニックをマネしたのではない。

彼らの「サッカーなんて」とバカにせず、真摯にデータに向き合い普通の人には考えつかないような分析精度に高めてしまう、その仕事ぶりに感化されたのだ。

スター選手のようなスポットライトはあたらないが、私はそんなデータサイエンティスト達の地味なようでエキサイティングな仕事ぶりが好きだ。

サッカー データ革命 ロングボールは時代遅れか

サッカー データ革命 ロングボールは時代遅れか

私は英語版で読んだが、どっち読んでもいいと思う。

The Numbers Game: Why Everything You Know About Football is Wrong

The Numbers Game: Why Everything You Know About Football is Wrong

tango-ruby.hatenablog.com