映画ブロガーのためのホット チリ レビューズがじわじわキテるので経過報告
先日公開した映画ブログのレビューサイト、ホット チリ レビューズがじわじわキテる。映画ブロガーさんからは概ね好意的な意見をいただいていて、アクセス数も伸びてきた。記事数は今のところ41,044件。だいたい10日で1万件のペースで入ってて、この記事数はまだまだ伸びる。
はてなブログにある映画の感想を人工知能で集めてウェブサイトを作った - ベルリンのITスタートアップで働くジャバ・ザ・ハットリの日記
当面の目標は「映画ブログを書いたら、ホットチリレビューズへの登録」をデファクトスタンダードにすること。
そのためには映画ブロガーさん達に「これは絶対100%登録した方がいいわ!」と思っていただく必要がある。そこでいろいろと映画ブロガー向けの機能を実装してきたので、告知することにした。
ブロガー分析
ホットチリレビューズに登録された映画ブログはその映画のカテゴリーごとに数値集計されて、こんなレダーチャートで示される。これは映画ブログを探している読者にとっても「おお、このブロガーはこんな傾向があるのか」と分かりやすく伝わる。
カテゴリーの他にもレビューされている映画監督と俳優のトップ8人をグラフに示した。
例えばあるブロガーにレビューされているトップの映画監督にこんなのがあったとする。
で、また他のブロガーのがこんなのだったり
もうこのグラフを見ただけで、2人のブロガーの趣向がまったく異なることが分かる訳です。
で、これの俳優版もある訳で、こんなのとか。
数字を元にしたデータ解析は嘘をつかないのでブログ書いてる作者にとっても気付かなかった真実が出てたりする。
「ずっと心の恋人は福士蒼汰と思っていたのにブログにはトム・ハンクスのことばかりレビューを書いていたのね。なんて罪なアタシなの。。」となったり。
AIの精度
前回の記事でも書いたようにスクレイピングに機械学習を入れてAIに映画タイトルを判別させている。ここの精度を上げることが当面の課題ではあるのだが、これがなかなかに難しい。
原作が漫画でその映画化された場合などは記事内容からAIが正確に判断できていないし、ユーザーが見たときに「おいおい、これ映画レビューじゃなくて漫画の感想だぞ」となってしまう。
ずっと機械学習の数式を見ながら、どうしようかと考えてる時にスゲーいいアイデアが思いついたので、さっそく実装したのがこの「誤リンク?」ボタン。
サイトを眺めている時に「アレ、これって誤リンクじゃね?」と思ったら、ポチッとしてください、と。
別にボタン押したらスグにリンクが消える訳でもなく、それを元に調べてスクレイピングの精度に反映させるようにしますよ、という意味。こうでもしないともう4万件も記事があったら見てられないし、AIに任せっぱなしではなかなか解決しないんじゃないか、ということで苦肉の策。
次に実装していくつもりの機能
検索
現状でも映画タイトルとかで検索できるんだけど、もうちょっと精度を強化しようかな、と。特にブロガー検索。
シェアボタン
もっとツイッターとかでシェアされやすくしたい。思ったよりシェアが少ないのは、シェアボタンのデザインと見せ方が悪いんだと思う。
他のブログプラットフォームへの対応
次はきっとワードプレスかMediumかな。
皆さんのからのご意見
わりと意見が欲しい。ある映画ブロガーさんから「なんで私のブログは3件しかホットチリレビューズに登録されてないんですか?もっといっぱい書いてるのに」とご意見をもらって、スグにスクレイピングやりなおしたら70件ぐらい入った。まーAIの精度が悪かったんだけど、そういうのもちょっとご意見いただければなるべく対応するんで、いろいろ言っていただければ助かる。
他にも「こんなの欲しい」とか「こんなの要らん」とかもあればぜひ。
トップ映画ブロガー300
ホット チリ レビューズに登録されている映画ブロガーのトップ300。これランキングみたいにしてるけど、あまり順位は気にしないでください。順位を決めてるアルゴリズムはまだ完璧じゃないし、なんかもっといい方法はないかなーと今でも改良しているところなので。あくまで暫定的な数値でしかない。(そうは言っても上位のブロガーさんはホント素晴らしい)
人に支持されて、いい映画のレビュー記事をたくさん書かれているブロガーほど高い数値にしようとしているところ。
はてなブログにある映画の感想を人工知能で集めてウェブサイトを作った
映画の辛口レビューと感想を機械学習を使って、はてなブログから集めてウェブサイトにした。名前はホット チリ レビューズ。
現在は約3万件のレビュー記事と約6千本の映画が収録されている。最終的には他のブログプラットフォームにも対応して、機械学習の精度を高めて、記事を集めまくって、世界一の映画ブログ総合サイトにするつもり。
映画の感想と辛口レビューをブログから集計
ホット チリ レビューズ
映画のレビュー
わりと映画のレビュー好きである。単なる映画好きとはちょっと異なる。あくまで「映画のレビュー」好き。
映画のレビューはそれだけで十分に楽しめるコンテンツになっている。必ずしも「レビューを読むこと」と「映画を観ること」がリンクしている訳では無い。ただウェブサイトを巡回してひたすら映画レビューを読んでいるだけで楽しくて、きっと同様の感覚を持つ人も居ると思う。
同じひとつの映画を軸として、いろんなブロガーがそれぞれの視点で書いたレビューを読むと多角的に映画が理解できてくる。「おお、あの映画にそんな捉え方があったのか」という気付きがあったり、「これ書いた奴、映画が分かってねーなー」とツッコんだり。
そういう楽しみ方はブログに掲載されたレビューが最も適している。ツイッターのつぶやきで「スターウォーズすげーっす」と140文字以内のひとこと感想を読んでも何も分からない。アマゾンやヤフー映画のレビュー欄ではフォーマットが規定されていて、かつ文章も短く、読み応えが無い。
その点ブログは多様なフォーマットで各ブロガーが思う存分に映画レビューを書いている。中にはプロの映画評論家ですらできないような評論を個人ブログで発信されてたりする。
本当に自分に合った映画ブロガーとの出逢いはその後の映画人生を何倍も充実させてくれるのだ。
ただそんな「映画のレビュー好き」には常に問題があって、それは「どうやって自分に合った映画ブロガーを見つけるのか?」と。これってググってもなかなか出てこない。当然ながら検索キーワードに「私の感性に合う映画ブロガー」と入れても意味が無い。
そこでホット チリ レビューズではブロガーごとに書かれたレビューを数値解析してサイトに表示させた。
そうすることで「アクション映画の感想を書かせたらピカイチのブロガーに出逢いたい」や「恋愛モノ映画レビューの第一人者は誰?」といったニーズに応えることができる。
「アクション映画のランキング」というのはどこの映画サイトでも手に入る。
でも「アクション映画のブロガーランキング」というのはおそらくホット チリ レビューズでしか手に入らない。
ブロガー分析
ブロガーごとに映画レビューを数値化分析した。映画のカテゴリーとリンクさせているのでどの映画分野に強いブロガーなのかがチャートでひとめで分かる。例えばこんな感じ。

これはきっとブログ作者さんにとっても参考になるのでは、と思っている。自分の書いたレビューの映画をカテゴリー分けして、数値集計するなんて面倒なこと誰もしないだろうし。
本サイトにおいて映画ブロガーさん達の支持が無ければ成り立たないので、とくかくブロガーに喜んでもらえるサイト作りを目指した。
最終的には「映画の感想をブログに書いたらホット チリ レビューズへの登録」をデファクトスタンダードにしたい。
機械学習
ウェブスクレイピング + 機械学習 + ビッグデータ = なんかスゲーもの
3つの要素を足すと個人が立ち上げるウェブサイトであっても、すごいことができるはずという確信がある。
このウェブサイト構築で最も困難だったことは「ネット上にある様々な映画レビュー記事をその対象の映画にマッチングさせること」だった。最初はカンタンに考えていて、これがこんなに難しいとは思っていなかった。いろいろやった結論としては「機械学習以外に方法は無い」ということ。
ブログに書かれた映画のタイトルというのは統一性がなく、バラバラなのだ。以下は全て同じ映画を示していることになる。
- スターウォーズ フォースの覚醒
- SW フォースの覚醒
- スターウォーズ エピソード7
- スターウォーズ EP7
- スターウォーズ EP7 フォースの覚醒
- スターウォーズ7
- スターウォーズ The Force Awakens
- Star Wars: Episode VII The Force Awakens
私が他人のブログに注文つけるのもおかしいが、もうちょっと統一してくれたらなー、と。
人間の目で見て確認するのもいいが、何万件もある記事と映画は全部確認できないし、そんな方法では絶対にスケールしない。
そこでAIを使ってこんなことをした。
> classifier.classify "【ネタバレあり】スターウォーズ エピソード8 最後のジェダイ 感想文。早速観てきた!” => "スターウォーズ/最後のジェダイ" > classifier.classify “宇宙好きのパパの影響を受けた2歳の娘と『スターウォーズ フォースの覚醒』を観だけど、娘はアンパンマンの方がいいみたい” => "スターウォーズ/フォースの覚醒"
この精度にまだちょっと満足できていない。特にAIにシリーズものの映画の違いを分かってもらうところで苦労している。先程の例にあったスターウォーズ・シリーズを各エピソードに分けるとことか。あとリメイク版の認識精度もダメ。例えば「オリエント急行殺人事件」は1974年に作られて、それが2017年にケネス・ブラナー主演でリメイクされている。人間がタイトルを読んだらどっちを示しているかは明らかなのに機械学習に分からせるのが難しい。
で、まずはRubyのclassifier-rebornを使って実装した。つまりナイーブベイズ分類器を使った訳だが、どうにも精度が上がらないので、今これをPythonのDoc2Vecに代えてコードを書き直しているところ。
ここの精度が十分に上がればサイト規模をいっきに拡大できるはず。もしこの辺りの技術に詳しい方でアドバイスがあればぜひコメントください。
トップ映画ブロガー200
順位は独自集計した数値を元にして決めている。基本は人に支持されて、いい映画のレビュー記事をたくさん書かれているブロガーほど高い数値がつく。アルゴリズムの改良を続けているので、しばらくは変動が大きいですが、まーそんなもんとお考えください。
あと「オレの映画ブログ記事のリンクも貼れ」とかのご依頼があればぜひご連絡ください。
トップの映画ブロガー200のリスト
というわけでホット チリ レビューズです。なんでも感想とかコメント、批評いただければありがたいです。
新しいモノ好きベルリンでクラシックカーを見て「アイデアと移動距離は比例する」を思う
ベルリンのITスタートアップに勤めていると朝から晩まで最新のテクノロジーばかり追いかけているような錯覚に陥る。が、それと同時にそこはヨーロッパらしく古くからの歴史を大切にする文化もあったりして面白い。
先日、Classic Days Berlin というクラシックカーのお祭りに行った。大通りにクラシックカーとそれにまつわる展示物を配置して、みんなで見てまわるイベント。
クラシックカーなんて大昔のエンジンを搭載したモデルで燃費も悪いし、メンテナンスに手間と費用がかかるし、非効率だなーと思っていた。ぶっちゃけあんまり興味は無かった。どちらか言えば最新の電気自動車のテクノロジーの方が面白いと思う派だ。
それでもズラリとならんだ昔の車を見てまわると、そのデザインの美しさやそこに車があるだけで風景になってしまうことに驚く。
エンジニアでもデザイナーでもモノ創りに関わる以上はいろんなとこから刺激を受けてアイデアに還元する必要があり、その刺激は同じ場所にとどまって同じような暮らしを送っていたのではなかなか得られない。ヨーロッパの街でクラシックカーを見ることがそのままモノ創りのアイデアになる訳がないが、それは映画でも音楽でも友人のちょっとした話でもナニが心のアンテナに引っかかるかなんて分からない。ならばできるだけ移動していろんなモノに触れて、自分の感性のアンテナを常に刺激しまくった方がいいに決まっている。
高城剛の言う「アイデアと移動距離は比例する」はとてもシンプルでかつ真理を突いた言葉だ。
と、いうようなことをクラシックカーを見ながら思ったのだった。