Google on April fool
今年のエイプリルフールには Google Japan も「Inside Google ダジャレサーチβ」というのを出していました。
Google ダジャレサーチでは、ダジャレ専用超高性能クローラー OyajiBot により全世界から収集されたダジャレの中から KudaRank が厳選した選りすぐりのダジャレを検索することができます。また万が一、適切なダジャレが見つからなった場合でも、人工知能 BakaUke が、あなたのハートを鷲掴みにするダジャレを自動的に生成し、ユーザーに表示します。
実際,検索するとだじゃれが検索結果に混じっていて(イマイチだったけど),おお〜と思っていたのですが,中身はそんな甘いモノではなかったようです。
さらに、これらのダジャレは社員がひねり出したものではなく、機械的に自動生成されたものです。
Google ダジャレサーチ β は、サイトの説明にあるように、OyajiBot, BakaUke, KudaRank の三つのシステムで構成されています。
- OyajiBot: OyajiBot は、Web 上から、それなりの長さでかつそれ自身でおもしろみのある文を見つけてくるシステムです。Google の分散処理システム MapReduce を使って、世界中のWeb 上のドキュメントから探してきています。「面白いけどしつこくない」といった文がこの段階で見つかります
- BakaUke: BakaUke は、ユーザーの検索キーワードと OyajiBot が見つけた文を無理やりつなげてダジャレの候補を生成するシステムです。たとえば、「国内線」と「面白いけどしつこくない」をつなげて、「面白いけどシツコクナイセン」というダジャレ候補が作られます。
- KudaRank: BakaUke は一度に大量の候補を作り出します。KudaRank はそれらをランキングし、もっともくだらないダジャレを見つけます。検索キーワードと文の構文的・意味的な不整合等を考慮しながら機械学習アルゴリズムが適切に!? ランキングします
例の20%ルールを使い,自然言語処理の専門知識を活かし真面目に(?)作ったもののようです。すげー。