FAQ

■1. 情報検索と情報アクセス技術■

Q1.携帯サイトは検索エンジンで検索できるの？

Q2.検索エンジンは完全照合型？それとも最適照合型？

Q3.機械翻訳した結果は文法が怪しい？

Q4.情報検索システムはどのように選択すればいいの？

Q5.Google Street Viewでは、道路わきにいる人の顔も映っちゃうの？

■2. 情報検索システムの構成■

Q6.「は」や「で」などの機能語でも検索できるのはなぜ？

Q7.辞書やコーパスがないとクエリ拡張できないの？

Q8.公式サイトは非公式サイトよりも必ず上位にランキングされるの？

Q9.Q&Aサイトで検索を行うと、なぜ同様の検索結果が多くなるの？

Q10.フィッシングサイトの判別方法は？

■3. 検索モデル■

Q11.Googleなどの検索エンジンはどのモデルを利用しているの？

Q12.idfでは、なぜlogをとって1を足すの？

Q13.生起確率って具体的には何を使えばいいの？

Q14.検索において、クラスタリングを他の用途には利用できないの？

Q15.k-meansって何？

■4. 情報検索システムの応用■

Q16.新しいウェブページを作った後、どうやって検索エンジンのウェブクローラにクロールされるの？

Q17.PageRankを提案した論文は当時の論文誌に掲載されなかったというのは本当？

Q18.クエリログでは何を記録しているの？

Q19.検索エンジンは本当にkeywordsのタグを見ているの？

Q20.titleタグは重要ではないの？

■5. 情報検索システムの評価■

Q21.社会における検索システムの重要性はどう評価するの？

Q22.検索システムの再現率と精度の両方が1の可能性があるの？

Q23.精度、再現率、F値など、様々な評価指標は画像検索にも適用できるの？

Q24.適合度合いを段階的に示した情報は何に使うの？

Q25.システムの数はいくつあればよいの？

■6. 情報アクセス技術の事例■

Q26.多義語の意味をどのようにして判断するの？

Q27.クエリを翻訳して検索したときの検索結果と、検索結果を翻訳したものとは一致する？

Q28.言語横断検索する時、どうして不要語を削除する必要があるの？

Q29.地理・時間情報検索の身近な応用例は？

Q30.factoid型とnon-factoid型に自動分類できるの？

Q31.質問応答システムはクイズ番組で優勝できる？

Q32.固有表現と固有名詞との違いは？

Q33.コミュニティQ&Aサイトでユーザが質問を入力している最中に、即時に推薦アンサーを出すことはできるの？

Q34.コミュニティQ&Aの課題は何？

■7. 情報アクセス技術の新たなる挑戦■

Q35.行動履歴収集において個人のプライバシーは守られるの？

Q36.行動履歴を使うとどんなビジネスが考えられるの？

Q37.検索エンジン会社は、どんな方法でクリックログを収集しているの？

Q38.ライフログには他の形態はないの？

Q39.ブログとマイクロブログの違いは何？

Q40.コンピュータで感情をどう記述するの？

Q41.ウェブ上にはどのぐらいの数の表があって、統合するとどれぐらいの知識になるの？

Q42.表形式でまとめてくれるシステムってあるの？

Q43.こんなすごいシステムを4年でどうやって作ったの？

■1. 情報検索と情報アクセス技術■

Q1
携帯サイトは検索エンジンで検索できるの？

A1
携帯サイトのデータが収集できるようにrobots.txtが設定されていれば、携帯サイトであっても検索エンジンへの索引付けは行われます。サイトが索引されると、その携帯サイトを検索することができるようになる。しかし、携帯電話会社が独自に提供しているiモードなどのコンテンツは、インターネットからアクセスすることができないため、検索エンジンでは検索できません。

Q2
検索エンジンは完全照合型？それとも最適照合型？

A2
検索エンジンは、最適照合型です。クエリに一致する文書を適合する度合い（適合性）によってランキングします。

Q3
機械翻訳した結果は文法が怪しい？

A3
機械翻訳では、文章を形態素解析して、単語を抽出し、抽出された単語を翻訳して、別言語に組み合わせています。各言語の文法は違うので、組み合わせた結果は怪しい場合が多いようです。

Q4
情報検索システムはどのように選択すればいいの？

A4
情報検索システムは、コンテンツ、スピード、精度などによって、選択します。ウェブデータに対する検索の場合は、検索エンジンによって検索結果が大きく異なるため、網羅的な検索を行う場合は、様々な検索エンジンを並行して利用するのがよいとされています。網羅的な検索以外においても、上位に現れる検索結果は、検索エンジン毎に異なるため、様々な検索エンジンを並行して利用するのがよいでしょう。また、検索エンジンによって検索時に利用できるオプションに違いがあるので、検索対象を絞り込む上で適切なオプションを持つ検索エンジンを選ぶことも重要です。

Q5
Google Street Viewでは、道路わきにいる人の顔も映っちゃうの？

A5
Google Street Viewでは、個人情報保護のために、顔の認識技術を利用することによって、人の顔や車のナンバー、家の表札などにモザイクをかけています。

■2. 情報検索システムの構成■

Q6
「は」や「で」などの機能語でも検索できるのはなぜ？

A6
検索エンジンの索引では、不要語を用いず、全文をインデックスしています。このため、「は」や「で」などの機能語もインデックスされ、インデックスされた語はすべて検索できるので、「は」や「で」などの機能語も検索できます。

Q7
辞書やコーパスがないとクエリ拡張できないの？

A7
辞書やコーパスがない場合も、ある程度はクエリ拡張可能です。例えば、東京大学の省略形として東大がありますが、これは「東京」を「東」、「大学」を「大」と省略しています。このような、省略方法をルール化することで、クエリ拡張をすることができます。しかし、辞書やコーパスがなければ、全く異なる語句に拡張することはできません。例えば、「大学」を「University」に拡張することはできません。

Q8
公式サイトは非公式サイトよりも必ず上位にランキングされるの？

A8
必ず公式サイトが非公式サイトより上位にランキングされるという保証はありません。例えば、SEO対策を行わない公式サイトは順位が下位の場合もあります。また、Flashのみで作成されているサイトは、索引化が困難であり、HTML内でMetadata等のタグを用いてサイト内容に関するキーワードを付与するなどしないと、索引化できません。このようなFlashのみで作成されているサイトは、検索結果で下位にランキングされるケースが多いようです。

Q9
Q&Aサイトで検索を行うと、なぜ同様の検索結果が多くなるの？

A9
Q&Aサイトでは類似の質問が何度も行われることがあります。Q&Aサイトの検索ではこれらのQAを全て索引化しており、類似の質問とその回答が検索結果に表れるため、「同様の検索結果が多い」と感じる場合があります。類似する質問をまとめあげることができれば、類似するQAを検索結果に出さないことも可能になりますが、精度の面で実用上は運用されておらず研究課題となっています。

Q10
フィッシングサイトの判別方法は？

A10
利用者が行うことのできる最も簡単な判別方法は、URLを確認することです。例えば、www.yahoo.co.jpのフィッシングサイトが存在した場合、このフィッシングサイトのURLは、www.yahoo.co.jpではなく他のURLになります。フィッシングサイトを構築する側は、本来のサイトに見えるように例えば、www.yaho0.co.jpや、www.yahhoo.co.jpなど紛らわしいURLを用いる場合が多いようです。

■3. 検索モデル■

Q11
Googleなどの検索エンジンはどのモデルを利用しているの？

A11
多くの検索エンジンはブーリアンモデルをベースとした検索モデルを採用しています。ブーリアンモデルでは検索結果のランキングが行われませんが、主にPageRankやHITSなどといったアルゴリズムを組み合わせて各社独自のランキング関数を定義し、検索結果を出力しています。

Q12
idfでは、なぜlogをとって1を足すの？

A12
df(t)とNが等しい時、logの計算結果は0になります。0になると、tfとidfの積により計算されるtf-idfは必ず0になります。このような場合が生じると、if-idfの計算時にtfの値を考慮することができなくなります。このため、idfに1をプラスすることによって、df(t)の値によらずidfが0にならないようにしています。

Q13
生起確率って具体的には何を使えばいいの？

A13
生起確率は、その事象が他の事象に関係なく発生する確率なので、ウェブ検索の場合、PageRank値を用いたり、クリックログから当該ウェブページがクリックされる確率を用いたりすることができます。

Q14
検索において、クラスタリングを他の用途には利用できないの？

A14
様々な利用が考えられます。例えば、「大学」で検索した際、予備校を検索結果に出すのか、大学一覧を出すのか、偏差値一覧を出すのか、様々な検索意図が考えられます。このような場合、予備校関連から1件、大学一覧関連から1件、偏差値関連から1件といった具合に、考えられうるカテゴリから1件ずつ検索結果を抽出し、最初のページに表示すると、利用者の満足度を上げることができます。このように、ウェブページを事前にいくつかのクラスタに分割しておき、検索結果を出す際に、各クラスタから代表的なウェブページを1件ずつ出すということが可能です。

Q15
k-meansって何？

A15
k-meansは、今から50年以上前に、様々な分野でSteinhaus（1956）、Lloyd（1957）、Ball and Hall（1965）、MacQueen（1967）によって提案された非階層型クラスタリング手法の一つです。k個のクラスタに分類する手法であり、現在でも幅広く用いられています。しかし、利用者は分割数であるkを予め指定しなければならず、kを指定しなくても自動的にkを設定する様々な手法が提案されています。

■4. 情報検索システムの応用■

Q16
新しいウェブページを作った後、どうやって検索エンジンのウェブクローラにクロールされるの？

A16
二つの方法があります。ひとつは検索エンジンのウェブ登録サービスを利用して、ウェブクローラに新しいウェブページがあることを教えるという方法です。もう一つ方法は、ウェブクローラが定期訪問しているサイトから新たなページにリンクを張るという方法です。ウェブクローラは新たなリンクを発見すると、リンク先の新たなページをクロールします。

Q17
PageRankを提案した論文は当時の論文誌に掲載されなかったというのは本当？

A17
本当です。検索技術に関する権威ある国際会議であるSIGIRに投稿されましたが、SIGIRでは採択されませんでした。1998年当時、PageRankのすばらしさは評価されなかったのです。

Q18
クエリログでは何を記録しているの？

A18
日付、時間、キーワード、cookie、browserの属性、referral link等を記録しています。

Q19
検索エンジンは本当にkeywordsのタグを見ているの？

A19
検索エンジンのパーサー（parser）によって、keywordsタグの内容を索引化します。大手検索エンジン会社のパーサーはkeywordsのタグの内容を索引化しています。しかし、keywordsタグに当該ウェブページと全く関係の無いキーワードを入れていたり、あまりにも沢山キーワードを入れていると過激なSEOと見なされkeywordsタグの内容が無視される場合もあります。

Q20
titleタグは重要ではないの？

A20
titleタグは大変重要です。検索結果をランキングする時、スコア計算においてtitleタグの重みは一般的に高く設定されます。しかし、現在では、多くのウェブページがtitleタグをきちんと付けているので、titleタグによってのランキング差異が感じられなくなってしまいました。

■5. 情報検索システムの評価■

Q21
社会における検索システムの重要性はどう評価するの？

A21
機械的に評価することが困難であり、アンケートなどを用いて評価します。

Q22
検索システムの再現率と精度の両方が1の可能性があるの？

A22
現時点での形態素解析や検索モデル等の技術は完ぺきではありません。したがって再現率と精度両方を1とするのは現実的に不可能です。

Q23
精度、再現率、F値など、様々な評価指標は画像検索にも適用できるの？

A23
正解が何かという情報さえあれば、どのようなコンテンツを対象とした検索でも、精度、再現率、F値、Precision@N、平均逆順位などの評価手法を用いることができます。

Q24
適合度合いを段階的に示した情報は何に使うの？

A24
最近では、適合、不適合といった2値ではなく、評価に適合度合いを用いて詳細な評価を行うのが主流になってきています。

Q25
システムの数はいくつあればよいの？

A25
自分のシステムを除くデータを使用して評価した場合と全体のデータを用いて評価した場合とで差がなくなれば、システムの数は十分と考えられます。

■6. 情報アクセス技術の事例■

Q26
多義語の意味をどのようにして判断するの？

A26
多義語の意味を判断するためには、前後の文脈を参考にします。例えば、「リンゴのジュースをいっぱい飲みました」の前に、「ドリンクバーは、何杯飲んでも同じ値段なので」という前置きがあったとすると、「いっぱい」は「沢山」の意味になります。

Q27
クエリを翻訳して検索したときの検索結果と、検索結果を翻訳したものとは一致する？

A27
クエリ翻訳したときの検索結果と、検索結果を翻訳した場合とでは、クエリそのものが異なるので、検索結果は一致しません。

Q28
言語横断検索する時、どうして不要語を削除する必要があるの？

A28
検索結果の精度を向上させるために、不要語を削除することが必要です。

Q29
地理・時間情報検索の身近な応用例は？

A29
例えば、携帯電話などのモバイル端末を通して検索する場合に、「レストラン」と入力するだけで、GPS情報から場所、モバイル端末が持つ時間情報から時間を付加した検索を実現できます。この場合、「レストラン」と入力すれば、「場所」と「時間」が自動付与され、今、営業している近くのレストランの検索が可能になります。

Q30
factoid型とnon-factoid型に自動分類できるの？

A30
現在研究が進められている分野です。factoid型とnon-factoid型に自動分類できれば、factoid型の質問については、システムに自動的に回答させることができると考えられています。

Q31
質問応答システムはクイズ番組で優勝できる？

A31
IBM社が開発したワトソンは、質問の意味を理解して回答することができます。IBMの創設者であるトーマス・J・ワトソンにちなんで命名されたシステムです。米国で人気のクイズ番組であるJeopardy!に出演し、歴代最高のクイズ王二人（ケン・ジェニングス氏、ブラッド・ラッター氏）と2011年2月に対戦しました。ワトソンは、大量のデータを分析してfactoid型の質問に対して答えを返します。「中東のシリアに失われた都市が実際にあると信じて、考古学者の夫と掘り続けたミステリー作家は」と質問すると「アガサ・クリスティー」と答えたりします。

Q32
固有表現と固有名詞との違いは？

A32
固有表現とは、人名、組織名、地名などといった固有名詞の他に、金額、サイズ、日付、時間などの数値表現を含んだものです。

Q33
コミュニティQ&Aサイトでユーザが質問を入力している最中に、即時に推薦アンサーを出すことはできるの？

A33
Ajaxの技術を利用すれば、ユーザが入力している最中に、コミュニティQ&Aサイトのデータベースや索引を即時に検索して、推薦アンサーを出すことができます。

Q34
コミュニティQ&Aの課題は何？

A34
質問が入力されたら、既にある質問－回答ペアの中から関連するものを検索することを実現することが一つの研究課題となっています。この場合、同じような質問がないかどうかをどのように検索するのかがポイントとなります。

■7. 情報アクセス技術の新たなる挑戦■

Q35
行動履歴収集において個人のプライバシーは守られるの？

A35
情報大航海プロジェクトのマイ・ライフ・アシストサービスの実証実験では、実験参加者が自分がいやだと思う行動履歴を消すことのできるツールが提供されました。実験参加者は、このツールを用いて、自分の仕事場や自宅周辺での行動履歴を自由に消すことができました。このように、行動履歴を用いたサービスが提供される際には、利用者自身が行動履歴をコントロールできる仕組みが必要になります。また、こうした行動履歴がどのように扱われるかについて事前に周知されるので、よく読んでから納得した上で利用することが必要となります。

Q36
行動履歴を使うとどんなビジネスが考えられるの？

A36
収集した日々の行動情報を解析し、例えば、通勤経路上で、いつも買っている商品○○を安く売っているお店があれば、携帯端末を通じてレコメンドすることが可能となります。また、いつも通る経路に加え、たまに通る経路などを把握できるため、「今日は○○を△△で売っているよ。寄り道して帰らない？」といったレコメンドも可能となります。レコメンド以外にも、通勤動態調査など、国や地方自治体が行う動態調査を簡単に実現できたり、人の移動が把握できるため、マーケティングに応用することも可能となります。

Q37
検索エンジン会社は、どんな方法でクリックログを収集しているの？

A37
例えば、Googleの検索結果として「早稲田大学」が表示されている時、早稲田大学をクリックしたとします。この時、http://www.waseda.jp/へ直接アクセスするのではなく、http://www.google.co.jp/url?(中略)www.waseda.jp(以下省略)のように、一旦、googleのサイトへアクセスした後、www.waseda.jpへ移動する仕組みになっています。このように、クリックした際に、検索エンジン会社を経由して当該検索結果へアクセスすることによって、検索エンジン会社は、どこがクリックされたかを把握することができます。
なお、BrowseRankでは、利用者からの協力を得てウェブページのブラウジング履歴を収集し解析に利用しています。ブラウジング履歴は、利用者が用いるブラウザに履歴をとるための特殊な機能を追加することで収集を行ったり、利用者のブラウザとインターネットの間にプロキシと呼ぶ中継サーバを置き、プロキシ内で収集を行ったりします。

Q38
ライフログには他の形態はないの？

A38
利用者が自分の目で見たり、耳で聞いたりしたデータだけでなく、利用者が使った機器の側で情報を収集することもできます。例えば、マイクロソフトのMyLifeBits Projectでは、計算機側での利用履歴もライフログの対象としています。

Q39
ブログとマイクロブログの違いは何？

A39
ブログはWeb logのことであり、ウェブ上に日記などの記録を残す仕組みです。これに対して、マイクロブログは、ミニブログとも言われ、短い文章で自分の感じたことや思ったこと、今の状況などをサービスを提供しているサイトへ投稿するといった形態のコミュニケーションツールです。有名なサービスとして、Twitterがあり、Twitterでは、一回に140文字しか記述することができません。しかし、逆に140文字なのであまり飾らずに感じたことをそのまま気軽に書くことができるということから、急速に世界中に広まりました。

Q40
コンピュータで感情をどう記述するの？

A40
感情を表すXMLとして、EmotionMLがあります。W3CのEmotion Incubator Groupは、2010年7月にEmotionML1.0のドラフト公開版を発行しました。EmotionMLでは、怒り、恐怖、喜びなど様々な感情を表現できます。

Q41
ウェブ上にはどのぐらいの数の表があって、統合するとどれぐらいの知識になるの？

A41
2008年のVLDB国際会議でワシントン大学、グーグル、UCバークレイ校が共同で行った研究によれば、Googleが収集した140億以上のHTMLページからテーブル構造を抽出し、約540万のユニークな属性名と約260万のユニークなスキーマ（データ構造）を取得し、それらのデータをもとに、新たな表を構築しています。

Q42
表形式でまとめてくれるシステムってあるの？

A42
表形式でまとめてくれるシステムとして、Google Squaredがあります。例えば「hotels in paris」と入力すると、パリにあるホテルの写真、住所、空港名、チェックイン時間などを表形式で一覧にしてくれます。

Q43
こんなすごいシステムを4年でどうやって作ったの？

A43
4年という短い期間で開発するため、全体をモジュール化し、モジュール単位での高度化、高速化を行っています。中心となる研究者はたったの25名。実際、プロジェクト開始時には、5％の精度で解答できる質問は全体の5％程度に過ぎず、4年かけて着実に多くの質問に対する精度を上げています。