クロスリンガル情報検索と多言語シソーラス

1.情報検索とは

情報検索とは,蓄積された大量のデータの中から,必要なデータを検索することを指す.身近な例としては,Webページを検索するGoogleなどのサーチエンジンが挙げられる.大量の情報が氾濫する現代では,高性能の情報検索システム,情報検索アルゴリズムの開発が必須課題となっている.

従来では,単純な文字列マッチングを利用して,テキストデータの検索を行うことが多かった.しかし,情報の量が増大し,適切な検索結果への要求が高まるにつれ,文書の表面的な字面だけではなく,本質的な意味を取り扱う必要性が生じてきた.したがって,計算機でどのようにして「本質的な意味」を取り扱うか,ということが課題となっており,外山グループでもこの課題に取り組んでいる.

2.クロスリンガル情報検索

クロスリンガル情報検索

国際化が急速に進む現代においては,情報検索においても,複数の言語を扱えるようにすることが望ましい.複数の言語にまたがって検索を行う情報検索は,クロスリンガル情報検索と呼ばれる.クロスリンガル情報検索では,例えば,質問文(クエリー)を日本語で入力し,それに関連する英語の文書を得ることができる(左図).また,得られた英語の文書を自動で翻訳し,日本語で結果を得ることも可能である(左図破線円内).

クロスリンガル情報検索が通常の情報検索と異なるのは,図中の破線で示されているように,「言語の壁を越える」必要性があるということである.この言語の壁を越える方法や段階によって,クロスリンガル情報検索はいくつかの方式に分けられる.検索性能を向上させるために,さまざまな研究が行われている.

3.多言語シソーラス

多言語シソーラス

言語の壁を越えるためには,一般に,辞書に代表される知識源が必要となる.クロスリンガル情報検索において有用な知識源のひとつに,多言語シソーラスがある.多言語シソーラスとは,右図のように,意味の情報に従って語を分類・整理した語彙集のことであり,以下のような特徴を持つ.

  • 複数の言語の語を含んでいる.
  • 木構造に従って語が分類されており,上位ほど大きな概念を表している.
  • 似た意味の語は近くに配置される.

 

この多言語シソーラスを用いることで,言語に関わらず,類似語を容易に求めることが可能なため,クロスリンガル情報検索でしばしば利用される.

4.多言語シソーラスの自動構築

クロスリンガル情報検索において有用な知識源となる多言語シソーラスであるが,その構築コストが問題となってきた.異なる言語間で,語の分類基準を統一する必要性があることなどから,人手で構築するには多大なコストを要する.そこで,外山グループでは,この多言語シソーラスを自動で構築する手法を研究している.

従来の研究では,対訳コーパスを利用してこの多言語シソーラスを自動構築する手法が一般的であった.しかし,この手法には,異なる言語間での語の関係は得られるが,同一の言語間での語の関係が得られないという問題がある.日本語と英語の多言語シソーラスを構築する例で言えば,日本語と英語の語の関係は得られるが,日本語どうし,英語どうしの語の関係は得られないということである.

私たちは,この問題を解決するために,任意の2語間の類似度を求められる日本語と英語の多言語シソーラスを自動構築する手法を提案した.この手法では,「定義語ペア」と呼ぶ,日本語と英語の類似する語のペアを準備し,それらを特徴量として用いて国語辞典(日本語-日本語辞典)と英英辞典の各見出し語をベクトル表現する.これによって,両者の語が同一のベクトル空間上に配置され,日本語・英語の別にかかわらず語の類似度が求められるようになるというわけである.