法律文コーパスの作成

法律文は,普通の文章と比べると,長くて複雑な構造をしています.また,その書き方や読み方にも独特のルールがあります.そのため,一般の人には読みにくい文章になっています.

そこで,我々の研究室では,様々な情報を付加することによって読みやすくした法律文のデータを作成しています.こうしたデータを法律文コーパスを呼びます.

法律文独特のルール

法律文には,一般の文章にはない様々なルールがあります.例えば,接続詞の「及び」と「並びに」には,一般の文章では同じ意味ですが,法律文においては使い分けのルールがあります.

  • 二つのものを並列に接続する場合には,「A及びB」のように「及び」を使います.
  • 三つ以上のものを並列に接続し,その中のまとまりに段階がある場合は,一番内側のまとまりに「及び」を使い,それより外側にものには「並びに」を使います.

よって,例えば「加熱及び冷却並びに伝熱」という文章があった場合,法律文であれば「((加熱及び冷却)並びに伝熱)」と読みます.

その他,「又は」と「若しくは」の間にも使い分けのルールがあります.

こうしたルールは法律文に詳しくない人には分かりにくいものですし,一般の人が法律文を理解するのを難しくしています.

そこで,こうした文を読みやすくする情報を付加した法律文データを作ります.

法律文に付加する情報

法律文に付加する情報には,いろいろなものが考えられます.現在では,まず係り受けの情報を付加したコーパスを作成しています.

係り受けとは,主語と述語の関係や,どの語がどの語を修飾しているかの関係を表現したもので,例えば「検察官は、恩赦法第十四条の規定により判決の原本に附記をした場合において、訴訟記録が他の検察庁に在るときは、その検察庁の検察官にその旨を通知しなければならない。」という文章の係り受けは以下のようになります.

係り受けの例
(画像クリックで拡大)

これにより,語と語の関係が明らかになり,読みやすくなります.

特に法律文に独特の表現に,こうした情報は役に立ちます.先程の「加熱及び冷却並びに伝熱」という文章に情報を付加すると,以下のようになります.

「加熱及び冷却並びに伝熱」の係り受け

ここで,P1,P2は二つの語が並列関係にあることを表しています.しかも,単に並列なだけではなく,P1のほうがP2よりも強い結びつきがあることを示しています.これによって,法律文の読み方を知らなくても,「加熱」と「冷却」の方に強いむすびつきがあることが分かります.

法律文コーパスの作成と応用

我々の研究室では,こうした法律文コーパスの作成を進めています.また,その作業を支援するためのツールなども開発しています.

また,そうして作成した法律文コーパスを検索し,係り受け関係を見やすく表示するKWISCというツールも開発しています.なお,Internet Explorer では正常に検索できませんので,ご注意下さい.