ニュース記事からの情報抽出の研究

野村浩郷ＮＩＸ H. Nomura

News Information Extractor

インターネットのニュース記事や新聞記事などから必要な項目に関する情報を抽出するシステムの研究を進めています。これは、抽出した情報に基づくテキストの分類・整理や抽出した情報によるデータベースの作成などへ応用することを目標にしています。さらに、抽出した項目からテロップ文を生成して、電光掲示板などに表示することもできます。

現在は、新製品に関する新聞記事から情報を抽出する情報抽出システムＮＩＸ（News Items Extractor）の研究を進めています。下の図はＮＩＸシステムのディスプレイのコピーです。このＷｅｂには実際に動かしてみることができるＷｅｂ版ＮＩＸデモシステムがありますので、試してみて下さい。

同じエンジンを搭載したスタンドアロンシステムとＷｅｂシステムの二種類のシステムがあります。さらに、異なる処理方式の二種類のエンジンがあります。

抽出する情報の項目は、製品種別、製品名、販売元、価格、発売日の五つです。この中で、製品種別の言語表現にはいろいろな形と内容のものがあるため処理がたいへんむずかしく、抽出精度は約 80% です。他の四つの項目、すなわち製品名、販売元、価格、発売日の言語表現には定型性があるため処理が比較的うまくいき、抽出精度は、約 93% です。

一般に、一つのニュース記事には、複数の製品が紹介されています。機能等が違う製品シリーズです。このような紹介記事には多くの並列表現が含まれています。したがって、新しいバージョンのものは抽出する情報の項目を一つ増やし、製品細分類を加えて六項目にしています。さらに、製品の特徴などについて書かれている部分もあります。したがって、最新のバージョンのものは、これらの特徴も抽出します。

本研究では、「日本経済新聞ＣＤ-ＲＯＭ 90,91,92,93,94,95 版」および「毎日新聞　ＣＤ－ＲＯＭ 90,91,92,93,94,95 版」に収録されている記事を許可を受けて使用しています。

SLIDE (1,089KB)
(上の「SLIDE」をクリックするとスライドを表示します。ナレーションも入っていますので、スピーカーの電源を入れて下さい。但し、 Microsoft PowerPoint が必要です。 )


NIX V.3	NIX V.2b	NIX V.2a	NIX V.1b	NIX V.1b	NIX V.1a

絵をクリックすると絵が大きくなります。新聞記事の内容はお見せできませんので、モザイクがかけてあります。

　ホームページへもどる

ニュース記事からの情報抽出の研究

野村浩郷 ＮＩＸ H. Nomura

News Information Extractor

野村浩郷ＮＩＸ H. Nomura