2004年07月07日

COEテーマ講義「心とことば」(11)田中久美子さん

COEテーマ講義(11)田中久美子さん
■COEテーマ講義「心とことば」(11)田中久美子さん

月曜日はCOEテーマ講義の第11回,
東京大学 情報理工学系研究科 数理情報学専攻の,田中久美子さんのお話でした。

テーマは「コンピュータの自然言語処理」。

前回2回で,「もう言語学はたくさんだ(×_×)」と思っていたのですが,
今回の話はよく理解できたし,とても興味が湧きました。おもしろかった!!

というわけで以下,久しぶりにまともな(^^;),内容報告です。
●「自然言語処理」

・自然言語処理=人間の言語を,コンピュータで処理すること

・自然言語処理の目標:自動翻訳,質問応答,対話システム,自動要約,検索エンジンなどなど…

・では,実際どういう処理をしているのか?

自然言語(入力,例:英文) → 〔解析 → 中間言語 → 生成〕 → 自然言語(出力,例:翻訳文)


〔〕内が,コンピュータ上で行われる処理。
中でも,「解析」が肝。いちばん重要,かつ難しい,かつおもしろい。


●解析

「解析」をもう少し詳しく見てみると…

(1)形態素解析(単語と,その品詞を同定すること)
   ↓
(2)構文解析
   ↓
(3)意味解析


・(1)の難しさ:「ここではきものをぬぐ」→「ここで履物を」?「ここでは着物を」?

・(2)の難しさ:「美しい日本の私」→「美しい」のは「日本」?それとも「私」?

★このような「曖昧性」(複数の可能性が挙がること)が自然言語処理で課題となる。
(人工言語(コンピュータ言語)にはない問題。これはもともとそう設計されているからアタリマエ)


・自動翻訳のレベル → 2001年のTOEICで1000点満点中550点だった。
           大学生平均が570点,短大生平均が500点。
           まだまだ改善の余地ありあり。


●かな漢字変換

ここで話題を少し変えて,現在広く使われている自然言語処理技術の成果→「かな漢字変換」技術,を紹介。
これは日本と中国に特有の技術である。

・なぜ生まれたか?
 →ボタンの数が文字数に比べて少ない。
  キーボード40くらいに対して,日本語の文字数は6500くらい。

当初,直接入力法(コード入力法)も開発されたが,とても一般向けでない。

そこで1960年代,かな漢字変換技術の開発が始まった。


●かな漢字変換の流れ/応用

(1)ユーザ:かなを入力    ←あいまいな文字列
(2)システム:変換候補を獲得
(3)システム:候補を整列,表示
(4)ユーザ:望む候補を選択

★「曖昧性」を逆に利用している点が特徴的。


・これらは,英語入力にも逆輸入されている。
たとえば,「sky」という単語を携帯電話で入力する際,

現在では「7777 55 999」と入力する。
これを,
「7 5 9」と入力しただけで,「sky,sly,ply」などと候補表示されるようにする。
これも広い意味での「かな漢字変換」


・現在の研究課題:(3)候補の整列・表示で候補の良さをどう上げていくか
→確率の高い順に並べる
 →ではどう確率を算定するか

さまざまな測定方法
・1語出現確率
  かんじ → 漢字,感じ,幹事

・2語並び出現確率
  いい|かんじ → 感じ,幹事,…,漢字

・n語並び出現確率
  かれは|いい|かんじ → 幹事,感じ,…,漢字

・品詞を利用した出現確率

・学習を利用
 巨大なコーパス(大量の文書データ)と個人のコーパスを統合


●実験

「Touch Me Key 4 English」というソフトで行われた入力の早さの実験

時間が経つにつれて,学習がすすみ,入力速度がアップ。

これらは最近はケイタイ,パソコンの入力でももうお馴染みですね。


◆一言感想

おもしろかった!!

日本語は単語の間にハイフンがない,かなと漢字が入り交じっている,などの点で
自然言語処理が難しいのだろうと思っていたが,
逆にそのことが「かな漢字変換」という独自の技術の開発につながり,
今ではそれが他の言語にも応用される,というのはおもしろいなぁ,と思った。

なにより田中さん自身が「これはおもしろいんだよ!!」と思っている,
というのがビシビシ伝わってきて,
話しっぷりもチャキチャキしていて,聞いていてとても気持ちが良かった。

久しぶりに脳みそが喜ぶようなお話が聞けて,満足,満足〜(^^)。


さぁ,テーマ講義「心とことば」も,次回で最終回です。
来週はどんなんかなぁ。たのしみになってきました。(←現金^^;)


【参考サイト】

東京大学研究者データベース:石井(田中)久美子

東京大学 大学院 情報理工学系研究科 教員紹介ページ:田中久美子

★田中久美子公式サイト゚・*:.。. .。.:*・゜
今回の田中さんとは全く関係ない,アイドルの田中さん?のサイト(^^;)。
同姓同名が多い名前だと検索とか,いろいろ大変ですね(^^;)。



【他の回の記事はこちらから↓】
http://blog.livedoor.jp/gandhi/archives/cat_48505.html

この記事へのトラックバックURL