「自然言語処理の基礎と技術」を読んだ感想。

自然言語処理の基本と技術」という本を読んだので、簡単に感想をまとめておく。


チャットボットや対話式のインターフェースなどに興味があり、自然言語処理NLP)は以前から気になっていた。
そこで、まずは基礎的な知識を埋めたいと思い、この本を読んでみた。

自然言語処理の基本と技術
翔泳社 (2016-03-02)
売り上げランキング: 29,586

タイトルに「基本」とついているだけあって、かなり基礎的な部分から始まる。
「そもそも自然言語とはなんぞや?」「文にはどういった構成要素があるのか?」「文が入力された時、コンピュータは何をしているか?」など、普段使っている言葉や文について解説しながらそれをコンピュータに理解させるために必要な処理・手法の説明に入っていく。
その中で日本語を扱う上での注意点や最近の手法やツール、さらに今後の展望へと発展していく。

これまでは、言語ごとの文法を基にした構造に注目したパターンマッチングを行ったり、含まれる単語と別の文中の単語とを比較するなどして、文章の類似性や翻訳を行ってきた。
機械学習の発展と同じように、大量のデータを基にした統計的手法も取り入れるなどしてNLPも発展してきた。
日本語の言語処理でよく使われるMeCabChaSenも、これらの進歩の中から生まれてきている。

ところが、対話式のインターフェースや人工知能ということを考えると、今後は「言葉の意味」や「文章どうしの関係」を理解することが重要になってくるという。
マーケティングにおいても、SNS上でただ関連した発言を集めてくるだけではなく、投稿者の評判や感情を理解することが重要になっている。
そのため、これまで注目されてきた学習のために単語をあつめたデータセットコーパス)ではなく、解析を行うためのモデルを構築できる学習の方法に徐々に関心がうつっている。
どのようにすればより人と人との会話の意味を理解できるレベルの学習を行うことができるかが、今後のNLPの発展の鍵になるという。

本書は数式や実装はほぼ出てこない。
手法の説明についても基本的には図解されており、非エンジニアやただNLPに興味があるという専門外の人でも読めるようになっている。
逆に言うと、具体的な実装方法などを求めている人にとっては物足りない内容になるだろう。
僕は実装というよりも、知識の穴をまずは埋めていと思って読み始めたので非常に良かった。

次はこの本の中で何度も出てきていた「日本語入力を支える技術」を読んでみたいと思う。