# 自然言語処理入門

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shinchu/dataviz-notebooks/blob/main/week_5/intro-to-nlp.ipynb)

テキストデータの処理と分析の基礎である自然言語処理を概観しましょう。

ここでは、簡単な例から自然言語処理の考え方を学びます。

## 自然言語処理とは

日本語や英語など、私たちが普段使っている言葉を自然言語（Natural Language）と言います。自然言語処理（Natural Language Processing）とは、自然言語を処理する分野です。

自然言語処理の目標は、人の話す言葉をコンピュータに理解させ、私たちにとって役に立つことをコンピュータに行わせることです。

私たちの言葉は「文字」によって表現することができます。そして、言葉の意味は「単語」（正確には形態素）によって構成されます。そのため、自然言語をコンピュータに理解させるためには、「単語の意味」を理解させることが重要です。

ここでは、統計情報から単語の意味を表現する手法を学びます。

## カウントベースの手法

自然言語処理の研究や応用のために目的をもって収集されたテキストデータを「コーパス」と呼びます。WikipediaやGoogle Newsなどのテキストデータや、シェイクスピアや夏目漱石などの作品群もコーパスです。

コーパスはテキストデータであり、そこに含まれる文章は人によって書かれたものです。これはつまり、コーパスには自然言語に対する人の知識が含まれているということです。文章の書き方、単語の選び方、単語の意味などがコーパスには含まれています。

カウントベースの手法の目標は、人の知識が詰まったコーパスから、自動的に、効率よく、そのエッセンスを抽出することです。

## 簡単なコーパスの前処理

テキストデータを単語に分割し、分割した単語を単語IDのリストへ変換することで、データの前処理を行いましょう。

In [3]:
text = "You say goodbye and I say hello."

In [5]:
# 小文字に変換
text = text.lower()
text

'you say goodbye and i say hello.'

In [6]:
# 句点の前にスペースを挿入
text = text.replace(".", " .")
text

'you say goodbye and i say hello .'

In [7]:
# 文を単語に分割する
words = text.split(' ')
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

In [9]:
# 単語のIDと単語の対応表を作る

word_to_id = {}
id_to_word = {}

for word in words:
    if word not in word_to_id:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word

In [10]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

In [11]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

この2つの辞書を使えば、単語から単語IDの検索と、単語IDから単語の検索ができます。

In [12]:
id_to_word[2]

'goodbye'

In [13]:
word_to_id["i"]

4

最後に、単語のリストを単語IDのリストに変換し、NumPy配列に変換します。

In [14]:
import numpy as np

corpus = [word_to_id[w] for w in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

これでコーパスの前処理は終了です。

## 単語の分散表現


次に、コーパスを使って単語の意味を抽出しましょう。具体的には、単語をベクトルで表すことを目指します。これは、自然言語処理の分野では、単語の分散表現と呼ばれます。

単語の分散表現に関する手法は、「単語の意味は、周囲の単語によって形成される」というアイデアに基づいています。これは、分布仮説と呼ばれるものです。

分布仮説では、単語自体には意味がなく、その単語の「コンテキスト（文脈）」によって、単語の意味が形成されると言われています。

たしかに、意味的に同じ単語は、同じような文脈で多く出現します。

例えば、

* I drink beer.
* We drink wine.

のようにdrinkの近くには飲み物があらわれやすいでしょう。


* I guzzle beer.
* We guzzle wine.

のような文章では、guzzleという単語がdrinkと同じような文脈で使われていることが分かります。そして、guzzleとdrinkが近い意味の単語だということが導けます。

## 共起行列

分布仮説に基づいて、単語をベクトルで表す方法を考えます。

素直な方法は、周囲の単語を数えることです。

さきほど用意したコーパスに含まれるそれぞれの単語について、そのコンテキスト（目当ての単語の周囲）に含まれる単語の頻度を数えていきます。

In [18]:
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

In [19]:
C = np.array([
    [0, 1, 0, 0, 0, 0, 0],
    [1, 0, 1, 0, 1, 1, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 0, 1, 0, 1, 0, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 1, 0, 0, 0, 0, 1],
    [0, 0, 0, 0, 0, 1, 0],
])

In [20]:
print(C[0])

[0 1 0 0 0 0 0]
