# 自然言語と単語の分散表現

## 自然言語とは

### 単語の意味

コンピュータに「単語の意味」を理解させるには、つまり「単語の意味」をコンピュータ上でうまく表現する方法について3つ手段を考える. 

1. シソーラス（類語辞典）による手法
2. カウントペースの手法
3. 推論ベースの手法

## シソーラス

自然言語処理におけるシソーラスは単に類語辞典にとどまらない. 一般には単語間における「上位と下位」、「全体と部分」といった関係性についても表現がされている. 具体的にはグラフ構造によって単語の関係を管理している. 

### WordNet

最も有名なシソーラスはWordNetである. 

### シソーラスの問題点

1. 時代の変化に対応するのが困難
2. 人のコストが高い
3. 単語の細かなニュアンスを表現できない

## カウントベースの手法

カウントベース手法で分析を行うには「コーパス」が必要である。コーパスとは、アプリケーションを想定して目的を持って収集されたテキストデータである。テキストデータには目的に関する人間の知恵が反映されていると考えられるため、エッセンスを抽出できれば有用となる. 

### Pythonによるコーパスの下準備

自然言語処理で用いられるコーパスにはさまざまなものが存在します。例えばWikipedia, Google Newsです. 夏目漱石やシェークスピアといった偉大な作家の作品についてもコーパスとして利用されている.


In [3]:
# 1文しかないがコーパスをつくる
text = "You say goodbye and I say hello."

In [4]:
# コーパスに対する前処理
text = text.lower()
text = text.replace('.', ' .')
text

'you say goodbye and i say hello .'

In [6]:
words = text.split(' ')
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

単語をテキストのまま操作するのは不便であるので、単語にＩＤを振って、ＩＤのリストとして処理が進められるように前処理を行う. 

In [8]:
word_to_id = {}
id_to_word = {}

for word in words:
    if word not in word_to_id:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word

In [9]:
word_to_id

{'.': 6, 'and': 3, 'goodbye': 2, 'hello': 5, 'i': 4, 'say': 1, 'you': 0}

In [10]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

In [11]:
import numpy as np
corpus = [word_to_id[w] for w in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])