<a href="https://colab.research.google.com/github/nepptumsat/nlp/blob/master/DeepLearningFromScratch2/2_%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E3%81%A8%E5%8D%98%E8%AA%9E%E3%81%AE%E5%88%86%E6%95%A3%E8%A1%A8%E7%8F%BE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2.1 自然言語処理とは

　日本語や英語など、私たちが普段使っている言葉を**自然言語（Natural Language）**という。また、**自然言語処理（Natural Language Proccessing : NLP）**とは、文字通り解釈すれば「自然言語を処理する分野」ということになる。分かりやすくいうと、「私たちの言葉をコンピュータに理解させるための技術（分野）」といえる。
   
   
　コンピュータが理解できる言語というと、「マークアップ言語」や「プログラミング言語」などが思い浮かべられるが、これらは一意に決まったルールが定められており、"固い言語"であるといえる。一方、私たちが普段使っている日本語や英語などの自然言語は、"柔らかい言語"であるといえる。これは同じ意味の単語や文章でも様々な表現が可能であったり、文章に曖昧さがあったりと、柔軟に意味や形が変わることを意味する。
  
頭の固いコンピュータに自然言語を理解させることは一筋縄ではいかない。しかし、その難問をクリアできればとても役に立つものを生み出すことができる。実際の例として、文章の自動要約、質問応答システム、感情分析、自動翻訳などがある。私たちの身の回りには既に、たくさんの自然言語処理の技術が使われている。



## 2.1.1 単語の意味
　私たちの言葉は「文字」によって構成される。そして、言葉の意味は「単語」によって構成される。単語は言ってみれば意味の最小単位であり、「単語の意味」を理解させることが重要であるといえる。
   
　本章のテーマは「単語の意味」を理解させることである。「単語の意味」の表現方法として、具体的には、本章と次章で以下の３つを挙げる。
 
 - シソーラスによる手法
 - カウントベースの手法
 - 推論ベースの手法
 
 最初に、人の手によって作られたシソーラス（類語辞書）を利用する手法について見ていく。次に、統計情報から単語を表現するカウントベースの手法について学習する。そして最後に推論ベースの手法（具体的にはword2vecと呼ばれる手法）を扱う。
 
 

# 2.2 シソーラス
　「単語の意味」を表すために、人の手によって単語の意味を定義することが考えられる。「広辞苑」などの辞書のように、何か一つの単語に対して、その単語の意味を説明していくような考えである。

　自然言語処理の歴史を振り返ると、**シソーラス（thesaurus）**と呼ばれるタイプの辞書が多く使われてきた。シソーラスは基本的には類語辞書であり、ある単語に対する「同義語」や「類義語」が同じグループに分類される。例えば、car
のシソーラスは以下のようになる。

---
 
*car* = *auto*, *automobile*, *machine*, *motorcar*

---

　また、自然言語処理において利用されるシソーラスでは、単語の間で、「上位と下位」、「全体と部分」などの関連性が定義されている場合がある。具体的には、以下のように、グラフ構造によって関連性が定義されている場合などである
。
 
 <div drawio-diagram="77"><img src="http://wiki.nepp.tokyo:8080/uploads/images/drawio/2019-06-Jun/Drawing-Kushiro-Taichi-1560774581.png"></div>
 
 　このようにして、全ての単語に類義語の集合を作り、または単語間の関係をグラフで表現することで、単語間の繋がりを定義することができる。

## 2.2.1 WordNet
　自然言語処理の分野において、最も有名なシソーラスは**WordNet**と呼ばれる。すでに様々なアプリケーションで活躍している。
　WordNetを用いると、類義語を取得したり、単語ネットワークを用いて類似度の計算等を行うことができる。ここでは、WordNetに関する詳細の説明は行わない。

## 2.2.2 シソーラスの問題点
WordNetのようなシソーラスでは、人の手によってラベルづけを行うことによる欠点が存在する。以下に、それらをまとめる

**時代の変化に対応するのが困難**  
同じ単語でも時代によって意味が変化する場合がある。  
  
**人の作業コストが高い**  
シソーラスの作成に、とても大きな人的コストが発生する。  
  
**単語の細かなニュアンスを表現できない**  
「レトロ」と「ヴィンテージ」のように、単語の意味はほとんど一緒でも、微妙なニュアンスの違いがある場合、その差異を表現できない。  


このような問題を避けるために、「カウントベースの手法」と「推論ベースの手法」へと進む。

# 2.3 カウントベースの手法
　カウントベースの手法には**コーパス（corpus）**を利用する。コーパスとは簡単にいうと大量のテキストデータのことである。やみくもに集められたデータではなく、自然言語処理のために用意されたテキストデータを一般に「コーパス」と呼ぶ。  
 　コーパスは人の手によって書かれたものであり、自然言語に対する人の”知識”が含まれている。

## 2.3.1 Pythonによるコーパスの下準備
　有名なコーパスとして、WikipediaやGoogle Newsなどがある。ここからはPythonを使ってとても小さなテキストデータの前処理を行う。

In [0]:
text = 'You say goodbye and I say hello.'

前処理として、大文字を小文字に変換し単語ごとに分割する。

In [2]:
text = text.lower()
text = text.replace('.', ' .')
text

'you say goodbye and i say hello .'

In [3]:
words = text.split(' ')
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

次に単語に対するid付けを行う。idから単語、単語からidへの変換を行うための辞書を用意する。

In [0]:
word_to_id = {}
id_to_word = {}

for word in words:
    if word not in word_to_id:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word

In [5]:
word_to_id

{'.': 6, 'and': 3, 'goodbye': 2, 'hello': 5, 'i': 4, 'say': 1, 'you': 0}

In [6]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

最後に単語のリストから単語idのリストを生成する。ここでは、Numpy配列を用いる。

In [7]:
import numpy as np

corpus = [word_to_id[w] for w in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

ここまでの前処理を一つの関数にまとめる。

In [0]:
def preprocess(text):
    text = text.lower()
    text = text.replace('.', ' .')
    words = text.split(' ')
    
    word_to_id = {}
    id_to_word = {}
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word
    
    corpus = np.array([word_to_id[w] for w in words])
    
    return corpus, word_to_id, id_to_word

ここで前処理を行った、corpus、word_to_id、id_to_wordは今後も頻繁に用いる。次に紹介する「カウントベースの手法」によって、単語をベクトルで表す。

## 2.3.2 単語の分散表現
　色はRGBを用いると３次元のベクトルで正確に情報を表すことができる。できる限りコンパクトで理にかなったベクトル表現を「単語」でもできないだろうか？これから「単語の意味」を的確に捉えたベクトル表現を目指す。これを自然言語処理の分野では**分散表現**と呼ぶ。

## 2.3.3 分布仮説
　自然言語処理の歴史において、単語ベクトルで表すための研究を見ていくと、重要な手法のほとんどがあるシンプルなアイディアに基づいている。それは、「単語の意味は周囲の単語によって形成される」というものである。これは、**分布仮説**と呼ばれ、最近の研究の多くもこの仮説に基づいている。  
 　分布仮説はの考え方は、単語自体に意味はなくその単語の「コンテキスト（文脈）」によって単語の意味が形成されるという考え方である。  
　本テキストでは、これから先「コンテキスト」という言葉を用いる場合、その周囲に存在する単語を指す。  そして、どのくらいの範囲の周囲の単語を「コンテキスト」として扱うかのコンテキストのサイズのことを「ウインドウサイズ（window size）」という言葉で表すことにする。例えば、ウインドウサイズが１の場合は左右の１単語、2の場合は左右の２単語といったようになる。

 