# 自然言語処理（NLP, Natural Language Processing） とは

人間が普段使っている 自然言語 をコンピュータに処理させる技術のことです。ここではその中でも、機械学習の入力として自然言語を用いることを考えていきます。


多くの機械学習手法は 数値データ（量的変数） の入力を前提にしていますので、自然言語の テキストデータ を数値データに変換する必要があります。これを 自然言語のベクトル化 と呼びます。ベクトル化の際にテキストデータの特徴をうまく捉えられるよう、様々な手法が考えられてきていますので、このSprintではそれらを学びます。

## 非構造化データ
データの分類として、表に数値がまとめられたようなコンピュータが扱いやすい形を 構造化データ 、人間が扱いやすい画像・動画・テキスト・音声などを 非構造化データ と呼ぶことがあります。自然言語のベクトル化は、非構造化データを構造化データに変換する工程と言えます。同じ非構造化データでも、画像に対してはディープラーニングを用いる場合この変換作業はあまり必要がありませんでしたが、テキストにおいてはこれをどう行うかが重要です。



## 自然言語処理により何ができるか
機械学習の入力や出力に自然言語のテキストを用いることで様々なことができます。入力も出力もテキストである例としては 機械翻訳 があげられ、実用化されています。入力は画像で出力がテキストである 画像キャプション生成 やその逆の文章からの画像生成も研究が進んでいます。


しかし、出力をテキストや画像のような非構造化データとすることは難易度が高いです。比較的簡単にできることとしては、入力をテキスト、出力をカテゴリーとする テキスト分類 です。


アヤメやタイタニック、手書き数字のような定番の存在として、IMDB映画レビューデータセット の感情分析があります。レビューの文書が映画に対して肯定的か否定的かを2値分類します。文書ごとの肯定・否定はラベルが与えられています。このSprintではこれを使っていきます。


## IMDB映画レビューデータセットを準備します。


ダウンロード
次のwgetコマンドによってダウンロードします。



```
# IMDBをカレントフォルダにダウンロード
!wget http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
# 解凍
!tar zxf aclImdb_v1.tar.gz
# aclImdb/train/unsupはラベル無しのため削除
!rm -rf aclImdb/train/unsup
# IMDBデータセットの説明を表示
!cat aclImdb/README
```

以下のサイトで公開されているデータセットです。


[Sentiment Analysis](http://ai.stanford.edu/~amaas/data/sentiment/)

In [159]:
# IMDBをカレントフォルダにダウンロード
!wget http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
# 解凍
!tar zxf aclImdb_v1.tar.gz
# aclImdb/train/unsupはラベル無しのため削除
!rm -rf aclImdb/train/unsup
# IMDBデータセットの説明を表示
!cat aclImdb/README

'wget' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチ ファイルとして認識されていません。
tar: Error opening archive: Failed to open 'aclImdb_v1.tar.gz'
'rm' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチ ファイルとして認識されていません。
'cat' は、内部コマンドまたは外部コマンド、
操作可能なプログラムまたはバッチ ファイルとして認識されていません。


## 読み込み
scikit-learnのload_filesを用いて読み込みます。


sklearn.datasets.load_files — scikit-learn 0.21.3 documentation


《読み込むコード》



```
from sklearn.datasets import load_files
train_review = load_files('./aclImdb/train/', encoding='utf-8')
x_train, y_train = train_review.data, train_review.target
test_review = load_files('./aclImdb/test/', encoding='utf-8')
x_test, y_test = test_review.data, test_review.target
# ラベルの0,1と意味の対応の表示
print(train_review.target_names)
```



In [29]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import math
from sklearn.metrics import accuracy_score
from sklearn import metrics
from sklearn.metrics import confusion_matrix
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
import re

In [158]:
from sklearn.datasets import load_files

train_review = load_files('./aclImdb/train/', encoding='utf-8')

x_train, y_train = train_review.data, train_review.target

test_review = load_files('./aclImdb/test/', encoding='utf-8')

x_test, y_test = test_review.data, test_review.target

# ラベルの0,1と意味の対応の表示
print(train_review.target_names)

FileNotFoundError: [WinError 3] 指定されたパスが見つかりません。: './aclImdb/train/'

このデータセットについて

中身を見てみると、英語の文章が入っていることが分かります。

    print("x : {}".format(x_train[0]))

IMDBはInternet Movie Databaseの略で、映画のデータベースサイトです。


[Ratings and Reviews for New Movies and TV Shows - IMDb](https://www.imdb.com/)


このサイトではユーザーが映画に対して1から10点の評価とコメントを投稿することができます。そのデータベースから訓練データは25000件、テストデータは25000件のデータセットを作成しています。


4点以下を否定的、7点以下を肯定的なレビューとして2値のラベル付けしており、これにより感情の分類を行います。5,6点の中立的なレビューはデータセットに含んでいません。また、ラベルは訓練用・テスト用それぞれで均一に入っています。詳細はダウンロードしたREADMEを確認してください。

In [157]:
print("x : {}".format(x_train.shape))

NameError: name 'x_train' is not defined

##古典的な手法

古典的ながら現在でも強力な手法であるBoWとTF-IDFを見ていきます。



##BoW

単純ながら効果的な方法として BoW (Bag of Words) があります。これは、サンプルごとに単語などの 登場回数 を数えたものをベクトルとする方法です。単語をカテゴリとして捉え one-hot表現 していることになります。


例

例として、IMDBデータセットからある3文の最初の5単語を抜き出したものを用意しました



```
mini_dataset = \
  ["This movie is very good.",
  "This film is a good",
  "Very bad. Very, very bad."]
```
この3文にBoWを適用させてみます。scikit-learnのCountVectorizerを利用します。


[sklearn.feature_extraction.text.CountVectorizer — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)

    import pandas as pd
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(token_pattern=r'(?u)\b\w+\b')
    bow = (vectorizer.fit_transform(mini_dataset)).toarray()
    # DataFrameにまとめる
    df = pd.DataFrame(bow, columns=vectorizer.get_feature_names())
    display(df)

実行すると次のような表が得られます。

![](https://t.gyazo.com/teams/diveintocode/cb8a221501808a5f8cd95225183bbb61.png)

例にあげた3文の中で登場する8種類の単語が列名になり、0,1,2番目のサンプルでそれらが何回登場しているかを示しています。2番目のサンプル「Very bad. Very, very bad.」ではbadが2回、veryが3回登場しています。列名になっている言葉はデータセットが持つ 語彙 と呼びます。


テキストはBoWにより各サンプルが語彙数の次元を持つ特徴量となり、機械学習モデルへ入力できるようになります。この時使用したテキスト全体のことを コーパス と呼びます。語彙はコーパスに含まれる言葉よって決まり、それを特徴量としてモデルの学習を行います。そのため、テストデータではじめて登場する語彙はベクトル化される際に無視されます。



In [5]:
mini_dataset = \
  ["This movie is very good.",
  "This film is a good",
  "Very bad. Very, very bad."]

In [8]:
vectorizer = CountVectorizer(token_pattern=r'(?u)\b\w+\b')
bow = (vectorizer.fit_transform(mini_dataset)).toarray()
# DataFrameにまとめる
df = pd.DataFrame(bow, columns=vectorizer.get_feature_names())
display(df)

Unnamed: 0,a,bad,film,good,is,movie,this,very
0,0,0,0,1,1,1,1,1
1,1,0,1,1,1,0,1,0
2,0,2,0,0,0,0,0,3


## 前処理
CountVectorizerクラスでは大文字は小文字に揃えるという 前処理 が自動的に行われています。こういった前処理は自然言語処理において大切で、不要な記号などの消去（テキストクリーニング）や表記揺れの統一といったことを別途行うことが一般的です。


語形が「see」「saw」「seen」のように変化する単語に対して語幹に揃える ステミング と呼ばれる処理を行うこともあります。



## トークン
BoWは厳密には単語を数えているのではなく、 トークン（token） として定めた固まりを数えます。


何をトークンとするかはCountVectorizerでは引数token_patternで 正規表現 の記法により指定されます。デフォルトはr'(?u)\b\w\w+\b'ですが、上の例ではr'(?u)\b\w+\b'としています。


デフォルトでは空白・句読点・スラッシュなどに囲まれた2文字以上の文字を1つのトークンとして抜き出すようになっているため、「a」や「I」などがカウントされません。英語では1文字の単語は文章の特徴をあまり表さないため、除外されることもあります。しかし、上の例では1文字の単語もトークンとして抜き出すように引数を指定しています。


《正規表現》


正規表現は前処理の際にも活用しますが、ここでは詳細は扱いません。Pythonではreモジュールによって正規表現操作ができます。


[re — 正規表現操作](https://docs.python.org/ja/3/library/re.html)


正規表現を利用する際はリアルタイムで結果を確認できる以下のようなサービスが便利です。


[Online regex tester and debugger: PHP, PCRE, Python, Golang and JavaScript](https://regex101.com/)



## 形態素解析
英語などの多くの言語では空白という分かりやすい基準でトークン化が行えますが、日本語ではそれが行えません。


日本語では名詞や助詞、動詞のように異なる 品詞 で分けられる単位で 分かち書き することになります。例えば「私はプログラミングを学びます」という日本語の文は「私/は/プログラミング/を/学び/ます」という風になります。


これには MeCab や Janome のような形態素解析ツールを用います。Pythonから利用することも可能です。MeCabをウェブ上で簡単に利用できるWeb茶まめというサービスも国立国語研究所が提供しています。


自然言語では新しい言葉も日々生まれますので、それにどれだけ対応できるかも大切です。MeCab用の毎週更新される辞書として mecab-ipadic-NEologd がオープンソースで存在しています。


[mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd](https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md)

## n-gram
上のBoWの例では1つの単語（トークン）毎の登場回数を数えましたが、これでは語順は全く考慮されていません。


考慮するために、隣あう単語同士をまとめて扱う n-gram という考え方を適用することがあります。2つの単語をまとめる場合は 2-gram (bigram) と呼び、次のようになります。

    # ngram_rangeで利用するn-gramの範囲を指定する
    vectorizer = CountVectorizer(ngram_range=(2, 2), token_pattern=r'(?u)\b\w+\b')
    bow_train = (vectorizer.fit_transform(mini_dataset)).toarray()
    df = pd.DataFrame(bow_train, columns=vectorizer.get_feature_names())
    display(df)

![](https://t.gyazo.com/teams/diveintocode/64e20e72c04543743bd52576ec8f9380.png)


2-gramにより「very good」と「very bad」が区別して数えられています。


単語をまとめない場合は 1-gram (unigram) と呼びます。3つまとめる3-gram(trigram)など任意の数を考えることができます。1-gramと2-gramを組み合わせてBoWを行うといったこともあります。

In [9]:
# ngram_rangeで利用するn-gramの範囲を指定する
vectorizer = CountVectorizer(ngram_range=(2, 2), token_pattern=r'(?u)\b\w+\b')
bow_train = (vectorizer.fit_transform(mini_dataset)).toarray()
df = pd.DataFrame(bow_train, columns=vectorizer.get_feature_names())
display(df)

Unnamed: 0,a good,bad very,film is,is a,is very,movie is,this film,this movie,very bad,very good,very very
0,0,0,0,0,1,1,0,1,0,1,0
1,1,0,1,1,0,0,1,0,0,0,0
2,0,1,0,0,0,0,0,0,2,0,1


# 【問題1】BoWのスクラッチ実装

以下の3文のBoWを求められるプログラムをscikit-learnを使わずに作成してください。1-gramと2-gramで計算してください。

    This movie is SOOOO funny!!!
    What a movie! I never
    best movie ever!!!!! this movie

### 1-gram

In [121]:
data = [
    "This movie is SOOOO funny!!!", "What a movie! I never",
    "best movie ever!!!!! this movie"
]

In [122]:
data_split = []
word_split = []

for i in data:
    a = i.split()
    data_split.append(a)
    for j in a:
        word_split.append(j)

In [123]:
data_split

[['This', 'movie', 'is', 'SOOOO', 'funny!!!'],
 ['What', 'a', 'movie!', 'I', 'never'],
 ['best', 'movie', 'ever!!!!!', 'this', 'movie']]

In [124]:
word_split

['This',
 'movie',
 'is',
 'SOOOO',
 'funny!!!',
 'What',
 'a',
 'movie!',
 'I',
 'never',
 'best',
 'movie',
 'ever!!!!!',
 'this',
 'movie']

In [138]:
def n_gram(data,word):
    
    result = {}
    for i in word:
        n_gra = []
        for j in data:
            n_gra.append(j.count(i))
            result[i] = n_gra
            
    return result

In [139]:
one = n_gram(data_split, word_split)
one

{'This': [1, 0, 0],
 'movie': [1, 0, 2],
 'is': [1, 0, 0],
 'SOOOO': [1, 0, 0],
 'funny!!!': [1, 0, 0],
 'What': [0, 1, 0],
 'a': [0, 1, 0],
 'movie!': [0, 1, 0],
 'I': [0, 1, 0],
 'never': [0, 1, 0],
 'best': [0, 0, 1],
 'ever!!!!!': [0, 0, 1],
 'this': [0, 0, 1]}

In [127]:
result1_df = pd.DataFrame(one,index=data)
result1_df

Unnamed: 0,This,movie,is,SOOOO,funny!!!,What,a,movie!,I,never,best,ever!!!!!,this
This movie is SOOOO funny!!!,1,1,1,1,1,0,0,0,0,0,0,0,0
What a movie! I never,0,0,0,0,0,1,1,1,1,1,0,0,0
best movie ever!!!!! this movie,0,2,0,0,0,0,0,0,0,0,1,1,1


### 2-gram

In [128]:
data_split2 = []
word_split2 = []

for q in data_split:
    two = [] 
    # 0～3
    for w in range(len(q)-2 + 1):
        ab = q[w:w +2]
        d = ab[0] +" " + ab[1]
        data_split2.append(d)
        two.append(d)
    
    word_split2.append(two)

In [129]:
print(data_split2)

['This movie', 'movie is', 'is SOOOO', 'SOOOO funny!!!', 'What a', 'a movie!', 'movie! I', 'I never', 'best movie', 'movie ever!!!!!', 'ever!!!!! this', 'this movie']


In [130]:
print(word_split2)

[['This movie', 'movie is', 'is SOOOO', 'SOOOO funny!!!'], ['What a', 'a movie!', 'movie! I', 'I never'], ['best movie', 'movie ever!!!!!', 'ever!!!!! this', 'this movie']]


In [141]:
two = n_gram(word_split2,data_split2)
two

{'This movie': [1, 0, 0],
 'movie is': [1, 0, 0],
 'is SOOOO': [1, 0, 0],
 'SOOOO funny!!!': [1, 0, 0],
 'What a': [0, 1, 0],
 'a movie!': [0, 1, 0],
 'movie! I': [0, 1, 0],
 'I never': [0, 1, 0],
 'best movie': [0, 0, 1],
 'movie ever!!!!!': [0, 0, 1],
 'ever!!!!! this': [0, 0, 1],
 'this movie': [0, 0, 1]}

In [142]:
result2_df = pd.DataFrame(two,index=data)
result2_df

Unnamed: 0,This movie,movie is,is SOOOO,SOOOO funny!!!,What a,a movie!,movie! I,I never,best movie,movie ever!!!!!,ever!!!!! this,this movie
This movie is SOOOO funny!!!,1,1,1,1,0,0,0,0,0,0,0,0
What a movie! I never,0,0,0,0,1,1,1,1,0,0,0,0
best movie ever!!!!! this movie,0,0,0,0,0,0,0,0,1,1,1,1


In [155]:
import re

alpha_text = "This movie is SOOOO funny!!!"
alpha_text2 = "What a movie! I never"
alpha_text3 = "best movie ever!!!!! this movie"

alpha_pattern = "\w+"
alpha_regex = re.compile(alpha_pattern)

all_alpha_matches = alpha_regex.findall(alpha_text)
print(all_alpha_matches)


['This', 'movie', 'is', 'SOOOO', 'funny']


## TF-IDF

BoWの発展的手法として TF-IDF もよく使われます。これは Term Frequency (TF) と Inverse Document Frequency (IDF) という2つの指標の組み合わせです。


《標準的なTF-IDFの式》


Term Frequency:

$$tf(t,d) = \frac{n_{t,d}}{\sum_{s \in d}n_{s,d}}$$

$n_{t,d}$
 : サンプルd内のトークンtの出現回数（BoWと同じ）

 $\sum_{s \in d}n_{s,d}$
 : サンプルdの全トークンの出現回数の和

 Inverse Document Frequency:

 $$idf(t) = \log{\frac{N}{df(t)}}$$

 $N$
 : サンプル数

$
d
f
(
t
)$
 : トークンtが出現するサンプル数


＊logの底は任意の値

TF-IDF:

$$tfidf(t, d) = tf(t, d) \times idf(t)$$


## IDF
IDFはそのトークンがデータセット内で珍しいほど値が大きくなる指標です。


サンプル数 
N
 をIMDB映画レビューデータセットの訓練データに合わせ25000として、トークンが出現するサンプル数$
d
f
(
t
)$ を変化させたグラフを確認してみると、次のようになります。

    import numpy as np
    import matplotlib.pyplot as plt
    n_samples = 25000
    idf = np.log(n_samples/np.arange(1,n_samples))
    plt.title("IDF")
    plt.xlabel("df(t)")
    plt.ylabel("IDF")
    plt.plot(idf)
    plt.show()

![](https://t.gyazo.com/teams/diveintocode/2a1868fa9e70deb138114819f5f20348.png)

TF-IDFではこの数を出現回数に掛け合わせるので、珍しいトークンの登場に重み付けを行なっていることになります。

## ストップワード
あまりにも頻繁に登場するトークンは、値を小さくするだけでなく、取り除くという前処理を加えることもあります。取り除くもののことを ストップワード と呼びます。既存のストップワード一覧を利用したり、しきい値によって求めたりします。


scikit-learnのCountVectorizerでは引数stop_wordsにリストで指定することで処理を行なってくれます。

    vectorizer = CountVectorizer(stop_words=["is"], token_pattern=r'\b\w+\b')
    bow_train = (vectorizer.fit_transform(mini_dataset)).toarray()
    df = pd.DataFrame(bow_train, columns=vectorizer.get_feature_names())
    display(df)

代表的な既存のストップワード一覧としては、NLTK という自然言語処理のライブラリのものがあげられます。あるデータセットにおいては特別重要な意味を持つ単語が一覧に含まれている可能性もあるため、使用する際は中身を確認することが望ましいです。

    # はじめて使う場合はストップワードをダウンロード
    import nltk
    stop_words = nltk.download('stopwords')
    from nltk.corpus import stopwords
    stop_words = stopwords.words('english')
    print("stop word : {}".format(stop_words)) # 'i', 'me', 'my', ...


逆に、登場回数が特に少ないトークンも取り除くことが多いです。全てのトークンを用いるとベクトルの次元数が著しく大きくなってしまい計算コストが高まるためです。


scikit-learnのCountVectorizerでは引数max_featuresに最大の語彙数を指定することで処理を行なってくれます。以下の例では出現数が多い順に5個でベクトル化しています。

    vectorizer = CountVectorizer(token_pattern=r'\b\w+\b', max_features = 5)
    bow_train = (vectorizer.fit_transform(mini_dataset)).toarray()
    df = pd.DataFrame(bow_train, columns=vectorizer.get_feature_names())
    display(df)

# 【問題2】TF-IDFの計算

IMDB映画レビューデータセットをTF-IDFによりベクトル化してください。NLTKのストップワードを利用し、最大の語彙数は5000程度に設定してください。テキストクリーニングやステミングなどの前処理はこの問題では要求しません。


TF-IDFの計算にはscikit-learnの以下のどちらかのクラスを使用してください。


[sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
[sklearn.feature_extraction.text.TfidfTransformer — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html)


なお、scikit-learnでは標準的な式とは異なる式が採用されています。


また、デフォルトではnorm="l2"の引数が設定されており、各サンプルにL2正規化が行われます。norm=Noneとすることで正規化は行われなくなります。


Term Frequency:

$$tf(t,d) = n_{t,d}$$

$n_{t,d}$
 : サンプルd内のトークンtの出現回数

scikit-learnのTFは分母がなくなりBoWと同じ計算になります。


Inverse Document Frequency:

$$idf(t) = \log{\frac{1+N}{1+df(t)}}+1$$

$
N$
 : サンプル数

$
d
f
(
t
)$
 : トークンtが出現するサンプル数


＊logの底はネイピア数e


詳細は以下のドキュメントを確認してください。


[5.2.3.4. Tf–idf term weighting — scikit-learn 0.21.3 documentation](https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting)



In [156]:
import nltk
stop_words = nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
print("stop word : {}".format(stop_words))

stop word : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\iwaju\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words,)

# 【問題3】TF-IDFを用いた学習
問題2で求めたベクトルを用いてIMDB映画レビューデータセットの学習・推定を行なってください。モデルは2値分類が行える任意のものを利用してください。


ここでは精度の高さは求めませんが、最大の語彙数やストップワード、n-gramの数を変化させて影響を検証してみてください。



# 【問題4】TF-IDFのスクラッチ実装
以下の3文のTF-IDFを求められるプログラムをscikit-learnを使わずに作成してください。標準的な式と、scikit-learnの採用している式の2種類を作成してください。正規化は不要です。

    This movie is SOOOO funny!!!
    What a movie! I never
    best movie ever!!!!! this movie

## Word2Vec

ニューラルネットワークを用いてベクトル化を行う手法が Word2Vec です。


BoWやTF-IDFはone-hot表現であったため、得られるベクトルの次元は語彙数分になります。そのため、語彙数を増やしにくいという問題があります。一方で、Word2Vecでは単語を任意の次元のベクトルに変換します。これをを Word Embedding（単語埋め込み） や 分散表現 と呼びます。変換操作を「ベクトル空間に埋め込む」と言うことが多いです。


Word2VecにはCBoWとSkip-gramという2種類の仕組みがあるため順番に見ていきます。

## CBoW
CBoW (Continuous Bag-of-Words) によるWord2Vecではある単語とある単語の間に来る単語を推定できるように全結合層2層のニューラルネットワークを学習します。


単語はコーパスの語彙数次元のone-hot表現を行なっておきます。そのため、入力と出力の次元は語彙数と同じになります。一方で、中間のノード数をWord2Vecにより得たい任意の次元数とします。これにより全結合層の重みは「得たい次元のノード数×語彙数」になります。このネットワークにより学習を行なった後、出力側の重みを取り出すことで、各語彙を表すベクトルを手に入れることができます。


間の単語の推定を行なっているため、同じ箇所で代替可能な言葉は似たベクトルになるというメリットもあります。これはBoWやTF-IDFでは得られない情報です。


あるテキストは「そのテキストの長さ（単語数）×Word2Vecで得た分散表現の次元数」の配列になりますが、各入力の配列を揃える必要があるモデルに入力するためには、短いテキストは空白を表す単語を加える パディング を行なったり、長いテキストは単語を消したりします。テキストを 固定長 にすると呼びます。



## ウィンドウサイズ
入力する単語は推定する前後1つずつだけでなく、複数個とする場合もあります。前後いくつを見るかの大きさを ウィンドウサイズ と呼びます。

## Skip-gram
CBoWとは逆にある単語の前後の単語を推定できるように全結合層2層のニューラルネットワークを学習する方法が Skip-gram です。学習を行なった後は入力側の重みを取り出し各語彙を表すベクトルとします。現在一般的に使われているのはCBoWよりもSki-gramです。

## 利用方法
Pythonでは Gensim ライブラリを用いて扱うことができます。


gensim: models.word2vec – Word2vec embeddings


BoWの例と同じ文章で学習してみます。CountVectorizerと異なり前処理を自動的に行なってはくれないため、単語（トークン）はリストで分割しておきます。また、大文字は小文字に揃え、記号は取り除きます。


デフォルトのパラメータではCBoWで計算されます。また、ウィンドウサイズはwindow=5に設定されています。

    from gensim.models import Word2Vec
    sentences = [['this', 'movie', 'is', 'very', 'good'], ['this', 'film', 'is', 'a', 'good'], ['very', 'bad', 'very', 'very', 'bad']]
    model = Word2Vec(min_count=1, size=10) # 次元数を10に設定
    model.build_vocab(sentences) # 準備
    model.train(sentences, total_examples=model.corpus_count, epochs=model.iter) # 学習
    print("語彙の一覧 : {}".format(model.wv.vocab.keys()))
    for vocab in model.wv.vocab.keys():
    print("{}のベクトル : \n{}".format(vocab, model.wv[vocab]))

このようにしてベクトルが得られます。

## 単語の距離
ベクトル間で計算を行うことで、ある単語に似たベクトルを持つ単語を見つけることができます。例えばgoodに似たベクトルの単語を3つ探します。

    model.wv.most_similar(positive="good", topn=3)

今の例では3文しか学習していませんので効果を発揮しませんが、大きなコーパスで学習することで、並列関係のものが近くに来たりなど面白い結果が得られます。

## 可視化
2次元に圧縮することで単語ごとの位置関係を可視化することができます。以下はt-SNEを用いた例です

    from sklearn.manifold import TSNE
    import matplotlib.pyplot as plt
    vocabs = model.wv.vocab.keys()
    tsne_model = TSNE(perplexity=40, n_components=2, init="pca", n_iter=5000, random_state=23)
    vectors_tsne = tsne_model.fit_transform(model[vocabs])
    fig, ax = plt.subplots(figsize=(5,5))
    ax.scatter(vectors_tsne[:, 0], vectors_tsne[:, 1])
    for i, word in enumerate(list(vocabs)):
        plt.annotate(word, xy=(vectors_tsne[i, 0], vectors_tsne[i, 1]))
    ax.set_yticklabels([])
    ax.set_xticklabels([])
    plt.show()

## IMDB映画レビューデータセットの分散表現

IMDB映画レビューデータセットの訓練データをコーパスとしてWord2Vecを学習させ分散表現を獲得しましょう。



# 【問題5】コーパスの前処理
コーパスの前処理として、特殊文字（!など）やURLの除去、大文字の小文字化といったことを行なってください。また、単語（トークン）はリストで分割してください。

# 【問題6】Word2Vecの学習
Word2Vecの学習を行なってください。



# 【問題7】（アドバンス課題）ベクトルの可視化
得られたベクトルをt-SNEにより可視化してください。また、いくつかの単語を選びwv.most_similarを用いて似ている単語を調べてください。

## 学習済みベクトル
巨大なコーパスで学習して得たベクトルも公開されているため、自分で学習をせずに利用することもできます。オリジナルのWord2Vecの他に同じ作者の発展系である FastText やスタンフォード大の GloVe があり、それぞれ公開されています。



# 【問題8】（アドバンス課題）Word2Vecを用いた映画レビューの分類
問題6で学習して得たベクトルや公開されている学習済みベクトルを用いてIMDB映画レビューデータセットの感情分類の学習・推定を行なってください。