# 今日作るもの
文をベクトル表現に変換するプログラム。

## 機能
- 文字列である文を、単語に分割 (tokenization)
- 単語を埋め込みベクトルに変換
- 単語ベクトルのリストになった文を、poolingして文ベクトルに変換

## 雰囲気
```py
# まず対象とする文がある。
sentence = "I am a dog."

# 文字列からtoken (今回は単語)のリストに変換。
tokens = tokenize(sentence)  # ["I", "am", "a", "dog", "."]

# 単語をなんか、n次元のベクトルに変換 (文なのでそれのリストに最終的になる。)
embeddings = [embedder(token) for token in tokens]  # 文の長さ * n サイズの行列

# 文の長さ方向になんかpoolingして、n次元ベクトルになる文の表現を得る。
sentence_embedding = encode(embeddings)
```

In [1]:
sentence = "I am a dog.  "

In [2]:
# 簡単な前処理
def preprocess(sentence: str) -> str:
    sentence = sentence.lower()
    sentence = sentence.strip()
    return sentence

preprocessed_sentence = preprocess(sentence)
print(f"処理されたやつ: {preprocessed_sentence}")

処理されたやつ: i am a dog.


## Tokenization
spacyっているライブラリを使用する。 https://spacy.io/

よく使う機能
- tokenization
- Named entity recognition
- POS tagging

install簡単
```bash
pip install spacy
python -m spacy download en
```

In [3]:
# Tokenization
import spacy
nlp = spacy.load("en_core_web_sm")

In [4]:
doc = nlp(preprocessed_sentence)
tokens = [token.text for token in doc if not token.is_space]
print(f"Tokenizeの結果: {tokens}")

Tokenizeの結果: ['i', 'am', 'a', 'dog', '.']


## Word embedding
tokenzeで得た単語らを、ベクトルに変換する。
よくあるやつ
- word2vec (by google)
- glove
- fasttext (今日はこれ)

自分のコーパスで単語ベクトルを学習しても良いが、
https://github.com/facebookresearch/fastText/blob/master/docs/pretrained-vectors.md
学習済みのものがいろんな言語で提供されている。日本語もあるよ

### 使う流れ
- さっきのサイトからdownload
- 公式が提供しているpython moduleで読み込む https://github.com/facebookresearch/fastText/tree/master/python

In [5]:
import fasttext
fasttext_model = fasttext.load_model("./wiki.simple.bin")




In [6]:
vectors = [fasttext_model.get_word_vector(token) for token in tokens]
print(vectors[0])

[ 9.95617062e-02  7.28837490e-01  1.61763266e-01 -3.02159935e-02
  1.38746232e-01  3.51666301e-01 -1.62816375e-01  6.49739578e-02
  2.44471997e-01 -2.41499543e-01  1.62906379e-01 -5.21033347e-01
 -2.99519718e-01 -3.83207425e-02 -2.04743475e-01 -3.43899652e-02
 -9.93819535e-03 -1.45493373e-01 -1.23487741e-01  4.86269593e-03
  7.98852369e-02  1.07868277e-01 -4.88541335e-01  7.64269084e-02
 -2.59386480e-01 -9.51731578e-02  1.98362395e-02 -1.50055438e-01
 -8.60943124e-02 -3.47093165e-01 -2.44313702e-01  1.48138091e-01
  2.10012510e-01  4.80643570e-01  3.92653085e-02 -1.56449333e-01
 -7.67495483e-03  5.55194505e-02  3.36499810e-01  1.81290805e-01
  5.04641473e-01 -2.20783204e-01 -1.04759030e-01 -1.71751633e-01
  1.62449494e-01 -2.55045980e-01 -1.70117438e-01 -3.18529867e-02
  4.98803884e-01  4.10285980e-01 -9.19218659e-02  3.10637057e-02
 -3.32291014e-02 -1.75593615e-01  1.27244830e-01  1.68915808e-01
  1.13570251e-01  1.11396313e-01 -2.58856654e-01  1.74289718e-01
 -1.21941596e-01  6.85732

In [7]:
print(f"1単語が{vectors[0].shape}次元のベクトルで表現されているね")

1単語が(300,)次元のベクトルで表現されているね


## Poolingして文ベクトルを得る

単語数 * N次元のベクトル列を、下の図のノリで、N次元のベクトルにしていくよ

↓

結果として文のベクトル？っぽいやつになる

![image.png](attachment:image.png)

In [8]:
import numpy as np
def mean_pooling(vectors: np.ndarray) -> np.ndarray:
    return np.mean(vectors, axis=0)

In [9]:
vectors = np.array(vectors)
print(f"単語列の表現の次元数: {vectors.shape}")

単語列の表現の次元数: (5, 300)


In [10]:
sentence_embedding = mean_pooling(vectors)
print(f"結果として得られた次元は当然ながら: {sentence_embedding.shape}")

結果として得られた次元は当然ながら: (300,)


ここまでで最初の目的は完了
- 文字列である文を、単語に分割 (tokenization)
- 単語を埋め込みベクトルに変換
- 単語ベクトルのリストになった文を、poolingして文ベクトルに変換

使用の例として文の**言い換え表現認識**をしてみよう

![image.png](attachment:image.png)

In [11]:
import lineflow.datasets as lfds

def tokenize(s):
    return [token.text.lower() for token in nlp(s) if not token.is_space]

# さっきと同様のPreprocessとTokenize
train = lfds.MsrParaphrase('train').filter(lambda x: x["string1"] and x["string2"])
train = train.map(lambda x: (preprocess(x["string1"]), preprocess(x["string2"]), int(x["quality"])))
train = train.map(lambda x: (tokenize(x[0]), tokenize(x[1]), x[2]))
test = lfds.MsrParaphrase('test').filter(lambda x: x["string1"] and x["string2"])
test = test.map(lambda x: (preprocess(x["string1"]), preprocess(x["string2"]), int(x["quality"])))
test = test.map(lambda x: (tokenize(x[0]), tokenize(x[1]), x[2]))

In [12]:
train.first()

(['amrozi',
  'accused',
  'his',
  'brother',
  ',',
  'whom',
  'he',
  'called',
  '"',
  'the',
  'witness',
  '"',
  ',',
  'of',
  'deliberately',
  'distorting',
  'his',
  'evidence',
  '.'],
 ['referring',
  'to',
  'him',
  'as',
  'only',
  '"',
  'the',
  'witness',
  '"',
  ',',
  'amrozi',
  'accused',
  'his',
  'brother',
  'of',
  'deliberately',
  'distorting',
  'his',
  'evidence',
  '.'],
 1)

In [13]:
def encode(tokens):
    vecs = np.array([fasttext_model.get_word_vector(token) for token in tokens])
    return mean_pooling(vecs).reshape(-1, 1)

In [14]:
from tqdm import tqdm

# ２つの文をそれぞれembedして、連結
# train_X = [np.concatenate([encode(data[0]), encode(data[1])], axis=0) for data in tqdm(train)]
# test_X = [np.concatenate([encode(data[0]), encode(data[1])], axis=0) for data in tqdm(test)]
train_X = np.load('./train_X.npy')
test_X = np.load('./test_X.npy')

# ここには教師データ (0 or 1)が入っているよ
# train_Y = [data[2] for data in train]
# test_Y = [data[2] for data in test]
train_Y = np.load('./train_Y.npy')
test_Y = np.load('./test_Y.npy')
    
print(f"文のベクトルの次元: {encode(train[0][0]).shape}")
print(f"２つの文ベクトルを連結したもの: {train_X[0].shape}")

文のベクトルの次元: (300, 1)
２つの文ベクトルを連結したもの: (600, 1)


In [15]:
# np.save('./train_X', train_X)
# np.save('./test_X', test_X)
# np.save('./train_Y', train_Y)
# np.save('./test_Y', test_Y)

In [16]:
# scikit-learnっている、機械学習色々詰め合わせライブラリを使うよ

train_X = np.array(train_X).reshape(-1, 600)  # データ数 * ２つの文の埋め込みベクトル
print(f"入力サイズ: {train_X.shape}")

from sklearn.svm import SVC
clf = SVC(gamma='auto')  # 今回使う分類機はsupport vector machine (SVM)
clf.fit(train_X, train_Y)  # 学習

入力サイズ: (3941, 600)


SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [17]:
test_X = np.array(test_X).reshape(-1, 600)
clf.score(test_X, test_Y)  # 評価

0.6654478976234004