# 自然言語処理 for Begginers

1,テキストを数値データとして表現する

2,テキストベースのデータセットをpandasで読み込む

3,データセットをベクトル化する

4,モデルの構築と評価

5,モデルを比較する

6,モデルを検証し、更なる洞察を得る

7,別のデータセットでこのワークフローを実践する

8,ベクタライザのチューニング

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
sns.set_style("whitegrid")
plt.style.use("fivethirtyeight")

## 1, テキストを数値データとして表現する

In [2]:
simple_train = ['call you tonight', 'Call me a cab', 'Please call me...PLEASE!']

CountVectorizerを使用して、トークンの行列に変換する。

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

In [5]:
# simple_trainのデータを学習させる。
vect.fit(simple_train)

In [6]:
# 抽出した単語の確認。
vect.get_feature_names()



['cab', 'call', 'me', 'please', 'tonight', 'you']

In [8]:
# ベクトル化する。
simple_train_dtm = vect.transform(simple_train)
simple_train_dtm

<3x6 sparse matrix of type '<class 'numpy.int64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [9]:
simple_train_dtm.toarray()

array([[0, 1, 0, 0, 1, 1],
       [1, 1, 1, 0, 0, 0],
       [0, 1, 1, 2, 0, 0]])

In [10]:
# 語彙と文書-用語のマトリックスを一緒に調べる
pd.DataFrame(simple_train_dtm.toarray(), columns=vect.get_feature_names())

Unnamed: 0,cab,call,me,please,tonight,you
0,0,1,0,0,1,1
1,1,1,1,0,0,0
2,0,1,1,2,0,0


トークン出現頻度は特徴量として扱われる。
与えられた文書に対するすべてのトークン頻度のベクトルは、多変量サンプルとみなされる。（文書のコーパスは、文書毎に1行、コーパスに出現するトークン毎に１列の行列で表現することができる。
※コーパス・・・テキストや発話を大規模に集めてデータベース化した言語資料。

In [12]:
type(simple_train_dtm)

scipy.sparse._csr.csr_matrix

In [13]:
print(simple_train_dtm)

  (0, 1)	1
  (0, 4)	1
  (0, 5)	1
  (1, 0)	1
  (1, 1)	1
  (1, 2)	1
  (2, 1)	1
  (2, 2)	1
  (2, 3)	2


In [14]:
simple_test = ["please don't call me"]

In [15]:
simple_test_dtm = vect.transform(simple_test)
simple_test_dtm.toarray()

array([[0, 1, 1, 1, 0, 0]])

In [16]:
pd.DataFrame(simple_test_dtm.toarray(), columns=vect.get_feature_names())



Unnamed: 0,cab,call,me,please,tonight,you
0,0,1,1,1,0,0


### 要約
・vect.fit(train)学習データのボキャブラリーを学習する。 <br>
・vect.transform(train)は、学習データから文書用語列を作成するために、適合したボキャブラリーを使用する。<br>
・vect.transform(test)は、適合したボキャブラリーを用いて、テストデータから文書用語行列を作成する。（見たことのないトークンは無視する。）

## 2,テキストベースのデータセットをpandasで読み込む