# 自然言語処理の基礎

## MeCabで形態素解析

テキストを扱う際に、「私はキカガクです。」といった文書のまま数値化するのではなく、

> 私 / は / キカガク / です / 。

のように、単語毎に切り分けることで、特徴を捉えやすくなります。
これを行うのが形態素解析です。

形態素解析はノウハウがベースとなっており、自前で実装することが非常に難しいですが、**MeCab**と呼ばれる外部モジュールを使用することで非常に簡単に実装することができます。



## MeCabを使ってみよう

In [1]:
import MeCab

In [2]:
mecab = MeCab.Tagger('-Ochasen')

こちらを使用して、文章を分ける（parse）すると下記のような結果が得られます。

In [3]:
res = mecab.parse('こんにちは、私はキカガクです。')

In [4]:
print(res)

こんにちは	コンニチハ	こんにちは	感動詞		
、	、	、	記号-読点		
私	ワタシ	私	名詞-代名詞-一般		
は	ハ	は	助詞-係助詞		
キカガク	キカガク	キカガク	名詞-一般		
です	デス	です	助動詞	特殊・デス	基本形
。	。	。	記号-句点		
EOS



見た目上はきれいに表示されていますが、parserした結果は下記のように、エスケープシーケンスを多く含むため、実際に取り扱う際には多少工夫が必要となります。

In [5]:
res

'こんにちは\tコンニチハ\tこんにちは\t感動詞\t\t\n、\t、\t、\t記号-読点\t\t\n私\tワタシ\t私\t名詞-代名詞-一般\t\t\nは\tハ\tは\t助詞-係助詞\t\t\nキカガク\tキカガク\tキカガク\t名詞-一般\t\t\nです\tデス\tです\t助動詞\t特殊・デス\t基本形\n。\t。\t。\t記号-句点\t\t\nEOS\n'

こちらのように非常に簡単に形態素解析を行うことができした。

## 名詞抽出の練習

この後の文書分類では、名詞による影響が大きいため、名詞のみを抽出してリストに格納できるスキルが必要となります。
そこで、下記の３つの文章に関して、名詞のみを抽出してリストに格納してください。

- キカガクでは、ディープラーニングを含んだ機械学習や人工知能の教育を行っています。
- 代表の吉崎は大学院では機械学習・ロボットのシステム制御、画像処理の研究に携わっていました。
- 機械学習、システム制御、画像処理ではすべて線形代数とプログラミングが不可欠になります。

まずは1つ目の文章でうまくparseできるかを試しましょう。

In [6]:
text = 'キカガクでは、ディープラーニングを含んだ機械学習や人工知能の教育を行っています。'

In [7]:
res = mecab.parse(text)
print(res)

キカガク	キカガク	キカガク	名詞-一般		
で	デ	で	助詞-格助詞-一般		
は	ハ	は	助詞-係助詞		
、	、	、	記号-読点		
ディープラーニング	ディープラーニング	ディープラーニング	名詞-一般		
を	ヲ	を	助詞-格助詞-一般		
含ん	フクン	含む	動詞-自立	五段・マ行	連用タ接続
だ	ダ	だ	助動詞	特殊・タ	基本形
機械	キカイ	機械	名詞-一般		
学習	ガクシュウ	学習	名詞-サ変接続		
や	ヤ	や	助詞-並立助詞		
人工	ジンコウ	人工	名詞-一般		
知能	チノウ	知能	名詞-一般		
の	ノ	の	助詞-連体化		
教育	キョウイク	教育	名詞-サ変接続		
を	ヲ	を	助詞-格助詞-一般		
行っ	オコナッ	行う	動詞-自立	五段・ワ行促音便	連用タ接続
て	テ	て	助詞-接続助詞		
い	イ	いる	動詞-非自立	一段	連用形
ます	マス	ます	助動詞	特殊・マス	基本形
。	。	。	記号-句点		
EOS



まず、先程分かち書きしたresを使い、それぞれを改行（\n）で分けましょう。
特定の文字で分けるときは、splitを使います。

In [8]:
res.split('\n') 

['キカガク\tキカガク\tキカガク\t名詞-一般\t\t',
 'で\tデ\tで\t助詞-格助詞-一般\t\t',
 'は\tハ\tは\t助詞-係助詞\t\t',
 '、\t、\t、\t記号-読点\t\t',
 'ディープラーニング\tディープラーニング\tディープラーニング\t名詞-一般\t\t',
 'を\tヲ\tを\t助詞-格助詞-一般\t\t',
 '含ん\tフクン\t含む\t動詞-自立\t五段・マ行\t連用タ接続',
 'だ\tダ\tだ\t助動詞\t特殊・タ\t基本形',
 '機械\tキカイ\t機械\t名詞-一般\t\t',
 '学習\tガクシュウ\t学習\t名詞-サ変接続\t\t',
 'や\tヤ\tや\t助詞-並立助詞\t\t',
 '人工\tジンコウ\t人工\t名詞-一般\t\t',
 '知能\tチノウ\t知能\t名詞-一般\t\t',
 'の\tノ\tの\t助詞-連体化\t\t',
 '教育\tキョウイク\t教育\t名詞-サ変接続\t\t',
 'を\tヲ\tを\t助詞-格助詞-一般\t\t',
 '行っ\tオコナッ\t行う\t動詞-自立\t五段・ワ行促音便\t連用タ接続',
 'て\tテ\tて\t助詞-接続助詞\t\t',
 'い\tイ\tいる\t動詞-非自立\t一段\t連用形',
 'ます\tマス\tます\t助動詞\t特殊・マス\t基本形',
 '。\t。\t。\t記号-句点\t\t',
 'EOS',
 '']

最後に２行にEOS(End Of Sentence)と空白が入ってしまっているので、最後２行の前までを使用しましょう。

In [9]:
res.split('\n')[:-2]

['キカガク\tキカガク\tキカガク\t名詞-一般\t\t',
 'で\tデ\tで\t助詞-格助詞-一般\t\t',
 'は\tハ\tは\t助詞-係助詞\t\t',
 '、\t、\t、\t記号-読点\t\t',
 'ディープラーニング\tディープラーニング\tディープラーニング\t名詞-一般\t\t',
 'を\tヲ\tを\t助詞-格助詞-一般\t\t',
 '含ん\tフクン\t含む\t動詞-自立\t五段・マ行\t連用タ接続',
 'だ\tダ\tだ\t助動詞\t特殊・タ\t基本形',
 '機械\tキカイ\t機械\t名詞-一般\t\t',
 '学習\tガクシュウ\t学習\t名詞-サ変接続\t\t',
 'や\tヤ\tや\t助詞-並立助詞\t\t',
 '人工\tジンコウ\t人工\t名詞-一般\t\t',
 '知能\tチノウ\t知能\t名詞-一般\t\t',
 'の\tノ\tの\t助詞-連体化\t\t',
 '教育\tキョウイク\t教育\t名詞-サ変接続\t\t',
 'を\tヲ\tを\t助詞-格助詞-一般\t\t',
 '行っ\tオコナッ\t行う\t動詞-自立\t五段・ワ行促音便\t連用タ接続',
 'て\tテ\tて\t助詞-接続助詞\t\t',
 'い\tイ\tいる\t動詞-非自立\t一段\t連用形',
 'ます\tマス\tます\t助動詞\t特殊・マス\t基本形',
 '。\t。\t。\t記号-句点\t\t']

次に、一番最初の要素に対して、タブ（\t）で分けることを考えましょう。

In [10]:
res.split('\n')[0] #一番最初の要素が取り出せる

'キカガク\tキカガク\tキカガク\t名詞-一般\t\t'

こちらの結果から名詞であるかどうかを判定するためには、左から4番目(要素番号3)の要素にアクセスすればいいので、以下のようになります。

In [11]:
res .split('\n')[0].split('\t')[3]

'名詞-一般'

In [12]:
#名詞(noun)であるものを格納するリスト
nouns = []
words = res.split('\n')[:-2] #EOSと空白部分の削除
for word in words:
    part = word.split('\t')
    if '名詞' in part[3]:
        nouns.append(part[0])

In [13]:
nouns

['キカガク', 'ディープラーニング', '機械', '学習', '人工', '知能', '教育']

### 演習問題

上記の例を参考に例文から名詞のみを抽出しましょう。

In [14]:
def get_nouns(text):
    nouns = []
    res = mecab.parse(text)
    words = res.split('\n')[:-2] #EOSと空白部分の削除
    for word in words:
        part = word.split('\t')
        if '名詞' in part[3]:
            nouns.append(part[0])
    return nouns

In [15]:
text1 = 'キカガクでは、ディープラーニングを含んだ機械学習や人工知能の教育を行っています。'
text2 = '代表の吉崎は大学院では機械学習・ロボットのシステム制御、画像処理の研究に携わっていました。'
text3 = '機械学習、システム制御、画像処理ではすべて線形代数とプログラミングが不可欠になります。'

In [16]:
nouns1 = get_nouns(text1)
nouns1

['キカガク', 'ディープラーニング', '機械', '学習', '人工', '知能', '教育']

In [17]:
nouns2 = get_nouns(text2)
nouns2

['代表', '吉崎', '大学院', '機械', '学習', 'ロボット', 'システム', '制御', '画像', '処理', '研究']

In [18]:
nouns3 = get_nouns(text3)
nouns3

['機械', '学習', 'システム', '制御', '画像', '処理', 'すべて', '線形', '代数', 'プログラミング', '不可欠']

## 特徴量に変換

### 自然言語の特徴量とは？
機械学習は入力変数と出力変数に分ける必要があり、そして、入力変数も出力変数も長さは各サンプルごとに一定でなければいけません。
そのため、文書によって単語の数が異なり、これを単純に特徴量に採用することはできません。
また、そもそも単語はどのように数値化するのでしょうか。

### Bag of Words
現時点でも、まだこの自然言語処理の特徴量に関しては、議論が活発に行われている最中ですが、一番簡単な特徴量として、Bag of Word（BoW）があります。

Bag of Wordsとは、単語の出現によって単語を数値に変換する方法です。

一番単純な例は

- 単語の出現あり：1
- 単語の出現なし：0

に変換する方法です。

### 例題

以下３つの文章をBoWに変換してください。

1.  私は電車が好きです。
2. 電車より車をよく使います。
3. 好きな果物はりんごです。

3つの文に出現する単語をすべて羅列します。

［ 私　は　電車　が　好き　です　より　車　を　よく　使い　ます　な　果物　りんご ］

各文章に対し、羅列した単語を出現数に変換します。

1. ［ 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 ］
2. ［ 0 0 1 0 0 0 1 1 1 1 1 1 0 0 0 ］
3. ［ 0 1 0 0 1 1 0 0 0 0 0 0 1 1 1 ］

### BoW用に辞書を作る

自然言語処理のBoWへの変換などは**gensim**と呼ばれるライブラリで簡単に実装することができます。
BoW程度であれば、自前で実装することも可能ですが、自前で実装をするとミスをする可能性が高まるため、極力ライブラリを使うようにしましょう。

In [21]:
from gensim import corpora, matutils

今回抽出した名詞をひとつのリストにまとめておきましょう。

In [22]:
word_collect = [nouns1, nouns2, nouns3]
word_collect

[['キカガク', 'ディープラーニング', '機械', '学習', '人工', '知能', '教育'],
 ['代表', '吉崎', '大学院', '機械', '学習', 'ロボット', 'システム', '制御', '画像', '処理', '研究'],
 ['機械', '学習', 'システム', '制御', '画像', '処理', 'すべて', '線形', '代数', 'プログラミング', '不可欠']]

まずBoWでは、全体としてどのような名詞が使用されているか把握しないといけないため、辞書の作成を行います。
この辞書内に含まれる名詞の数がBoWの特徴量の数になります。

In [23]:
dictionary = corpora.Dictionary(word_collect)

作成後にdictionaryを見ても、中身がわかりませんが、`len`で登録された単語数がわかります。

In [24]:
dictionary

<gensim.corpora.dictionary.Dictionary at 0x7f8886a5f358>

In [25]:
len(dictionary)

21

登録された単語を確認しておきましょう。

In [26]:
for word in dictionary.items():
    print(word)

(0, 'キカガク')
(1, 'ディープラーニング')
(2, '人工')
(3, '学習')
(4, '教育')
(5, '機械')
(6, '知能')
(7, 'システム')
(8, 'ロボット')
(9, '代表')
(10, '処理')
(11, '制御')
(12, '吉崎')
(13, '大学院')
(14, '画像')
(15, '研究')
(16, 'すべて')
(17, 'プログラミング')
(18, '不可欠')
(19, '代数')
(20, '線形')


今回は重複がないように単語を選択すると17単語あることがわかりました。

### BoWに変換する

それでは、こちらもgensimの機能を使って、各文書ごとに単語が格納されているwordsをBoWに変換していきましょう。

In [27]:
bow1_id = dictionary.doc2bow(nouns1)
bow1_id

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)]

In [28]:
bow2_id = dictionary.doc2bow(nouns2)
bow2_id

[(3, 1),
 (5, 1),
 (7, 1),
 (8, 1),
 (9, 1),
 (10, 1),
 (11, 1),
 (12, 1),
 (13, 1),
 (14, 1),
 (15, 1)]

In [29]:
bow3_id = dictionary.doc2bow(nouns3)
bow3_id

[(3, 1),
 (5, 1),
 (7, 1),
 (10, 1),
 (11, 1),
 (14, 1),
 (16, 1),
 (17, 1),
 (18, 1),
 (19, 1),
 (20, 1)]

こちらのように、各インデックス番号に対して、0でない場合にカウントされた数が格納されていることがわかると思います。
メモリを節約するために、その要素番号と数のみが返ってくるため、`matutils.corpus2dense`によって、[0,0,1,0,…]のような望ましい形式のBoWに変換します。
引数には登録されている全単語数が必要であるため、最初に取得しておきましょう。

In [30]:
n_words = len(dictionary)

In [31]:
bow = matutils.corpus2dense([bow1_id], n_words)

In [32]:
bow

array([[1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]], dtype=float32)

In [33]:
bow.shape

(21, 1)

こちらのように計算できました。
機械学習の入力変数とする場合は、入力ベクトルを横向きで格納することが多いため、転置を使いましょう。

In [34]:
bow = matutils.corpus2dense([bow1_id], n_words).T
bow

array([[1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0.]], dtype=float32)

In [35]:
bow.shape

(1, 21)

また、ベクトル化するため、最初の要素のみ抽出します。

In [36]:
bow = matutils.corpus2dense([bow1_id], n_words).T[0]
bow

array([1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0.], dtype=float32)

In [37]:
bow.shape

(21,)

全体に対して適用してみましょう。

In [38]:
# BOWによる特徴ベクトルの作成
x = []
for nouns in word_collect:
    bow_id = dictionary.doc2bow(nouns)
    bow = matutils.corpus2dense([bow_id], n_words).T[0]
    x.append(bow)

In [39]:
import numpy as np

In [40]:
x = np.array(x)

In [41]:
x

array([[1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 1., 0., 1., 0., 0., 1., 1., 0., 0., 1., 0.,
        1., 1., 1., 1., 1.]], dtype=float32)

In [42]:
x.shape

(3, 21)

これで無事全データを処理できる形へと変更することが出来ました。