# Mecab tutorial

In [1]:
import MeCab
text = '名前はまだ無い'
t = MeCab.Tagger('-Ochasen')
result = t.parse(text)
print(result)

名前	ナマエ	名前	名詞-一般		
は	ハ	は	助詞-係助詞		
まだ	マダ	まだ	副詞-助詞類接続		
無い	ナイ	無い	形容詞-自立	形容詞・アウオ段	基本形
EOS



In [2]:
result

'名前\tナマエ\t名前\t名詞-一般\t\t\nは\tハ\tは\t助詞-係助詞\t\t\nまだ\tマダ\tまだ\t副詞-助詞類接続\t\t\n無い\tナイ\t無い\t形容詞-自立\t形容詞・アウオ段\t基本形\nEOS\n'

In [3]:
results = result.splitlines()
for res in results[:-1]:
    res_split = res.split('\t')
    print(res_split)

['名前', 'ナマエ', '名前', '名詞-一般', '', '']
['は', 'ハ', 'は', '助詞-係助詞', '', '']
['まだ', 'マダ', 'まだ', '副詞-助詞類接続', '', '']
['無い', 'ナイ', '無い', '形容詞-自立', '形容詞・アウオ段', '基本形']


## Bag of Words

In [5]:
documents = ['子供が走る','車が走る','子供の脇を車が走る']
words_list = []

t = MeCab.Tagger('-Ochasen')
# 形態素解析を各文に実行
for s in documents:
    s_parsed = t.parse(s)
    words_s =[]
    #　各文の形態素をリストにまとめる
    for line in s_parsed.splitlines()[:-1]:
        words_s.append(line.split('\t')[0])
    words_list.append(words_s)
print(words_list)

[['子供', 'が', '走る'], ['車', 'が', '走る'], ['子供', 'の', '脇', 'を', '車', 'が', '走る']]


In [6]:
word2int = {}
i = 0

#上記のOutputされた各文書に対して反復処理
for words in words_list:
    #各文書の中の各単語に対して反復処理
    for word in words:
        #単語がWord2intに含まれていなければ追加し、対応する整数を当てはめる
        if word not in word2int:
            word2int[word] = i
            i +=1
print(word2int)

{'子供': 0, 'が': 1, '走る': 2, '車': 3, 'の': 4, '脇': 5, 'を': 6}


In [7]:
#BOWを計算（単語ごとの出現回数）
import numpy as np
#文章*単語の行列を生成
bow = np.zeros((len(words_list),len(word2int)),dtype=np.int)
#各文章の単語の出現回数をカウント
for i, words in enumerate(words_list):
    for word in words:
        bow[i,word2int[word]] +=1
print(bow)



[[1 1 1 0 0 0 0]
 [0 1 1 1 0 0 0]
 [1 1 1 1 1 1 1]]


In [8]:
import pandas as pd
pd.DataFrame(bow,columns=list(word2int))

Unnamed: 0,子供,が,走る,車,の,脇,を
0,1,1,1,0,0,0,0
1,0,1,1,1,0,0,0
2,1,1,1,1,1,1,1
