## 自然言語処理の基礎

In [1]:
# 日本語処理に必要なライブラリ
import MeCab

In [2]:
mecab = MeCab.Tagger('-Ochasen') # 分かち書き
# ちゃせんという方法で品詞を切り分けている。

In [3]:
res = mecab.parse('こんにちは、私は中村です。')

In [4]:
type(res)

str

### 名詞抽出の練習
 - このあと、文書分類に取り組みたい。
     - ある文書のジャンルを決めるには、名詞に着目すると良い.
 

In [5]:
res = res.split('\n')

In [6]:
type(res)

list

In [7]:
words = res[:-2]

In [8]:
words[0]

'こんにちは\tコンニチハ\tこんにちは\t感動詞\t\t'

In [9]:
part = words[0].split('\t')
part

['こんにちは', 'コンニチハ', 'こんにちは', '感動詞', '', '']

In [10]:
part[3]

'感動詞'

In [11]:
#　名詞であるものを格納するリスト
res = mecab.parse('こんにちは、私は中村です。')
nouns = []
words = res.split('\n')[:-2] #EOSと空白部分の削除

In [12]:
for word in words:
    part = word.split('\t')
    if '名詞' in part[3]:
        nouns.append(part[0])

In [13]:
nouns

['私', '中村']

## 演習
 - 名詞抽出する練習をする。

In [14]:
text1 = 'キカガク では、ディープラーニングを含んだ機械学習や人工知能の教育を行っています。'
text2 = '代表の吉崎は大学院では機械学習・ロボットのシステム制御、画像処理の研究に携わっていました。'
text3 = '機械学習、システム制御、画像処理ではすべて線形代数とプログラミングが不可欠になります。'

In [15]:
def get_nouns(text):
    mecab = MeCab.Tagger('-Ochasen') # 分かち書き
    nouns = []
    res = mecab.parse(text)
    words = res.split('\n')[:-2] #EOFと\nを取り除き\nのあるところで改行されたリストを作る.
    for word in words:
        part = word.split('\t')
        if '名詞' in part[3]:
            nouns.append(part[0])
    return nouns

In [21]:
nouns1 = get_nouns(text1)
nouns2 = get_nouns(text2)
nouns3 = get_nouns(text3)

## 特徴量に変換

In [22]:
# 必要なモジュールimport
from gensim import corpora, matutils

In [23]:
#　先ほど抽出した名詞を人るのリストにまとめる
word_collect = [nouns1, nouns2, nouns3]
word_collect

[['キカガク', 'ディープラーニング', '機械学習', '人工知能', '教育'],
 ['代表', '吉崎', '大学院', '機械学習', 'ロボット', 'システム', '制御', '画像処理', '研究'],
 ['機械学習', 'システム', '制御', '画像処理', 'すべて', '線形代数', 'プログラミング', '不可欠']]

In [24]:
dictionary = corpora.Dictionary(word_collect)

In [25]:
dictionary

<gensim.corpora.dictionary.Dictionary at 0x7feba2e5ecc0>

In [26]:
len(dictionary)

17

In [27]:
for word in dictionary.items(): #items() -> (キー,value)を返してくれる。
    print(word)

(0, 'キカガク')
(1, 'ディープラーニング')
(2, '人工知能')
(3, '教育')
(4, '機械学習')
(5, 'システム')
(6, 'ロボット')
(7, '代表')
(8, '制御')
(9, '吉崎')
(10, '大学院')
(11, '画像処理')
(12, '研究')
(13, 'すべて')
(14, 'プログラミング')
(15, '不可欠')
(16, '線形代数')


In [29]:
# 名詞から特徴量を抽出
bow1_id = dictionary.doc2bow(nouns1)

In [32]:
bow1_id #辞書中の出現している単語のみを抽出している。

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)]


In [31]:
nouns1

['キカガク', 'ディープラーニング', '機械学習', '人工知能', '教育']

In [33]:
n_words = len(dictionary)

In [35]:
bow = matutils.corpus2dense([bow1_id], n_words) # 
bow

array([[1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]], dtype=float32)

In [40]:
bow = matutils.corpus2dense([bow1_id], n_words) .T[0]
bow

array([1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
      dtype=float32)