## Chapter6
### テキスト解析とチャットボット作成

### Chapter6-1
形態要素解析 Morphological Analysis

形態要素解析とは、自然言語の文章を意味を持つ最小の単位である「形態素」に分割し、品詞を判別する作業。
形態素解析は、機械翻訳や、かな漢字変換、また、テキストマイニングなど様々な分野で利用されている。

日本語の形態要素解析を行うのは工夫が必要。
- _文法規則_による方法
- _確率的言語モデル_を用いる方法 ※最近人気

In [3]:
!apt-get install -y mecab libmecab-dev mecab-ipadic

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following package was automatically installed and is no longer required:
  libnvidia-common-440
Use 'apt autoremove' to remove it.
The following additional packages will be installed:
  libmecab2 mecab-utils
The following NEW packages will be installed:
  libmecab-dev libmecab2 mecab mecab-ipadic mecab-utils
0 upgraded, 5 newly installed, 0 to remove and 35 not upgraded.
Need to get 12.8 MB of archives.
After this operation, 60.4 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libmecab2 amd64 0.996-5 [257 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libmecab-dev amd64 0.996-5 [308 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-utils amd64 0.996-5 [4,856 B]
Get:4 http://archive.ubuntu.com/ubuntu bionic/universe amd64 mecab-ipadic all 2.7.0-20070801+main-1 [12.1 MB]
Get:5 http://archive.ubunt

In [4]:
!apt-get install -y medcab-ipadic-utf8
!apt-get install -y libc6-dev build-essential

Reading package lists... Done
Building dependency tree       
Reading state information... Done
E: Unable to locate package medcab-ipadic-utf8
Reading package lists... Done
Building dependency tree       
Reading state information... Done
build-essential is already the newest version (12.4ubuntu1).
libc6-dev is already the newest version (2.27-3ubuntu1.2).
libc6-dev set to manually installed.
The following package was automatically installed and is no longer required:
  libnvidia-common-440
Use 'apt autoremove' to remove it.
0 upgraded, 0 newly installed, 0 to remove and 35 not upgraded.


In [5]:
!pip install mecab-python3

Collecting mecab-python3
[?25l  Downloading https://files.pythonhosted.org/packages/8b/06/2aeff86243c88580ccf78b136d403ce5e0a1eed9091103157f01e806499f/mecab_python3-1.0.1-cp36-cp36m-manylinux2010_x86_64.whl (3.5MB)
[K     |████████████████████████████████| 3.5MB 2.8MB/s 
[?25hInstalling collected packages: mecab-python3
Successfully installed mecab-python3-1.0.1


In [7]:
!pip install janome

Collecting janome
[?25l  Downloading https://files.pythonhosted.org/packages/79/f0/bd7f90806132d7d9d642d418bdc3e870cfdff5947254ea3cab27480983a7/Janome-0.3.10-py2.py3-none-any.whl (21.5MB)
[K     |████████████████████████████████| 21.5MB 45.1MB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.3.10


In [6]:
# MeCab 定番ライブラリー
import MeCab
mecab = MeCab.Tagger() # MeCabオブジェクト生成
malist = mecab.parse('庭には二羽鶏がいる。') # 形態要素解析
print(malist)


----------------------------------------------------------



Failed initializing MeCab. Please see the README for possible solutions:

    https://github.com/SamuraiT/mecab-python3#common-issues

If you are still having trouble, please file an issue here, and include the
ERROR DETAILS below:

    https://github.com/SamuraiT/mecab-python3/issues

issueを英語で書く必要はありません。

------------------- ERROR DETAILS ------------------------
arguments: 
error message: [ifs] no such file or directory: /usr/local/etc/mecabrc


RuntimeError: ignored

In [8]:
# ピュアPython解析器「Janome」
from janome.tokenizer import Tokenizer
t = Tokenizer()
malist = t.tokenize('庭には二羽鶏がいる。')
for n in malist:
    print(n)

庭	名詞,一般,*,*,*,*,庭,ニワ,ニワ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
二	名詞,数,*,*,*,*,二,ニ,ニ
羽	名詞,接尾,助数詞,*,*,*,羽,ワ,ワ
鶏	名詞,一般,*,*,*,*,鶏,ニワトリ,ニワトリ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
いる	動詞,自立,*,*,一段,基本形,いる,イル,イル
。	記号,句点,*,*,*,*,。,。,。


In [9]:
from janome.tokenizer import Tokenizer
import zipfile
import os.path, urllib.request as req

# 銀河鉄道の夜のZIPファイルをダウンロード
url = 'http://www.aozora.gr.jp/cards/000081/files/456_ruby_145.zip'
local = '456_ruby_145.zip'
if not os.path.exists(local):
    print('ZIPファイルをダウンロード')
    req.urlretrieve(url, local)

# ZIPファイル内のテキストファイルを読み込む
zf = zipfile.ZipFile(local, 'r') # ZIPファイルを読み込む
fp = zf.open('gingatetsudono_yoru.txt', 'r') # アーカイブ内のテキストを読む
bindata = fp.read()
txt = bindata.decode('shift_jis') # テキストがshift_JISなのでデコード

# 形態要素解析オブジェクトの生成
t = Tokenizer()

# テキストを一行ずつ処理
word_dic = {}
lines = txt.split('/r/n')
for line in lines:
    malist = t.tokenize(line)
    for w in malist:
        word = w.surface
        ps = w.part_of_speech # 品詞
        if ps.find('名詞') < 0: continue # 名詞だけカウント：find(***)　⇒ ***が出現する位置を返す, continueは下の処理をせずforの位置に戻ることを指す
        if not word in word_dic:
            word_dic[word] = 0
        word_dic[word] += 1



ZIPファイルをダウンロード


In [11]:
# よく使われる単語を表示
keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)
for i, key in enumerate(keys[:50]):
    print('{0}位：{1}回 {2} '.format(i+1,key[1],key[0]))

1位：209回 よう 
2位：206回 の 
3位：190回 ジョバンニ 
4位：102回 人 
5位：101回 カムパネルラ 
6位：101回 ん 
7位：66回 方 
8位：65回 中 
9位：59回 ぼく 
10位：57回 それ 
11位：56回 たち 
12位：54回 みんな 
13位：53回 二 
14位：47回 一 
15位：46回 何 
16位：45回 ほんとう 
17位：45回 鳥 
18位：43回 どこ 
19位：39回 こと 
20位：39回 窓 
21位：39回 汽車 
22位：38回 前 
23位：38回 そう 
24位：38回 いま 
25位：37回 眼 
26位：35回 川 
27位：35回 とき 
28位：33回 僕 
29位：32回 もの 
30位：30回 たくさん 
31位：29回 水 
32位：29回 お 
33位：29回 ら 
34位：28回 青年 
35位：27回 銀河 
36位：27回 そこ 
37位：27回 こっち 
38位：27回 さっき 
39位：26回 上 
40位：26回 ろ 
41位：26回 風 
42位：25回 星 
43位：25回 顔 
44位：25回 向う 
45位：25回 女の子 
46位：24回 野原 
47位：23回 お父さん 
48位：23回 天の川 
49位：22回 声 
50位：21回 い 


In [None]:
# 夏目漱石の「こころ」もカウントする
from janome.tokenizer import Tokenizer
import os.path, urllib.request as req
import zipfile

url = 'http://www.aozora.gr.jp/cards/000148/files/773_ruby_5968.zip'
local = '773_ruby_5968.zip'

# ディレクトリ確認
if not os.path.exists(local):
    print('Zipファイルダウンロード')
    req.urlretrieve(url, local)

# ZIPファイル読み込み
zp = zipfile.ZipFile(local)
fp = zp.open('kokoro.txt', 'r')
bindata = fp.read()
txt = bindata.decode('shift_jis')

# 形態要素解析
t = Tokenizer()

# カウント用dict作成
word_dic = {}
lines = txt.split('\r\n')
for line in lines:
    malist = t.tokenize(line)
    for w in malist:
        # 文字だけ
        word = w.surface
        # 品詞
        ps = w.part_of_speech
        if ps.find('名詞') < 0: continue
        if not word in word_dic:
            word_dic[word] = 0
        word_dic[word] += 1

TypeError: 'int' object is not subscriptable

In [None]:
keys = sorted(word_dic.items(),key=lambda x:x[1], reverse=True) # valueでソート: x[1]
for i, tup in enumerate(keys[:50]):
    print('第{0}位：{1} - {2}回'.format(i+1, tup[0], tup[1]))

第1位：私 - 2700回
第2位：の - 1483回
第3位：先生 - 600回
第4位：事 - 576回
第5位：よう - 523回
第6位：それ - 409回
第7位：もの - 393回
第8位：人 - 390回
第9位：奥さん - 388回
第10位：時 - 379回
第11位：彼 - 314回
第12位：父 - 272回
第13位：自分 - 264回
第14位：二 - 263回
第15位：中 - 259回
第16位：何 - 251回
第17位：一 - 249回
第18位：ん - 241回
第19位：うち - 238回
第20位：い - 234回
第21位：十 - 201回
第22位：方 - 200回
第23位：あなた - 187回
第24位：母 - 171回
第25位：前 - 168回
第26位：お嬢さん - 166回
第27位：上 - 156回
第28位：気 - 150回
第29位：今 - 150回
第30位：顔 - 135回
第31位：め - 133回
第32位：言葉 - 128回
第33位：ため - 126回
第34位：字 - 124回
第35位：三 - 123回
第36位：日 - 123回
第37位：眼 - 123回
第38位：そこ - 120回
第39位：心 - 116回
第40位：＃ - 115回
第41位：下げ - 113回
第42位：見出し - 113回
第43位：［＃「 - 113回
第44位：５ - 110回
第45位：妻 - 108回
第46位：口 - 107回
第47位：通り - 105回
第48位：お - 105回
第49位：家 - 96回
第50位：間 - 93回


### Chapter6-2
Word2Vecで文章をベクトル変換しよう

Word2Vecとは?
- Word2Vecは、文章中の語句をベクトルに変換するツール。
- 単語同士のつながりに基づいて単語同士の関係性をベクトル化する。
- 単語のベクトル化によって、語句と語句の類似度を調べることが可能に。
- 意味の線形計算が可能。
- 代表的な実装手法
    -- Skip-gram
    -- CBoW

In [12]:
!pip install gensim



In [None]:
# kokoroをファイル保存
import zipfile

# 夏目漱石の「こころ」を解凍
zf = zipfile.ZipFile('./773_ruby_5968.zip')
fp = zf.open('kokoro.txt', 'r')
binfile = fp.read()
txt = binfile.decode('shift_jis')

# 「kokoro.txt」で保存
with open('kokoro.txt', 'w') as f:
    f.write(txt)

fp.close()
f.close()

In [None]:
# GensimのWord2Vecで「こころ」を読む
from janome.tokenizer import Tokenizer
from gensim.models import word2vec
import re

# テキストファイルの読み込み
bindata = open('kokoro.txt', 'r')
text = bindata.read()

# テキストの先頭にあるヘッダーとフッターを削除
text = re.split(r'\-{5,}', text)[2]
text = re.split(r'底本:', text)[0]
text = text.strip()

# 形態要素解析
t = Tokenizer()
results = []

# テキストを1行ずつ処理する
lines = text.split('\r\n')
for line in lines:
    s = line
    s = s.replace(' | ', '')
    s = re.sub(r' <<.+?>> ', '', s) # ルビを削除
    s = re.sub(r' [# .+?]', '', s) # 入力注を削除
    tokens = t.tokenize(s) # 形態素解析
    # 必要な語句だけを対象とする
    r = []
    for tok in tokens:
        if tok.base_form == '*': # 単語の基本形を採用
            w = tok.surface
        else:
            w = tok.base_form
            ps = tok.part_of_speech # 品詞情報
            hinsi = ps.split(',')[0]
            if hinsi in ['名詞', '形容詞', '動詞', '記号']:
                r.append(w)
        rl = (' '.join(r)).strip()
        results.append(rl)
        # print(rl) # 画面に分かち書きした行を表示
# 書き込み先テキストを開く
wakati_file = 'kokoro.watati'
with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write('\n'.join(results))

# Word2Vecでモデルを作成
data = word2vec.LineSentence(wakati_file)
model = word2vec.Word2Vec(data, size=200, window=10, hs=1, min_count=2, sg=1)
model.save('kokoro.model')
print('ok')

In [None]:
from gensim.models import word2vec

model = word2vec.Word2Vec.load('kokoro.model')

In [None]:
# ベイジアンフィルターを使ってみよう
import math, sys
from janome.tokenizer import Tokenizer

class BayesianFileter:
    """ベイジアンフィルター"""
    def __init__(self):
        self.words = set() # 単語の集合
        self.word_dict = {} # カテゴリーごとの単語出現回数を記録
        self.category_dict = {} # カテゴリーごとの単語出現回数を記録
    
    # 形態素解析を行う
    def split(self, text):
        result = []
        t = Tokenizer()
        malist = t.tokenize(text)
        for w in malist:
            sf = w.surface # 区切られた単語そのまま
            bf = w.base_form # 単語の基本形:例　走れ　⇒　走る　になる
            if bf == '' or bf == '*':
                bf = sf
            result.append(bf)
        return result
    
    # 単語とカテゴリーを数える処理
    def inc_word(self, word, category):
        # 単語をカテゴリーに追加
        if not category in self.word_dict:
            self.word_dict[category] = {}
        if not word in self.word_dict[category]:
            self.word_dict[category][word] = 0
        self.word_dict[category][word] += 1
        self.words.add(word) # 集合に追加
    
    def inc_category(self, category):
        if not category in self.category_dict:
            self.category_dict[category] = 0
        self.category_dict[category] += 1
    
    def fit(self, text, category):
        """テキストの学習"""
        word_list = self.split(text)
        for word in word_list:
            self.inc_word(word, category)
        self.inc_category(category)
    
    # カテゴリーにおける単語リストのスコアを計算する
    def score(self, words, category):
        score = math.log(self.category_prob(category)) # 確率を掛け合わせで値が極小になりアンダーフローを起こす可能性があるため対数計算
        for word in words:
            score += math.log(self.word_prob(word, category))
        return score
    
    # テキストのカテゴリー分けを行う
    def predict(self, text):
        best_category = None
        max_score = -sys.maxsize
        words = self.split(text)
        score_list = []
        for category in self.category_dict.keys():
            score = self.score(words, category)
            score_list.append((category, score))
            if score > max_score:
                max_score = score
                best_category = category
        return best_category, score_list
    
    # カテゴリー内の単語出現数を得る
    def get_word_count(self, word, category):
        if word in self.word_dict[category]:
            return self.word_dict[category][word]
        else:
            return 0
    
    # カテゴリー / 総カテゴリーを計算
    def category_prob(self, category):
        sum_categories = sum(self.category_dict.values())
        category_v = self.category_dict[category]
        return category_v / sum_categories
    
    # カテゴリー内の単語の出現率を計算
    def word_prob(self, word, category):
        n = self.get_word_count(word, category) + 1
        d = sum(self.word_dict[category].values()) + len(self.words)
        return n / d

In [None]:
bf = BayesianFileter()

bf.fit("激安セール - 今日だけ三割引き", "広告")
bf.fit("クーポンプレゼント＆送料無料", "広告")
bf.fit("店内改装セール実施中", "広告")
bf.fit("美味しなって再登場", "広告")
bf.fit("本日の予定の確認です。", "重要")
bf.fit("プロジェクトの進捗確認をお願いします。", "重要")
bf.fit("打合せよろしくお願いします。", "重要")
bf.fit("会議の議事録です。", "重要")

pre, scoreList = bf.predict("激安、在庫一掃セール、送料無料")

print("結果＝", pre)
print(scoreList)

結果＝ 広告
[('広告', -34.664179744170745), ('重要', -38.80010572193528)]
