# 自然言語処理

## 形態素解析

Mecabのインストール (Windows)

1. Microsoft Visual C++ 2008 SP1 Redistributable Package x86
のインストール
https://www.microsoft.com/en-us/download/details.aspx?id=5582

1. MeCab 64bitのインストール (標準の場所に)
https://github.com/ikegami-yukino/mecab/releases

1. インストール後のMecab\binにPATHを通す

1. パッケージのダウンロード
https://pypi.python.org/pypi/mecab-python-windows

1. Anaconda Promptを開き、MeCabパッケージの場所で
pip install mecab-python-windows





In [1]:
import MeCab

In [2]:
m = MeCab.Tagger("-Ochasen")
sent = "機械学習を要素技術としてもつ製品やサービスの設計・実装・評価ができる技術者の育成を目的とします。"
print(m.parse(sent))

機械	キカイ	機械	名詞-一般		
学習	ガクシュウ	学習	名詞-サ変接続		
を	ヲ	を	助詞-格助詞-一般		
要素	ヨウソ	要素	名詞-一般		
技術	ギジュツ	技術	名詞-一般		
として	トシテ	として	助詞-格助詞-連語		
もつ	モツ	もつ	動詞-自立	五段・タ行	基本形
製品	セイヒン	製品	名詞-一般		
や	ヤ	や	助詞-並立助詞		
サービス	サービス	サービス	名詞-サ変接続		
の	ノ	の	助詞-連体化		
設計	セッケイ	設計	名詞-サ変接続		
・	・	・	記号-一般		
実装	ジッソウ	実装	名詞-サ変接続		
・	・	・	記号-一般		
評価	ヒョウカ	評価	名詞-サ変接続		
が	ガ	が	助詞-格助詞-一般		
できる	デキル	できる	動詞-自立	一段	基本形
技術	ギジュツ	技術	名詞-一般		
者	シャ	者	名詞-接尾-一般		
の	ノ	の	助詞-連体化		
育成	イクセイ	育成	名詞-サ変接続		
を	ヲ	を	助詞-格助詞-一般		
目的	モクテキ	目的	名詞-一般		
と	ト	と	助詞-格助詞-一般		
し	シ	する	動詞-自立	サ変・スル	連用形
ます	マス	ます	助動詞	特殊・マス	基本形
。	。	。	記号-句点		
EOS



In [3]:
m = MeCab.Tagger("-Owakati")
print(m.parse(sent).split())

['機械', '学習', 'を', '要素', '技術', 'として', 'もつ', '製品', 'や', 'サービス', 'の', '設計', '・', '実装', '・', '評価', 'が', 'できる', '技術', '者', 'の', '育成', 'を', '目的', 'と', 'し', 'ます', '。']


### word2vecを用いた単語の数値ベクトル化

### 準備

gensimのインストール

1. conda install gensim

word2vecのWikipediaでの学習済みモデルをダウンロード・展開し、binファイルをカレントディレクトリに置いておきます。

http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/

In [4]:
from gensim.models import word2vec



## [KeyedVectors](https://radimrehurek.com/gensim/models/keyedvectors.html)の使い方。

In [5]:
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('entity_vector.model.bin', binary=True)

In [6]:
model.most_similar('天神祭')

[('夏祭', 0.6541231870651245),
 ('例大祭', 0.6471739411354065),
 ('[長岡まつり]', 0.6388280391693115),
 ('[秩父夜祭]', 0.6332167387008667),
 ('花火大会', 0.6247074604034424),
 ('秋祭り', 0.6065050363540649),
 ('山開き', 0.6028516292572021),
 ('収穫祭', 0.6011472344398499),
 ('[例大祭]', 0.5983555316925049),
 ('[さっぽろ雪まつり]', 0.5964827537536621)]

In [7]:
model.most_similar(positive=['女性','王'], negative=['男性'])

[('国王', 0.7291181087493896),
 ('は王', 0.7007638812065125),
 ('王妃', 0.6984109282493591),
 ('[王]', 0.6832639575004578),
 ('大王', 0.6761249303817749),
 ('女王', 0.6732375621795654),
 ('王子', 0.6688757538795471),
 ('上王', 0.662589430809021),
 ('[ポルトガル君主一覧]', 0.6567022800445557),
 ('[イングランド君主一覧]', 0.6522811651229858)]

In [8]:
model.most_similar(positive=['アメリカ','大阪'], negative=['日本'])

[('ニューヨーク', 0.7088698148727417),
 ('シカゴ', 0.6622985601425171),
 ('[シカゴ]', 0.6532793045043945),
 ('ロサンゼルス', 0.6442333459854126),
 ('サンフランシスコ', 0.6327399611473083),
 ('[ニューヨーク]', 0.6268914341926575),
 ('ボストン', 0.6196696758270264),
 ('ロンドン', 0.608573317527771),
 ('[ボストン]', 0.6036936044692993),
 ('[大阪]', 0.596583366394043)]

### Doc2Vec

文や文章をベクトル化して、類似度計算を可能にします。

参考サイト

[Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル](https://deepage.net/machine_learning/2017/01/08/doc2vec.html)

In [9]:
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument

m = MeCab.Tagger("-Owakati")

sentences = [
    "２時にアラームをセット",
    "アラームを３時に設定",
    "５時になったら知らせて",
    "アラームをセット",
    "３０分後に起こして",
    "２時に新大阪に着きたい",
    "乗換案内",
    "京都から東京までの新幹線",
]

# 空のリストを作成（学習データとなる各文書を格納）
X = []
for s, t in zip(sentences, range(len(sentences))):
    X.append(TaggedDocument(words=m.parse(s).split(), tags=[t]))   

# 学習
# documents:学習データ（TaggedDocumentのリスト）
# min_count: 学習に使用する単語の最低出現回数
# dm:学習モデル 0:DBOW, 1:DM（デフォルト)
model = Doc2Vec(documents=X, min_count=1, dm=1)
 
# 学習したモデルを保存
model.save('doc2vec.model')
 
model.docvecs.most_similar([1])

[(3, 0.1888146996498108),
 (2, 0.18374678492546082),
 (7, 0.04830683022737503),
 (5, 0.04417077824473381),
 (4, -0.03011344000697136),
 (0, -0.05176420509815216),
 (6, -0.18983551859855652)]