<a href="https://colab.research.google.com/github/masatokg/AI_teach2020/blob/master/2020AI0403_Word2Vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 単語の意味を判定する

### 単語の意味ベクトルを学習させたモデル（コーパスモデル）をダウンロードして解凍

In [1]:
import urllib.request as req
# コーパスモデルをダウンロード
url = "https://www.dropbox.com/s/8kv39qpvg965i06/word2vec.gensim.zip?dl=1"
save_file = "word2vec.gensim.model.zip"
req.urlretrieve( url, save_file )

# unzipで解凍
!unzip -o -q "word2vec.gensim.model.zip"
print("word2vec.zip解凍")

word2vec.zip解凍


### コーパスモデルをプログラムに読み込む

In [2]:
from gensim.models import Word2Vec
# コーパスモデルを読み込んでWord2Vecの学習モデルインスタンスを取得
model = Word2Vec.load("/content/word2vec.gensim.model")

### コーパスモデルで単語の類似語を推論

In [3]:
# 学習モデルに引き渡した言葉の類似語を推論したリストを取得
results = model.wv.most_similar( positive=['業務'], topn=5)
# リストをループして表示
for result in results:
  print(result)
# forループ終わり

('事務', 0.8289206027984619)
('民間企業', 0.7522704601287842)
('郵便事業', 0.7504326105117798)
('業務委託', 0.7485122680664062)
('部署', 0.7473441362380981)


### 条件を組み合わせて推論

In [4]:
# ポジティブワードとネガティブワードを組み合わせる
print("-----")
print("国王")
results = model.wv.most_similar("国王")
for result in results:
  print(result)

print("-----")
print("王")
results = model.wv.most_similar("王")
for result in results:
  print(result)

print("-----")
print("王様")
results = model.wv.most_similar("王様")
for result in results:
  print(result)

print("-----")
print("王様+女性")
results = model.wv.most_similar(positive=["王様", "女性"])
for result in results:
  print(result)

print("-----")
print("王様+女性-男性")
results = model.wv.most_similar(positive=["王様", "女性"], negative=["男性"])
for result in results:
  print(result)

-----
国王
('ツァーリ', 0.9053068161010742)
('スルタン', 0.8805959820747375)
('皇帝', 0.874972939491272)
('スルターン', 0.8520403504371643)
('女帝', 0.8492650389671326)
('ジェームズ2世', 0.837557315826416)
('王太子', 0.8365861177444458)
('摂政', 0.8361721634864807)
('イギリス国王', 0.8348546028137207)
('君主', 0.8336648941040039)
-----
王
('大王', 0.855927586555481)
('皇帝', 0.8524040579795837)
('先王', 0.8425959348678589)
('君主', 0.824544370174408)
('ローマ皇帝', 0.8206972479820251)
('西ローマ皇帝', 0.8157353401184082)
('王シ', 0.8076152205467224)
('ファラオ', 0.8029801845550537)
('女帝', 0.8029454350471497)
('聖王', 0.7952451705932617)
-----
王様
('野獣', 0.8659248352050781)
('お姫様', 0.8607541918754578)
('魔女', 0.8333204388618469)
('花嫁', 0.830689013004303)
('乙女', 0.8267987966537476)
('キューピッド', 0.8178128004074097)
('狩人', 0.8152097463607788)
('父さん', 0.8097778558731079)
('パパ', 0.8046603798866272)
('帽子屋', 0.8032904863357544)
-----
王様+女性
('少女', 0.8220486044883728)
('彼女ら', 0.8072021007537842)
('美女', 0.8049534559249878)
('美少年', 0.8014258146286011)
('お姫様', 0.7981

## 任意の文章を形態素解析して単語を抽出し、指定した言葉との類似性を推論、出力する

In [5]:
# 「至急」という言葉に近い言葉をコーパスモデルに出力させる
# 候補リストを取得
results = model.wv.most_similar(positive=["至急"])
# リストの各要素をループ＆取得して出力
for result in results:
  print(result)
# forループ終わり

# # 文字セットの都合で文字化けしてエラーになる場合があるので注意
# results = model.wv.most_similar(positive=["大至急"])
# # リストの各要素をループ＆取得して出力
# for result in results:
#   print(result)

results = model.wv.most_similar(positive=["急ぎ"])
# リストの各要素をループ＆取得して出力
for result in results:
  print(result)


('急ぎ', 0.7244844436645508)
('無電', 0.7031903266906738)
('雄洋', 0.6877992153167725)
('栄丸', 0.6654155850410461)
('比叡', 0.6648874878883362)
('信濃丸', 0.6561662554740906)
('富士山丸', 0.6513621211051941)
('退艦', 0.6435442566871643)
('停船', 0.6430754065513611)
('薄雲', 0.6411623358726501)
('やむなく', 0.789318859577179)
('ひそか', 0.7474408745765686)
('ただちに', 0.7438754439353943)
('ひとまず', 0.7431749105453491)
('やむを得ず', 0.7409578561782837)
('急ぐ', 0.7246897220611572)
('至急', 0.7244844436645508)
('すぐさま', 0.7139618396759033)
('敗報', 0.7133142352104187)
('渋る', 0.7113310098648071)


### まず文章を形態素解析するためにMeCabと最新の辞書をインストール

In [6]:
# 形態素解析ライブラリーMeCabと辞書（mecab-ipadic-NEologd）のインストール
!apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab > /dev/null
!pip install mecab-python3 > /dev/null

# MeCabの実行時の指定パスをインストールパスにリンクさせる
# シンボリックリンク（/etc/mecabrcを/usr/local/etc/mecabrcで参照できるようにする）
!ln -s /etc/mecabrc /usr/local/etc/mecabrc

In [7]:
# 最新の辞書（ipadic-neologd）をgithubからclone
!git clone --depth 1 http://github.com/neologd/mecab-ipadic-neologd.git > /dev/null
# ipadic-neologdのインストールプログラムを実行
!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n > /dev/null 2>&1

Cloning into 'mecab-ipadic-neologd'...
remote: Enumerating objects: 75, done.[K
remote: Counting objects: 100% (75/75), done.[K
remote: Compressing objects: 100% (74/74), done.[K
remote: Total 75 (delta 5), reused 54 (delta 0), pack-reused 0[K
Unpacking objects: 100% (75/75), done.


### 最新の辞書を読み込んでMeCabのインスタンスを生成

In [8]:
# 辞書のインストール済みディレクトリを確認表示
!echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd


In [9]:
import MeCab
# mecab-ipadic-neologd辞書を指定して、MeCabオブジェクトのインスタンスを生成
path_neologd = "/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"
tagger = MeCab.Tagger( "-d " + path_neologd )

### 特定の文章からMeCabの形態素解析で単語を抜き出し、指定した単語との類似度ベクトルをWord2Vecで判定する

### 処理を関数で作る

In [10]:
# 渡されたテキストに含まれる各単語と「至急」の類似度を表示する関数
def print_emargency(text, keyword):
  # 引き渡された値を表示
  print( "target String: ", text, "keyword: ", keyword )
  # MeCabで形態素のノードリストに変換する
  node = tagger.parseToNode( text )
  # ノードリストの各要素をループして処理
  while node is not None:
    # 名詞、動詞、形容詞以外のストップワードを除去し、残った単語をWord2Vecで判定
    # ストップワードを除去
    fields = node.feature.split(",")
    if fields[0] == '名詞' or fields[0] == '動詞' or fields[0] == '形容詞':
      # Word2Vecで第二引数keywordとの類似度ベクトルを表示する
      print( model.wv.similarity( node.surface, keyword ), node.surface )
    # ifの終わり
    node = node.next
  # whileの終わり

In [11]:
# 関数実行
print_emargency("PCが起動しなくなりました。急いでいます。", "至急")
print_emargency("使い方がよくわかりません", "至急")

target String:  PCが起動しなくなりました。急いでいます。 keyword:  至急
-0.09927091 PC
0.118230164 起動
0.044207577 し
0.037055567 なり
0.3655378 急い
-0.06583241 い
target String:  使い方がよくわかりません keyword:  至急
-0.0030400325 使い方
0.058717843 わかり


In [12]:
print_emargency("明日は晴れですか", "天気")
print_emargency("おなかがすきました", "天気")

target String:  明日は晴れですか keyword:  天気
0.42330882 明日
0.6514369 晴れ
target String:  おなかがすきました keyword:  天気
0.25886172 おなか
0.27183193 すき
