# Word2vec Demo

### Created by Mamoru Itoi

## Word2vecとは？

コンピュータに単語を学習させることにより、単語どうしの近さを計測したり、単語どうしの足し算や引き算ができるようになる技術です。

In [28]:
#Importing Word2vec
from gensim.models import word2vec

#Reading the model
model = word2vec.Word2Vec.load("/Users/mamoruitoi/wiki.model")

#Function to show synonyms for "word"
def synonyms(word):
    return model.wv.most_similar(positive=[word])

#Function to calculate distance between "word1" and "word2"
def distance(word1, word2):
    return model.wv.similarity(w1=word1, w2=word2)

#Function to add "word1" and "word2"
def add(word1, word2):
    return model.wv.most_similar(positive=[word1, word2])

#Function to　subtract "word2" from "word1"
def subtract(word1, word2):
    return model.wv.most_similar(positive=[word1], negative=[word2])

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


「Apple」の類義語を探してみます。

In [7]:
synonyms("Apple")

[('アップル', 0.7224156856536865),
 ('Macintosh', 0.7012893557548523),
 ('iPhone', 0.6815098524093628),
 ('アップルコンピュータ', 0.6612750291824341),
 ('iMac', 0.6588719487190247),
 ('iPod', 0.6579967141151428),
 ('SoC', 0.6539415121078491),
 ('Pentium', 0.6430906057357788),
 ('iPad', 0.6400445103645325),
 ('Athlon', 0.6397019028663635)]

次に、言葉どうしの距離を測ってみます。戻り値は「コサイン類似度」で返されます。  
0から-1の実数で表され、1に近づくほど二つの言葉が似ていることを示します。

- 「Apple」と「Google」の距離

In [22]:
distance("Apple", "Google")

0.6034663

- 「Apple」と「Facebook」の距離

In [13]:
distance("Apple", "Facebook")

0.40058208

- 「Apple」と「朝鮮民主主義人民共和国」の距離

In [26]:
distance("Apple", "朝鮮民主主義人民共和国")

-0.08636804

言葉どうしの足し算をしてみます。

- 「カレー」が「辛い」とどうなるか？

In [30]:
add("カレー", "辛い")[0]

('美味しい', 0.7316645383834839)

辛いカレーは美味しいことを導き出すことができました。  
(参考:「Pythonによるスクレイピング＆機械学習 開発テクニック」)

- 「キムチ」に「ビビンバ」を混ぜるとどうなるか？

In [41]:
add("キムチ", "ビビンバ")[0]

('チゲ', 0.7666387557983398)

チゲは肉や野菜を味噌で煮込んだ朝鮮料理なので、あながち間違いではないかも...?

次は、言葉どうしの引き算をしてみます。  
- 「大学」から「教授」が消えるとどうなるか？

In [47]:
subtract("大学", "教授")[0]

('プレップスクール', 0.44287171959877014)

「プレップスクール」は大学の進学準備に重点を置いた高校のようなので、正解と言えるでしょう。

- 「地球」から「人間」が消えたら？

In [66]:
subtract("地球", "人間")[0]

('アネア', 0.4467170834541321)

「アネア」は、「大陸戦争」という小惑星が地球に落下するストーリーのゲームに出てくる大陸名らしいです。なかなか面白い。

最後は、ごちゃごちゃ足したり引いたりしてみます。  
- 「東京」ー「日本」＋「アメリカ」は？

In [67]:
model.wv.most_similar(positive=["東京", "アメリカ"], negative=["日本"])

[('ニューヨーク', 0.6160283088684082),
 ('ボストン', 0.5341443419456482),
 ('フィラデルフィア', 0.5324333906173706),
 ('ロサンゼルス', 0.5309801697731018),
 ('ロンドン', 0.5292848348617554),
 ('マイアミ', 0.5129263401031494),
 ('ピッツバーグ', 0.4996495246887207),
 ('リッチモンド', 0.4917035400867462),
 ('ワシントン', 0.4910965859889984),
 ('テキサス', 0.49046269059181213)]

ワシントンは結構下の方ですね。東京は経済の中心地でもあるので、それが優先された感じになっています。  
- フランスにおけるビールは？

In [76]:
model.wv.most_similar(positive=["ビール", "フランス"], negative=["アメリカ"])[0]

('ワイン', 0.6647170782089233)

ごもっとも。お酒は割とわかりやすいので、他の国でもやってみます。  
- ロシアにおけるビールは？

In [77]:
model.wv.most_similar(positive=["ビール", "ロシア"], negative=["アメリカ"])[0]

('クワス', 0.551207423210144)

In [78]:
model.wv.most_similar(positive=["ビール", "日本"], negative=["アメリカ"])[0]

('清酒', 0.6632060408592224)

素晴らしい。  
ところで、日本には「尺」という単位があります。1尺は約30.3cm。では、アメリカに同じような単位はあるのでしょうか？

In [81]:
model.wv.most_similar(positive=["尺", "アメリカ"], negative=["日本"])[0]

('フィート', 0.6381105780601501)

1フィートは30.48cm。ビンゴ！  
このように、Word2vecを使うと様々な処理をすることができます。皆さんも是非使ってみてください。

## Word2Vec インストール方法  
以下のコマンドを実行してください。

```shell:
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
#途中で止まるので、returnキーを押してからパスワードを入力して、再度returnキーを押してください。
brew install swig mecab mecab-ipadic nkf
pip install mecab-python3
curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2
git clone https://github.com/attardi/wikiextractor.git
python3 ./wikiextractor/WikiExtractor.py ./jawiki-latest-pages-articles.xml.bz2
find ./wikiextractor/text/ | grep wiki | awk '{system("cat "$0" >> wiki.txt")}'
pip install gensim
mecab -Owakati wiki.txt -o wiki_wakachi.txt
nkf -w --overwrite wiki_wakachi.txt
python3
```
次に、以下のスクリプトを実行してください。

```python3:
from gensim.models import word2vec

sentences = word2vec.Text8Corpus('./wiki_wakachi.txt')
model = word2vec.Word2Vec(sentences, size=200, min_count=20, window=15)
model.save("./wiki.model")
```

以上でインストールとモデルの構築が完了します。