実行したいセルに単語を入力したあと、Ctrl + Enter で実行してください。
> わからないことがあったら気軽に質問してください。

# 日本語の Wikipedia の記事で学習した単語分散表現
このデモでは、人工知能によって「ベクトル」に変換された「単語」を使って、その「ベクトル」がどのように「単語」の特徴をとらえているかを見ていきます。

## ライブラリのインストール

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import gensim
import seaborn as sns

sns.set()

## 単語ベクトルを見てみる

In [None]:
# 単語分散表現を読み込む

vec = gensim.models.KeyedVectors.load_word2vec_format('/home/okazaki/install/jawiki.bin', binary=True, unicode_errors='ignore')

In [None]:
vec['栃木県']

In [None]:
len(vec['栃木県'])

In [None]:
# 単語ベクトルを描画する関数を作る

def plot_vector(x):
    plt.xlim(0, len(x))
    plt.plot(range(len(x)), x, 'b')

In [None]:
plot_vector(vec['栃木県'])

In [None]:
plot_vector(vec['茨城県'])

In [None]:
plot_vector(vec['コンピュータ'])

In [None]:
plot_vector(vec[''])

## ふたつの単語ベクトルがどれくらい似てるか計算する

\begin{equation}
\vec{a} = (a_1, a_2, \cdots, a_n) \\
\vec{b} = (b_1, b_2, \cdots, b_n)
\end{equation}
に対して

\begin{equation}
cos(\vec{a},\vec{b})
= \frac{\vec{a} \cdot \vec{b}}{|a||b|}
= \frac{a_1 b_1 + \cdots + a_n b_n}{\sqrt{a_{1}^2 + \cdots + a_{n}^2}\sqrt{b_{1}^2 + \cdots + b_{n}^2}}
\end{equation}

をコサイン類似度と言います。

In [None]:
vec.similarity('栃木県', '茨城県')

In [None]:
vec.similarity('栃木県', 'コンピュータ')

In [None]:
vec.similarity('コンピュータ', '')

## 似てる単語を調べる

In [None]:
vec.most_similar(positive=['栃木県'])

In [None]:
vec.most_similar(positive=['コンピュータ'])

In [None]:
vec.most_similar(positive=['嬉しい'])

In [None]:
vec.most_similar(positive=['さんま'])

In [None]:
vec.most_similar(positive=['サンマ'])

In [None]:
vec.most_similar(positive=[''])

## 単語ベクトルを足し引きしてみる

In [None]:
vec['栃木県']

In [None]:
vec['宇都宮'] - vec['栃木県'] + vec['茨城県']

In [None]:
vec.similar_by_vector(vec['宇都宮'] - vec['栃木県'] + vec['茨城県'])

In [None]:
vec.similar_by_vector(vec['宇都宮'])

In [None]:
vec.most_similar(positive=['東京', 'アメリカ'], negative=['日本'])

In [None]:
vec.most_similar(positive=['のび太', 'ピカチュウ'], negative=['ドラえもん'])

In [None]:
vec.most_similar(positive=['', ''], negative=[''])