# 実験II 資料 

2022.11.1:  
岡田 真 OKADA, Makoto

# Word2Vec 演習 
# Practice: Word2Vec

今回は Word2Vec の Python ライブラリを使って動かして実習してみる．  
ライブラリは [gensim](https://radimrehurek.com/gensim/) の [Word2Vec](https://radimrehurek.com/gensim/models/word2vec.html) ライブラリを使う．  

In this lecture, we will practice using the Python library of the [Word2Vec](https://radimrehurek.com/gensim/models/word2vec.html) in the [gensim](https://radimrehurek.com/gensim/) .

# gensim のインストール

In [None]:
!pip install --upgrade gensim

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting gensim
  Downloading gensim-4.2.0-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (24.1 MB)
[K     |████████████████████████████████| 24.1 MB 1.3 MB/s 
Installing collected packages: gensim
  Attempting uninstall: gensim
    Found existing installation: gensim 3.6.0
    Uninstalling gensim-3.6.0:
      Successfully uninstalled gensim-3.6.0
Successfully installed gensim-4.2.0


## 分散表現の学習
## Learning Distributed Representations



In [None]:
from gensim.models import Word2Vec

sample_sents = [['this', 'is', 'a', 'first', 'sentence', '.'],
                ['this', 'is', 'a', 'second', 'sentence', '.']]
model = Word2Vec(sentences=sample_sents, vector_size=100, window=5, min_count=1)

## オプション
## Options

オプションと説明  
sentences：元となるコーパス．単語リストのリスト．	  
courpus_file：コーパスをファイル読み込みする場合に指定．1行1文の形式で，単語は空白区切りで認識される．  	
size：分散表現の次元．デフォルト値 100  
windows：学習時に利用される文脈の広さ．	デフォルト値 5  
min_count：分散表現を獲得する単語の最小頻度．1 なら全ての単語について獲得される．デフォルト値	5  
workers：学習時の使用スレッド数．デフォルト値	3  
sg：学習アルゴリズムの選択．1 なら skip-gram，0 なら CBOW．デフォルト値	0 (CBOW)  


## 機能
## Operation and function



機能の説明

上のセルと同じソースコード．  
データとモデルの準備．

It is the same source code in the former cell.  
Preparation of the learning data and a model.  


In [None]:
from gensim.models import word2vec

sample_sents = [['this', 'is', 'a', 'first', 'sentence', '.'],
                ['this', 'is', 'a', 'second', 'sentence', '.']]
model = word2vec.Word2Vec(sentences=sample_sents, vector_size=3, window=5, min_count=1)

*   ある単語の分散表現を得る．  
    .wv は Word2VecKeyedVectors というオブジェクト.    
    単語をキー，分散表現を値に持つ辞書のように扱える．  
    最近は直接モデルに単語を渡す形式が推奨されている．

*  Obtain a distributed representation of a word.  
    .wv is an object of "Word2VecKeyedVectors".    
    It can be handled like a dictionary with words as keys and distributed representations as values.  
    Recently, the format of passing words directly to the model has been recommended.

In [None]:
print(model.wv['this'])

[-0.15122049  0.21846835 -0.16200535]




*   2 つの単語の類似度を得る．

*   Obtain the similarity between two words.




In [None]:
print(model.wv.similarity('first', 'second'))

-0.09475687



*    ある単語と類似している単語を上位 *topn* 件得る．  
    返り値は (単語, 類似度) のリスト．  
*    Obtain the *topn* words that are similar to a word.  
    The return value is a list of (words, similarity).  



In [None]:
n = 5
print(model.wv.most_similar('this', topn=n))

[('is', 0.9267787933349609), ('second', 0.673219621181488), ('a', 0.475419819355011), ('.', -0.43415629863739014), ('first', -0.4411360025405884)]


*   単語ベクトルの足し引き．  
    王 - 男 + 女 = 女王 みたいなやつ．  
    positive に正の項の単語を，negative に負の項の単語を指定する．  
    topn で上位 *topn* 件を得る．

*   Adding and subtracting word vectors.  
    Like the fomula "king" - "man" + "woman" = "queen"   
    The parameter "positive" is the positive words and the parameter "negative" is the negative words.  
    In the fomula, "king", "woman" is positive words and "man" is a negative word.



In [None]:
print(model.wv.most_similar(positive=['this', 'first'], negative=['second'], topn=1))


[('sentence', 0.2961905896663666)]


## 保存と読み込み
## Save and Load

学習した分散表現は .wv.save_word2vec_format(保存ファイルパス) で保存できる．

The learned distributed representation can be saved with ".wv.save_word2vec_format(save file path)".

In [None]:
from gensim.models import word2vec
from gensim.models import KeyedVectors

sample_sents = [['this', 'is', 'a', 'first', 'sentence', '.'],
                ['this', 'is', 'a', 'second', 'sentence', '.']]
model = word2vec.Word2Vec(sample_sents, vector_size=3, window=5, min_count=1)
model.wv.save_word2vec_format('sample_word2vec.txt')

保存結果はこんな感じ．  
1 行目 単語数とベクトルの次元数
2 行目以降 単語と分散表現．1 行 1 単語．
区切り文字は空白文字

The contents of the saved result looks like this.    
Row 1 Number of words and vector dimension.  
Row 2 and after Word and variance representation. 1 word per line.
The delimiter is a space character.



In [None]:
7 3
this 0.07201037 -0.12112698 -0.07045645
is -0.15853737 0.027887143 -0.04292598
a 0.14505126 -0.033501573 0.0331351
sentence 0.10795988 -0.029394923 0.06299468
. 0.14169705 -0.07158032 0.04967868
first 0.018927146 0.025681395 -0.15682681
second 0.09974431 0.027537124 0.040653866

SyntaxError: ignored

7 3
this 0.07201037 -0.12112698 -0.07045645
is -0.15853737 0.027887143 -0.04292598
a 0.14505126 -0.033501573 0.0331351
sentence 0.10795988 -0.029394923 0.06299468
. 0.14169705 -0.07158032 0.04967868
first 0.018927146 0.025681395 -0.15682681
second 0.09974431 0.027537124 0.040653866



一般には，容量削減のために binary=True としてバイナリファイルで保存・公開されることが多い．

In general, the data are often saved and published to binary files as binary=True in order to reduce space requirements.

In [None]:
model.wv.save_word2vec_format('sample_word2vec.bin', binary=True)

.wv.save_word2vec_format() で保存された分散表現は，KeyedVectors.load_word2vec_format(ファイルパス) で読み込めます．

Distributed expressions saved with ".wv.save_word2vec_format()" can be loaded with "KeyedVectors.load_word2vec_format(file path)".

In [None]:
from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format('sample_word2vec.txt')
print(model['this']) 

[-0.15122049  0.21846835 -0.16200535]


バイナリファイルを読み込む場合は，保存のときと同様 binary=True を指定します．

To load a binary file, specify binary=True as when saving.

In [None]:
from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format('sample_word2vec.bin', binary=True)

## 事前学習済みモデルの利用

gensim はさまざまな事前学習モデルを保存していて，ダウンロードすると使えるようになっている．

## Use of pre-trained models

gensim stores a variety of pre-trained models that can be downloaded and used.

In [None]:
import gensim.downloader
for n in list(gensim.downloader.info()['models'].keys()):
  print(n)


fasttext-wiki-news-subwords-300
conceptnet-numberbatch-17-06-300
word2vec-ruscorpora-300
word2vec-google-news-300
glove-wiki-gigaword-50
glove-wiki-gigaword-100
glove-wiki-gigaword-200
glove-wiki-gigaword-300
glove-twitter-25
glove-twitter-50
glove-twitter-100
glove-twitter-200
__testing_word2vec-matrix-synopsis


例えば，GLoVe の twitter のデータで作られたモデルを読み込んで使ってみる．

For example, try loading and using a model created with twitter data from GLoVe.

In [None]:
glove_vectors = gensim.downloader.load('glove-twitter-25')
glove_vectors.most_similar('twitter')



[('facebook', 0.948005199432373),
 ('tweet', 0.9403423070907593),
 ('fb', 0.9342358708381653),
 ('instagram', 0.9104824066162109),
 ('chat', 0.8964964747428894),
 ('hashtag', 0.8885937333106995),
 ('tweets', 0.8878158330917358),
 ('tl', 0.8778461217880249),
 ('link', 0.8778210878372192),
 ('internet', 0.8753897547721863)]

詳細は [Gensim-data リポジトリ](https://github.com/RaRe-Technologies/gensim-data) を参照．

See [Gensim-data repository](https://github.com/RaRe-Technologies/gensim-data) for details.

### ある単語の分散表現ベクトルを得る

In [None]:
print(glove_vectors['this'])

[-0.17895   0.38406   0.073035 -0.32363  -0.092441 -0.40767   2.1
 -0.11363  -0.58784  -0.17034  -0.6433    0.72388  -5.7839   -0.10406
  0.52152  -0.11314   0.59554  -0.47587  -0.4551    0.084431 -0.4582
 -0.16727   0.54594   0.035478 -0.16073 ]


### 単語の意味の近さ (類似度) を調べる

In [None]:
print(glove_vectors.similarity('first', 'second'))

0.96918696


### 似ている単語を似ている順に出力する

In [None]:
n = 5 # 表示する個数を 5 個にする
print(glove_vectors.most_similar('apple', topn=n))

[('windows', 0.8948712944984436), ('microsoft', 0.8858076333999634), ('google', 0.8823867440223694), ('galaxy', 0.8806391358375549), ('flash', 0.8793812394142151)]


### 意味を計算する
単語を分散表現のベクトルに変換しているからできる．

In [None]:
print(glove_vectors.most_similar(positive=['king', 'woman'], negative=['man'], topn=5))


[('meets', 0.8841924071311951), ('prince', 0.832163393497467), ('queen', 0.8257461190223694), ('’s', 0.8174097537994385), ('crow', 0.813499391078949)]


## 課題 20221101-1
## 必須
gensim の Word2Vec を用いて，[テキストファイルのデータ](https://drive.google.com/file/d/1QLURuP0gcA2ZtId34Dx1exIfNZ9DYvT_/view?usp=sharing)を基に学習をして，その結果を報告すること．  

1.   学習できるように適切に単語のリストを作成し，上記のソースコードを参考にしてモデルの学習をすること．  
  テキストファイル中の記号の除去など前処理が必要な場合は適宜処理すること．
3.  学習した単語を複数選択し，それらの最も似ている単語の情報を取得すること．
  ただし，名詞，形容詞，動詞をそれぞれ最低 1 個選択すること．  
4.   いくつかの単語を選択し，単語の分散表現ベクトルの加減算を実行して，その結果を確認すること．  
5.  学習アルゴリズムを CBoW から Skip-gram に変更して結果を確認すること．

## 追加
もっとできる人へ．
1.  ウェブ上の別の分散表現の情報を上記モデルを用いて読み込むこと．  
2.  読み込んだモデルにより必須課題で用いた単語の情報を必須課題と同様に取得すること．  
2.  そしてその内容がどのように異なっているか確認すること．
4.  対義語や多義語に着目して結果を確認すること．  
  形容詞や動詞の似ている単語の情報を精査して，対義語や多義語に関連した情報が含まれているか調べること．
3.  これらの結果について考察を記述すること．

## その他の情報
*  形式  
    PDF 形式．  
*  提出方法  
    1G github にアップロードして，slack に URL を送ること
*  提出先  
    1G slack #group-b3
*  締め切り  
    来週の講義開始時刻まで．


# 日本語 Word2Vec について

今回は ChiVe を使ってみる．  
いろいろと日本語のモデルはあるけれど，今回は簡単に使えるもので試す．

参考ページ [chiVeをWord2Vecの学習済み日本語モデルとして利用する](https://self-development.info/chive%E3%82%92word2vec%E3%81%AE%E5%AD%A6%E7%BF%92%E6%B8%88%E3%81%BF%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB%E3%81%A8%E3%81%97%E3%81%A6%E5%88%A9%E7%94%A8%E3%81%99%E3%82%8B/)

## chiVe と Sudachpy の用意

In [None]:
!pip install --upgrade sudachipy sudachidict_core

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sudachipy
  Downloading SudachiPy-0.6.6-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (2.2 MB)
[K     |████████████████████████████████| 2.2 MB 12.7 MB/s 
[?25hCollecting sudachidict_core
  Downloading SudachiDict-core-20221021.tar.gz (9.0 kB)
Building wheels for collected packages: sudachidict-core
  Building wheel for sudachidict-core (setup.py) ... [?25l[?25hdone
  Created wheel for sudachidict-core: filename=SudachiDict_core-20221021-py3-none-any.whl size=71574781 sha256=94107ecc2636deafbd09bf6789012e7683f2fcba81ebf1e8704e62ce83e6cc1f
  Stored in directory: /root/.cache/pip/wheels/66/a9/e1/bde612c31f0ae6877e7e39f278076befd399c488cba80292b6
Successfully built sudachidict-core
Installing collected packages: sudachipy, sudachidict-core
Successfully installed sudachidict-core-20221021 sudachipy-0.6.6


SudachiPy のテスト

In [None]:
from sudachipy import tokenizer
from sudachipy import dictionary

tokenizer_obj = dictionary.Dictionary().create()

s_test = 'これはテストの文章です'

for m in tokenizer_obj.tokenize(s_test):
  print(m.surface(), m.dictionary_form(), m.normalized_form(), m.part_of_speech())

これ これ 此れ ('代名詞', '*', '*', '*', '*', '*')
は は は ('助詞', '係助詞', '*', '*', '*', '*')
テスト テスト テスト ('名詞', '普通名詞', 'サ変可能', '*', '*', '*')
の の の ('助詞', '格助詞', '*', '*', '*', '*')
文章 文章 文章 ('名詞', '普通名詞', '一般', '*', '*', '*')
です です です ('助動詞', '*', '*', '*', '助動詞-デス', '終止形-一般')


## chiVe のデータのダウンロード
今回はほどほどの大きさのモデル (v1.2 mc90, 0.6 GB) をダウンロードする．

Google drive をマウント

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


chiVe のモデルをダウンロード  
モデルの URL はウェブページから取得  
tar.gz 形式  
gensim 用のモデルを選択

In [None]:
!wget -P "/content/drive/My Drive/Colab Notebooks/" https://sudachi.s3-ap-northeast-1.amazonaws.com/chive/chive-1.2-mc90_gensim.tar.gz

--2022-11-10 07:33:12--  https://sudachi.s3-ap-northeast-1.amazonaws.com/chive/chive-1.2-mc90_gensim.tar.gz
Resolving sudachi.s3-ap-northeast-1.amazonaws.com (sudachi.s3-ap-northeast-1.amazonaws.com)... 52.219.197.94, 52.219.4.59, 52.219.195.70, ...
Connecting to sudachi.s3-ap-northeast-1.amazonaws.com (sudachi.s3-ap-northeast-1.amazonaws.com)|52.219.197.94|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 548987391 (524M) [application/x-gzip]
Saving to: ‘/content/drive/My Drive/Colab Notebooks/chive-1.2-mc90_gensim.tar.gz.1’


2022-11-10 07:34:03 (10.5 MB/s) - ‘/content/drive/My Drive/Colab Notebooks/chive-1.2-mc90_gensim.tar.gz.1’ saved [548987391/548987391]



ダウンロードしたファイルを解凍

In [None]:
 !tar -zxvf '/content/drive/MyDrive/Colab Notebooks/chive-1.2-mc90_gensim.tar.gz'

chive-1.2-mc90_gensim/
chive-1.2-mc90_gensim/chive-1.2-mc90.kv
chive-1.2-mc90_gensim/chive-1.2-mc90.kv.vectors.npy
chive-1.2-mc90_gensim/LICENSE
chive-1.2-mc90_gensim/README.md


In [None]:
import gensim
 
# chiVeデータのPATH（kv:KeyedVectors）
model_path = "/content/chive-1.2-mc90_gensim/chive-1.2-mc90.kv"
 
# モデルの読み込み
m_chiVe = KeyedVectors.load(model_path)

# 類似度上位10件を取得
match = m_chiVe.most_similar("SEO", topn=10)
 
# 見やすい形式で表示
for x in match:
  print(x)


('検索エンジン', 0.766740620136261)
('リスティング', 0.6959132552146912)
('セスアップ', 0.68496173620224)
('サーチエンジン', 0.669530987739563)
('アドワーズ', 0.6563192009925842)
('アフィリエイト', 0.6549422740936279)
('アドセンス', 0.6434396505355835)
('集客', 0.636823832988739)
('pagerank', 0.6277484893798828)
('lpo', 0.620184600353241)


In [None]:
# 類似度上位10件を取得
match = m_chiVe.most_similar("大学", topn=10)
 
# 見やすい形式で表示
for x in match:
  print(x)

('大学院', 0.8056544661521912)
('学部', 0.7962813377380371)
('私立大学', 0.7469471096992493)
('国立大学', 0.7234764099121094)
('文学部', 0.7177112698554993)
('短大', 0.715343177318573)
('他大学', 0.7132939696311951)
('博士課程', 0.7108903527259827)
('経済学部', 0.7098659873008728)
('法学部', 0.7040424942970276)


In [None]:
# 類似度上位10件を取得
match = m_chiVe.most_similar("進捗", topn=10)
 
# 見やすい形式で表示
for x in match:
  print(x)

('進捗状況', 0.8763648867607117)
('進行状況', 0.7509385347366333)
('進み具合', 0.6569173336029053)
('進捗度', 0.6340262293815613)
('進行具合', 0.5870296955108643)
('進行中', 0.5857610106468201)
('進捗率', 0.5612523555755615)
('着手', 0.5476322174072266)
('進める', 0.5417264103889465)
('達成度', 0.5408205389976501)


In [None]:
# 類似度上位10件を取得
match = m_chiVe.most_similar("生む", topn=10)
 
# 見やすい形式で表示
for x in match:
  print(x)

('生まれる', 0.771237313747406)
('生み落とす', 0.6707801818847656)
('生み出す', 0.6446335315704346)
('生み育てる', 0.6202511191368103)
('生まれ出る', 0.5480579733848572)
('生み', 0.542283296585083)
('授かる', 0.5352058410644531)
('身籠もる', 0.5304058194160461)
('作り出す', 0.5196080207824707)
('育つ', 0.5145079493522644)


In [None]:
# 類似度上位10件を取得
match = m_chiVe.most_similar("辛い", topn=10)
 
# 見やすい形式で表示
for x in match:
  print(x)

('きつい', 0.6974570155143738)
('しんどい', 0.6832419037818909)
('苦しい', 0.6296256184577942)
('難い', 0.6096687912940979)
('けれど', 0.5978944897651672)
('嫌', 0.5968371033668518)
('難しい', 0.5846153497695923)
('ない', 0.5799782276153564)
('悲しい', 0.579379677772522)
('痛い', 0.5766283273696899)


## 課題 20221101-2
## 必須
日本語の Word2Vec について調べること．

1. 英語のときと同様に上記の読み込んだモデルを用いて，単語の情報を取得すること．単語の選択は自由とする．  
英語のときと同様に名詞，動詞，形容詞を最低 1 個ずつ選ぶこと．  
2.  その内容について確認して，考察を記述すること．

## その他の情報
*  形式  
    PDF 形式．  
*  提出方法  
    1G github にアップロードして，slack に URL を送ること
*  提出先  
    1G slack #group-b3
*  締め切り  
    来週の講義開始時刻まで．

参考ウェブサイト  
Referenced web site  
https://gotutiyan.hatenablog.com/entry/2021/01/14/011030

[Google Code Archive word2vec](https://code.google.com/archive/p/word2vec/)  
[GLoVe](https://nlp.stanford.edu/projects/glove/)