<a href="https://colab.research.google.com/github/kooose38/automation-natural-language-proccesing/blob/dev/sample_coda_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

ここでは`code/`に構成されているファイルの使用方法についてのサンプルコードを記載します。主に自然言語処理の生データへの前処理を中心としたツールの紹介です。細かい処理には向きませんが、非常に短いコードで実行できます。  

まずは、大まかなファイルの役割について言及します。
```
.
├── SeqTransformToVector.py  -- 文章に対してのベクトル処理
├── WordTransformToVector.py -- 単語に対してのベクトル処理
├── mecab-ipadic-neologd --
├── morphological.py -- 形態素解析を行うクラス 
├── orgment
│   └── googleTranslation.py -- Google翻訳を使った文章生成
└── request.py -- データの取得  
```

In [3]:
%cd /content/drive/My Drive/Github/
!git clone https://github.com/kooose38/automation-natural-language-proccesing
%cd ./automation-natural-language-proccesing/code 

/content/drive/My Drive/Github
/content/drive/My Drive/Github/automation-natural-language-proccesing/code


必要なパッケージをインストールします

In [4]:
!ls

bert		  orgment     SeqTransformToVector.py
morphological.py  request.py  WordTransformToVector.py


In [7]:
%%bash
apt update -y
apt install -y autoconf automake build-essential libtool python-dev
apt install jq  # コマンドライン
pip install jq=0.1.8
# Wikipedia API へアクセスして、取得した内容(JSON形式のデータ)を `wikipedia.json` に保存
curl -sS -XPOST \
    "https://ja.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exlimit=1" \
    --data-urlencode "titles=自然言語" -o wikipedia.json

# 保存した内容(JSON形式)を整形して表示
cat wikipedia.json | jq .

[K     |████████████████████████████████| 378 kB 5.2 MB/s eta 0:00:01
[?25h

### 1. `request.py`への理解
主に、**html**,**zip**,**json**からの読み込みが自動で実行できる役割を持っています。追加で取得されたテキストを行で分割してから、**クレンジング処理**を行います。なおクレンジングには[青空文庫データセット](http://aozora-word.hahasoha.net)を参考にしたものになるので、必要に応じてコードを改変します。`re`による正規表現を使うと容易にクレンジングを行うことが可能です。

In [10]:
from request import LoadDataset
from pprint import pprint 

In [9]:
zip_url = "http://www.aozora.gr.jp/cards/000083/files/1368_ruby_36901.zip"
html_url = "http://www.aozora.gr.jp/cards/000083/files/1368_37258.html"

dataloader = LoadDataset() # クラスのインスタンス化

In [12]:
sample_text_from_zip = dataloader.load_zip(zip_url)
pprint(sample_text_from_zip[:3]) # 行単位でリスト化されて返ります

['天下大乱の兆',
 '応仁の大乱は応仁元年より、文明九年まで続いた十一年間の事変である。戦争としては、何等目を驚かすものがあるわけでない。勇壮な場面や、華々しい情景には乏しい。活躍する人物にも英雄豪傑はいない。それが十一年もだらだらと続いた、緩慢な戦乱である。',
 '併しだらだらでも十一年続いたから、その影響は大きい。京都に起った此の争乱がやがて、地方に波及拡大し、日本国中が一つの軟体動物の蠕動運動の様に、動揺したのである。此の後に来るものが所謂戦国時代だ。即ち実力主義が最も露骨に発揮された、活気横溢せる時代である。武士にとっては滅多に願ってもかなえられない得意の時代が来たのだ。心行くまで彼等に腕を振わせる大舞台が開展したのだ。その意味で序幕の応仁の乱も、意義があると云うべきである。']


In [15]:
sample_text_from_html = dataloader.load_html(html_url)
pprint(sample_text_from_html[:10]) # html.xpath("//div[@class="main"]")でタグ指定で取り出す

['菊池寛 応仁の乱',
 '応仁の乱',
 '菊池寛',
 '天下大乱の兆',
 '応仁の大乱は応仁元年より、文明九年まで続いた十一年間の事変である。戦争としては、何等目を驚かすものがあるわけでない。勇壮な場面や、華々しい情景には乏しい。活躍する人物にも英雄豪傑はいない。それが十一年もだらだらと続いた、緩慢な戦乱である。',
 '併しだらだらでも十一年続いたから、その影響は大きい。京都に起った此の争乱がやがて、地方に波及拡大し、日本国中が一つの軟体動物の蠕動（ぜんどう）運動の様に、動揺したのである。此の後に来（きた）るものが所謂（いわゆる）戦国時代だ。即ち実力主義が最も露骨に発揮された、活気横溢せる時代である。武士にとっては滅多に願ってもかなえられない得意の時代が来たのだ。心行くまで彼等に腕を振わせる大舞台が開展したのだ。その意味で序幕の応仁の乱も、意義があると云うべきである。',
 '応仁の乱の責任者として、古来最も指弾されて居るのは、将軍義政で、秕政（ひせい）と驕奢（きょうしゃ）が、その起因をなしたと云われる。',
 '義満の金閣寺に真似て、銀閣を東山に建てたが、費用が足りなくて銀が箔（は）れなかったなど、有名な話である。大体彼は建築道楽で、寛正（かんしょう）の大飢饉に際し、死屍（しし）京の賀茂川を埋むる程なのに、新邸の造営に余念がない。',
 '彼の豪奢の絶頂は、寛正六年三月の花頂山の花見宴であろう。咲き誇る桜の下で当時流行の連歌会を催し、義政自ら発句を作って、',
 '「咲き満ちて、花より外に色もなし」と詠じた。一代の享楽児の面目躍如たるものがある。併し義政は単に一介の風流人ではなく、相当頭のよい男であった。天下大乱の兆、漸（ようや）くきざし、山名細川両氏の軋轢（あつれき）甚しく、両氏は互いに義政を利用しようとして居る。ところが彼は巧みに両氏の間を泳いで不即不離の態度をとって居る。だから両軍から別に憎怨（ぞうおん）せられず、戦乱に超越して風流を楽んで居られたのである。政治的陰謀の激しい下剋上（げこくじょう）の当時に於て、暗殺されなかっただけでも相当なものだ。尤もそれだけに政治家としては、有っても無くてもよい存在であったのかも知れぬ。']


最後に**json**の読み込みです。webからの読み込みには多くの場合でhtmlタグが含まれるので除去を共通化しています。

In [18]:
cat wikipedia.json | jq . 

[1;39m{
  [0m[34;1m"batchcomplete"[0m[1;39m: [0m[0;32m""[0m[1;39m,
    [0m[34;1m"extracts"[0m[1;39m: [0m[1;39m{
      [0m[34;1m"*"[0m[1;39m: [0m[0;32m"HTML may be malformed and/or unbalanced and may omit inline images. Use at your own risk. Known problems are listed at https://www.mediawiki.org/wiki/Special:MyLanguage/Extension:TextExtracts#Caveats."[0m[1;39m
    [1;39m}[0m[1;39m
  [1;39m}[0m[1;39m,
  [0m[34;1m"query"[0m[1;39m: [0m[1;39m{
    [0m[34;1m"pages"[0m[1;39m: [0m[1;39m{
      [0m[34;1m"68"[0m[1;39m: [0m[1;39m{
        [0m[34;1m"pageid"[0m[1;39m: [0m[0;39m68[0m[1;39m,
        [0m[34;1m"ns"[0m[1;39m: [0m[0;39m0[0m[1;39m,
        [0m[34;1m"title"[0m[1;39m: [0m[0;32m"自然言語"[0m[1;39m,
        [0m[34;1m"extract"[0m[1;39m: [0m[0;32m"<p><b>自然言語</b>（しぜんげんご、英: <span lang=\"en\">natural language</span>）とは、言語学や論理学、計算機科学の専門用語で、「英語」・「中国語」・「日本語」といった「○○語」の総称。つまり普通の「言語」のこと。人間が意思疎通のために日常的に用いる言語であり、文化的背景を持っておのずから発展してきた言

In [21]:
sample_text_from_json = dataloader.load_json("wikipedia.json")
pprint(sample_text_from_json[:3])

"<p><b>自然言語</b>（しぜんげんご、英: <span lang=\"en\">natural language</span>）とは、言語学や論理学、計算機科学の専門用語で、「英語」・「中国語」・「日本語」といった「○○語」の総称。つまり普通の「言語」のこと。人間が意思疎通のために日常的に用いる言語であり、文化的背景を持っておのずから発展してきた言語。\n</p><p>対義語は「人工言語」「形式言語」、すなわちプログラミング言語や論理式など。\n</p>\n<h2><span id=\".E6.A6.82.E8.A6.81\"></span><span id=\"概要\">概要</span></h2>\n<p>人間がお互いにコミュニケーションを行うための自然発生的な言語である。形式言語との対比では、その構文や意味が明確に揺るぎなく定められ利用者に厳格な規則の遵守を強いる（ことが多い）形式言語に対し、話者集団の社会的文脈に沿った曖昧な規則が存在していると考えられるものが自然言語である。自然言語には、規則が曖昧であるがゆえに、話者による規則の解釈の自由度が残されており、話者が直面した状況に応じて規則の解釈を変化させることで、状況を共有する他の話者とのコミュニケーションを継続する事が可能となっている。\n</p><p>人間のコミュニケーションを目的として設計された形式言語、といったようなものも存在するが（ログランなど）あまり多くない。人工言語という分類は多義的であり、形式言語のことを指している場合もあれば、エスペラントなど「人為発生的な自然言語」といったほうが良い場合もある。\n</p><p>また、文法,単語の用法に曖昧さを含み、使用する単語,単語の順序を入れ替える等が可能であり、感情で文章を制御しやすいため、多様な情景表現が可能となっている。しかし、文法、単語の用法が曖昧であるため、「言語仕様」のように明確に固定することは難しい。各自然言語自体も他言語との統合が起きる事により変化し続けており、自然言語の文法その他あらゆる面が言語学によって研究が続けられている。また、統計的手法を利用する<span title=\"リンク先の項目はまだ不十分なため、加筆や他言語版からの追加翻訳が望まれます。\">計量言語学</span>や、情報処理の対象として自然言語を扱う自然言語

ここでのクラスで定義していませんが*table*, *excel*に対しては[Pandas](https://pandas.pydata.org/docs/)により簡単に読み込めるので役割を作っていません。

### 2. `morphological.py`への理解
ここでの処理は形態素を中心とした文章からトークンの作成を行います。手法としては、*mecab*, *janome*, *nagisa*を自動化します。  
入力には、以下の形式になります。汎用的に寄せた形となります。
```
  [["1行", "1行" ...],  -- 一文章で構成
   ["1行", "1行" ...],
   ["1行", "1行" ...]]
```

In [None]:
!apt update
!apt install libmecab-dev mecab mecab-ipadic-utf8 mecab-utils

In [None]:
%%bash
# NEologd 辞書をインストール

## 開始時刻を表示
date

## 古い辞書があれば削除
rm -rf mecab-ipadic-neologd

## 辞書のgit リポジトリをclone
git clone https://github.com/neologd/mecab-ipadic-neologd.git
ls

## 辞書をインストール
cd mecab-ipadic-neologd && bin/install-mecab-ipadic-neologd -n -a -y

## [issue](https://github.com/SamuraiT/mecab-python3#common-issues) への対応
pip install unidic-lite

pip install -q mecab-python3
rm -rf mecab-ipadic-neologd
pip install -q janome 
pip install nagisa 

## 修了時刻を表示
date

サンプルデータを使いたいのでデータの形式を変更しています。ここでの処理は必要ありません。  
以上から、実行までを行います。

In [25]:
sentence1, sentence2 = [], [] # 文章を疑似的に分割します
sentence = []
for i, text in enumerate(dataloader.load_html(html_url)[:20]):
  if i <= 10:
    sentence1.append(text)
  else:
    sentence2.append(text)
sentence.append(sentence1)
sentence.append(sentence2)
print(sentence)


[['菊池寛 応仁の乱', '応仁の乱', '菊池寛', '天下大乱の兆', '応仁の大乱は応仁元年より、文明九年まで続いた十一年間の事変である。戦争としては、何等目を驚かすものがあるわけでない。勇壮な場面や、華々しい情景には乏しい。活躍する人物にも英雄豪傑はいない。それが十一年もだらだらと続いた、緩慢な戦乱である。', '併しだらだらでも十一年続いたから、その影響は大きい。京都に起った此の争乱がやがて、地方に波及拡大し、日本国中が一つの軟体動物の蠕動（ぜんどう）運動の様に、動揺したのである。此の後に来（きた）るものが所謂（いわゆる）戦国時代だ。即ち実力主義が最も露骨に発揮された、活気横溢せる時代である。武士にとっては滅多に願ってもかなえられない得意の時代が来たのだ。心行くまで彼等に腕を振わせる大舞台が開展したのだ。その意味で序幕の応仁の乱も、意義があると云うべきである。', '応仁の乱の責任者として、古来最も指弾されて居るのは、将軍義政で、秕政（ひせい）と驕奢（きょうしゃ）が、その起因をなしたと云われる。', '義満の金閣寺に真似て、銀閣を東山に建てたが、費用が足りなくて銀が箔（は）れなかったなど、有名な話である。大体彼は建築道楽で、寛正（かんしょう）の大飢饉に際し、死屍（しし）京の賀茂川を埋むる程なのに、新邸の造営に余念がない。', '彼の豪奢の絶頂は、寛正六年三月の花頂山の花見宴であろう。咲き誇る桜の下で当時流行の連歌会を催し、義政自ら発句を作って、', '「咲き満ちて、花より外に色もなし」と詠じた。一代の享楽児の面目躍如たるものがある。併し義政は単に一介の風流人ではなく、相当頭のよい男であった。天下大乱の兆、漸（ようや）くきざし、山名細川両氏の軋轢（あつれき）甚しく、両氏は互いに義政を利用しようとして居る。ところが彼は巧みに両氏の間を泳いで不即不離の態度をとって居る。だから両軍から別に憎怨（ぞうおん）せられず、戦乱に超越して風流を楽んで居られたのである。政治的陰謀の激しい下剋上（げこくじょう）の当時に於て、暗殺されなかっただけでも相当なものだ。尤もそれだけに政治家としては、有っても無くてもよい存在であったのかも知れぬ。', '事実、将軍としての彼は、無能であったらしく、治蹟の見る可きものなく、寵嬖（ちょうへき）政治に堕して居る。併し何と云われても、信頼する事

In [38]:
from morphological import JpTokenizerJanome, JpTokenizerNagisa

tokenizer_janome = JpTokenizerJanome()
tokenizer_nagisa = JpTokenizerNagisa()

In [39]:
token_janome = tokenizer_janome.transform(sentence)
pprint(f"janome: {token_janome[0][:10]}")

token_nagisa = tokenizer_nagisa.transform(sentence)
pprint(f"nagisa: {token_nagisa[0][:10]}")

"janome: ['菊池', '寛', '応仁', '乱', '応仁', '乱', '菊池', '寛', '天下', '大乱']"
"nagisa: ['菊池', '寛', '\\u3000', '応仁', '乱', '応仁', '乱', '菊池', '寛', '天下']"


数行で実行できました。



---
### 3. `WordTransformToVector.py`への理解
ここからは作成したトークンから、ベクトルの変換を行っていきます。
単語単位でベクトル化するには代表的な手法として以下の２つを取り上げました。
+ **One-hot encoder**
+ **word2vec**  


他にも*fastText*, *ELMO*も有名ですがここでは取り上げていません。


In [41]:
from WordTransformToVector import OneHotEncoder_, Word2Vec_
import pandas as pd 

In [48]:
sample_token = tokenizer_janome.transform(sentence)

onehot = OneHotEncoder_()
onehot_vector = onehot.fit_transform(sample_token) # 形態素後の形式で渡す
category = onehot.category() # 学習されたボキャブラリー

df = pd.DataFrame(onehot_vector, columns=category).astype(int)
df.sample(7) # スパース表現

Unnamed: 0,(,),)、,)。,)」(『,あたら,あつ,あまつさえ,ある,あんた,い,いわゆる,いんか,うま,うれ,え,お,おん,かなえ,かんしょ,き,きもの,きょう,くき,くち,げ,こく,これ,ご,さ,さんぜん,ざし,し,しかして,しく,しゃ,しよ,すけ,する,せ,...,蹟,躍如,身辺,軋轢,軍,軟体動物,近世,迫っ,逃避,造営,連歌,運動,道楽,違い,遠から,部下,重臣,金閣寺,銀,銀閣,鎮圧,鐘,鑒,開,間,院,陰謀,雑,雑事,露骨,非常,面目,頂山,頭,頻発,願っ,風流,飢饉,驕奢,驚かす
421,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
124,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
517,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
88,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
245,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0
530,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
371,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [53]:
for i in range(1):
  vocab_text = onehot.inverse_transform(onehot_vector[i])
  print(vocab_text, onehot_vector[i])

['菊池'] [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0

形態素解析後の形式で学習します。

In [None]:
model = Word2Vec_()
model.fit(sample_token)

In [63]:
word, word_vector = model.transform_word("金閣寺") # 金閣寺ベクトル
print(word, word_vector)

print("-"*100)
similar_word = model.similar_by_vector(word_vector, topn=4) # コサイン類似度によるベクトルの取得
print("from vector")
print(similar_word)

similar_vector = model.similar_by_word(word[0], topn=4)
print("from word")
print(similar_vector)

['金閣寺'] [ 1.0754883e-03  9.2043006e-04 -1.2501357e-03 -3.8391345e-03
  2.5577752e-03  2.6046038e-03 -1.5338639e-03  3.3253478e-03
 -2.0590764e-03 -3.1306886e-03  1.6823123e-03  3.7537853e-03
 -1.9792411e-05 -2.3890934e-03  2.3350338e-05  1.1835764e-03
 -1.0267056e-03  4.2521133e-04  2.2842817e-03  2.6426243e-03
 -6.9568318e-04  1.4774076e-03 -3.0521111e-04 -2.0577062e-03
  5.8990123e-04 -1.9868887e-03 -1.2759594e-03  3.1393233e-03
  1.2983207e-03  3.4932201e-03  1.6512668e-03  1.8412912e-03
  1.5560047e-04 -7.2002725e-04 -1.1728181e-03 -7.8719348e-04
 -1.1664472e-03  9.2579715e-04  1.8489970e-03  1.3267810e-03
 -2.3393761e-03  3.0516861e-03  1.4185682e-03  3.0599311e-03
  3.0171128e-03  3.2746196e-03 -2.3217383e-03 -1.7931553e-03
 -8.8429090e-04 -1.3011908e-03 -2.8906981e-03 -1.1602493e-03
  8.8499300e-04  2.4915114e-03  3.1894329e-04 -3.1350285e-03
  2.5707338e-04  1.4599069e-03 -2.5173549e-03  2.0160899e-03
  1.1310075e-04  3.5170903e-03  2.6471636e-03  3.2626239e-03
 -1.9601818e-04 

ベクトルにノイズを加えることで疑似的なベクトルを作成します。  
`scale_rate`でノイズを調整します。大きいほど対照的な意味を持つベクトルになります。  
変換前とノイズ加算後でコサイン類似度を出力します。

In [64]:
model.augment_by_normal_noise(word[0], scale_rate=7.0) 

Cosine Similar: [[0.18476174]]
restored_word1: [('金閣寺', 1.0)]
restored_word1: [('あんた', 0.2086985558271408)]


array([-1.92191211e-03,  5.78359539e-03,  5.77838720e-03, -1.75193385e-02,
        1.24324095e-03, -3.32261243e-03,  1.17838227e-02,  1.26928037e-02,
       -1.67301215e-02,  8.68672577e-03, -1.76915833e-02,  2.86695810e-02,
        2.39182115e-02, -1.70055207e-02, -2.15745242e-02, -1.04453210e-02,
        2.92566979e-03,  3.77615859e-03, -1.57802905e-02,  1.39539016e-02,
        5.27500760e-04,  3.65108085e-02, -8.34531675e-04, -2.09375746e-03,
       -8.21993485e-03, -9.91186648e-03, -1.88008996e-02,  2.21835306e-03,
       -1.09106415e-02,  1.34938319e-02, -1.88658138e-02,  2.91904217e-02,
       -2.09003977e-02, -8.42359297e-03,  1.72978645e-02, -2.46340537e-02,
        1.84863269e-03,  4.18552036e-03, -2.90923337e-02,  2.43233506e-03,
        1.98833394e-02, -5.99311256e-03, -2.55947319e-02,  5.56797339e-03,
        7.89416372e-03,  1.40474613e-02, -6.25111248e-03, -2.04281048e-02,
        2.58470603e-03,  1.79687601e-02,  7.24835646e-03, -1.24577331e-03,
        2.30137355e-03,  

In [74]:
vec_all, names = [], []
for token in sample_token[0][:10]:
  name, vec = model.transform_word(token)
  vec_all.append(vec)
  names.append(name[0])


df = pd.DataFrame(vec_all, index=names)
df.iloc[:5, :10]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
菊池,-0.000114,-0.000826,0.001668,0.001158,0.002888,0.003229,0.0025,-0.003601,-0.00151,0.002526
寛,-0.003826,-0.001787,0.003844,-0.001685,-0.003392,-0.001872,0.001162,-0.002306,0.001273,-0.001352
応仁,0.000744,0.002804,-0.002049,0.002779,0.002608,-0.00373,-0.003718,-0.001284,0.001515,-0.003466
乱,0.000966,-0.003771,0.000952,-0.000396,-0.00238,-0.000242,0.001375,0.002086,0.002538,-0.001024
応仁,0.000744,0.002804,-0.002049,0.002779,0.002608,-0.00373,-0.003718,-0.001284,0.001515,-0.003466


### 4. `SeqTransformToVector.py`の理解
形態素解析のトークンから文章単位でベクトル化を行います。  
つまり、ある文章$j$を一つのベクトルで表すことができます。$j$番目のベクトルはトークンを複合した形になります.  
+ **Onehot**を合計する + **TF-IDF**
+ **doc2vec**

In [75]:
from SeqTransformToVector import CountVectorizer_, TfidfVectorizer_, Doc2Vec_

In [87]:
count = CountVectorizer_()
vec = count.fit_transform(sample_token)
col = count.vocabulary()
df = pd.DataFrame(vec).T
df.columns = ["document1", "document2"]
df["sentence"] = col 
df.set_index(["sentence"])[:5]

[]


Unnamed: 0_level_0,document1,document2
sentence,Unnamed: 1_level_1,Unnamed: 2_level_1
菊池,18,16
寛,18,14
応仁,0,1
乱,0,1
天下,0,1


単語の出現数、レア度を考慮。

In [89]:
tfidf = TfidfVectorizer_()
vec = tfidf.fit_transform(sample_token)
col = tfidf.vocabulary()
df = pd.DataFrame(vec).T
df.columns = ["document1", "document2"]
df["sentence"] = col 
df.set_index(["sentence"])[:5]

[]


Unnamed: 0_level_0,document1,document2
sentence,Unnamed: 1_level_1,Unnamed: 2_level_1
菊池,0.416429,0.478846
寛,0.416429,0.41899
応仁,0.0,0.042063
乱,0.0,0.042063
天下,0.0,0.042063


In [92]:
model = Doc2Vec_()
model.fit(sample_token)

collecting all words and their counts
PROGRESS: at example #0, processed 0 words (0/s), 0 word types, 0 tags
collected 434 word types and 4 unique tags from a corpus of 2 examples and 690 words
Loading a fresh vocabulary
effective_min_count=1 retains 434 unique words (100% of original 434, drops 0)
effective_min_count=1 leaves 690 word corpus (100% of original 690, drops 0)
deleting the raw counts dictionary of 434 items
sample=0.001 downsamples 79 most-common words
downsampling leaves estimated 533 word corpus (77.4% of prior 690)
estimated required memory for 434 words and 128 dimensions: 663864 bytes
resetting layer weights
training model with 3 workers on 434 vocabulary and 128 features, using sg=0 hs=0 sample=0.001 negative=5 window=5
worker thread finished; awaiting finish of 2 more threads
worker thread finished; awaiting finish of 1 more threads
worker thread finished; awaiting finish of 0 more threads
EPOCH - 1 : training on 690 raw words (540 effective words) took 0.0s, 67658

{'min_count': 1, 'seed': 888, 'vector_size': 128, 'window': 5, 'worker': 2}


training on a 3450 raw words (2697 effective words) took 0.1s, 37519 effective words/s
under 10 jobs per worker: consider setting a smaller `batch_words' for smoother alpha decay


Doc2Vec(dm/m,d128,n5,w5,s0.001,t3)


In [100]:
original = model.transform_sequence(sample_token[0]) # 1文章ベクトル
original

array([ 0.01616318, -0.01587567, -0.01056288, -0.00607437,  0.0015838 ,
       -0.01106674, -0.00290009, -0.01077205,  0.00440427,  0.00047479,
        0.00277381,  0.00431481, -0.01635395, -0.00178392, -0.00633888,
       -0.00143261,  0.00255995,  0.00692431,  0.0093954 ,  0.00625542,
        0.01754118, -0.0032147 , -0.00563844, -0.00636444,  0.01873167,
        0.00027449,  0.01388272, -0.00427669,  0.00539464,  0.00064231,
        0.01051454,  0.00532097,  0.00928723,  0.00198583, -0.01071727,
       -0.00450149, -0.01027502, -0.00110093,  0.00672815, -0.00882165,
       -0.0030893 ,  0.00214431,  0.00893028,  0.0120031 ,  0.0017827 ,
       -0.00627814, -0.00925335, -0.01102601,  0.02308089, -0.00121964,
        0.00712351,  0.00195475, -0.00689315,  0.01161343, -0.00066682,
       -0.00299436, -0.00872589,  0.00647259, -0.0081091 , -0.00169248,
       -0.00283338, -0.00687849,  0.01511728, -0.00911613,  0.00013759,
       -0.00020807, -0.00795727, -0.00430141, -0.01661504, -0.00

In [98]:
text = "私は機械学習が大好きです"
dummy = model.predict(text) # 未知の文章への予測補完の例
dummy

array([-2.8880509e-03, -1.5155841e-03,  9.2712184e-04,  2.6573094e-03,
        1.1504769e-03, -1.4343668e-03, -2.7596722e-03, -3.9052893e-03,
        3.4564515e-03,  6.6106237e-04, -2.0718444e-03, -3.4069410e-03,
       -2.7888454e-03,  3.0205001e-03, -2.6671134e-03, -2.8944644e-03,
       -3.2238625e-03,  1.5689279e-03, -2.3122204e-03, -4.6651781e-04,
        4.1614496e-04, -1.6039235e-03, -2.1761868e-03, -1.6252839e-03,
       -7.5196737e-04, -1.2084139e-03,  3.0172302e-03,  2.6982040e-03,
       -1.4516055e-03, -3.0113708e-03,  1.5549440e-04,  3.7610501e-03,
        2.4293624e-03, -1.5815161e-03,  1.0646931e-03, -3.8788784e-03,
       -2.1455646e-03, -5.7026889e-04,  2.0165250e-03, -3.2227810e-03,
        1.4413348e-03,  3.2083353e-03, -2.1225270e-03,  5.7905272e-04,
       -1.8472741e-03,  2.5094002e-03,  2.4078286e-03,  3.3747131e-06,
       -1.9170087e-03,  1.7497824e-04,  7.3612534e-04,  3.1240566e-03,
        2.2382941e-03, -6.8576954e-04, -3.3407023e-03, -1.1063823e-03,
      