<a href="https://colab.research.google.com/github/tomonari-masada/LSTM_sample/blob/master/02_elementary_Japanese_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 02 日本語のテキストデータの扱い方

* 日本語は、言語の性質上、文が空白によって単語へ分たれていない。
 * 同じように、文が空白によって単語へ分たれていない言語として、他にどのような言語があるか？
* そのため、まず最初に文を単語へ分割する必要がある。
* この作業を**形態素解析**と言う。
 * 長い文字列としての言語データを、単語のような細かい単位へ分割することを、一般にtokenizationと言う。
 * tokenizationの単位は、単語のように意味的なまとまりをもつ単位とは限らない。
 *cf. [SentencePiece](https://arxiv.org/pdf/1808.06226.pdf) ... [この解説](https://qiita.com/taku910/items/7e52f1e58d0ea6e7859c)も参照。
* ここでは、spaCyを介してsudachiというツールで形態素解析をおこなう。
 * 形態素解析システムとしては、他には、MeCabやJUMANが有名。

## 注
* "ContextualVersionConflict ..."というエラーが出たら、上部メニューの「ランタイム」から「ランタイムを再起動」をクリックして、ランタイムを再起動してみてください。

## 02-01 spaCyの準備

### spaCyを最新版にアップデートする。

In [1]:
! pip install -U spacy

Requirement already up-to-date: spacy in /usr/local/lib/python3.6/dist-packages (2.3.2)


### バージョンを確認する。

In [2]:
! python -m spacy validate

⠙ Loading compatibility table...⠹ Loading compatibility table...[2K[38;5;2m✔ Loaded compatibility table[0m
[1m
[38;5;4mℹ spaCy installation: /usr/local/lib/python3.6/dist-packages/spacy[0m

TYPE      NAME              MODEL             VERSION                            
package   ja-core-news-sm   ja_core_news_sm   [38;5;2m2.3.2[0m   [38;5;2m✔[0m
package   en-core-web-sm    en_core_web_sm    [38;5;2m2.3.1[0m   [38;5;2m✔[0m



### 英語の統計モデルもアップデートしておく。
* 今回は英語データは使わないが。

In [3]:
! python -m spacy download en_core_web_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')


In [4]:
! python -m spacy validate

⠙ Loading compatibility table...⠹ Loading compatibility table...[2K[38;5;2m✔ Loaded compatibility table[0m
[1m
[38;5;4mℹ spaCy installation: /usr/local/lib/python3.6/dist-packages/spacy[0m

TYPE      NAME              MODEL             VERSION                            
package   ja-core-news-sm   ja_core_news_sm   [38;5;2m2.3.2[0m   [38;5;2m✔[0m
package   en-core-web-sm    en_core_web_sm    [38;5;2m2.3.1[0m   [38;5;2m✔[0m



### spaCyの日本語の訓練済み統計モデルをダウンロードする
* 「sm」で終わるものは、小規模なモデル。
* 「md」で終わるものが、中規模のモデル。
* 「lg」で終わるものが、大規模なモデル。
* 詳細は、以下を参照。
 * https://explosion.ai/blog/spacy-v2-3
* ダウンロード時間短縮のため、ここでは小規模モデルを使う。

In [5]:
! python -m spacy download ja_core_news_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('ja_core_news_sm')


## 02-02 sudachiによる形態素解析を試してみる。
* spaCyの日本語統計モデルをインストールすると、自動的にsudachiがインストールされる。
* そこで、sudachipyコマンドを使って、コマンドラインで形態素解析を試してみる。

In [6]:
! echo "すもももももももものうち" | sudachipy

すもも	名詞,普通名詞,一般,*,*,*	李
も	助詞,係助詞,*,*,*,*	も
もも	名詞,普通名詞,一般,*,*,*	もも
も	助詞,係助詞,*,*,*,*	も
もも	名詞,普通名詞,一般,*,*,*	もも
の	助詞,格助詞,*,*,*,*	の
うち	名詞,普通名詞,副詞可能,*,*,*	内
EOS


## 02-03 spaCyによる日本語テキスト処理

### 日本語統計モデルのロード

In [7]:
from spacy.lang.ja import Japanese

# Load SudachiPy with split mode A (default)
nlp = Japanese()

# Load SudachiPy with split mode B
#cfg = {"split_mode": "B"}
#nlp = Japanese(meta={"tokenizer": {"config": cfg}})

### documentを作成

In [8]:
doc = nlp('これは、やっぱり相当冗長な日本語の文じゃないかなと思っていたのですが。')
print(doc.text)

これは、やっぱり相当冗長な日本語の文じゃないかなと思っていたのですが。


### spaCyからsudachiを利用した形態素解析の実行
* 分かち書きされた単語そのもの以外の、品詞などの情報も表示させている。
 * tagに「形容動詞」は無く、その語幹が「形状詞」とされている。
 * 「じゃない」の「ない」は、tagでは「形容詞」だが、posでは「AUX」である。

In [9]:
for token in doc:
  print(f'text:{token.text}, pos:{token.pos_}, tag:{token.tag_}, lemma:{token.lemma_}')

text:これ, pos:PRON, tag:代名詞, lemma:これ
text:は, pos:ADP, tag:助詞-係助詞, lemma:は
text:、, pos:PUNCT, tag:補助記号-読点, lemma:、
text:やっぱり, pos:ADV, tag:副詞, lemma:やっぱり
text:相当, pos:ADV, tag:副詞, lemma:相当
text:冗長, pos:ADJ, tag:形状詞-一般, lemma:冗長
text:な, pos:AUX, tag:助動詞, lemma:だ
text:日本, pos:PROPN, tag:名詞-固有名詞-地名-国, lemma:日本
text:語, pos:NOUN, tag:名詞-普通名詞-一般, lemma:語
text:の, pos:ADP, tag:助詞-格助詞, lemma:の
text:文, pos:NOUN, tag:名詞-普通名詞-一般, lemma:文
text:じゃ, pos:AUX, tag:助動詞, lemma:だ
text:ない, pos:AUX, tag:形容詞-非自立可能, lemma:ない
text:か, pos:PART, tag:助詞-終助詞, lemma:か
text:な, pos:PART, tag:助詞-終助詞, lemma:な
text:と, pos:ADP, tag:助詞-格助詞, lemma:と
text:思っ, pos:VERB, tag:動詞-一般, lemma:思う
text:て, pos:SCONJ, tag:助詞-接続助詞, lemma:て
text:い, pos:AUX, tag:動詞-非自立可能, lemma:いる
text:た, pos:AUX, tag:助動詞, lemma:た
text:の, pos:SCONJ, tag:助詞-準体助詞, lemma:の
text:です, pos:AUX, tag:助動詞, lemma:です
text:が, pos:SCONJ, tag:助詞-接続助詞, lemma:が
text:。, pos:PUNCT, tag:補助記号-句点, lemma:。


### 英語の場合（復習）

In [10]:
import spacy

nlp_en = spacy.load("en_core_web_sm")
doc = nlp_en("Apple is looking at buying U.K. startup for $1 billion")
print(doc.text)

Apple is looking at buying U.K. startup for $1 billion


In [11]:
for token in doc:
  print(f'text:{token.text}, pos:{token.pos_}, tag:{token.tag_}, lemma:{token.lemma_}')

text:Apple, pos:PROPN, tag:NNP, lemma:Apple
text:is, pos:AUX, tag:VBZ, lemma:be
text:looking, pos:VERB, tag:VBG, lemma:look
text:at, pos:ADP, tag:IN, lemma:at
text:buying, pos:VERB, tag:VBG, lemma:buy
text:U.K., pos:PROPN, tag:NNP, lemma:U.K.
text:startup, pos:NOUN, tag:NN, lemma:startup
text:for, pos:ADP, tag:IN, lemma:for
text:$, pos:SYM, tag:$, lemma:$
text:1, pos:NUM, tag:CD, lemma:1
text:billion, pos:NUM, tag:CD, lemma:billion


# 課題2: 文書のbag-of-words表現を得る

* （この課題は、宿題ではなく、いまここで作業しつつ解いてしまいます。）
* Wikipediaの複数のエントリを、lemmaを半角スペースでつないだ、長い文字列へ変換する。
 * ここでは、コンピュータ科学の様々な分野のエントリを題材として使う。
* scikit-learnのCountVectorizerやTfidfVectorizerを使って、各エントリにおける単語の出現頻度からなる特徴ベクトルを得る。
* **文書を、そこに現れる単語の出現頻度やTF-IDFを使ってベクトル表現している限り、単語の出現順序は無視されている。文書に現れる単語は、バッグに入った品物のように扱われており、各々の品物が何個入っているかだけが問題とされていて、出現順の情報は失われている。このように、文書を単語のmultisetとしてモデル化することを、bag-of-words modelingと呼ぶ。**
* 特徴ベクトルどうしの類似度を計算し、「人工知能」分野と最も似ている順に　３つの分野がどの分野かを求める。
 * 答えは自分の感覚でチェック。
 * 特徴ベクトルを作る時に単語の品詞を名詞に限定するなど、品詞の情報を使うことで結果を改善できるかどうかも、余裕があれば試行錯誤する。

## 課題の手順(1)

### Wikipediaのエントリをダウンロードして形態素解析を適用

* Wikipediaの「人工知能」エントリをダウンロードする。
 * https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD
* そして、そこに含まれる段落（__`<p>`__タグで囲まれた範囲）を列挙する。
* 各段落のテキストに形態素解析を適用する。
* 形態素解析で得られたlemmaを半角スペースでつないで、エントリ全体をひとつの長い文字列にする。
 * text、つまり、単語に分たれたそのままの文字列を半角スペースでつなぐのではない。
 * lemma（原型に戻したもの）を半角スペースでつなぐこと。
 * posやtagを見て、不要そうな単語を適当に削除してもよい。


In [12]:
# 「人工知能」エントリをダウンロードしてparserのインスタンスを作る。

from bs4 import BeautifulSoup
from urllib.request import urlopen

url = 'https://ja.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD'
html = urlopen(url) 
soup = BeautifulSoup(html, 'html.parser')

In [13]:
# 段落のテキストを取得する。

lines = list()
for para in soup.find_all('p'):
  lines.append(para.text)

In [14]:
lines

['人工知能（じんこうちのう、英: artificial intelligence、AI〈エーアイ〉）とは、「『計算（computation）』という概念と『コンピュータ（computer）』という道具を用いて『知能』を研究する計算機科学（computer science）の一分野」を指す語[1]。「言語の理解や推論、問題解決などの知的行動を人間に代わってコンピューターに行わせる技術」[2]、または、「計算機（コンピュータ）による知的な情報処理システムの設計や実現に関する研究分野」ともされる[3]。\n',
 '『日本大百科全書(ニッポニカ)』の解説で、情報工学者・通信工学者の佐藤理史は次のように述べている[1]。\n',
 '人間の知的能力をコンピュータ上で実現する、様々な技術・ソフトウェア・コンピュータシステム[4]。応用例は自然言語処理（機械翻訳・かな漢字変換・構文解析等）[5]、専門家の推論・判断を模倣するエキスパートシステム、画像データを解析して特定のパターンを検出・抽出したりする画像認識等がある[4]。1956年にダートマス会議でジョン・マッカーシーにより命名された。現在では、記号処理を用いた知能の記述を主体とする情報処理や研究でのアプローチという意味あいでも使われている。家庭用電気機械器具の制御システムやゲームソフトの思考ルーチンもこう呼ばれることもある。\n',
 'プログラミング言語 LISP による「ELIZA」というカウンセラーを模倣したプログラム（人工無脳）がしばしば引き合いに出されるが、計算機に人間の専門家の役割をさせようという「エキスパートシステム」と呼ばれる研究・情報処理システムの実現は、人間が暗黙に持つ常識の記述が問題となり、実用への利用が困難視されている。人工的な知能の実現へのアプローチとしては、「ファジィ理論」や「ニューラルネットワーク」などのようなアプローチも知られているが、従来の人工知能であるGOFAI (Good Old Fashioned AI) との差は記述の記号的明示性にある。その後「サポートベクターマシン」が注目を集めた。また、自らの経験を元に学習を行う強化学習という手法もある。「この宇宙において、知性とは最も強力な形質である（レイ・カーツワイル）」という言葉通り、知性を機械的に表現し実装するということは極めて重要な

In [15]:
# Sudachiで形態素解析し、分かち書き後のlemmaを取得する。

x_pos = ['SPACE', 'PUNCT', 'AUX', 'ADP', 'SYM', 'DET', 'SCONJ', 'PART']
tokens = list()
for line in lines[:10]:
  for token in nlp(line):
    pos = token.pos_
    if not pos in x_pos:
      print(f'text:{token.text}, pos:{token.pos_}, tag:{token.tag_}, lemma:{token.lemma_}')
      tokens.append(token.lemma_)

text:人工, pos:NOUN, tag:名詞-普通名詞-一般, lemma:人工
text:知能, pos:NOUN, tag:名詞-普通名詞-一般, lemma:知能
text:じん, pos:NOUN, tag:名詞-普通名詞-一般, lemma:じん
text:こうち, pos:NOUN, tag:名詞-普通名詞-形状詞可能, lemma:こうち
text:英, pos:NOUN, tag:名詞-普通名詞-一般, lemma:英
text:artificial intelligence, pos:PROPN, tag:名詞-固有名詞-一般, lemma:artificial intelligence
text:AI, pos:NOUN, tag:名詞-普通名詞-一般, lemma:AI
text:エーアイ, pos:PROPN, tag:名詞-固有名詞-一般, lemma:エーアイ
text:計算, pos:NOUN, tag:名詞-普通名詞-サ変可能, lemma:計算
text:computation, pos:NOUN, tag:名詞-普通名詞-一般, lemma:computation
text:いう, pos:VERB, tag:動詞-一般, lemma:いう
text:概念, pos:NOUN, tag:名詞-普通名詞-一般, lemma:概念
text:コンピュータ, pos:NOUN, tag:名詞-普通名詞-一般, lemma:コンピュータ
text:computer, pos:NOUN, tag:名詞-普通名詞-一般, lemma:Computer
text:いう, pos:VERB, tag:動詞-一般, lemma:いう
text:道具, pos:NOUN, tag:名詞-普通名詞-一般, lemma:道具
text:用い, pos:VERB, tag:動詞-一般, lemma:用いる
text:知能, pos:NOUN, tag:名詞-普通名詞-一般, lemma:知能
text:研究, pos:VERB, tag:名詞-普通名詞-サ変可能, lemma:研究
text:計算, pos:NOUN, tag:名詞-普通名詞-サ変可能, lemma:計算
text:機, pos:NOUN, tag:名詞-普通名詞-助数詞可能, le

In [16]:
# すべてのlemmaを半角スペースでつないで、長い文字列にする。

doc_AI = ' '.join(tokens)
print(doc_AI)

人工 知能 じん こうち 英 artificial intelligence AI エーアイ 計算 computation いう 概念 コンピュータ Computer いう 道具 用いる 知能 研究 計算 機 科学 computer science 一 分野 指す 語 1 言語 理解 推論 問題 解決 知的 行動 人間 代わる コンピューター 行う 技術 2 また 計算 機 コンピュータ よる 知的 情報 処理 システム 設計 実現 関する 研究 分野 する 3 日本 大 百科 全書 ニッポニカ 解説 情報 工学 者 通信 工学 者 佐藤 理史 次 よう 述べる 1 人間 知的 能力 コンピュータ 上 実現 様々 技術 ソフトウェア コンピュータ システム 4 応用 例 自然 言語 処理 機械 翻訳 かな 漢字 変換 構文 解析 等 5 専門 家 推論 判断 模倣 エキスパート システム 画像 データ 解析 特定 パターン 検出 抽出 画像 認識 等 ある 4 1956 年 ダートマス 会議 ジョン マッカーシー よる 命名 現在 記号 処理 用いる 知能 記述 主体 する 情報 処理 研究 アプローチ いう 意味 あい 使う 家庭 用 電気 機械 器具 制御 システム ゲーム ソフト 思考 ルーチン こう 呼ぶ こと ある プログラミング 言語 LISP よる ELIZA いう カウンセラー 模倣 プログラム 人工 無脳 しばしば 引き合い 出す 計算 機 人間 専門 家 役割 する いう エキスパート システム 呼ぶ 研究 情報 処理 システム 実現 人間 暗黙 持つ 常識 記述 問題 なる 実用 利用 困難 視 人工 知能 実現 アプローチ する ファジィ 理論 ニューラル ネットワーク よう アプローチ 知る 従来 人工 知能 gofai good Old fashioned AI 差 記述 記号 明示 性 ある 後 サポート ベクター マシン 注目 集める また 自ら 経験 元 学習 行う 強化 学習 いう 手法 ある 宇宙 おく 知性 最も 強力 形質 レイ カーツ ワイル いう 言葉 通り 知性 機械 表現 実装 いう こと 極めて 重要 作業 2006 年 ディープ ラーニング 深層 学習 登場 2010 年 代 以降 ビッグ データ 登場 よる 一

### sudachiの設定を変えて使ってみる
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P8-5.pdf

In [17]:
# Load SudachiPy with split mode C
cfg = {"split_mode": "C"}
nlp = Japanese(meta={"tokenizer": {"config": cfg}})

In [18]:
# Sudachiで形態素解析し、分かち書き後のlemmaを取得する。

x_pos = ['SPACE', 'PUNCT', 'AUX', 'ADP', 'SYM', 'DET', 'SCONJ', 'PART']
tokens = list()
for line in lines[:10]:
  for token in nlp(line):
    pos = token.pos_
    if pos not in x_pos:
      print(f'text:{token.text}, pos:{token.pos_}, tag:{token.tag_}, lemma:{token.lemma_}')
      tokens.append(token.lemma_)

text:人工知能, pos:NOUN, tag:名詞-普通名詞-一般, lemma:人工知能
text:じん, pos:NOUN, tag:名詞-普通名詞-一般, lemma:じん
text:こうち, pos:NOUN, tag:名詞-普通名詞-形状詞可能, lemma:こうち
text:英, pos:NOUN, tag:名詞-普通名詞-一般, lemma:英
text:artificial intelligence, pos:PROPN, tag:名詞-固有名詞-一般, lemma:artificial intelligence
text:AI, pos:NOUN, tag:名詞-普通名詞-一般, lemma:AI
text:エーアイ, pos:PROPN, tag:名詞-固有名詞-一般, lemma:エーアイ
text:計算, pos:NOUN, tag:名詞-普通名詞-サ変可能, lemma:計算
text:computation, pos:NOUN, tag:名詞-普通名詞-一般, lemma:computation
text:いう, pos:VERB, tag:動詞-一般, lemma:いう
text:概念, pos:NOUN, tag:名詞-普通名詞-一般, lemma:概念
text:コンピュータ, pos:NOUN, tag:名詞-普通名詞-一般, lemma:コンピュータ
text:computer, pos:NOUN, tag:名詞-普通名詞-一般, lemma:Computer
text:いう, pos:VERB, tag:動詞-一般, lemma:いう
text:道具, pos:NOUN, tag:名詞-普通名詞-一般, lemma:道具
text:用い, pos:VERB, tag:動詞-一般, lemma:用いる
text:知能, pos:NOUN, tag:名詞-普通名詞-一般, lemma:知能
text:研究, pos:VERB, tag:名詞-普通名詞-サ変可能, lemma:研究
text:計算機科学, pos:NOUN, tag:名詞-普通名詞-一般, lemma:計算機科学
text:computer science, pos:PROPN, tag:名詞-固有名詞-一般, lemma:computer science
te

In [19]:
# すべてのlemmaを半角スペースでつないで、長い文字列にする。

doc_AI = ' '.join(tokens)
print(doc_AI)

人工知能 じん こうち 英 artificial intelligence AI エーアイ 計算 computation いう 概念 コンピュータ Computer いう 道具 用いる 知能 研究 計算機科学 computer science 一 分野 指す 語 1 言語 理解 推論 問題解決 知的 行動 人間 代わる コンピューター 行う 技術 2 また 計算機 コンピュータ よる 知的 情報処理 システム 設計 実現 関する 研究 分野 する 3 日本 大 百科全書 ニッポニカ 解説 情報 工学者 通信 工学者 佐藤 理史 次 よう 述べる 1 人間 知的 能力 コンピュータ 上 実現 様々 技術 ソフトウェア コンピュータシステム 4 応用 例 自然 言語 処理 機械 翻訳 かな 漢字 変換 構文 解析 等 5 専門家 推論 判断 模倣 エキスパートシステム 画像データ 解析 特定 パターン 検出 抽出 画像 認識 等 ある 4 1956 年 ダートマス 会議 ジョン マッカーシー よる 命名 現在 記号 処理 用いる 知能 記述 主体 する 情報処理 研究 アプローチ いう 意味あい 使う 家庭用電気機械器具 制御 システム ゲームソフト 思考 ルーチン こう 呼ぶ こと ある プログラミング 言語 LISP よる ELIZA いう カウンセラー 模倣 プログラム 人工 無脳 しばしば 引き合い 出す 計算機 人間 専門家 役割 する いう エキスパートシステム 呼ぶ 研究 情報処理 システム 実現 人間 暗黙 持つ 常識 記述 問題 なる 実用 利用 困難 視 人工的 知能 実現 アプローチ する ファジィ 理論 ニューラル ネットワーク よう アプローチ 知る 従来 人工知能 gofai good Old fashioned AI 差 記述 記号 明示 性 ある その後 サポート ベクター マシン 注目 集める また 自ら 経験 元 学習 行う 強化 学習 いう 手法 ある 宇宙 おく 知性 最も 強力 形質 レイ カーツ ワイル いう 言葉 通り 知性 機械的 表現 実装 いう こと 極めて 重要 作業 2006 年 ディープラーニング 深層学習 登場 2010 年 代 以降 ビッグデータ 登場 よる 一過性 流行 超える 社会 浸透 2016 年 2

### 上記の操作をまとめておこなう関数を定義しておく。
* 後で、各エントリについて、この関数を呼び出す。

In [20]:
def morph(soup, nlp):

  lines = list()
  for para in soup.find_all('p'):
    lines.append(para.text)

  x_pos = ['SPACE', 'PUNCT', 'AUX', 'ADP', 'SYM', 'DET', 'SCONJ', 'PART']
  tokens = list()
  for line in lines:
    for token in nlp(line):
      pos = token.pos_
      if pos not in x_pos:
        tokens.append(token.lemma_)

  return ' '.join(tokens)

## 課題の手順(2)

### 「コンピュータ科学」の様々な分野に関するWikipediaエントリについて上記の作業を実行
*  「人工知能」エントリの下部にある「コンピュータ科学」の分野一覧から、aタグのhref属性にあるURLを抜き出す。
* ただし、__`/wiki/`__という文字列で始まっているURLであり、かつ、テンプレートの状態でないものだけを抜き出す。
 * Wikipediaのクローリングについてもっと詳しく知りたい場合は、下記のページ等を参照されたい。
   * https://medium.com/@robinlphood/tutorial-a-simple-crawler-for-wikipedia-d7b6f6f55d5

In [21]:
# 「人工知能」エントリの下部にある「コンピュータ科学」の分野一覧から、aタグのhref属性にあるURLを抜き出す。

target_str = '表話編歴コンピュータ科学'
prefix = '/wiki/'

urls = dict()
for table in soup.find_all('table'):
  if table.text[:len(target_str)] != target_str: continue
  for td in table.find_all('td'):
    for a in td.find_all('a'):
      if not a.text: continue
      try:
        if a.text.find('英語版') == -1:
          href = a['href']
          if href[:len(prefix)] == prefix and href.find('/Template:') == -1 and href.find('/Category:') == -1:
            urls[a.text] = 'https://ja.wikipedia.org' + href
      except:
        continue

for k in urls:
  print(k, urls[k])

コンピュータ科学 https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF%E7%A7%91%E5%AD%A6
ハードウェア https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%BC%E3%83%89%E3%82%A6%E3%82%A7%E3%82%A2
プリント基板 https://ja.wikipedia.org/wiki/%E3%83%97%E3%83%AA%E3%83%B3%E3%83%88%E5%9F%BA%E6%9D%BF
周辺機器 https://ja.wikipedia.org/wiki/%E5%91%A8%E8%BE%BA%E6%A9%9F%E5%99%A8
集積回路 https://ja.wikipedia.org/wiki/%E9%9B%86%E7%A9%8D%E5%9B%9E%E8%B7%AF
Systems on Chip (SoCs) https://ja.wikipedia.org/wiki/System-on-a-chip
エネルギー消費 (グリーン・コンピューティング) https://ja.wikipedia.org/wiki/%E3%82%B0%E3%83%AA%E3%83%BC%E3%83%B3IT
EDA https://ja.wikipedia.org/wiki/EDA
ハードウェアアクセラレーション https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%BC%E3%83%89%E3%82%A6%E3%82%A7%E3%82%A2%E3%82%A2%E3%82%AF%E3%82%BB%E3%83%A9%E3%83%AC%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3
コンピュータ・アーキテクチャ https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%B3%E3%83%94%E3%83%A5%E3%83%BC%E3%82%BF%E3%83%BB%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3
組み込み

In [22]:
# 各エントリをダウンロードしてparserのインスタンスを作り、辞書として保存。

soups = dict()
for k in urls:
  html = urlopen(urls[k]) 
  soups[k] = BeautifulSoup(html, 'html.parser')

In [23]:
# 先ほど定義した関数morph()を使って各エントリを形態素解析し、lemmaが半角スペースで区切られた文字列へ変換する。

genre = list()
corpus = list()
for k in soups:
  genre.append(k)
  doc = morph(soups[k], nlp)
  corpus.append(doc)

In [24]:
# 再利用するために、csvファイルとして保存しておく。

import pandas as pd

genre.append('人工知能')
corpus.append(doc_AI)

df = pd.DataFrame(list(zip(genre, corpus)), columns=['genre', 'text'])
print(df.head())
df.to_csv('cs_corpus.csv')

      genre                                               text
0  コンピュータ科学  計算機科学 けい さん かがく 英 computer science コンピュータ 科学 情...
1    ハードウェア  ハードウェア 英語 hardware システム 物理的 構成要素 指す 一般 用語 日本語 ...
2    プリント基板  プリント基板 プリント きばる 短縮 形 pwb PCB 基板 一種 以下 ふた つ まとめ...
3      周辺機器  周辺 機器 しゅうへん きく また ペリフェラル 英 peripheral コンピュータ ゲ...
4      集積回路  集積回路 しゅう せき かいろ 英 integrated circuit IC 半導体 表面...


## 課題の手順(3)

### scikit-learnのCountVectorizerで単語の出現頻度を要素とするベクトルを作成
* これにより、各文書のベクトル表現が得られる。
* 興味のある対象のベクトル表現を得ることは、その対象を機械学習アルゴリズムの入力データとして使うための第一歩。

In [25]:
# 先ほど作成したcsvファイルを読んで、textカラムをCountVectorizerのインスタンスでベクトル化する。
# ベクトルの要素は、各Wikipediaエントリにおける、各単語の出現回数になる。

from sklearn.feature_extraction.text import CountVectorizer

df = pd.read_csv('cs_corpus.csv')

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['text'])

In [26]:
# CountVectorizerで得られるのはsparse matrixである。
print(X)

  (0, 9384)	16
  (0, 2436)	1
  (0, 2474)	1
  (0, 2396)	1
  (0, 662)	7
  (0, 1897)	5
  (0, 3427)	14
  (0, 8680)	12
  (0, 7165)	4
  (0, 9378)	25
  (0, 8413)	1
  (0, 6472)	1
  (0, 6131)	1
  (0, 6756)	1
  (0, 7126)	4
  (0, 9987)	1
  (0, 8631)	4
  (0, 5862)	12
  (0, 7922)	2
  (0, 2341)	12
  (0, 3428)	2
  (0, 2753)	4
  (0, 5975)	1
  (0, 10160)	5
  (0, 8412)	6
  :	:
  (122, 8609)	2
  (122, 7061)	1
  (122, 3204)	1
  (122, 5034)	1
  (122, 5128)	1
  (122, 6383)	1
  (122, 7863)	1
  (122, 4606)	1
  (122, 8638)	1
  (122, 10241)	1
  (122, 2056)	1
  (122, 2054)	1
  (122, 1680)	1
  (122, 7729)	1
  (122, 610)	1
  (122, 3375)	1
  (122, 3037)	1
  (122, 826)	1
  (122, 628)	1
  (122, 1861)	1
  (122, 8124)	1
  (122, 2560)	1
  (122, 7999)	1
  (122, 699)	1
  (122, 3577)	1


In [27]:
# sparse matrixから、通常のNumPyの配列へ変換する。
X = X.toarray()
print('文書数:{}; 語彙サイズ：{}'.format(*X.shape))

文書数:123; 語彙サイズ：10248


In [28]:
# CountVectorizerによって作られた語彙を取得する。
vocab = vectorizer.get_feature_names()
print(vocab)

['00', '000', '001', '00802', '01', '0160', '0161', '0625', '07', '096', '10', '100', '1000', '1000万', '1000億', '100万', '101', '1010', '1012', '102', '103', '104', '105', '1050億', '106', '107', '108', '1080', '109', '10万', '11', '110', '111', '112', '113', '114', '115', '115億', '116', '117', '118', '119', '12', '120', '1200', '121', '12207', '12345', '13', '130', '138', '13兆1774億', '14', '140', '1401', '143', '15', '150億', '15504', '1565927247', '158', '15846', '16', '16000', '1620', '1623', '1662', '168', '17', '1700', '1715', '1741', '1742', '1748', '1749', '178', '1790', '18', '180', '1830', '1835', '1854', '1860', '1869', '1871', '1874', '1875', '1890', '19', '1901', '1902', '1906', '1908', '1909', '19100', '19123', '1919', '1920', '1922', '1924', '1928', '1930', '1933', '1935', '1936', '1939', '1940', '1941', '1942', '1944', '1945', '1947', '1948', '1949', '1950', '1951', '1952', '1954', '1955', '1956', '1957', '1958', '1959', '1960', '1961', '1962', '1963', '1964', '1965', '1966'

In [29]:
# コーパス全体での出現頻度順で上位20単語を見てみる。

import numpy as np

vocab = np.array(vocab)
print(vocab[np.argsort(- X.sum(axis=0))][:20])

['こと' 'ある' 'する' 'よる' 'いう' 'なる' 'もの' '言語' 'ため' 'コンピュータ' 'ソフトウェア' 'システム'
 '問題' '使う' '場合' '計算' 'ない' 'それ' 'データ' 'これ']


In [30]:
# 「人工知能」エントリと他のエントリとの距離を求める。

from scipy.spatial import distance

genre = df['genre'].values.tolist()
index_AI = genre.index('人工知能')
print(f'「{genre[index_AI]}」と「{genre[10]}」との間での・・・')
print(f'ユークリッド距離: {np.linalg.norm(X[0] - X[index_AI])}')
print(f'内積: {np.dot(X[0], X[index_AI])}')
print(f'コサイン類似度: {distance.cosine(X[0], X[index_AI])}')

「人工知能」と「組み込みシステム」との間での・・・
ユークリッド距離: 57.28001396647874
内積: 950
コサイン類似度: 0.5446631868396676


### ここから各自作業。
* 「人工知能」と、Wikipediaのエントリの類似度の上で、最も近いジャンルは、どれ？
* ユークリッド距離とコサイン類似度のうち、どちらを類似度として使った場合の答えが、より納得できる答えになっているか？

In [31]:
genre

['コンピュータ科学',
 'ハードウェア',
 'プリント基板',
 '周辺機器',
 '集積回路',
 'Systems on Chip (SoCs)',
 'エネルギー消費 (グリーン・コンピューティング)',
 'EDA',
 'ハードウェアアクセラレーション',
 'コンピュータ・アーキテクチャ',
 '組み込みシステム',
 'リアルタイムシステム',
 'ディペンダビリティ',
 'ネットワーク',
 '通信プロトコル',
 'インタプリタ',
 'ミドルウェア',
 '仮想マシン',
 'オペレーティングシステム',
 'ソフトウェア品質',
 'ツール',
 'プログラミングパラダイム',
 'プログラミング言語',
 'コンパイラ',
 'ドメイン固有言語',
 'モデリング言語',
 'ソフトウェアフレームワーク',
 '統合開発環境',
 'ソフトウェア構成管理',
 'ソフトウェアライブラリ',
 'ソフトウェアリポジトリ',
 'ソフトウェア開発',
 'ソフトウェア開発プロセス',
 '要求分析',
 'ソフトウェア設計',
 'ソフトウェアデプロイメント',
 'ソフトウェアメンテナンス',
 'オープンソースモデル',
 '計算理論',
 '計算モデル',
 '形式言語',
 'オートマトン理論',
 '計算可能性理論',
 '計算複雑性理論',
 '意味論',
 'アルゴリズム',
 'アルゴリズム解析',
 '乱択アルゴリズム',
 '計算幾何学',
 '離散数学',
 '確率',
 '統計学',
 '数学ソフトウェア',
 '情報理論',
 '解析学',
 '数値解析',
 '情報システム',
 'データベース管理システム',
 '情報ストレージシステム',
 '企業情報システム',
 '地理情報システム',
 '意思決定支援システム',
 'プロセス制御システム',
 'データマイニング',
 '電子図書館',
 'コンピューティング・プラットフォーム',
 'デジタルマーケティング',
 'World Wide Web',
 '情報検索',
 'セキュリティ',
 '暗号理論',
 '形式手法',
 '侵入検知システム',
 'ネットワーク・セキュリティ',
 '情報セキュリティ',
 'ヒューマンコンピュータインタラクシ