<a href="https://colab.research.google.com/github/komorimasashi/bunka-hakaru/blob/main/py_morphological_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PythonとJanomeで自然言語処理をやってみよう

## 形態素解析

###Janomeのインストール

Google Colaboratoryでは最初に「!」を入力することでコマンドを実行できます

まずはpip listでインストールされているライブラリを調べてみましょう

In [None]:
!pip list

Package                       Version
----------------------------- ----------------------
absl-py                       1.3.0
aeppl                         0.0.33
aesara                        2.7.9
aiohttp                       3.8.3
aiosignal                     1.3.1
alabaster                     0.7.12
albumentations                1.2.1
altair                        4.2.0
appdirs                       1.4.4
arviz                         0.12.1
astor                         0.8.1
astropy                       4.3.1
astunparse                    1.6.3
async-timeout                 4.0.2
atari-py                      0.2.9
atomicwrites                  1.4.1
attrs                         22.1.0
audioread                     3.0.0
autograd                      1.5
Babel                         2.11.0
backcall                      0.2.0
beautifulsoup4                4.6.3
bleach                        5.0.1
blis                          0.7.9
bokeh                         2.3.3
branca

次にpipコマンドでjanomeライブラリをインストールします．

Janome (蛇の目; ◉) は，Pure Python で書かれた，辞書内包の形態素解析器です．

Janome公式ページ：https://mocobeta.github.io/janome/

In [None]:
!pip install janome

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting janome
  Downloading Janome-0.4.2-py2.py3-none-any.whl (19.7 MB)
[K     |████████████████████████████████| 19.7 MB 22.0 MB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.4.2


###Janomeの実行

インタプリタでjanomeをインポートするとjanomeの機能が使えるようになります.

ここではjanomeの機能の中からTokenizer（形態素解析）の機能を使えるようにします．

In [None]:
from janome.tokenizer import Tokenizer

`Tokenizer`のインスタンスtを作成します．


In [None]:
t = Tokenizer()

形態素解析を実行し結果を`tokens`に代入します．

tokensの中には表層形や品詞などの情報が含まれています．詳しくは下のリファレンスを見てください．

https://mocobeta.github.io/janome/api/janome.html#janome.tokenizer.Token

In [None]:
tokens = t.tokenize('pythonで形態素解析をしてみよう')

`tokens`の中身を見てみましょう．

In [None]:
tokens = t.tokenize('pythonで形態素解析をしてみよう')
for token in tokens:
    print(token)

python	名詞,一般,*,*,*,*,python,*,*
で	助詞,格助詞,一般,*,*,*,で,デ,デ
形態素	名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析	名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
みよ	動詞,非自立,*,*,一段,未然ウ接続,みる,ミヨ,ミヨ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ


個別に要素を取り出すこともできます．

例えば、表層形（surface）と基本形（base_form）と品詞（part_of_speech）を出力してみます

In [None]:
tokens = t.tokenize('わたしが訓練教官のハートマン先任軍曹である。話しかけられたとき以外は口を開くな。口でクソたれる前と後に「サー」と言え。分かったか？ウジ虫ども！')
for token in tokens:
    print(token.surface + " | " + token.base_form + " | " + token.part_of_speech)

わたし | わたし | 名詞,代名詞,一般,*
が | が | 助詞,格助詞,一般,*
訓練 | 訓練 | 名詞,サ変接続,*,*
教官 | 教官 | 名詞,一般,*,*
の | の | 助詞,連体化,*,*
ハート | ハート | 名詞,一般,*,*
マン | マン | 名詞,固有名詞,地域,一般
先任 | 先任 | 名詞,一般,*,*
軍曹 | 軍曹 | 名詞,一般,*,*
で | だ | 助動詞,*,*,*
ある | ある | 助動詞,*,*,*
。 | 。 | 記号,句点,*,*
話しかけ | 話しかける | 動詞,自立,*,*
られ | られる | 動詞,接尾,*,*
た | た | 助動詞,*,*,*
とき | とき | 名詞,非自立,副詞可能,*
以外 | 以外 | 名詞,非自立,副詞可能,*
は | は | 助詞,係助詞,*,*
口 | 口 | 名詞,一般,*,*
を | を | 助詞,格助詞,一般,*
開く | 開く | 動詞,自立,*,*
な | な | 助詞,終助詞,*,*
。 | 。 | 記号,句点,*,*
口 | 口 | 名詞,一般,*,*
で | で | 助詞,格助詞,一般,*
クソ | クソ | 接頭詞,形容詞接続,*,*
たれる | たれる | 動詞,自立,*,*
前 | 前 | 名詞,副詞可能,*,*
と | と | 助詞,並立助詞,*,*
後 | 後 | 名詞,接尾,副詞可能,*
に | に | 助詞,格助詞,一般,*
「 | 「 | 記号,括弧開,*,*
サー | サー | 名詞,固有名詞,人名,一般
」 | 」 | 記号,括弧閉,*,*
と | と | 助詞,格助詞,引用,*
言え | 言える | 動詞,自立,*,*
。 | 。 | 記号,句点,*,*
分かっ | 分かる | 動詞,自立,*,*
た | た | 助動詞,*,*,*
か | か | 助詞,副助詞／並立助詞／終助詞,*,*
？ | ？ | 記号,一般,*,*
ウジ | ウジ | 名詞,一般,*,*
虫 | 虫 | 名詞,接尾,一般,*
ども | ども | 名詞,接尾,一般,*
！ | ！ | 記号,一般,*,*


In [None]:
tokens = t.tokenize('浪速の東淀川に茂れる若きわれら葦おお大阪電気通信大学今日電子の探求に究めん道の誇りは高し誇りは高しおお大阪電気通信大学')
for token in tokens:
    print(token)

浪速	名詞,固有名詞,地域,一般,*,*,浪速,ナニワ,ナニワ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
東淀川	名詞,固有名詞,地域,一般,*,*,東淀川,ヒガシヨドガワ,ヒガシヨドガワ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
茂れ	動詞,自立,*,*,五段・ラ行,仮定形,茂る,シゲレ,シゲレ
る	助動詞,*,*,*,文語・リ,体言接続,り,ル,ル
若き	形容詞,自立,*,*,形容詞・アウオ段,体言接続,若い,ワカキ,ワカキ
われ	名詞,代名詞,一般,*,*,*,われ,ワレ,ワレ
ら	名詞,接尾,一般,*,*,*,ら,ラ,ラ
葦	名詞,一般,*,*,*,*,葦,アシ,アシ
おお	感動詞,*,*,*,*,*,おお,オオ,オー
大阪電気通信大学	名詞,固有名詞,組織,*,*,*,大阪電気通信大学,オオサカデンキツウシンダイガク,オーサカデンキツーシンダイガク
今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
電子	名詞,一般,*,*,*,*,電子,デンシ,デンシ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
探求	名詞,サ変接続,*,*,*,*,探求,タンキュウ,タンキュー
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
究めん	動詞,自立,*,*,一段,体言接続特殊,究める,キワメン,キワメン
道	名詞,一般,*,*,*,*,道,ミチ,ミチ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
誇り	名詞,一般,*,*,*,*,誇り,ホコリ,ホコリ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
高し	形容詞,自立,*,*,形容詞・アウオ段,文語基本形,高い,タカシ,タカシ
誇り	名詞,一般,*,*,*,*,誇り,ホコリ,ホコリ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
高し	形容詞,自立,*,*,形容詞・アウオ段,文語基本形,高い,タカシ,タカシ
おお	感動詞,*,*,*,*,*,おお,オオ,オー
大阪電気通信大学	名詞,固有名詞,組織,*,*,*,大阪電気通信大学,オオサカデンキツウシンダイガク,オーサカデンキツーシンダイガク


### 課題


あなたが一番好きな漫画やアニメのセリフを形態素解析した結果を提出してください．

（例えば下のような出力結果を提出してください）
```
そんな	連体詞,*,*,*,*,*,そんな,ソンナ,ソンナ
こと	名詞,非自立,一般,*,*,*,こと,コト,コト
で	助詞,格助詞,一般,*,*,*,で,デ,デ
俺	名詞,代名詞,一般,*,*,*,俺,オレ,オレ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
情熱	名詞,一般,*,*,*,*,情熱,ジョウネツ,ジョーネツ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
無くなら	動詞,自立,*,*,五段・ラ行,未然形,無くなる,ナクナラ,ナクナラ
ない	助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
。	記号,句点,*,*,*,*,。,。,。
心	名詞,一般,*,*,*,*,心,ココロ,ココロ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
炎	名詞,一般,*,*,*,*,炎,ホノオ,ホノオ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
消える	動詞,自立,*,*,一段,基本形,消える,キエル,キエル
こと	名詞,非自立,一般,*,*,*,こと,コト,コト
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
ない	助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
。	記号,句点,*,*,*,*,。,。,。
俺	名詞,代名詞,一般,*,*,*,俺,オレ,オレ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
決して	副詞,一般,*,*,*,*,決して,ケッシテ,ケッシテ
挫け	動詞,自立,*,*,一段,未然形,挫ける,クジケ,クジケ
ない	助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ
。	記号,句点,*,*,*,*,。,。,。
```



In [None]:
#例
tokens = t.tokenize('人様の前で演奏できるように毎日６時間練習を続けた結果、いつの間にか中学終わってた！')
for token in tokens:
    print(token)

人様	名詞,一般,*,*,*,*,人様,ヒトサマ,ヒトサマ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
前	名詞,副詞可能,*,*,*,*,前,マエ,マエ
で	助詞,格助詞,一般,*,*,*,で,デ,デ
演奏	名詞,サ変接続,*,*,*,*,演奏,エンソウ,エンソー
できる	動詞,自立,*,*,一段,基本形,できる,デキル,デキル
よう	名詞,非自立,助動詞語幹,*,*,*,よう,ヨウ,ヨー
に	助詞,副詞化,*,*,*,*,に,ニ,ニ
毎日	名詞,副詞可能,*,*,*,*,毎日,マイニチ,マイニチ
６	名詞,数,*,*,*,*,６,ロク,ロク
時間	名詞,接尾,助数詞,*,*,*,時間,ジカン,ジカン
練習	名詞,サ変接続,*,*,*,*,練習,レンシュウ,レンシュー
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
続け	動詞,自立,*,*,一段,連用形,続ける,ツヅケ,ツズケ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
結果	名詞,副詞可能,*,*,*,*,結果,ケッカ,ケッカ
、	記号,読点,*,*,*,*,、,、,、
いつの間にか	副詞,一般,*,*,*,*,いつの間にか,イツノマニカ,イツノマニカ
中学	名詞,一般,*,*,*,*,中学,チュウガク,チューガク
終わっ	動詞,自立,*,*,五段・ラ行,連用タ接続,終わる,オワッ,オワッ
て	動詞,非自立,*,*,一段,連用形,てる,テ,テ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
！	記号,一般,*,*,*,*,！,！,！


## N-gramもやってみます

In [None]:
!pip install ngram

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import ngram

まずはバイグラム（bi-gram: 2つの文字の組み合わせ）を作成する

In [None]:
index = ngram.NGram(N=2)
ngrams = index.ngrams(index.pad('そんなことで俺の情熱は無くならない。心の炎が消えることはない。俺は決して挫けない。'))

In [None]:
for term in ngrams:
    print(term)

$そ
そん
んな
なこ
こと
とで
で俺
俺の
の情
情熱
熱は
は無
無く
くな
なら
らな
ない
い。
。心
心の
の炎
炎が
が消
消え
える
るこ
こと
とは
はな
ない
い。
。俺
俺は
は決
決し
して
て挫
挫け
けな
ない
い。
。$


In [None]:
index = ngram.NGram(N=3)
ngrams = index.ngrams(index.pad('そんなことで俺の情熱は無くならない。心の炎が消えることはない。俺は決して挫けない。'))
for term in ngrams:
    print(term)

$$そ
$そん
そんな
んなこ
なこと
ことで
とで俺
で俺の
俺の情
の情熱
情熱は
熱は無
は無く
無くな
くなら
ならな
らない
ない。
い。心
。心の
心の炎
の炎が
炎が消
が消え
消える
えるこ
ること
ことは
とはな
はない
ない。
い。俺
。俺は
俺は決
は決し
決して
して挫
て挫け
挫けな
けない
ない。
い。$
。$$


## 文書をベクトル化し類似度を評価する

In [None]:
# ライブラリのインポート
# 機械学習用ライブラリsklearnから文書ベクトル化の機能をインポートしている
import pandas as pd
import numpy as np
from janome.tokenizer import Tokenizer
from sklearn.feature_extraction.text import CountVectorizer  #　文書内の単語をカウントする関数
from sklearn.feature_extraction.text import TfidfVectorizer  #　文書内の単語のtf-idfを求める関数
from sklearn.metrics.pairwise import cosine_similarity  #　コサイン類似度を求める関数

とりあえず文書を３つ作成し，リストに入れる．「俺」という名詞が１文目と３文目に出てきていることに注目しよう．

In [None]:
docs = ['そんなことで俺の情熱は無くならない',
          '質問を質問で返すなあーっ',
          '俺はまだ本気出してない']

各文書から名詞だけ取り出してスペース区切りで入れたリストを作成する

In [None]:
# 名詞だけを入れるリストcorpusを作成する
corpus=[]
# 文書ごとに形態素解析をして名詞を取り出しcorpusに入れていく
for item in docs:
  t = Tokenizer()
  tokens = t.tokenize(item)
  word = ""
  for token in tokens:
      part_of_speech = token.part_of_speech.split(",")[0]
      if part_of_speech == "名詞":
            word +=token.surface + " "
  corpus.append(word)

# 名詞だけ取り出したリストができる
print(corpus)

['こと 俺 情熱 ', '質問 質問 ', '俺 本気 ']


文書ごとに各単語の出現数をカウントし，それをもとにコサイン類似度を求める

In [None]:
# モデルの生成
vectorizer = CountVectorizer(token_pattern=u'(?u)\\b\\w+\\b')
# カウントしてarrayに入れる
values = vectorizer.fit_transform(corpus).toarray()
#  Pandasの機能を用いて見やすく表示する
display(pd.DataFrame(values, columns=vectorizer.get_feature_names(), index=corpus))
# コサイン類似度を求める
display(pd.DataFrame(cosine_similarity(values), columns=corpus, index=corpus))




Unnamed: 0,こと,俺,情熱,本気,質問
こと 俺 情熱,1,1,1,0,0
質問 質問,0,0,0,0,2
俺 本気,0,1,0,1,0


Unnamed: 0,こと 俺 情熱,質問 質問,俺 本気
こと 俺 情熱,1.0,0.0,0.408248
質問 質問,0.0,1.0,0.0
俺 本気,0.408248,0.0,1.0


TF-IDFを求め，それをもとにコサイン類似度を求める．
ただし，scikit-learnのTfidfVectorizer（）のTF-IDF値は独自に改良が加えられたものなので手計算と結果が異なるので注意．

scikit-learnのTfidfVectorizerは下の式に基づいてTF-IDFを算出する．またベクトルの大きさが１になるように調整されている．

$\rm{tf–idf}(t,d)=tf(t,d)\times (idf(t)+1)$

$ただし\rm{idf}(t)=\log(\dfrac{文書の総数+1}{単語tを含む文書数+1})$

In [None]:
# モデルの生成
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
# TF-IDFの計算し結果をarrayに入れる
values = vectorizer.fit_transform(corpus).toarray()
#  Pandasの機能を用いて見やすく表示する
display(pd.DataFrame(values, columns=vectorizer.get_feature_names(), index=corpus))
# コサイン類似度を求める
display(pd.DataFrame(cosine_similarity(values), columns=corpus, index=corpus))



Unnamed: 0,こと,俺,情熱,本気,質問
こと 俺 情熱,0.622766,0.47363,0.622766,0.0,0.0
質問 質問,0.0,0.0,0.0,0.0,1.0
俺 本気,0.0,0.605349,0.0,0.795961,0.0


Unnamed: 0,こと 俺 情熱,質問 質問,俺 本気
こと 俺 情熱,1.0,0.0,0.286711
質問 質問,0.0,1.0,0.0
俺 本気,0.286711,0.0,1.0


### 授業資料の例

In [None]:
docs = ['サンタクロースをいつまで信じていたかなんてことはたわいもない世間話にもならないくらいのどうでもいいような話だが、それでも俺がいつまでサンタなどという想像上の赤服じーさんを信じていたかと言うとこれは確信を持って言えるが最初から信じてなどいなかった。　',
        '日本国民は、正当に選挙された国会における代表者を通じて行動し、われらとわれらの子孫のために、諸国民との協和による成果と、わが国全土にわたつて自由のもたらす恵沢を確保し、政府の行為によつて再び戦争の惨禍が起ることのないやうにすることを決意し、ここに主権が国民に存することを宣言し、この憲法を確定する。']

In [None]:
# 名詞だけを入れるリストcorpusを作成する
corpus=[]
# 文書ごとに形態素解析をして名詞を取り出しcorpusに入れていく
# このとき動詞の基本形（base_form）を取り出している
for item in docs:
  t = Tokenizer()
  tokens = t.tokenize(item)
  word = ""
  for token in tokens:
      part_of_speech = token.part_of_speech.split(",")[0]
      if part_of_speech == "動詞":
            word +=token.base_form + " "
  corpus.append(word)

# モデルの生成
vectorizer = CountVectorizer(token_pattern=u'(?u)\\b\\w+\\b')
# カウントしてarrayに入れる
values = vectorizer.fit_transform(corpus).toarray()
#  Pandasの機能を用いて見やすく表示する
display(pd.DataFrame(values, columns=vectorizer.get_feature_names(), index=corpus))
# コサイン類似度を求める
display(pd.DataFrame(cosine_similarity(values), columns=['ハルヒ', '日本国憲法'], index=['ハルヒ', '日本国憲法']))



Unnamed: 0,いる,する,たつ,なる,にる,もたらす,れる,信じる,存する,持つ,言う,言える,起る
信じる いる なる 信じる いる 言う 持つ 言える 信じる いる,3,0,0,1,0,0,0,3,0,1,1,1,0
する れる する たつ もたらす する にる 起る する する 存する する する,0,7,1,0,1,1,1,0,1,0,0,0,1


Unnamed: 0,ハルヒ,日本国憲法
ハルヒ,1.0,0.0
日本国憲法,0.0,1.0


TF-IDFで分析した場合

In [None]:
# モデルの生成
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
# TF-IDFの計算し結果をarrayに入れる
values = vectorizer.fit_transform(corpus).toarray()
#  Pandasの機能を用いて見やすく表示する
display(pd.DataFrame(values, columns=vectorizer.get_feature_names(), index=corpus))
# コサイン類似度を求める
display(pd.DataFrame(cosine_similarity(values), columns=corpus, index=corpus))



Unnamed: 0,いる,する,たつ,なる,にる,もたらす,れる,信じる,存する,持つ,言う,言える,起る
信じる いる なる 信じる いる 言う 持つ 言える 信じる いる,0.639602,0.0,0.0,0.213201,0.0,0.0,0.0,0.639602,0.0,0.213201,0.213201,0.213201,0.0
する れる する たつ もたらす する にる 起る する する 存する する する,0.0,0.94388,0.13484,0.0,0.13484,0.13484,0.13484,0.0,0.13484,0.0,0.0,0.0,0.13484


Unnamed: 0,信じる いる なる 信じる いる 言う 持つ 言える 信じる いる,する れる する たつ もたらす する にる 起る する する 存する する する
信じる いる なる 信じる いる 言う 持つ 言える 信じる いる,1.0,0.0
する れる する たつ もたらす する にる 起る する する 存する する する,0.0,1.0


In [None]:
docs = ['智に働けば角が立つ。 ',
        '情に棹させば流される。',
        '意地を通せば窮屈だ。',
        '兎角に人の世は住みにくい。'] 

In [None]:
# 名詞だけを入れるリストcorpusを作成する
corpus=[]
# 文書ごとに形態素解析をして名詞を取り出しcorpusに入れていく
for item in docs:
  t = Tokenizer()
  tokens = t.tokenize(item)
  word = ""
  for token in tokens:
    part_of_speech = token.part_of_speech.split(",")[0]
    if part_of_speech == "名詞":
      word +=token.base_form + " "
    elif part_of_speech == "動詞":
      word +=token.base_form + " "
    elif part_of_speech == "形容詞":
      word +=token.base_form + " "
    elif part_of_speech == "形容動詞":
      word +=token.base_form + " "
    elif part_of_speech == "助詞":
      word +=token.base_form + " "
    elif part_of_speech == "助動詞":
      word +=token.base_form + " "
  corpus.append(word)

# 名詞だけ取り出したリストができる
print(corpus)

['智 に 働く ば 角 が 立つ ', '情 に 棹さす ば 流す れる ', '意地 を 通す ば 窮屈 だ ', 'に 人 の 世 は 住む にくい ']


In [None]:
# モデルの生成
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
# TF-IDFの計算し結果をarrayに入れる
values = vectorizer.fit_transform(corpus).toarray()
#  Pandasの機能を用いて見やすく表示する
display(pd.DataFrame(values, columns=vectorizer.get_feature_names(), index=corpus))
# コサイン類似度を求める
display(pd.DataFrame(cosine_similarity(values), columns=corpus, index=corpus))



Unnamed: 0,が,だ,に,にくい,の,は,ば,れる,を,世,...,働く,情,意地,智,棹さす,流す,窮屈,立つ,角,通す
智 に 働く ば 角 が 立つ,0.414698,0.0,0.264696,0.0,0.0,0.0,0.264696,0.0,0.0,0.0,...,0.414698,0.0,0.0,0.414698,0.0,0.0,0.0,0.414698,0.414698,0.0
情 に 棹さす ば 流す れる,0.0,0.0,0.290888,0.0,0.0,0.0,0.290888,0.455732,0.0,0.0,...,0.0,0.455732,0.0,0.0,0.455732,0.455732,0.0,0.0,0.0,0.0
意地 を 通す ば 窮屈 だ,0.0,0.430037,0.0,0.0,0.0,0.0,0.274487,0.0,0.430037,0.0,...,0.0,0.0,0.430037,0.0,0.0,0.0,0.430037,0.0,0.0,0.430037
に 人 の 世 は 住む にくい,0.0,0.0,0.252159,0.395056,0.395056,0.395056,0.0,0.0,0.0,0.395056,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Unnamed: 0,智 に 働く ば 角 が 立つ,情 に 棹さす ば 流す れる,意地 を 通す ば 窮屈 だ,に 人 の 世 は 住む にくい
智 に 働く ば 角 が 立つ,1.0,0.153994,0.072656,0.066746
情 に 棹さす ば 流す れる,0.153994,1.0,0.079845,0.07335
意地 を 通す ば 窮屈 だ,0.072656,0.079845,1.0,0.0
に 人 の 世 は 住む にくい,0.066746,0.07335,0.0,1.0


### 課題


下に示したのは大阪電気通信大学校歌である．下のソースを改変し，**動詞および名詞**を対象として分析を行い，tf-idfにもとづいて１番と２番，３番のコサイン類似度を求めよ



*   １番：浪速の東、淀川に、 茂れる若き、われら葦(あし)、 おお大阪電気通信大学、 今日電子の探求に究めん道の、 誇りは高し　誇りは高し、 おお大阪電気通信大学
*   2番：稲穂波立つ、河内野に、 ゆうゆう高き、鉄塔よ、 おお大阪電気通信大学、 われら時代の先端を荷負う未来に、 責任重し　責任重し、 おお大阪電気通信大学
*   3番：宇宙をひらく、われら意気、 世界にひびく、その名こそ、 おお大阪電気通信大学、 愛と真理と理想に明日の平和の、 門を開かむ　門を開かむ、 おお大阪電気通信大学

In [None]:
docs = ['浪速の東、淀川に、 茂れる若き、われら葦(あし)、 おお大阪電気通信大学、 今日電子の探求に究めん道の、 誇りは高し　誇りは高し、 おお大阪電気通信大学 ',
        '稲穂波立つ、河内野に、 ゆうゆう高き、鉄塔よ、 おお大阪電気通信大学、 われら時代の先端を荷負う未来に、 責任重し　責任重し、 おお大阪電気通信大学',
        '宇宙をひらく、われら意気、 世界にひびく、その名こそ、 おお大阪電気通信大学、 愛と真理と理想に明日の平和の、 門を開かむ　門を開かむ、 おお大阪電気通信大学'] 

# 名詞だけを入れるリストcorpusを作成する
corpus=[]
# 文書ごとに形態素解析をして名詞を取り出しcorpusに入れていく
for item in docs:
  t = Tokenizer()
  tokens = t.tokenize(item)
  word = ""
  for token in tokens:
    part_of_speech = token.part_of_speech.split(",")[0]
    if part_of_speech == "形容詞":
      word +=token.base_form + " "
    elif part_of_speech == "形容動詞":
      word +=token.base_form + " "
  corpus.append(word)

# モデルの生成
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
# TF-IDFの計算し結果をarrayに入れる
values = vectorizer.fit_transform(corpus).toarray()
#  Pandasの機能を用いて見やすく表示する
display(pd.DataFrame(values, columns=vectorizer.get_feature_names(), index=['１番','2番','3番']))
# コサイン類似度を求める
display(pd.DataFrame(cosine_similarity(values), columns=['１番','2番','3番'], index=['１番','2番','3番']))



Unnamed: 0,若い,重い,高い
１番,0.549351,0.0,0.835592
2番,0.0,0.934702,0.355432
3番,0.0,0.0,0.0


Unnamed: 0,１番,2番,3番
１番,1.0,0.296996,0.0
2番,0.296996,1.0,0.0
3番,0.0,0.0,0.0
