<a href="https://colab.research.google.com/github/PythonDSBook/notebooks/blob/main/Chapter05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第5章 テキストデータの分析

## 5.1 テキストデータ

### コード 5.1 Janomeのインストール

In [None]:
!pip install janome

### コード 5.2 形態素解析の実行

In [3]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
text = '文化史上より見たる日本の数学'
for token in t.tokenize(text):
  print(token)

文化	名詞,一般,*,*,*,*,文化,ブンカ,ブンカ
史上	名詞,一般,*,*,*,*,史上,シジョウ,シジョー
より	助詞,格助詞,一般,*,*,*,より,ヨリ,ヨリ
見	動詞,自立,*,*,一段,連用形,見る,ミ,ミ
たる	助動詞,*,*,*,文語・ナリ,体言接続,たり,タル,タル
日本	名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
の	助詞,連体化,*,*,*,*,の,ノ,ノ
数学	名詞,一般,*,*,*,*,数学,スウガク,スーガク


### コード 5.3 特定の単語の品詞抽出

In [4]:
for token in t.tokenize(text):
  if '名詞' in token.part_of_speech:
    print(token.surface)

文化
史上
日本
数学


## 5.5 プログラミング

### 5.4 ライブラリのインポート

In [5]:
import pandas as pd
import numpy as np

### 5.5 CSVファイルを読み込みデータフレームを作成
以下を実行してCSVファイルをダウンロードする。または、サポートページからCSVファイルをダウンロードしてColabの左側のファイルペインからアップロードする。

In [None]:
!wget https://raw.githubusercontent.com/PythonDSBook/notebooks/main/data/texts.csv

In [None]:
!wget https://raw.githubusercontent.com/PythonDSBook/notebooks/main/data/words.csv

In [9]:
texts_df = pd.read_csv('texts.csv')
words_df = pd.read_csv('words.csv')

In [10]:
texts_df

Unnamed: 0,作品名
0,「 科学 的 」 方法 の 適用 さ れ ぬ 場合
1,「 霜柱 の 研究 」 について
2,『 猿 ・ 鹿 ・ 熊 』 の 序
3,『 雪 華 図説 』 の 研究
4,『 雪 華 図説 』 の 研究 後日 譚
...,...
203,静岡 地震 被害 見学 記
204,風 に 飜 へる 梧桐 の 実
205,養生 の 心得
206,養生 心得 草


In [11]:
words_df

Unnamed: 0,単語
0,科学
1,方法
2,的
3,研究
4,霜柱
...,...
106,野草
107,化石
108,霧
109,養生


### コード 5.6 データフレームからリストを作成

In [12]:
texts = texts_df['作品名'].tolist()
len(texts)

208

### コード 5.7 データフレームからリストを作成

In [13]:
words = words_df['単語'].tolist()
len(words)

111

### コード 5.8 リストの要素のインデックス確認

In [14]:
texts.index('芸術 と 数学 及び 科学')

167

### コード 5.9 リストの要素のインデックス確認

In [15]:
words.index('芸術')

51

### プログラム 5.1 関数`compute_df`

In [16]:
def compute_df(texts, words):
  df_dict = {}
  for word in words:
    for text in texts:
      tokens = text.split(' ')
      if word in tokens:
        df_dict[word] = df_dict.get(word, 0) + 1
  return df_dict

### コード 5.10 関数`compute_df`の実行

In [17]:
df = compute_df(texts, words)
print('芸術', df['芸術'])
print('数学', df['数学'])
print('科学', df['科学'])

芸術 3
数学 4
科学 44


### プログラム 5.2 関数`compute_tfidf_matrix`

In [18]:
def compute_tfidf_matrix(texts, words):
  df = compute_df(texts, words)
  tfidf_matrix = np.zeros((len(texts), len(words)))
  for i, text in enumerate(texts):
    tokens = text.split(' ')
    for j, word in enumerate(words):
      if word in tokens:
        tf = tokens.count(word)
        idf = np.log(len(texts) / df[word])
        tfidf_matrix[i, j] = tf * idf
  return tfidf_matrix

### コード 5.11 関数`compute_tfidf_matrix`の実行

In [19]:
tfidf_matrix = compute_tfidf_matrix(texts, words)

### コード 5.12 文書単語行列の要素の取得


In [20]:
row = texts.index('芸術 と 数学 及び 科学')
col1 = words.index('芸術')
col2 = words.index('数学')
col3 = words.index('科学')
print(f'{tfidf_matrix[row, col1]:.2f}')
print(f'{tfidf_matrix[row, col2]:.2f}')
print(f'{tfidf_matrix[row, col3]:.2f}')

4.24
3.95
1.55


### コード 5.13 文書単語行列の行の取得

In [21]:
tfidf_matrix[row]

array([1.55334845, 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 4.23892579, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.     

### プログラム 5.3 関数`compute_cosine_sim`

In [22]:
def compute_cosine_sim(vec1, vec2):
  return (
    np.dot(vec1, vec2) /
    np.sqrt(np.dot(vec1, vec1) * np.dot(vec2, vec2))
  )

In [23]:
def compute_cosine_sim(vec1, vec2):
  return np.dot(vec1, vec2) / np.sqrt(np.dot(vec1, vec1) * np.dot(vec2, vec2))

### プログラム 5.4 関数`find_similar_texts`

In [29]:
def find_similar_texts(input_text, tfidf_matrix, texts):
  input_index = texts.index(input_text)
  input_vector = tfidf_matrix[input_index]
  similar_texts = {}
  for i, tfidf_vector in enumerate(tfidf_matrix):
    similarity = compute_cosine_sim(
      input_vector, tfidf_vector
    )
    if i != input_index and similarity > 0:
      similar_texts[texts[i]] = similarity
  return similar_texts

In [26]:
def find_similar_texts(input_text, tfidf_matrix, texts):
  input_index = texts.index(input_text)
  input_vector = tfidf_matrix[input_index]
  similar_texts = {}
  for i, tfidf_vector in enumerate(tfidf_matrix):
    similarity = compute_cosine_sim(input_vector, tfidf_vector)
    if i != input_index and similarity > 0:
      similar_texts[texts[i]] = similarity
  return similar_texts

### コード 5.14 類似テキストの検索

In [30]:
input_text = '芸術 と 数学 及び 科学'
results_dic = find_similar_texts(input_text,
                                tfidf_matrix,
                                texts)
results_df = pd.DataFrame.from_dict(results_dic,
                                      orient='index',
                                      columns=["類似度"])
results_df.sort_values(by='類似度', ascending=False)

Unnamed: 0,類似度
数学 と 語学,0.658598
科学 者 と 芸術 家,0.438868
文化 史上 より 見 たる 日本 の 数学,0.410809
数学 史 の 研究 に 就き て,0.394818
和算 の 社会 的 ・ 芸術 的 特性 について,0.382727
漫画 と 科学,0.258914
スポーツ の 科学,0.258914
株式会社 科学 研究所 の 使命,0.258914
神仙 道 と 科学,0.258914
科学 に 志す 人 へ,0.258914


In [31]:
input_text = '芸術 と 数学 及び 科学'
results_dic = find_similar_texts(input_text, tfidf_matrix, texts)
results_df = pd.DataFrame.from_dict(results_dic, orient='index', columns=["類似度"])
results_df.sort_values(by='類似度', ascending=False)

Unnamed: 0,類似度
数学 と 語学,0.658598
科学 者 と 芸術 家,0.438868
文化 史上 より 見 たる 日本 の 数学,0.410809
数学 史 の 研究 に 就き て,0.394818
和算 の 社会 的 ・ 芸術 的 特性 について,0.382727
漫画 と 科学,0.258914
スポーツ の 科学,0.258914
株式会社 科学 研究所 の 使命,0.258914
神仙 道 と 科学,0.258914
科学 に 志す 人 へ,0.258914
