# tf-idfの実装

tf-idfの実装をしてみましょう。<br>
tf-idfは文書中に含まれる単語の重要度を評価するための手法ででtfとidf を掛け合わせることで求めることができます。<br>
tfとidfについて、week10の資料を提示します。

![week10_tf-idf.png](attachment:week10_tf-idf.png)

 文書に含まれる単語の重要度（TF-IDF）から文書の特徴を判別する問題に挑戦してみましょう。以下に示す0〜3の4文を用い、各素性（単語）のTF-IDFを2つの方法で求めてみましょう。
  - 0:  'This is the first document.'
  - 1:  'This document is the second document.'
  - 2:  'And this is the third one.'
  - 3:  'Is this the first document?'

[備忘]

$tf(\text{文書A,単語X}) = \frac{\text{文書Aにおける単語Xの出現頻度}}{\text{文書Aにおける全単語の出現頻度}} $

$idf=\log_{10}(\frac{\text{全文書数}}{\text{単語Xを含む文書数}})$


## 方法1：評価式を用いる方法

データになるcorpusを頻度ベクトルとし，　各ベクトルの値を用いて式を構成する。

新しく登場するライブラリ：
- Scikit-learn（サイキットラーン) (読み込むときは sklearn)： 機械学習のためのpythonライブラリ。　(参考：https://ai-kenkyujo.com/2020/07/28/scikit-learn/)
- pandas: データ解析を支援する機能を提供するPythonライブラリ。(参考：https://note.nkmk.me/python-list-ndarray-dataframe-normalize-standardize/)

import したライブラリ、モジュール等が持つクラス、関数を利用する時は， np.array(xxxx)のようにドットの後に、クラスや関数の名前と引数を渡すことで利用できる。 <参考> pythonにおいてのライブラリやモジュールの関係図を以下に示す。

![liblary-module-pic.png](attachment:liblary-module-pic.png)

## 課題2：

まず初めに、データになる頻度ベクトルを生成します。以下の手順でコード、コメントおよび式を確認しながら課題を進めていきましょう。`print`文の前の`#`コメント記号は適宜、削除/追加しながら進めてください。<br>

1. 23行目　corpusの頻度ベクトルの確認

### ※コードの行番号は、[ESC]+l もしくは操作タブの「表示」->行番号をトグル で表示/非表示ができます。

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize #データの正規化などが可能な
import numpy as np #数値計算用ライブラリpnumpyをnpと名前をつけて以下で利用
import pandas as pd #データ解析用ライブラリpandasをpdと名前をつけて以下で利用

#以下の4文のリストを文書コーパスとして使う．
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]

smooth_idf = True
norm_idf = True

# 文章ごとの頻度ベクトルを作る
wc = CountVectorizer()
x = wc.fit_transform(corpus)
wcX = np.array(x.toarray())

print('4文コーパス: \n', corpus, '\n') #corpusを表示
#print('頻度ベクトル: \n', wcX,'\n')  #orpusの頻度ベクトルの確認

コーパスと頻度ベクトルを確認できましたか？<br>
このベクトルを用いて TFを求める→IDFを求める→TF-IDFを求めるの順に進めていきます。<br>
print文を挿入する場合その値が何かわかるように前に記号をつけて表示させること． 16行目の式を完成させないうちは，15行目までのプリント文の出力は得られますが，16行目でエラーがでます。

2. 8行目 全文書数の確認
3. 9行目 wcX[i, :]　がどのように切り出されているか確認 
4. 10行目 各文の単語の出現頻度(単語数)の確認
5. 11行目　print文を挿入しtfを確認
6. 15行目 単語Xを含む文書数dfを確認
7. 17行目 idfの式を挿入． （コメントアウトになっているので#を削除してから）
8. 18行目 print文を挿入しidfを確認
9. 21行目 TF-IDFを求める式を挿入 　※式とコードの変数は対応しています．
10. 26行目 tfidfの結果をデータフレーム形式で確認

※5行目のwcX[i, :]はリストi番目のリストのすべての要素を切り出ししている．

In [None]:
#ここまで実行したコードは有効なので，続きとして実行していきます．

# term frequency(TF) 単語の頻出度を求める:
N = wcX.shape[0]
tf = np.array([wcX[i, :] / np.sum(wcX, axis=1)[i] for i in range(N)])

print('4文コーパス: \n', corpus, '\n') #corpusを表示
#print('全文書数： ', N, '\n') #全文書数の確認
#print('wcX[i, :] \n', [wcX[i, :]for i in range(N)], '\n') #wcX[i, :]の確認
#print('words_freq \n', [np.sum(wcX, axis=1)[i]for i in range(N)])#各文の単語の出現頻度(単語数)の確認
#tfを表示するプリント文挿入

# inverse documents frequency(IDF) 逆文書頻度を求める,  df:単語Xを含む文書数 :
df = np.count_nonzero(wcX, axis=0)
#print('df: ', df, '\n') #df の確認

#idf = np.log((1 + 全文書数) / (1 + 単語Xを含む文書数) )+ 1  if smooth_idf else np.log( N / df )  #全文書数と単語Xを含む文書数に1を足しているのは，滑らかな値にするため
#idfの確認のプリント文挿入

#TF-IDFを求め、正規化(normalize)する．
#tfidf = normalize(tf-idfを求める式) if norm_idf else tf*idf

#tfidfを格納するデータフレーム(columns:列ラベル，index:行ラベル)形式にする. df_tifidf の dfはデータフレームの意味で付けました．
df_tfidf = pd.DataFrame(tfidf, columns=wc.get_feature_names())

#df_tfidf(データフレーム形式)の表示のプリント文挿入


## 課題3：
文書ごとに各単語の特徴的である重要度が計算できました。<br>
出力結果を確認し、文書0~3の特徴のある単語($tf \cdot idf > 0.45$とした場合)を答えてください。複数ある場合は、カンマで区切ること。<br>
- 文書0:  
- 文書1: 
- 文書2: 
- 文書3: 

考察： 閾値を0.45としましたが，各文書の特徴的な単語になっているようでしょうか。   
出力結果を見て，適切な閾値を決める，または，上位何位までを特徴のある単語とするなどの方法で特徴ある単語として自動的に決めることが可能になります。

## 方法2：sklearnライブラリ(機械学習ライブラリ)に用意されているtf-idfを計算するTfidfVectorizerを使った方法でtf-idfを求める。

pythonではsklearnライブラリにtf-idfを計算する関数TfidfVectorizer()が用意されています。この関数を用いた方法で一気に求めます。<br>


## 課題4：

1. corpusは方法1と同じリストを利用します。ライブラリを読み込んだ後に追加してください。
2. corpusを追加する前の，6行目の `x`　に次の式を設定します。<br>
- TfidfVectorizer()でtf-idfを求める関数は `fit_transform()` が用意されています。
- 5行目で fidfVectorizer()のインスタンスを `tfidf`に設定します。
- 使い方は、`tfidf`の後に ドット`.`　で`fit_transform()`を指定するだけです。() には文書(ここではcorpus)を指定します。
3. 実行し、結果が方法1とほぼ同様になるか確認しましょう。

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

#TfidfVectorizerに用意されている .fit_transform を用いtf-idfを算出する。
tfidf = TfidfVectorizer()
x = tf-idfを求める式

#tfidfの結果をみるために、データフレームに変換します．pandasのimportが必要
df_tfidf = pd.DataFrame(x.toarray(), columns=tfidf.get_feature_names())

print('TF・IDF:')
print(df_tfidf)
print('\n')


TfidfVectorizer()を用いることで，単語のtf-idfを簡単に求めることができました。<br>
考察： 方法1と方法2の結果を比較するとどうですか？

このようにpythonでは便利な関数が用意されているので、使った方が便利ですね。pythonで用意されている関数は以前紹介した PyPIに集約されています。https://pypi.org/