<a href="https://colab.research.google.com/github/szkjiro/program/blob/main/PyTFIDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 古くからある文章解析

TF（Term Frequency）は古くからある文章解析技術です．
単語の意味から容易に想像できるように，ある文章中の単語の出現頻度を表します．
ワードクラウドはTFに応じて文字を大きくする表示を組み合わせた表現の一種なのです．

インターネット検索の世界でも，Google検索の登場した1998年以前は，このTFにもとづき複数文書を比較可能にしたTF-IDF，それはTFにIDFと呼ばれる量の積をとった対数値のことです．
TFを用いている以上の説明は本授業のレベルを超えます．たとえば[初学者向けTFIDFについて簡単にまとめてみた](https://www.takapy.work/entry/2019/01/14/141423)などを参照してください．
このTF-IDFにより，ウェブサイトの順位付けをしていた検索サイトがほとんでした．
学術文書などでは，このTF-IDFによる順位付けは比較的うまく機能していました．
それが販売促進用途などでは，このTF-IDFの値を高くするためだけの邪道ともいえるテクニックにより無効化しつつあったのです．

歴史的にこのようなことがあったとはいえ，文章解析におけるTF-IDFの有効性が失われたわけではありません．
ここで扱うのはTF-IDFをPythonの機械学習ライブラリscikit-learnを用いて計算してみます．
機械学習ライブラリscikit-learnは今後も何回か登場します．

## 形態素解析不要のTF-IDF

まずは，分かち書きしてある文を直接に与えてTF-IDFの値を計算するところを観察します．
この例文は上にあるリンク先と同じです．
この例における分かち書き済の文の代わりに，青空文庫から取得した文章の分かち書きを与えれば，TF-IDFを計算できるだろうことは想像できるでしょう．

途中の説明にベクトルのことばが何回も出てきます．
自然言語処理では文中の単語ごとの頻度や位置に関する情報をベクトルの形で利用するためです．

言語をベクトルで扱う話は，後に現在世界的に注目のChatGPTに関係した話題を扱うために再び戻ります．

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
# A, Bの2つの文を準備する
df = pd.DataFrame({'id': ['A', 'B'],
                   'text': [ '私は ラーメン 愛する 中でも 味噌 ラーメン 一番 好き', '私は 焼きそば 好き しかし ラーメン もっと 好き']})


# TF-IDFの計算
tfidf_vectorizer = TfidfVectorizer(use_idf=True,lowercase=False)

# 文章内の全単語のTfidf値を取得
tfidf_matrix = tfidf_vectorizer.fit_transform(df['text'])

# index 順の単語リスト
terms = tfidf_vectorizer.get_feature_names_out()

# 単語毎のtfidf値配列：TF-IDF 行列 (numpy の ndarray 形式で取得される)
# 1つ目の文書に対する、各単語のベクトル値
# 2つ目の文書に対する、各単語のベクトル値
# ・・・
# が取得できる（文書の数 * 全単語数）の配列になる。（toarray()で密行列に変換）
tfidfs = tfidf_matrix.toarray()

# 計算結果の確認
# 分かち書きの単語一覧をまず表示
print(terms)
# 各単語に対応した計算値の表示
print(tfidfs)


上の計算結果のうち，Aの文では計算値の一番大きいのが「ラーメン」，Bの文では一番大きいのが「好き」です．
これらが，それぞれの文の特徴であると見ます．
文章をベクトルで扱うことができることだけ頭の片隅においといてください．

## この後どうする？

青空文庫にある２作品の分かち書きを，上の例と同様に与えれば，作品比較ができます．
授業の今の段階で解説は厳しそうなので，ChatGPTの話題に触れる回まで先送りします．