## TF-IDF(Term Frequency - Inverse Document Frequency)を求める

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

df = pd.DataFrame({'id': ['A', 'B'],
                   'text': [ '味 カプセル プルームテックプラス たばこ メビウス 種類 タバコ メンソール ミント 4 感 プルームテック プルーム・テック・プラス フレーバー レギュラー 専用 1 フォー キック ブレンド ロースト クリア 感じ マウス ピース おすすめ ごたえ 全 加熱 2 記事 人 比較 こと マイルド・ブレンド コールド 満足 度 アップ レビュー 番目 低温 よう 旧型 これ 僕 番 タイプ 個', 'ミント 1 メンソール カプセル 種類 タバコ 4 レギュラー クリア コールド メビウス カートリッジ 本 さ 感 プルームテックプラス 全 ロースト 度 紹介 パフ 味 コク 系 長め たばこ 2 ブレンド 派 私 の フレーバー それぞれ 印象 箱 まんま 5 250 分 50 プルームテック アップ 応え 時 方 満足 これ マイルドブレンド どっち 人']})


# TF-IDFの計算
tfidf_vectorizer = TfidfVectorizer(use_idf=True,lowercase=False)

# 文章内の全単語のTfidf値を取得
tfidf_matrix = tfidf_vectorizer.fit_transform(df['text'])

# index 順の単語リスト
terms = tfidf_vectorizer.get_feature_names()

# 単語毎のtfidf値配列：TF-IDF 行列 (numpy の ndarray 形式で取得される)
# 1つ目の文書に対する、各単語のベクトル値
# 2つ目の文書に対する、各単語のベクトル値
# ・・・
# が取得できる（文書の数 * 全単語数）の配列になる。（toarray()で密行列に変換）
tfidfs = tfidf_matrix.toarray()

In [4]:
print(terms)

['250', '50', 'おすすめ', 'こと', 'これ', 'ごたえ', 'それぞれ', 'たばこ', 'どっち', 'まんま', 'よう', 'アップ', 'カプセル', 'カートリッジ', 'キック', 'クリア', 'コク', 'コールド', 'タイプ', 'タバコ', 'テック', 'パフ', 'ピース', 'フォー', 'フレーバー', 'ブレンド', 'プラス', 'プルーム', 'プルームテック', 'プルームテックプラス', 'マイルド', 'マイルドブレンド', 'マウス', 'ミント', 'メビウス', 'メンソール', 'レギュラー', 'レビュー', 'ロースト', '低温', '加熱', '印象', '専用', '応え', '感じ', '旧型', '比較', '満足', '番目', '種類', '紹介', '記事', '長め']


In [5]:
print(tfidfs)

[[0.         0.         0.17505882 0.17505882 0.12455579 0.17505882
  0.         0.12455579 0.         0.         0.17505882 0.12455579
  0.12455579 0.         0.17505882 0.12455579 0.         0.12455579
  0.17505882 0.12455579 0.17505882 0.         0.17505882 0.17505882
  0.12455579 0.24911158 0.17505882 0.17505882 0.12455579 0.12455579
  0.17505882 0.         0.17505882 0.12455579 0.12455579 0.12455579
  0.12455579 0.17505882 0.12455579 0.17505882 0.17505882 0.
  0.17505882 0.         0.17505882 0.17505882 0.17505882 0.12455579
  0.17505882 0.12455579 0.         0.17505882 0.        ]
 [0.2126582  0.2126582  0.         0.         0.15130806 0.
  0.2126582  0.15130806 0.2126582  0.2126582  0.         0.15130806
  0.15130806 0.2126582  0.         0.15130806 0.2126582  0.15130806
  0.         0.15130806 0.         0.2126582  0.         0.
  0.15130806 0.15130806 0.         0.         0.15130806 0.15130806
  0.         0.2126582  0.         0.15130806 0.15130806 0.15130806
  0.15130806 0

In [12]:
import pandas as pd

#現在の最大表示行数の出力
pd.get_option("display.max_columns")
pd.set_option('display.max_columns', 100)

pd.DataFrame([[0,0,0.17505882,0.17505882,0.12455579,0.17505882,0,0.12455579,0,0,0.17505882,0.12455579,0.12455579,0,0.17505882,0.12455579,0,0.12455579,0.17505882,0.12455579,0.17505882,0,0.17505882,0.17505882,0.12455579,0.24911158,0.17505882,0.17505882,0.12455579,0.12455579,0.17505882,0,0.17505882,0.12455579,0.12455579,0.12455579,0.12455579,0.17505882,0.12455579,0.17505882,0.17505882,0,0.17505882,0,0.17505882,0.17505882,0.17505882,0.12455579,0.17505882,0.12455579,0,0.17505882,0],[0.2126582,0.2126582,0,0,0.15130806,0,0.2126582,0.15130806,0.2126582,0.2126582,0,0.15130806,0.15130806,0.2126582,0,0.15130806,0.2126582,0.15130806,0,0.15130806,0,0.2126582,0,0,0.15130806,0.15130806,0,0,0.15130806,0.15130806,0,0.2126582,0,0.15130806,0.15130806,0.15130806,0.15130806,0,0.15130806,0,0,0.2126582,0,0.2126582,0,0,0,0.15130806,0,0.15130806,0.2126582,0,0.2126582]], index=['S','敵'], columns=['250', '50', 'おすすめ', 'こと', 'これ', 'ごたえ', 'それぞれ', 'たばこ', 'どっち', 'まんま', 'よう', 'アップ', 'カプセル', 'カートリッジ', 'キック', 'クリア', 'コク', 'コールド', 'タイプ', 'タバコ', 'テック', 'パフ', 'ピース', 'フォー', 'フレーバー', 'ブレンド', 'プラス', 'プルーム', 'プルームテック', 'プルームテックプラス', 'マイルド', 'マイルドブレンド', 'マウス', 'ミント', 'メビウス', 'メンソール', 'レギュラー', 'レビュー', 'ロースト', '低温', '加熱', '印象', '専用', '応え', '感じ', '旧型', '比較', '満足', '番目', '種類', '紹介', '記事', '長め'])

Unnamed: 0,250,50,おすすめ,こと,これ,ごたえ,それぞれ,たばこ,どっち,まんま,よう,アップ,カプセル,カートリッジ,キック,クリア,コク,コールド,タイプ,タバコ,テック,パフ,ピース,フォー,フレーバー,ブレンド,プラス,プルーム,プルームテック,プルームテックプラス,マイルド,マイルドブレンド,マウス,ミント,メビウス,メンソール,レギュラー,レビュー,ロースト,低温,加熱,印象,専用,応え,感じ,旧型,比較,満足,番目,種類,紹介,記事,長め
S,0.0,0.0,0.175059,0.175059,0.124556,0.175059,0.0,0.124556,0.0,0.0,0.175059,0.124556,0.124556,0.0,0.175059,0.124556,0.0,0.124556,0.175059,0.124556,0.175059,0.0,0.175059,0.175059,0.124556,0.249112,0.175059,0.175059,0.124556,0.124556,0.175059,0.0,0.175059,0.124556,0.124556,0.124556,0.124556,0.175059,0.124556,0.175059,0.175059,0.0,0.175059,0.0,0.175059,0.175059,0.175059,0.124556,0.175059,0.124556,0.0,0.175059,0.0
敵,0.212658,0.212658,0.0,0.0,0.151308,0.0,0.212658,0.151308,0.212658,0.212658,0.0,0.151308,0.151308,0.212658,0.0,0.151308,0.212658,0.151308,0.0,0.151308,0.0,0.212658,0.0,0.0,0.151308,0.151308,0.0,0.0,0.151308,0.151308,0.0,0.212658,0.0,0.151308,0.151308,0.151308,0.151308,0.0,0.151308,0.0,0.0,0.212658,0.0,0.212658,0.0,0.0,0.0,0.151308,0.0,0.151308,0.212658,0.0,0.212658
