# TF-IDF実験

### 必要なライブラリのインポート

In [1]:
import glob

import numpy as np
import os,sys
import json
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer

### １文章をスペース区切り(分ち書き)形式で配列に入れる -> docs
### それをベクトル化する

In [11]:
docs = [
        '白 黒 赤',      # 文書１
        '白 白 黒',      # 文書２
        '白 黒 黒 黒',   # 文書３
        '白'            # 文書４
        ]
 
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')

### ベクトルの中を見ると文章毎にベクトル化されているのがわかる

In [12]:
vecs = vectorizer.fit_transform(docs)
 
print(vecs.toarray())

[[0.40264194 0.77157901 0.49248889]
 [0.85310692 0.         0.52173612]
 [0.26293292 0.         0.96481412]
 [1.         0.         0.        ]]


### この時点でvectorizerには辞書的に各単語が保存されているのが以下からわかる

In [13]:
print(vectorizer.get_feature_names())

['白', '赤', '黒']


### 新たに文章をベクトル化してみる

In [10]:
new_vec = vectorizer.transform(['黒'])
print(new_vec.toarray())

[[0. 0. 1.]]


### vectorizerにない単語をベクトル化してみる

In [14]:
new_arv_vec = vectorizer.transform(['青'])
print(new_arv_vec.toarray())

[[0. 0. 0.]]


### vectorizerの辞書に変化はない

In [15]:
print(vectorizer.get_feature_names())

['白', '赤', '黒']


## 【結論】
### 　先にvectorizerを１カテゴリ内のん文章を全て読み込み、辞書を作成しておく\　その後、各文章を読み込み、tf-idf値が低い単語を削除するなどして文章を圧縮

## 実際の文章で試してみた

### 必要なライブラリのインポート

In [16]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from gensim import matutils
from gensim import corpora
import pickle
import sys
import glob
sys.path.append('../')
from util import util

### 定数宣言

In [17]:
ROOT_DIR = '.'
DATA_PATH = '/text'
WORD_LIST = 'word_list.pkl'
TFIDF_VECTOR = 'tfidf_vectorizer.pkl'
TFIDF_RESULT = 'tfidf_result.pkl'

### 保存していた文章とtfidfのベクトル(作成済み)を取得する

In [18]:
word_list = []
tfidf_vector_list = []
tfidf_result_list = []
for path in glob.glob(ROOT_DIR+ROOT_DIR+DATA_PATH+"/*/*.pkl", recursive=True):
    if path.split("/")[-1] == WORD_LIST:
        with open(path, "rb") as f:
            words = pickle.load(f)
            word_list.append({'label': path.split("/")[-2], 'words': words})
    elif path.split("/")[-1] == TFIDF_VECTOR:
        with open(path, "rb") as f:
            tfidf = pickle.load(f)
            tfidf_vector_list.append({'label': path.split("/")[-2], 'tfidf': tfidf})
    elif path.split("/")[-1] == TFIDF_RESULT:
        with open(path, "rb") as f:
            tfidf = pickle.load(f)
            tfidf_result_list.append({'label': path.split("/")[-2], 'tfidf': tfidf})
    
print(len(word_list))
print(word_list[0]['label'], word_list[0]['words'][0])

9
movie-enter {'text': ['ジョニデ', 'バートン', '監督', '贈る', 'ファミリー', 'インパクト', '大', 'キャラクター', 'ビジュアル', '注目', 'バートン', '監督', 'デップ', '最強', 'コンビ', '贈る', '世界', '待望', '大作', '5', '月', '19', '日', '公開', 'キャラクタービジュアル', '公開', 'する', 'れる', '公開', '記念', 'する', 'コスプレコンテスト', '実施', '決定', 'する', '本', '作', '魔女', 'ヴァンパイア', 'する', 'れる', 'しまう', 'バーナバス・コリンズ', '物語', 'ヴァンパイア', 'なる', 'バーナバス', '生き埋め', 'する', 'れる', 'しまう', '目覚める', 'の', '2', '世紀', '後', '1972', '年', '没落', 'する', '家', '末裔', '出会う', 'バーナバス', '父親', '唯一', '財産', '家族', '言葉', '胸', '魔女', '手', '家族', '守る', '一族', '繁栄', '取り戻す', 'する', '1966', '年', '1971', '年', 'ABC', 'テレビ', '放送', 'する', 'れる', '人気', 'ドラマ', 'ベース', '映画', '化', 'する', '作品', '主人公', '1752', '年', '移民', 'する', '裕福', '家', '育つ', 'プレイボーイ', 'バーナバス・コリンズ', '日', '彼', '魔女', 'アンジェリーク', '死', '運命', 'なる', 'ヴァンパイア', 'する', 'れる', '生き埋め', 'する', 'れる', 'しまう', '2', '世紀', '後', '1972', '年', '予期', 'する', 'きっかけ', '自分', '墓', '開放', 'する', 'れる', '劇的', '変化', '遂げる', '世の中', 'バーナバス', '不可思議', '謎', '秘める', '家', '末裔', '姿', '描く', '父親', '唯一', '財産', '家族', '言葉',

### TF-IDF値を取得して、各単語毎の値を表示してみる

In [33]:
import numpy as np
feature_names = tfidf_vector_list[0]['tfidf'].get_feature_names()
words_tfidf = tfidf_vector_list[0]['tfidf'].transform([" ".join(word_list[0]['words'][0]['text'])])

not_in_list = []
for word in word_list[0]['words'][0]['text']:
    
    try:
        index = feature_names.index(word)
    except:
        not_in_list.append(word)
    print(index)
    print(word, words_tfidf.toarray()[0][index])
print(not_in_list)

4346
ジョニデ 0.30631387957804734
5670
バートン 0.23836231811954395
13630
監督 0.07171105589190434
15444
贈る 0.06152313125470867
5952
ファミリー 0.03761409449383606
2880
インパクト 0.10051963907395446
2880
大 0.10051963907395446
3475
キャラクター 0.06471273055167664
5844
ビジュアル 0.05945094256218311
12743
注目 0.03607922991200023
5670
バートン 0.23836231811954395
13630
監督 0.07171105589190434
5093
デップ 0.08204618955428264
12116
最強 0.0231967051543387
3919
コンビ 0.03295365536535774
15444
贈る 0.06152313125470867
7693
世界 0.013107846204068713
10843
待望 0.031480604350167946
9836
大作 0.024530197437629235
9836
5 0.024530197437629235
9836
月 0.024530197437629235
103
19 0.0580488592617387
103
日 0.0580488592617387
8469
公開 0.05213668138477811
3477
キャラクタービジュアル 0.1610064594608475
8469
公開 0.05213668138477811
1891
する 0.2528087128107829
2516
れる 0.11183818298518655
8469
公開 0.05213668138477811
15146
記念 0.024464768086394875
1891
する 0.2528087128107829
3809
コスプレコンテスト 0.1189930885936263
10209
実施 0.027125930888827095
12674
決定 0.06914128794223123
1891
する

理髪 0.05949654429681315
13338
店 0.05949654429681315
13575
登場 0.04516804266357037
1891
する 0.2528087128107829
3475
キャラクター 0.06471273055167664
8914
募集 0.10935773302129309
1738
こちら 0.023598511335190142
8413
入賞 0.10733763964056499
8413
者 0.10733763964056499
8413
本 0.10733763964056499
8413
作 0.10733763964056499
6237
プレミア 0.07398781135067227
4869
チケット 0.03618564639069054
15445
贈呈 0.04201337086722119
1891
する 0.2528087128107829
2516
れる 0.11183818298518655
2117
どちら 0.029725471281091556
8914
募集 0.10935773302129309
14316
締め切り 0.045964987105493876
14316
5 0.045964987105493876
14316
月 0.045964987105493876
14316
7 0.045964987105493876
14316
日 0.045964987105493876
14316
月 0.045964987105493876
15220
詳細 0.030227568462687503
8458
公式 0.03293270012819535
4002
サイト 0.03288243025995152
4858
チェック 0.02837736973400015
1891
する 0.2528087128107829
11998
映画 0.03644811613816512
11998
5 0.03644811613816512
11998
月 0.03644811613816512
103
19 0.0580488592617387
103
日 0.0580488592617387
103
土 0.0580488592617387
7173
ルーブル 

### 一定基準以上のtf-idfの単語のみにする(重複なし)

In [35]:
feature_names = tfidf_vector_list[0]['tfidf'].get_feature_names()
words_tfidf = tfidf_vector_list[0]['tfidf'].transform([" ".join(word_list[0]['words'][0]['text'])])

not_in_list = []
tfidf_word_list = {}
for word in word_list[0]['words'][0]['text']:
    
    try:
        index = feature_names.index(word)
    except:
        not_in_list.append(word)
    tfidf_num = words_tfidf.toarray()[0][index]
    if tfidf_num > 0.1:
        tfidf_word_list[word] = tfidf_num
print(tfidf_word_list)

{'ジョニデ': 0.30631387957804734, 'バートン': 0.23836231811954395, 'インパクト': 0.10051963907395446, '大': 0.10051963907395446, 'キャラクタービジュアル': 0.1610064594608475, 'する': 0.2528087128107829, 'れる': 0.11183818298518655, 'コスプレコンテスト': 0.1189930885936263, '本': 0.10733763964056499, '作': 0.10733763964056499, '魔女': 0.2360155798679791, 'ヴァンパイア': 0.16754102750732935, 'バーナバス': 0.3625489810741717, '没落': 0.10733763964056499, '家': 0.2528087128107829, '末裔': 0.10051963907395446, '手': 0.2360155798679791, '一族': 0.1189930885936263, '繁栄': 0.10733763964056499, 'アンジェリーク': 0.1507794586109317, '死': 0.1507794586109317, '姿': 0.10051963907395446, '役': 0.10358542316404906, 'デイビッド': 0.10358542316404906, '募集': 0.10935773302129309, '入賞': 0.10733763964056499, '者': 0.10733763964056499, '8': 0.30631387957804734}
