# word_listからtfidf値を元に圧縮したリストを作成して保存するプログラム

### 必要なライブラリのインポート

In [1]:
import glob

import numpy as np
import os,sys
import json
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer

### 定数宣言

In [13]:
ROOT_DIR = '.'
DATA_PATH = '/text'
TF_IDF_NUM = 0.1
OUTPUT_PATH = '/tf-idf-'+str(TF_IDF_NUM)
DICTIONARY_PATH = '/Dictionary'
DICTIONARY_NAME = '/tf-idf-'+str(TF_IDF_NUM)+"-dictionary.txt"
WORD_LIST = 'word_list.pkl'
TFIDF_VECTOR = 'tfidf_vectorizer.pkl'
TFIDF_RESULT = 'tfidf_result.pkl'
TFIDF_WORD_LIST = '/tfidf_word_list.pkl'

### 保存していたword_listを読み込む

In [3]:
word_list = []
tfidf_vector_list = []
tfidf_result_list = []
for path in glob.glob(ROOT_DIR+ROOT_DIR+DATA_PATH+"/*/*.pkl", recursive=True):
    if path.split("/")[-1] == WORD_LIST:
        with open(path, "rb") as f:
            words = pickle.load(f)
            word_list.append({'label': path.split("/")[-2], 'words': words})
    elif path.split("/")[-1] == TFIDF_VECTOR:
        with open(path, "rb") as f:
            tfidf = pickle.load(f)
            tfidf_vector_list.append({'label': path.split("/")[-2], 'tfidf': tfidf})
    elif path.split("/")[-1] == TFIDF_RESULT:
        with open(path, "rb") as f:
            tfidf = pickle.load(f)
            tfidf_result_list.append({'label': path.split("/")[-2], 'tfidf': tfidf})
    
print(len(word_list))
print(word_list[0]['label'], word_list[0]['words'][0])

9
movie-enter {'text': ['ジョニデ', 'バートン', '監督', '贈る', 'ファミリー', 'インパクト', '大', 'キャラクター', 'ビジュアル', '注目', 'バートン', '監督', 'デップ', '最強', 'コンビ', '贈る', '世界', '待望', '大作', '5', '月', '19', '日', '公開', 'キャラクタービジュアル', '公開', 'する', 'れる', '公開', '記念', 'する', 'コスプレコンテスト', '実施', '決定', 'する', '本', '作', '魔女', 'ヴァンパイア', 'する', 'れる', 'しまう', 'バーナバス・コリンズ', '物語', 'ヴァンパイア', 'なる', 'バーナバス', '生き埋め', 'する', 'れる', 'しまう', '目覚める', 'の', '2', '世紀', '後', '1972', '年', '没落', 'する', '家', '末裔', '出会う', 'バーナバス', '父親', '唯一', '財産', '家族', '言葉', '胸', '魔女', '手', '家族', '守る', '一族', '繁栄', '取り戻す', 'する', '1966', '年', '1971', '年', 'ABC', 'テレビ', '放送', 'する', 'れる', '人気', 'ドラマ', 'ベース', '映画', '化', 'する', '作品', '主人公', '1752', '年', '移民', 'する', '裕福', '家', '育つ', 'プレイボーイ', 'バーナバス・コリンズ', '日', '彼', '魔女', 'アンジェリーク', '死', '運命', 'なる', 'ヴァンパイア', 'する', 'れる', '生き埋め', 'する', 'れる', 'しまう', '2', '世紀', '後', '1972', '年', '予期', 'する', 'きっかけ', '自分', '墓', '開放', 'する', 'れる', '劇的', '変化', '遂げる', '世の中', 'バーナバス', '不可思議', '謎', '秘める', '家', '末裔', '姿', '描く', '父親', '唯一', '財産', '家族', '言葉',

### 文章内のTFIDFの基準値以下の単語を削除した文章に変換する

In [4]:
import numpy as np
import os


if not os.path.isdir(ROOT_DIR+OUTPUT_PATH):
    os.mkdir(ROOT_DIR+OUTPUT_PATH)

for i,words in enumerate(word_list):
    vector = tfidf_vector_list[i]['tfidf']
    feature_names = vector.get_feature_names()
    #words_tfidf = tfidf_vector_list[i]['tfidf'].transform([" ".join(words['words'][0]['text'])])

    for text in words['words']:
        tfidf_word_list = []
        
        words_tfidf = vector.transform([" ".join(text['text'])])
    
        for txt in text['text']:
            try:
                index = feature_names.index(txt)
            except:
                pass
            tfidf_num = words_tfidf.toarray()[0][index]
            if tfidf_num > TF_IDF_NUM:
                tfidf_word_list.append(txt)
        if tfidf_word_list:
            text['text'] = tfidf_word_list
    words['words'] = [word for word in words['words'] if word['text']]
    if not os.path.isdir(ROOT_DIR+OUTPUT_PATH+"/"+words['label']):
        os.mkdir(ROOT_DIR+OUTPUT_PATH+"/"+words['label'])
    with open(ROOT_DIR+OUTPUT_PATH+"/"+words['label']+TFIDF_WORD_LIST, "wb") as f:
        pickle.dump(words['words'], f)
    print(words['label'])

movie-enter
it-life-hack
kaden-channel
topic-news
livedoor-homme
peachy
sports-watch
dokujo-tsushin
smax


### word_listの中身を見てみる

In [5]:
print(word_list[2]['words'][0])

{'text': ['ニート', 'レイ', 'ブル', '変更', '効果', '呼称', 'レイ', 'ブル', '呼称', '変更', 'ある', 'レイ', 'ブル', '払しょく', '呼称', '変更', '策', '効果', 'ある', '効果', '回答', '3', '万', '1149', '票', '回答', '者', '効果', 'ある', '回答', '728', '票', 'レイ', 'ブル', '遅咲き', 'ある', 'ある', 'ニート', '呼称', 'レイ', 'ブル', '変更', '効果'], 'file': 'kaden-channel-6223393'}


### TF-IDF値で圧縮したリストから辞書を作成

In [6]:
dictionary = []
for words in word_list:
    for word in words['words']:
        dictionary.append(word['text'])
from gensim import corpora
dictionary = corpora.Dictionary(dictionary)

### 辞書の中身をみてみる

In [7]:
print(dictionary)

Dictionary(28387 unique tokens: ['8', 'する', 'れる', 'アンジェリーク', 'インパクト']...)


### 不要な単語削除してないからだろうが辞書デカ過ぎ

In [11]:
dictionary.filter_extremes(no_below = 100, no_above = 0.2)
print(dictionary)

Dictionary(232 unique tokens: ['8', 'れる', '作', '姿', '家']...)


In [14]:
#dictionary.filter_extremes(no_below = 200, no_above = 0.2)
dictionary.save_as_text(ROOT_DIR+ROOT_DIR+DICTIONARY_PATH+DICTIONARY_NAME)