## TF-IDF module
### => 문서 내부의 특정 단어가 어느정도 빈도로 있는지 파악하기 위함

In [13]:
# Library
from konlpy.tag import Okt
import pickle
import numpy as np

In [19]:
okt = Okt()

word_dic = {"_id" : 0} # 단어가 들어가는 사전
dt_dic = {} # 문장 전체에서의 단어 출현 횟수
files = [] # 문서들을 저장할 리스트

In [32]:
def tokenize(text):
    result = []
    
    word_s = okt.pos(text, norm = True, stem = True)
    
    for n, h in word_s:
        
        if not (h in ["Noun", "Verb", "Adjective"]):
            continue
        if h == "Punctuation" and h2 == "Number":
            continue
            
        result.append(n)
    
    return result

In [35]:
def words_to_dic(words, auto_add=True):
    
    # 단어를 id로 변환
    
    result = []
    
    for w in words:
        
        if w in word_dic:
            result.append(word_dic[w])
        
        elif auto_add:
            id = word_dic[w] = word_dic["_id"]
            
            word_dic["_id"] += 1
            
            result.append(id)
    return result

In [36]:
def add_text(text):
    
    # 텍스트를 id 리스트로 변환해서 추가
    
    ids = words_to_ids(tokenize(text))
    files.append(ids)

In [37]:
def add_file(path):
    # 텍스트 파일을 학습용으로 추가
    
    with open(path, "r", encoding="utf-8") as f:
        
        s = f.read()
        add_text(s)

In [38]:
def calc_files():
    
    # 추가한 파일 계산
    
    global dt_dic
    result = []
    doc_count = len(files)
    dt_dic = {}
    
    # 단어 출현 횟수 세기
    
    for words in files:
        
        used_word = {}
        
        data = np.zeros(word_dic["_id"])
        
        for id in words:
            data[id] += 1
            used_word[id] = 1
        
        # 단어 t가 사용되고 있을 경우 dt_dic의 수를 1 더함
        
        for id in used_word:
            if not (id in dt_dic):
                dt_dic[id] = 0
            else:
                dt_dic[id] += 1
        
        # 정규화
        
        data = data / len(words)
        result.append(data)
        
    # tf-idf 계산
    
    for i, doc in enumerate(result):
        
        for id, v in enumerate(doc):
            
            idf = np.log(doc_count / dt_dic[id]) + 1
            doc[id] = min([doc[id] * idf, 1.0])
        result[i] = doc
    
    return result

In [39]:
def save_dic(fname):
    
    # dict를 파일로 저장
    
    pickle.dump([word_dic, dt_dic, files], open(fname, "wb"))

In [40]:
def load_dic(fname):
    
    # dict 파일 읽기
    
    global word_dic, dt_dic, files
    
    n = pickle.load(open(fname, "rb"))
    word_dic, dt_dic, files = n

In [41]:
def calc_text(text):
    
    # 문장을 벡터로 변환
    
    data = np.zeros(word_dic["_id"])
    words = words_to_ids(tokenize(text), False)
    
    for w in words:
        
        data[w] += 1
        
    data = data / len(words)
    
    for id, v in enumerate(data):
        
        idf = np.log(len(files) / dt_dic[id]) + 1
        data[id] = min([data[id] * idf, 1.0])
    
    return data

In [42]:
if __name__ == "__main__":
    
    add_text("비")    
    add_text("오늘은 비가 내렸어요.")
    add_text("오늘은 더웠지만 오후부터 비가 내렸다.")
    add_text("비가 내리는 일요일이다.")
    print(calc_files())
    print(word_dic)

[array([1., 0., 0., 0., 0., 0.]), array([0.34751987, 0.59338619, 0.44828016, 0.        , 0.        ,
       0.        ]), array([0.20851192, 0.35603171, 0.2689681 , 0.51372318, 0.51372318,
       0.        ]), array([0.34751987, 0.        , 0.44828016, 0.        , 0.        ,
       0.85620531]), array([1., 0., 0., 0., 0., 0.]), array([0.34751987, 0.59338619, 0.44828016, 0.        , 0.        ,
       0.        ]), array([0.20851192, 0.35603171, 0.2689681 , 0.51372318, 0.51372318,
       0.        ]), array([0.34751987, 0.        , 0.44828016, 0.        , 0.        ,
       0.85620531]), array([1., 0., 0., 0., 0., 0.]), array([0.34751987, 0.59338619, 0.44828016, 0.        , 0.        ,
       0.        ]), array([0.20851192, 0.35603171, 0.2689681 , 0.51372318, 0.51372318,
       0.        ]), array([0.34751987, 0.        , 0.44828016, 0.        , 0.        ,
       0.85620531]), array([1., 0., 0., 0., 0., 0.]), array([0.34751987, 0.59338619, 0.44828016, 0.        , 0.        ,
       0

# 텍스트 분류하기

1. 텍스트에서 불필요한 품사를 제거한다.
2. dict를 기반으로 단어를 숫자로 변환(int 형 id로 변환)
3. 파일 내부의 단어 출현 비율을 계산
4. 여러 text로 데이터를 학습시킴

In [45]:
import os, glob, pickle

In [46]:
x = []
y = []

In [47]:
# 디렉토리 내부의 파일 목록 전체에 대한 처리

def read_files(path, label):
    
    print("read_files=", path)
    
    files = glob.glob(path + "/*.txt")
    
    for f in files:
        
        add_files(f)
        
        y.append(label)

In [48]:
# 기사를 넣은 디렉토리 읽어들이기

read_files("text/100", 0)
read_files("text/101", 1)
read_files("text/103", 2)
read_files("text/105", 3)

read_files= text/100
read_files= text/101
read_files= text/103
read_files= text/105


In [None]:
# tf-idf 벡터로 변환

x = calc_files()

# save

pickle.dump([y, x], open("text/genre.pickle", "wb"))
save_dic("text/genre-tfidf.dic")

print("done")