In [8]:
import response
from konlpy.tag import Okt 
import numpy as np
import pickle

def load_stopwords():
    with open('./data/stopwords.pickle', 'rb') as handle:
        out = pickle.load(handle)
    return out
    
def load_data():
    DATA_PATH= './data/'
    FILES = ['김유정_봄봄.txt', '김유정_소낙비.txt', '채만식_소설안쓰는변명.txt']
    novels=[]
    for file_name in FILES:
        with open(DATA_PATH+file_name,'r') as f:
            novels.append((f.read()))
    return novels

'''
지시사항 1번
불용어(stopwords)를 제거한 BoW를 출력하는 함수를 만들어 봅니다.
'''
def bag_of_words(tokenized, stopwords):

    word_dict={}
    for token in tokenized:
        word_dict[token] = word_dict.get(token,0)+1
    
    for stop in stopwords:
        if stop in word_dict.keys():
            del word_dict[stop]
        
    # print(word_dict)   
        
    return word_dict
    
'''
지시사항 2번
문서를 형태소 단위로 토큰화된 리스트로 출력하는 함수를 만들어 봅니다.
'''
def tokenizer(document):
    analyzer=Okt()
    tokenized_documents=analyzer.morphs(document)
    
    # print(tokenized_documents)
    return tokenized_documents
    
'''
지시사항 3번
빈도 상위 k개를 출력하는 함수를 만들어 봅니다. 
'''
def top_k(dic_bow,k):
    top_k_words = sorted(dic_bow, key=dic_bow.get, reverse=True)[:k]
    # top_k_words = sorted(dic_bow, key= lambda x : dic_bow[x], reverse = True)[:k]
    return top_k_words

'''
지시사항 4번
TF 함수를 구현하여 봅니다.
'''
def tf(doc, word):
    return doc.count(word)
    
def idf(docs, word):
    num=0
    for doc in docs:
        if doc.count(word)>0:
            num+=1
    return np.log(len(docs)/(1+num))
    
'''
지시사항 5번
IDF 함수를 구현하여 봅니다.
'''
def tf_idf(docs, bow):
    len_vector= len(bow)
    vectors=[]
    keys = list(bow.keys())
    for doc in docs:
        vector = []
        for i,key in enumerate(keys):
            vector.append(tf(doc,key) * idf(docs,key))
        vectors.append(vector)
        
    return vectors
    
def main():
    stopwords = load_stopwords()
    novel1, novel2, novel3 = load_data()
    stopwords=stopwords+["(", ")",".",",", "그것", "도", "는", "은", "다", "이", "고", "서"]
    ## 각 문서의 토큰화를 진행합니다.
    novel1_token = tokenizer(novel1)
    novel2_token = tokenizer(novel2)
    novel3_token = tokenizer(novel3)
    
    ## 토큰화된 문서를 바탕으로 각각의 BoW를 만듭니다.
    novel1_bow = bag_of_words(novel1_token, stopwords)
    novel2_bow = bag_of_words(novel2_token, stopwords)
    novel3_bow = bag_of_words(novel3_token, stopwords)
    
    ## 토큰화된 문서를 바탕으로 각각의 BoW를 만듭니다.
    novel1_top_k = top_k(novel1_bow,10)
    novel2_top_k = top_k(novel2_bow,10)
    novel3_top_k = top_k(novel3_bow,10)
    
    ## 토큰화된 문서를 하나의 리스트 안에 (리스트 형태로)추가하여 전체 토큰화 문서 리스트를 만들어 줍니다.
    total_tokens = [novel1_token, novel2_token, novel3_token]
    ## TODO:각 문서별 BoW를 병합하여 total_bow를 만들어 줍니다.
    
    total_bow= { **novel1_bow, **novel2_bow, **novel3_bow}
    
    print(total_bow)
    
    novel1_tfidf, novel2_tfidf, novel3_tfidf = tf_idf(total_tokens, total_bow)
    
    return novel1, novel2, novel3, stopwords, novel1_token, novel1_bow, novel1_tfidf
    
if __name__ =="__main__":
    main()

{'봄': 2, '\n': 237, '김유정': 1, '“': 11, '장인': 61, '님': 71, '!': 1, '…….': 9, '”': 11, '내': 7, '이렇게': 7, '뒤통수': 1, '긁고': 1, '나이': 1, '찼으니': 1, '성례': 11, '시켜': 8, '줘야': 2, '하지': 4, '않겠느냐고': 1, '하면': 5, '대답': 1, '늘': 1, '자식': 16, '구': 13, '뭐구': 2, '미처': 1, '자라야지': 1, '하고': 10, '만다': 1, '자라야': 3, '한다는': 3, '아니라': 4, '장차': 1, '아내': 33, '될': 2, '점': 24, '순': 6, '이의': 5, '키': 1, '말': 19, '이다': 12, '와서': 4, '돈': 4, '한': 32, '푼': 1, '안': 2, '받고': 1, '일': 5, '하기를': 1, '삼': 1, '년': 1, '꼬박이': 1, '일곱': 1, '달': 3, '했다': 1, '그런': 4, '데도': 1, '못': 11, '자랐다니까': 1, '자라는': 3, '겐지': 3, '짜장': 2, '영문': 2, '모른다': 5, '좀더': 1, '잘해야': 1, '한다든지': 1, '밥': 2, '많이': 3, '먹는다고': 1, '노상': 1, '걱정': 1, '이니까': 4, '덜': 2, '먹어야': 2, '나도': 5, '얼': 1, '마': 4, '든지': 1, '할': 13, '많다': 2, '순이': 1, '아직': 1, '어리니까': 1, '더': 5, '에는': 8, '어째': 1, '볼': 1, '수': 14, '없이': 6, '그만': 5, '벙벙하고': 1, '이래서': 1, '애최': 1, '계약': 2, '잘': 4, '된': 2, '걸': 1, '알았다': 1, '이태': 2, '면': 3, '기한': 1, '작정': 1, '했어야': 1, '원': 17, '덮어놓고': 1, '딸': 1, '대로': 4,