# [실습1] 토큰화와 형태소 분석

* 토큰화(Tokenizing): 글, 문단, 문장 따위를 그 하위 요소로 분절하는 것
* 형태소 분석(morpheme analysis): 토큰화 중 문장을 의미가 있는 요소 별로 분절하여 분석하는 것
* Twitter 모듈: konlpy에 속한 여러 형태소 분석기 중 하나
* from konlpy.tag import Twitter: 한국어 자연어 처리를 위한 konly 라이브러리에서 Twitter 모듈 불러오기 
* Twitter.morphs(sentence): 한국어 문장인 sentence를 형태소에 따라 분할
* Twitter.pos(sentence): 한국어 문장인 sentence를 형태소와 품사에 따라 분할(POS-tagging)

In [None]:
import numpy as np
from konlpy.tag import Twitter 

def load_data(path):
    with open(path, 'r') as f:
        data = f.read()
    return data

In [None]:
'''
지시사항 1번
'문서'를 '문단'의 리스트로 변환하는 함수 doc2para를 완성합니다.

   Step01. 문장의 마침표(.) 뒤에 있는 개행 표시(\n)를 기준으로 
           문서 내 글들을 리스트 요소 즉, 문단으로 나눕니다.
           
   Step02. 나누어진 글들 중 마지막 글자가 "."인 경우만 
           문단이 나누어진 것으로 보고 그 외의 문장들은 서로 
           병합하여 줍니다.
'''

def doc2para(writing): # writing: 개행문자가 엉망인 문서 
    
    paragraphs = []
    
    splited = writing.split("\n") # 일단 개행문자 기준으로 문서 쪼개기(리스트 형태) 
    para = ""
    
    for i in splited:
        if len(i) == 0: continue # 빈 문자열일 경우 continue
        elif i[-1] == ".": # 마침표를 기준으로 문장을 나누기
            para += i
            paragraphs.append(para) # 마침표로 끝날 경우 문단에 추가
            para = "" # 다시 para 초기화  
        else: # 그 외는 서로 병합
            para += i
    
    return paragraphs

In [None]:
'''
지시사항 2번
'문단'을 '문장'의 리스트로 변환하는 함수 para2sen을 완성합니다.

   Step01. 문단을 "."으로 나누어 리스트로 만들고, 
           변수 sentences에 저장합니다.
           
   Step02. sentences 내 문장들에 대해서 "?"로 재분할 한 후, 
           ndarray.flatten()을 활용하여 재분할된 문장이 합쳐질 
           수 있도록 리스트로 만들어 줍니다. 
           ("!"에 대해서도 마찬가지로 적용합니다.)
'''

def para2sen(paragraph):
    
    sentences = []
    
    # Step01.
    sentences = paragraph.split('.') # 일단 마침표를 기준으로 문장 나누기
    
    # Step02. 

    # 나눠진 문장을 다시 물음표를 기준으로 문장 나누기
    sentences = np.array([s.split('?') for s in sentences])
    # 모두 일반 리스트 형태로(겹리스트 제거)
    sentences = sentences.flatten() 
    # 나눠진 문장을 다시 느낌표를 기준으로 문장 나누기
    sentences = np.array([s.split('!') for s in sentences])
    # 모두 일반 리스트 형태로(겹리스트 제거)
    sentences = sentences.flatten() 
    
    sentences = [sentence.replace('"','') for sentence in sentences]
    
    return sentences

# 띄어쓰기로 문장을 구분하는 함수

def sen2words_byspace(sentence):
    
    words = []
    words = sentence.strip().split(" ")
    
    return words

In [None]:
'''
지시사항 3번
    'Twitter()'로 선언된 Tokenizer인 'analyzer'를 이용해 형태소에 따라 
    분할된 문장의 리스트를 변수 'morphs'에 저장하는 sen2morph
    함수를 완성합니다. Twitter.morphs 메소드를 사용하세요.
'''

def sen2morph(sentence):
    
    morphs = []
    
    analyzer = Twitter()
    morphs = analyzer.morphs(sentence)
    
    return morphs


In [None]:
'''
지시사항 4번
   3번과 같이 'Twitter()'로 선언된 Tokenizer인 'analyzer'를 이용해
   형태소와 그에 따른 품사를 분할하는 analyzing_morphs 함수를 완성합니다.
   Twitter.pos 메소드를 사용하세요.
'''

def analyzing_morphs(sentence):
    
    analyzer = Twitter()
    
    return analyzer.pos(sentence)
    
# 위에서 정의한 함수들을 바탕으로 문서를 토큰화를 진행합니다.

In [None]:
def main():
    
    DATA_PATH = "./data/blood_rain.txt"
    
    blood_rain = load_data(DATA_PATH)
    paragraphs = doc2para(blood_rain)
    sentences = para2sen(paragraphs[4])
    words_byspace = sen2words_byspace(sentences[3])
    words_bymorphs = sen2morph(sentences[3])
    morphs_analyzed = analyzing_morphs(sentences[3])
    
    # 출력을 통해 토큰화가 잘 되었는지 확인합니다.
    
    print("문장으로 구분된 5번째 문단: ", sentences)
    print("\n띄어쓰기로 구분된 문장 (5번째 문단의 4번째 문장): ", words_byspace)
    print("\n형태소 별로 구분된 문장 (5번째 문단의 4번째 문장): ", words_bymorphs)
    print("\n형태소와 그에 따른 품사로 분류된 문장 (5번째 문단의 4번째 문장): ", morphs_analyzed)
    
    return words_byspace, words_bymorphs, morphs_analyzed
    
if __name__=='__main__':
    main()

## cf. 에러

In [3]:
import numpy as np

In [5]:
array = np.array([[1,2],[3,4]])
array

array([[1, 2],
       [3, 4]])

In [6]:
array.flatten()

array([1, 2, 3, 4])

In [7]:
np.array([[1,2],[3,4],[5]]) # 오류; 이미 flatten이 되었다고 봄

  """Entry point for launching an IPython kernel.


array([list([1, 2]), list([3, 4]), list([5])], dtype=object)

## cf. list of lists를 flatten 하는 법

In [8]:
lists = [[1,2],[3,4],[5]]

In [9]:
# 방법1 

[elem for sublist in lists for elem in sublist]

[1, 2, 3, 4, 5]

In [11]:
# 방법2

lists = [[1,2],[3,4]]
sum(lists,[]) # []를 가지고 sum

[1, 2, 3, 4]

# [실습2] BoW, TF-IDF

* BoW(Bag of Words): 토큰화된 단어들을 해당 글에서 등장 횟수와 대응시켜 놓은 '단어-등장횟수' 가방
* TF-IDF: 문서 내 단어 등장 빈도(TF) * 문서 간 단어 등장 빈도의 역수(IDF)
* konlpy.tag.Twitter(): 품사분류 기능의 객체 생성
* morphs(text): text를 형태소 형태로 분류
* pos(text): text를 (형태소, 품사)의 형태로 분류

In [None]:
import response
import numpy as np
from konlpy.tag import Twitter

PATH_1 = "./data/criminal_law.txt"
PATH_2 = "./data/military_criminal_law.txt"
PATH_3 = "./data/patent_law.txt"

#다음시간에 나오는 문서 유사도 함수입니다.
def cosine_similarity(x,y):
    return np.dot(x,y) / (np.linalg.norm(x)*np.linalg.norm(y))

In [None]:
'''
지시사항 1번
BoW를 딕셔너리 형태로 출력하는 함수를 만들어 봅니다.
'''
def bag_of_words(tokenized_sentences): # tokenized_sentences; 세 개의 문서의 단어를 담은 리스트
    word_dict={}
    for tokenized_sentence in tokenized_sentences:
        for token in tokenized_sentence:
            # TODO: 기존 word_dict 에 그 값이 있으면 1을 더해주고, 없으면 1을 부여합니다.
            if token in word_dict:
                word_dict[token] += 1
            else:
                word_dict[token] = 1
                
            # <=> word_dict[token] = word_dict.get(token, 0) + 1 
                
            
    return word_dict


def read_txt(path):
    file=open(path, 'r')
    output=str(file.read())
    return output


def get_splited_doc(path):
    text = read_txt(path)
    analyzer = Twitter()
    output = analyzer.morphs(text)
    return output


In [None]:
'''
지시사항 2번
한 문서 내에서 한 단어의 등장 횟수를 출력하는 함수를 만들어 봅니다. 
'''
def tf(doc, word):
    return doc.count(word)
    

# 여러 문서 내에서 한 단어의 등장 횟수를 출력하는 함수입니다.. 
def idf(docs, word):
    num=0
    for doc in docs:
        if doc.count(word)>0:
            num+=1
    return np.log(len(docs)/(1+num))

In [None]:
'''
지시사항 3번
함수 tf와 idf를 활용하여 tf_idf 함수를 만들어 봅니다.
'''
def tf_idf(docs, bow):
    len_vector= len(bow)
    vectors=[]
    keys = list(bow.keys())
    for doc in docs:
        vector = []
        for i,key in enumerate(keys):
            #TODO: TF와 IDF값을 곱하여 준 후, 변수 vector에 추가하여 줍니다.
            vector.append(tf(doc, key)*idf(docs, key))
            
        vectors.append(vector)
        
    return vectors

In [None]:
def BoW():

    criminal_law = get_splited_doc(PATH_1)
    military_criminal_law = get_splited_doc(PATH_2)
    patent_law = get_splited_doc(PATH_3)

    total = [criminal_law, military_criminal_law, patent_law]

    bow = bag_of_words(total)

    vecs_tfIdf = tf_idf(total, bow)
    
    criminal, military_criminal, patent = vecs_tfIdf

    sml_c_m = cosine_similarity(criminal, military_criminal)
    sml_c_p = cosine_similarity(criminal, patent)
    
    return sml_c_m, sml_c_p

sml_c_m, sml_c_p = BoW()

print("형법과 군형법 문서의 유사도 값은 ", sml_c_m, ' 입니다.')
print("형법과 특허법 문서의 유사도 값은 ", sml_c_p, ' 입니다.')

# [실습3] 문서 유사도

* 문서유사도(Text Similarity): 둘 이상의 문서 간의 주제 또는 의미가 얼마나 유사한지 나타내는 것
* 코사인 유사도(Cosine Similarity): 내적/노름
* 자카드 유사도(Jaccard Similarity): 교집합/합집합 

In [None]:
import numpy as np
from konlpy.tag import Twitter


# (다음 장에서 살펴볼) 원-핫 인코딩을 구현하는 함수입니다.
def one_hot(x, depth):
    output = []
    for i in range(depth):
        if i == x:
            output.append(1)
        else:
            output.append(0)
    return output


def sum_list(X, depth):
    output = np.zeros(depth)
    for _list in X:
        output = np.add(output, _list)
    return output

In [None]:
'''
지시사항 1번
BoW를 출력하는 함수를 만들어 봅니다.
''' 
def bag_of_words(tokenized_sentences):
    word_dict = {}
    for tokenized_sentence in tokenized_sentences:
        for token in tokenized_sentence:
            # 구현 방법은 지난 장에서와 동일합니다.
            word_dict[token] = word_dict.get(token, 0) + 1 
            
            
    return word_dict

In [None]:
'''
지시사항 2번
자카드 유사도(Jaccard Similarity)를 구하는 함수를 만들어 봅니다.
''' 
def jaccard(X, Y):
    # TODO: 요소의 중복을 허용하는 리스트의 길이를 len_total에 저장합니다.
    len_total = len(X+Y)
    
    # TODO: 요소의 중복을 허용하지 않는 리스트(두 리스트의 합집합)의 길이를 len_union에 저장합니다.
    len_union = len(set(X+Y))
    
    # TODO: len_total과 len_union을 이용하여 중복된 리스트(두 리스트의 교집합)의 길이를 len_inter 에 저장합니다.
    len_inter = len_total - len_union
    
    return len_inter/len_union


In [None]:
'''
지시사항 3번
Numpy를 이용하여(np.dot(), np.linalg.norm()) 코사인 유사도를 계산합니다.
''' 
def cosine(x, y):
    return np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))

def TextSimilarity():
    sentences = ["나는 어제 잠을 못 잤습니다", "나는 어제 밥을 굶었습니다", "오늘 밥은 맛이 없습니다.", "오늘 밥은 별로입니다."]
    analyzer = Twitter()
    tokenized = [ analyzer.morphs(sen) for sen in sentences ]

    ## 토큰화된 문장을 바탕으로 자카드 유사도를 출력해 봅니다.
    print('첫 번째 문장과 두 번째 문장의 자카트 유사도는 %f 입니다.' %(jaccard(tokenized[0], tokenized[1])))
    print('첫 번째 문장과 세 번째 문장의 자카트 유사도는 %f 입니다.' % (jaccard(tokenized[0], tokenized[2])))
    print('두 번째 문장과 세 번째 문장의 자카트 유사도는 %f 입니다.' % (jaccard(tokenized[1], tokenized[2])))
    ## 토큰화된 문장을 바탕으로 BoW를 만듭니다.

    BoW = bag_of_words(tokenized)
    print("<전체 문장에 대한 BoW>\n",BoW)

    ## {'word':index} 딕셔너리를 만듭니다.
    word_index = { k:v for v,k in enumerate(BoW.keys())}

    ## word_index_dict의 길이를 구하고 이를 바탕으로 원-핫 인코딩을 진행합니다.
    len_wordIndex = len(word_index)

    sen1 = [one_hot(word_index[token], len_wordIndex) for token in tokenized[0]]
    sen2 = [one_hot(word_index[token], len_wordIndex) for token in tokenized[1]]
    sen3 = [one_hot(word_index[token], len_wordIndex) for token in tokenized[2]]

    ## 각각의 단어별 임베딩된 것을 더하여 문장의 임베딩 값으로 나타냅니다.
    sen1_onehot = sum_list(sen1, len_wordIndex)
    sen2_onehot = sum_list(sen2, len_wordIndex)
    sen3_onehot = sum_list(sen3, len_wordIndex)

    print("첫 번째 문장의 벡터:",sen1_onehot)
    print("두 번째 문장의 벡터:", sen2_onehot)
    print("세 번째 문장의 벡터:", sen3_onehot)

    ## 이를 바탕으로 코사인 유사도를 출력합니다.
    sm_12 = cosine(sen1_onehot, sen2_onehot)
    sm_13 = cosine(sen1_onehot, sen3_onehot)

    print("첫 번째 문장과 두 번째 문장의 코사인 유사도는 %f 입니다." %sm_12)
    print("첫 번째 문장과 두 번째 문장의 코사인 유사도는 %f 입니다." %sm_13)
    print(tokenized)
    print(str(sen1_onehot))
    print(f"{sen1_onehot}, {sen2_onehot}, {sen3_onehot}")
    print(sm_12, sm_13)
    return tokenized, sen1_onehot, sen2_onehot, sen3_onehot, sm_12, sm_13

if __name__ == "__main__":
    TextSimilarity()

# [실습4] 단어 임베딩과 원-핫 인코딩

* 단어 임베딩(Word Embedding): 문장의 단어들을 컴퓨터가 연산할 수 있는 공간(벡터공간)으로 사상(mapping)하는 것
* 원-핫 인코딩(One-hot Encoding): 각 단어를 한 차원으로 설정하여 모든 단어의 개수를 차원으로 한 벡터를 생성한 뒤, 특정 단어에 대하여 그 위치의 차원 값을 1로 하고 나머지 차원은 0으로 만들어 주는 것
* tokenizer.fit_on_texts(sentence): sentence에 존재하는 리스트 요소(단어)마다 고유 인덱스를 붙이는 작업
* tokenizer.word_index: 위 작업의 결과를 딕셔너리 형태로 반환
* tokenizer.texts_to_sequences(sentence): 문자열을 정수 인덱스의 리스트로 변환 후 반환
* tf.one_hot(sen, len(word_dict)): sen(리스트)를 텐서플로우를 사용하여 원-핫 인코딩하는 메소드, word_dict 안의 word의 총 개수가 원-핫 벡터의 길이

In [None]:
import tensorflow as tf
from tensorflow.python.keras.preprocessing.text import Tokenizer

import logging, os
logging.disable(logging.WARNING)
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"

In [None]:
'''
지시사항 1번
embedding 함수를 완성합니다.

   Step01. 입력된 리스트 'sentence1+sentence2'에 존재하는
           요소마다 고유 인덱스를 붙입니다.
           
   Step02. 요소와 인덱스를 짝지은 딕셔너리 'word_dict'를 정의합니다.
   
   Step03. 'sentence1', 'sentence2'를 정수값으로 변환하고 이를
           각각 리스트 변수 'sen1', 'sen2'로 정의합니다.
'''

def embedding(sentence1, sentence2):
    
    tokenizer = Tokenizer()
    tokenizer.fit_on_texts(sentence1+sentence2)
    word_dict = tokenizer.word_index
    
    sen1 = tokenizer.texts_to_sequences(sentence1)
    sen2 = tokenizer.texts_to_sequences(sentence2)
    
    sen1 = [token[0] for token in sen1]
    sen2 = [token[0] for token in sen2]
    
    return word_dict, sen1, sen2

In [None]:
'''
지시사항 2번
텐서플로우를 사용하여 원-핫 인코딩을 실행합니다.
'''   

def one_hot(sen1, sen2, word_dict):
    
    # 앞 칸은 빈칸 
    oh_sen1 = sum(tf.one_hot(sen1, len(word_dict))) # -> +1
    oh_sen2 = sum(tf.one_hot(sen2, len(word_dict))) # -> +1
    
    return oh_sen1, oh_sen2

In [None]:
def main():
    
    sentence1 = ['나','는','오늘','저녁','에','치킨','을','먹','을','예정','입니다']
    sentence2 = ['나','는','어제', '맥주','와', '함께', '치킨','을', '먹었', '습니다']
    
    word_dict, seq_1, seq_2 = embedding(sentence1, sentence2)
    onehot_sen1, onehot_sen2 = one_hot(seq_1, seq_2, word_dict)
        
    print('리스트 요소-인덱스 딕셔너리: ', word_dict)
    
    print('\n정수값으로 변환된 sentence1:', seq_1)
    print('\n정수값으로 변환된 sentence2:', seq_2)
    
    print('\n원-핫 인코딩된 문장1:', onehot_sen1.numpy())
    print('\n원-핫 인코딩된 문장2:', onehot_sen2.numpy())
    
    return onehot_sen1, onehot_sen2

if __name__ == '__main__':
    main()

# [실습5] Word2Vec

* Word2Vec: 단어(word)를 벡터(vector)로 변환하는 것 ex. CBOW, Skip-Gram
* CBOW 모델: 주변 단어(context word)를 바탕으로 특정 단어(target word)를 예측하는 모델
* Skip-Gram 모델: 특정 단어(target word)를 바탕으로 주변 단어(context)를 예측하는 모델
* from gensim.models import word2vec: gensim 라이브러리로부터 Word2Vec 모델 불러오기
* word2vec.Word2Vec(data, size, min_count, window, sg): Word2Vec 모델을 정의하는 변수

 -data: 리스트 형태의 데이터
 
 -size: 문자 벡터 차원 수
 
 -min_count: 사용할 단어의 최소 빈도수
 
 -window: 고려할 앞뒤 단어 수
 
 -sg: 0은 CBOW, 1은 Skip-gram
 
* model.wv.index2word: Word2Vec 모델인 model에 리스트 데이터 data를 넣은 결과를 반환해주는 변수
* 한국어 word2vec 사이트; https://word2vec.kr/search/

In [None]:
from gensim.models import word2vec
import list_file

In [None]:
'''
지시사항 1번
   CBOW 방식의 Word2Vec 모델을
   반환하는 CBOW 함수를 완성하세요.
'''

def CBOW(sentences):
    
    model_cbow = word2vec.Word2Vec(sentences, size=300, min_count=1, window=10, sg=0)
    
    return model_cbow

In [None]:
'''
지시사항 2번
   Skip-Gram 방식의 Word2Vec 모델을
   반환하는 Skip_Gram 함수를 완성하세요.
'''

def Skip_Gram(sentences):
    
    model_skipgram = word2vec.Word2Vec(sentences, size=300, min_count=1, window=10, sg=1)
    
    return model_skipgram

In [None]:
'''
지시사항 3번
   각 모델의 결괏값을 정의하세요.
'''

def main():
    
    sen1, sen2 = list_file.sen1(), list_file.sen2()
    
    sentences = [sen1, sen2]
    
    cbow = CBOW(sentences) # model
    skipgram = Skip_Gram(sentences) # model
    
    idx2word_set_cbow = cbow.wv.index2word
    idx2word_set_skipgram = skipgram.wv.index2word
    
    print('CBOW: ', idx2word_set_cbow)
    print('\nSkip-Gram: ', idx2word_set_skipgram)
    
    return idx2word_set_cbow, idx2word_set_skipgram

if __name__ == '__main__':
    main()

# [미션] 문서 분석

* 세 개의 문학 작품(김유정-봄봄, 김유정-소낙비, 채만식-소설안쓰는변명)에 대하여 간단하게 문서 분석 실시

In [None]:
import response
from konlpy.tag import Twitter 
import numpy as np
import pickle

def load_stopwords():
    with open('./data/stopwords.pickle', 'rb') as handle:
        out = pickle.load(handle)
    return out
    
def load_data():
    DATA_PATH= './data/'
    FILES = ['김유정_봄봄.txt', '김유정_소낙비.txt', '채만식_소설안쓰는변명.txt']
    novels=[]
    for file_name in FILES:
        with open(DATA_PATH+file_name,'r') as f:
            novels.append((f.read()))
    return novels

In [None]:
'''
지시사항 1번
불용어(stopwords)를 제거한 BoW를 출력하는 함수를 만들어 봅니다.
'''
def bag_of_words(tokenized, stopwords):
    word_dict={}
    for token in tokenized:
        if token in word_dict:
            word_dict[token] += 1
        else:
            word_dict[token] = 1
        
        
    for stop in stopwords:
        if stop in word_dict:
            del word_dict[stop]
        
        
    return word_dict

In [None]:
'''
지시사항 2번
문서를 형태소 단위로 토큰화된 리스트로 출력하는 함수를 만들어 봅니다.
'''
def tokenizer(document):
    analyzer=Twitter()
    tokenized_documents=analyzer.morphs(document)
    return tokenized_documents

In [None]:
'''
지시사항 3번
빈도 상위 k개를 출력하는 함수를 만들어 봅니다. 
'''
def top_k(dic_bow,k):
    # dic.get(key); key에 해당하는 value를 가져옴
    # sorted(sort할 자료, key=정렬 기준-함수)
    # dic_bow.get <=> lambda x: dic[x]
    top_k_words=sorted(dic_bow, key=dic_bow.get, reverse=True)[:k]
    return top_k_words

In [None]:
'''
지시사항 4번
TF 함수를 구현하여 봅니다.
'''
def tf(doc, word):
    return doc.count(word)
    
def idf(docs, word):
    num=0
    for doc in docs:
        if doc.count(word)>0:
            num+=1
    return np.log(len(docs)/(1+num))

In [None]:
'''
지시사항 5번
IDF 함수를 구현하여 봅니다.
'''
def tf_idf(docs, bow):
    len_vector= len(bow)
    vectors=[]
    keys = list(bow.keys())
    for doc in docs:
        vector = []
        for i,key in enumerate(keys):
            vector.append(tf(doc, key)*idf(docs, key))
        vectors.append(vector)
        
    return vectors

In [None]:
def main():
    stopwords = load_stopwords()
    novel1, novel2, novel3 = load_data()
    stopwords=stopwords+["(", ")",".",",", "그것", "도", "는", "은", "다", "이", "고", "서"]
    ## 각 문서의 토큰화를 진행합니다.
    novel1_token = tokenizer(novel1)
    novel2_token = tokenizer(novel2)
    novel3_token = tokenizer(novel3)
    
    ## 토큰화된 문서를 바탕으로 각각의 BoW를 만듭니다.
    novel1_bow = bag_of_words(novel1_token, stopwords)
    novel2_bow = bag_of_words(novel2_token, stopwords)
    novel3_bow = bag_of_words(novel3_token, stopwords)
    
    ## 토큰화된 문서를 바탕으로 각각의 BoW를 만듭니다.
    novel1_top_k = top_k(novel1_bow,10)
    novel2_top_k = top_k(novel2_bow,10)
    novel3_top_k = top_k(novel3_bow,10)
    
    ## 토큰화된 문서를 하나의 리스트 안에 (리스트 형태로)추가하여 전체 토큰화 문서 리스트를 만들어 줍니다.
    total_tokens = [novel1_token, novel2_token, novel3_token]
    ## TODO:각 문서별 BoW를 병합하여 total_bow를 만들어 줍니다.
    total_bow=novel1_bow.copy()
    total_bow.update(novel2_bow)
    total_bow.update(novel3_bow)
    
    
    novel1_tfidf, novel2_tfidf, novel3_tfidf = tf_idf(total_tokens, total_bow)
    
    return novel1, novel2, novel3, stopwords, novel1_token, novel1_bow, novel1_tfidf
    
if __name__ =="__main__":
    main()
    response.run()