# TF-IDF 구하기
- 벡터화하기 전에 데이터 전처리
   - document별 형태소 분석
   - 미등록단어 처리
   - 명사만 추출
   - 불용어(stopwords) 처리
- document별 단어로 tokenize되어 있는 것을 다시 합쳐서 각각 하나의 document로 만들기
- 벡터화(vectorize) 하기
- tf-idf 값 구하기

In [63]:
import pandas as pd

In [64]:
# CSV 데이터 불러오기
clova_df = pd.read_csv("../../data/sentiment/sentiment_clova.csv", index_col=0)
kakao_df = pd.read_csv("../../data/sentiment/sentiment_mini.csv", index_col=0)
geni_df = pd.read_csv("../../data/sentiment/sentiment_gigagenie.csv", index_col=0)
nugu_df = pd.read_csv("../../data/sentiment/sentiment_nugu.csv", index_col=0)

In [65]:
# 데이터 합치기
# 긍정 document
pos_c_text = clova_df.positive_text[clova_df.positive_text.notnull()]
pos_k_text = kakao_df.positive_text[kakao_df.positive_text.notnull()]
pos_g_text = geni_df.positive_text[geni_df.positive_text.notnull()]
pos_n_text = nugu_df.positive_text[nugu_df.positive_text.notnull()]

positive_text = [pos_c_text, pos_k_text, pos_g_text, pos_n_text]

In [66]:
# 데이터 합치기
# 부정 document
neg_c_text = clova_df.negative_text[clova_df.negative_text.notnull()]
neg_k_text = kakao_df.negative_text[kakao_df.negative_text.notnull()]
neg_g_text = geni_df.negative_text[geni_df.negative_text.notnull()]
neg_n_text = nugu_df.negative_text[nugu_df.negative_text.notnull()]

negative_text = [neg_c_text, neg_k_text, neg_g_text, neg_n_text]

In [67]:
len(positive_text), len(negative_text)

(4, 4)

# <br>
## 긍정 document

<br/><br/>
### POS tagging하기

#### 1.  Komoran 사용

In [48]:
komoran.pos("네콘")

[('네코', 'NNP'), ('ㄴ', 'JX')]

In [51]:
komoran.pos("척수 장애인") 

[('척수', 'NNP'), ('장애인', 'NNP')]

In [56]:
komoran.pos("가스잠그미") 

[('가스', 'NNP'), ('잠', 'NNG'), ('그', 'MM'), ('미', 'NNP')]

In [58]:
komoran.pos("삼행시") 

[('삼행', 'NNG'), ('시', 'XSN')]

In [59]:
komoran.pos("교동제비집")

[('교동', 'NNP'), ('제비집', 'NNG')]

In [60]:
komoran.pos("교동스튜디오")

[('교동', 'NNP'), ('스튜디오', 'NNP')]

In [61]:
komoran.pos("올레tv스카이라이프")

[('올레', 'NNP'), ('tv', 'SL'), ('스카이', 'NNP'), ('라이프', 'NNP')]

In [57]:
from konlpy.tag import Komoran

In [47]:
komoran = Komoran(userdic='./unregistered.txt')

In [10]:
import re

# 명사와 외래어만 뽑아내기위한 정규표현식
p = re.compile('NN.*|SL')

results = []
for i, brand_text in enumerate(positive_text):
    pos_tagging_list = list(map(komoran.pos, brand_text))
    print("pos tagging -", i)
    
    docs = []
    for doc in pos_tagging_list:
        want_words = []
        for word, pos in doc:
            if p.match(pos):
                want_words.append(word)
        docs.append(want_words)
    print("noun extract -", i)
    
    results.append(sum(docs, []))
    print("finish -", i)

In [None]:
results = []
for i, brand_text in enumerate(positive_text):
    pos_tagging_list = list(map(komoran.pos, brand_text))
    print("pos tagging -", i)

    docs = []
    for doc in pos_tagging_list:
        want_words = [word for word, pos in doc if p.match(pos)]         
        docs.append(want_words)
    print("noun extract -", i)
    
    results.append(sum(docs, []))
    print("finish -", i)

### pickle로 일단 저장

In [1]:
import pickle
#pickle.dump(results, open('tfidf_pos_list.pickle', "wb"))

In [9]:
load_result = pickle.load(open('tfidf_pos_list.pickle', "rb"))
results = load_result

<br/><br/>
### stopword 제거

In [3]:
stopwords = [line.strip() for line in open('./stopwordsKor.txt', encoding='utf-8')]

final_docs = []
for doc in results:
    unique_NN_words = set(doc)
    final_NN_words = doc
    
    for word in unique_NN_words:
        if word in stopwords:
            while word in final_NN_words: final_NN_words.remove(word)
    final_docs.append(final_NN_words)

from tqdm import tqdm_notebook
stopword_dict = {}
for s_word in stopwords:
    stopword_dict[s_word] = 1

final_docs = []
for i, doc in enumerate(results):
    unique_NN_words = set(doc)
    final_NN_words = doc
    
    for word in tqdm_notebook(unique_NN_words):
        if stopword_dict.get(word):
            while True:
                try:
                    final_NN_words.remove(word)
                except ValueError:
                    break
    print("finish -", i)

In [16]:
from tqdm import tqdm_notebook
stopword_dict = {}
for s_word in stopwords:
    stopword_dict[s_word] = 1

final_docs = []
for i, doc in enumerate(results):
    unique_NN_words = set(doc)
    final_NN_words = doc
    
    for word in tqdm_notebook(unique_NN_words):
        if stopword_dict.get(word):
            final_NN_words = list(filter(lambda x: x!= word, final_NN_words))
    final_docs.append(final_NN_words)
    print("finish -", i)

Widget Javascript not detected.  It may not be installed or enabled properly.


finish - 0


Widget Javascript not detected.  It may not be installed or enabled properly.


finish - 1


Widget Javascript not detected.  It may not be installed or enabled properly.


finish - 2


Widget Javascript not detected.  It may not be installed or enabled properly.


finish - 3


<br/><br/>
### document별 단어들을 각각의 document로 바꾸기

In [17]:
documents = []
for doc_words in final_docs:
    document = " ".join(doc_words)
    documents.append(document)

In [19]:
documents[0][:200]

'직장인 김 모 미국 출장 당시 인공지능 AI 스피커 구글 홈 사 아내 아들 영어 공부 부탁 김 영어 유치원 아들 구글 홈 대화 학부모 조언 스피커 정보 확인 검색 음악 알람 아이 흥미 영어 사용 대학 강모 네이버 스피커 웨이브 이벤트 선물 내년 교환 학생 계획 강 웨이브 영어 회화 기능 활용 거란 강 네이버 번역 파파 활용 기본 회화 습득 활용 웨이브 대화'

<br/><br/>
### 벡터화 하기

In [21]:
from sklearn.feature_extraction.text import CountVectorizer     # 벡터 수 카운트 할 때

In [26]:
cv=CountVectorizer(max_df=0.85, max_features=10000)     
# 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW(Bag Of Words) 인코딩한 벡터를 만든다.
# max_df=0.85란 말은 documents들에서 85%이상 나타나는 토큰(단어)를 무시하라는 것, 
# max_df=25란 말은 documents들에서 25번 이상 나타나는 토큰(단어)를 무시하라는 것,
# maximum 단어의 개수를 1만개로 정함 - 빈도수가 높은 단어 순으로 1만개를 자름(메모리 에러 안나려고)
# min_df=1, ngram_range=(1,1) 등은 default 값임  

word_count_vector=cv.fit_transform(documents)      # vectorize된 word_count_vector
feature_names=cv.get_feature_names()

In [27]:
len(cv.vocabulary_)      # 위에서 max_features를 10000으로 주었지만 단어 수가 그 이하였음

10000

In [None]:
cv.

In [44]:
cv.vocabulary_

{'김진형': 3741,
 'airi': 65,
 '코리': 8843,
 '하현': 9485,
 '팬서': 9218,
 '스트레인지': 6286,
 'uiot': 2627,
 '원혁': 7242,
 'aiot': 61,
 '수요처': 6165,
 '사업단': 5641,
 '최준': 8672,
 'luxmen': 1524,
 'personalizedtext': 1913,
 '임미숙': 7725,
 '숙달': 6198,
 'ups': 2656,
 'nlskrl': 1745,
 '형석': 9767,
 '투자비': 9088,
 '패트릭': 9214,
 '피력': 9401,
 '십수': 6480,
 '상층부': 5789,
 '불평등': 5484,
 '플리커': 9393,
 'items': 1267,
 '중략': 8299,
 'inside': 1223,
 '하버드': 9452,
 '오즈': 7041,
 '이한': 7613,
 'mashine': 1558,
 '뒷심': 4368,
 'wake': 2763,
 '명사': 4773,
 '뇌리': 3976,
 '간밤': 2984,
 '박흥순': 5078,
 '김경민': 3647,
 '여세': 6859,
 '국제가전박람회': 3465,
 '문지현': 4912,
 '김기진': 3654,
 '동승': 4304,
 '김승미': 3688,
 '쉬리': 6228,
 '선희': 5924,
 'weconomy': 2781,
 '마이크로소프트웨어': 4637,
 '셰어': 6027,
 '에디터톤': 6800,
 'marathon': 1548,
 '분장': 5459,
 '태평로': 9012,
 'makers': 1534,
 '한정수': 9596,
 '라지브': 4447,
 '콤비네이션': 8873,
 '특파원': 9130,
 '신현규': 6434,
 '희영': 9987,
 '특전': 9126,
 '홍익대': 9838,
 'siemens': 2266,
 '진원지': 8423,
 '편재': 9259,
 '함의': 9625,
 '김수연': 3685,


<br/><br/>
### TF-IDF 적용
- TF * IDF는 특정 문서 내에서 단어 빈도가 높을수록, 전체 문서들에는 그 단어를 포함한 문서가 적을수록 TF * IDF값이 높아지는 특징이 있다.
- 이러한 특징을 이용해서 모든 문서에 나타나는 흔한 단어들을 걸러내며, 특정 단어가 가지는 중요도를 측정하는 데 사용된다.
- 한마디로 TF * IDF 값은 특정 단어가 가지는 중요도!
- TF(Term Frequency): 단어 빈도
   - 해당 문서에서 단어가 나타나는 빈도수
   - 문서의 길이가 길면 해당 단어의 실제 중요도와는 상관없이 단어의 빈도수는 증가될 확률이 높다.
   - 위의 문제를 해결하기 위해 다음과 같이 표준화 -> (문서에서 단어가 나타나는 빈도수) / (모든 단어가 나타나는 빈도수)
- IDF(Inverse Document Frequency): 역문헌 빈도
   - 해당 단어의 일반적인 중요도를 나타내는 값
   - log( 전체 문서의 수 / 해당 단어가 포함된 문서들의 수 )

In [20]:
from sklearn.feature_extraction.text import TfidfTransformer    # Tf * idf 구할 때

In [None]:
[txt, print, def]

In [29]:
tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)        # Tf-idf 가중치를 적용할 수 있도록 변환시켜줌
tf_idf_matrix = tfidf_transformer.fit_transform(word_count_vector)

feature_names=cv.get_feature_names()

dense = tf_idf_matrix.todense()

for i in range(len(dense)):
    doc = dense[i].tolist()[0]           # dense[i].tolist()는 2차원 list, 예를들면 shape: (1,814)
    phrase_scores = [pair for pair in zip(range(0, len(doc)), doc) if pair[1] > 0]      # 0의 값이 아닌것만 모아서 만듦

    sorted_phrase_scores = sorted(phrase_scores, key=lambda t: t[1], reverse=True) # sorted(phrase_scores, key=lambda t: t[1] * -1)라고 해도 됨
    for phrase, score in [(feature_names[word_id], score) for (word_id, score) in sorted_phrase_scores][:20]:
        print('{0: <20} {1}'.format(phrase, score))      # 단어와 단어의 tf-idf 값을 출력
    print()
    ##### 이 부분은 테스트를 위해서 #####
    if i == 3:     
        break
    ###############################

uiot                 0.5972907483137071
대치동                  0.19211070405914132
네코                   0.16977225009877606
li                   0.12508570423378704
txt                  0.10732568133761924
print                0.08786458557743673
척수                   0.08488612504938803
엠게임                  0.08339689478536368
최진민                  0.08190766452133931
유조                   0.0769945105248138
tomatalk             0.07232817655361297
배틀필드                 0.07148305267316886
미와                   0.06850459214512016
브라보                  0.06850459214512016
옵티머스                 0.06850459214512016
원빈                   0.06850459214512016
def                  0.06766184258241213
위약금                  0.06552613161707146
cloi                 0.06254767108902275
date                 0.0610584408249984

파워볼                  0.33424322503769366
조수용                  0.21057243101073495
최진민                  0.1523879434946108
배틀필드                 0.13299311432256944
이석영                

- 추가 
   - 클로바
     1. 네콘
     2. 척수장애인
     3. 척수 장애인
     4. 가스잠그미
     5. 브라보라이프
   - 카카오
     1. 산타토익
     2. 산타 토익
     3. qm3 (뭔가 관련있는듯)
     4. qm6 (뭔가 관련있는듯)
     5. 삼행시
   - 기가지니
     1. 바바북
     2. 바바펜
     3. 바바키트
     4. 교동 기가 아일랜드
     5. 올레tv스카이라이프
   - 누구
     1. 아트리체 (아파트 관련) \- '청계' 라는 단어와도 연관(청계천)
     2. qoo(qoo10 관련 사이트 때문에)
     3. 범양건영 (아파트 관련)
     
- 삭제
   - 클로바
       1. li
       2. txt
       3. 유조
       4. 엠게임
       5. date
   - 카카오
       6. 조수용 (카카오 공동 대표)
       7. 배틀필드 (관련성이 전혀 없는 것 같은데 자꾸 나옴)
       8. 이석영 (카카오 AI 서비스 팀장)
       9. rx (관련없어보임... 근데 많이 나오긴 함)
       10. 콰르텟 (전혀 관련없는 "카카오프렌즈 콰르텟 강남점에서 라이언에그번을 맛보다" 이런거 많이 나옴)
       
- 렘런트유노마켓 blog.naver.com/ppang7942/ 블로그 데이터 삭제하고싶다.

# <br>
## 부정 document

<br/><br/>
### POS tagging하기

#### 1.  Komoran 사용

In [131]:
komoran.pos("척수 장애인")

[('척수', 'NNP'), ('장애인', 'NNP')]

In [132]:
komoran.pos("척수장애인")

[('척수', 'NNP'), ('장애인', 'NNP')]

In [86]:
komoran.pos("무드등")

[('무드', 'NNG'), ('등', 'NNB')]

In [123]:
komoran.pos("반려견") 

[('반려', 'NNG'), ('견', 'NNG')]

In [124]:
komoran.pos("샤오미")

[('샤오미', 'NNP')]

In [51]:
komoran.pos("척수 장애인") 

[('척수', 'NNP'), ('장애인', 'NNP')]

In [105]:
komoran.pos("nugu")

[('nugu', 'SL')]

In [122]:
komoran.pos("line out") 

[('line out', 'NNG')]

In [130]:
komoran.pos("null")

[('null', 'SL')]

In [126]:
komoran.pos("스포티지")

[('스포', 'NNP'), ('티', 'NNG'), ('지', 'NNB')]

In [125]:
komoran.pos("지니뮤직")

[('지니', 'NNP'), ('뮤직', 'NNP')]

In [61]:
komoran.pos("올레tv스카이라이프")

[('올레', 'NNP'), ('tv', 'SL'), ('스카이', 'NNP'), ('라이프', 'NNP')]

In [87]:
from konlpy.tag import Komoran

In [107]:
komoran = Komoran(userdic='./unregistered.txt')

In [108]:
import re

# 명사와 외래어만 뽑아내기위한 정규표현식
p = re.compile('NN.*|SL')

results = []
for i, brand_text in enumerate(positive_text):
    pos_tagging_list = list(map(komoran.pos, brand_text))
    print("pos tagging -", i)
    
    docs = []
    for doc in pos_tagging_list:
        want_words = []
        for word, pos in doc:
            if p.match(pos):
                want_words.append(word)
        docs.append(want_words)
    print("noun extract -", i)
    
    results.append(sum(docs, []))
    print("finish -", i)

In [109]:
results = []
for i, brand_text in enumerate(negative_text):
    pos_tagging_list = list(map(komoran.pos, brand_text))
    print("pos tagging -", i)

    docs = []
    for doc in pos_tagging_list:
        want_words = [word for word, pos in doc if p.match(pos)]         
        docs.append(want_words)
    print("noun extract -", i)
    
    results.append(sum(docs, []))
    print("finish -", i)

pos tagging - 0
noun extract - 0
finish - 0
pos tagging - 1
noun extract - 1
finish - 1
pos tagging - 2
noun extract - 2
finish - 2
pos tagging - 3
noun extract - 3
finish - 3


### pickle로 일단 저장

In [110]:
import pickle
pickle.dump(results, open('tfidf_neg_list.pickle', "wb"))

In [111]:
load_result2 = pickle.load(open('tfidf_neg_list.pickle', "rb"))
results = load_result2

<br/><br/>
### stopword 제거

In [112]:
stopwords = [line.strip() for line in open('./stopwordsKor.txt', encoding='utf-8')]

final_docs = []
for doc in results:
    unique_NN_words = set(doc)
    final_NN_words = doc
    
    for word in unique_NN_words:
        if word in stopwords:
            while word in final_NN_words: final_NN_words.remove(word)
    final_docs.append(final_NN_words)

from tqdm import tqdm_notebook
stopword_dict = {}
for s_word in stopwords:
    stopword_dict[s_word] = 1

final_docs = []
for i, doc in enumerate(results):
    unique_NN_words = set(doc)
    final_NN_words = doc
    
    for word in tqdm_notebook(unique_NN_words):
        if stopword_dict.get(word):
            while True:
                try:
                    final_NN_words.remove(word)
                except ValueError:
                    break
    print("finish -", i)

In [113]:
from tqdm import tqdm_notebook
stopword_dict = {}
for s_word in stopwords:
    stopword_dict[s_word] = 1

final_docs = []
for i, doc in enumerate(results):
    unique_NN_words = set(doc)
    final_NN_words = doc
    
    for word in tqdm_notebook(unique_NN_words):
        if stopword_dict.get(word):
            final_NN_words = list(filter(lambda x: x!= word, final_NN_words))
    final_docs.append(final_NN_words)
    #print("finish -", i)

Widget Javascript not detected.  It may not be installed or enabled properly.


Widget Javascript not detected.  It may not be installed or enabled properly.


Widget Javascript not detected.  It may not be installed or enabled properly.


Widget Javascript not detected.  It may not be installed or enabled properly.


<br/><br/>
### document별 단어들을 각각의 document로 바꾸기

In [114]:
documents = []
for doc_words in final_docs:
    document = " ".join(doc_words)
    documents.append(document)

In [115]:
documents[0][:200]

'유선 래 연결 와이파이 연결 사용 음성 인식 스피커 일상 차지 역할 흐름 가운데 국내 업체 세계 시장 맥 지적 전문가 국내 업체 시장 확대 이유 길 지적 글 사기 기본 사례 네이버 카카오 날 하루 수준 카메라 인식 로그인 질문 마찬가지 대답 네이버 음악 듣기 결제 상태 지원 별도 이퀄라이저 설정 지하철역 자동차 추천 경로 검색 비교 효과 결과 근처 분식집 '

<br/><br/>
### 벡터화 하기

In [116]:
from sklearn.feature_extraction.text import CountVectorizer     # 벡터 수 카운트 할 때

In [117]:
cv=CountVectorizer(max_df=0.85, max_features=10000)     
# 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW(Bag Of Words) 인코딩한 벡터를 만든다.
# max_df=0.85란 말은 documents들에서 85%이상 나타나는 토큰(단어)를 무시하라는 것, 
# max_df=25란 말은 documents들에서 25번 이상 나타나는 토큰(단어)를 무시하라는 것,
# maximum 단어의 개수를 1만개로 정함 - 빈도수가 높은 단어 순으로 1만개를 자름(메모리 에러 안나려고)
# min_df=1, ngram_range=(1,1) 등은 default 값임  

word_count_vector=cv.fit_transform(documents)      # vectorize된 word_count_vector
feature_names=cv.get_feature_names()

In [118]:
len(cv.vocabulary_)      # 위에서 max_features를 10000으로 주었지만 단어 수가 그 이하였음

9971

In [119]:
cv.vocabulary_

{'듣기': 2976,
 '이퀄라이저': 7082,
 '지하철역': 8084,
 '마인': 3322,
 '자비스': 7292,
 '중반': 7959,
 '실현': 5659,
 '생태계': 4832,
 '번성': 4075,
 '도태': 2830,
 '시범': 5482,
 '여원': 6172,
 '격화': 1451,
 '조짐': 7814,
 '진출': 8138,
 '세컨드': 5034,
 '메신저': 3490,
 '계좌': 1534,
 '개설': 1338,
 '이모티콘': 6983,
 '곳도': 1663,
 '린지': 3261,
 '전만': 7548,
 '경쟁자': 1500,
 '중립': 7956,
 '선상': 4917,
 '생물': 4814,
 'ceo': 134,
 '주년': 7863,
 '소회': 5129,
 '시너지': 5458,
 '내부': 2328,
 '논의': 2425,
 '액션': 5936,
 '완결': 6487,
 '베스트': 4115,
 '브레인': 4443,
 '노동부': 2382,
 '권리': 1926,
 '다라': 2516,
 '베타서비스': 4125,
 '제지': 7765,
 '하루하루': 9424,
 '실무': 5633,
 '시각': 5439,
 '시행착오': 5533,
 '웹툰': 6726,
 '회화': 9900,
 '감안': 1262,
 '매니저': 3417,
 '역삼동': 6194,
 '데모': 2756,
 '세션': 5023,
 '테크니컬': 8915,
 '전산언어학': 7559,
 '자인': 7314,
 '최현정': 8447,
 '연구원': 6213,
 '킹스': 8809,
 '골든': 1647,
 '서클': 4886,
 '범죄도시': 4091,
 '제품군': 7767,
 '만회': 3374,
 '라인업': 3074,
 '악의': 5820,
 '점수': 7612,
 '필터링': 9397,
 '진미': 8120,
 '열흘': 6289,
 'amp': 25,
 '상거래': 4736,
 '전환율': 7598,
 '격차': 1450,


<br/><br/>
### TF-IDF 적용
- TF * IDF는 특정 문서 내에서 단어 빈도가 높을수록, 전체 문서들에는 그 단어를 포함한 문서가 적을수록 TF * IDF값이 높아지는 특징이 있다.
- 이러한 특징을 이용해서 모든 문서에 나타나는 흔한 단어들을 걸러내며, 특정 단어가 가지는 중요도를 측정하는 데 사용된다.
- 한마디로 TF * IDF 값은 특정 단어가 가지는 중요도!
- TF(Term Frequency): 단어 빈도
   - 해당 문서에서 단어가 나타나는 빈도수
   - 문서의 길이가 길면 해당 단어의 실제 중요도와는 상관없이 단어의 빈도수는 증가될 확률이 높다.
   - 위의 문제를 해결하기 위해 다음과 같이 표준화 -> (문서에서 단어가 나타나는 빈도수) / (모든 단어가 나타나는 빈도수)
- IDF(Inverse Document Frequency): 역문헌 빈도
   - 해당 단어의 일반적인 중요도를 나타내는 값
   - log( 전체 문서의 수 / 해당 단어가 포함된 문서들의 수 )

In [120]:
from sklearn.feature_extraction.text import TfidfTransformer    # Tf * idf 구할 때

In [121]:
tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)        # Tf-idf 가중치를 적용할 수 있도록 변환시켜줌
tf_idf_matrix = tfidf_transformer.fit_transform(word_count_vector)

feature_names=cv.get_feature_names()

dense = tf_idf_matrix.todense()

for i in range(len(dense)):
    doc = dense[i].tolist()[0]           # dense[i].tolist()는 2차원 list, 예를들면 shape: (1,814)
    phrase_scores = [pair for pair in zip(range(0, len(doc)), doc) if pair[1] > 0]      # 0의 값이 아닌것만 모아서 만듦

    sorted_phrase_scores = sorted(phrase_scores, key=lambda t: t[1], reverse=True) # sorted(phrase_scores, key=lambda t: t[1] * -1)라고 해도 됨
    for phrase, score in [(feature_names[word_id], score) for (word_id, score) in sorted_phrase_scores][:20]:
        print('{0: <20} {1}'.format(phrase, score))      # 단어와 단어의 tf-idf 값을 출력
    print()
    ##### 이 부분은 테스트를 위해서 #####
    if i == 3:     
        break
    ###############################

out                  0.23413519912775949
미니언즈                 0.12807609620495877
펌웨어                  0.12807609620495877
wave                 0.12023158874128191
nonnull              0.1123673342236481
엘지                   0.0922147892675703
약관                   0.08709174541937197
보호자                  0.08226371861245604
float                0.07223614342948807
목적어                  0.07223614342948807
반려                   0.07172261387477692
와서                   0.07172261387477692
후에                   0.07172261387477692
셀리                   0.06960776190284741
필립스                  0.06659957002657856
for                  0.06420990527065606
int                  0.06420990527065606
parse                0.06420990527065606
선풍기                  0.0632797835480431
잠시                   0.0632797835480431

취약점                  0.12959782932778247
보험료                  0.12450596823582745
선생님                  0.10079831169938638
크림                   0.09782611789957871
수영                 