In [60]:
import pandas as pd
import numpy as np
from math import log10
from konlpy.tag import Okt
from konlpy.tag import Komoran
from collections import Counter 
pd.set_option('display.max_row', 50000)

In [78]:
## TF-IDF대상 자료
df = pd.read_csv('TF-IDF/dataset/seouldate.csv',encoding='utf8')
## 내용물 특수문자 제거
df['0'] = df['0'].str.replace('[\W+]',' ')
## na값 제거
df = df.dropna()
df.reset_index(drop=True,inplace=True)

In [79]:
len(df)

197

In [80]:
df

Unnamed: 0.1,Unnamed: 0,0
0,0,바양반이 낙산공원에 한번도 안와봤다고 해서 내가 서울구경 시켜줬당ㅋㅋㅋ 이이야기를 ...
1,1,청담동맛집 마마램 주소 서울특별시 강남구 도산대로 62길 11 1층 전화번호 ...
2,2,눈 오는 날 서울 데이트 코스 추천 창덕궁 후원 엊그제 밤새 갑작스럽게 내린 눈은 ...
3,3,해외여행 부럽지 않은 서울 데이트 한강 요트투어 서울에서 태어나 지금까지 서울에서...
4,4,안녕하세요 라라월드입니다 그냥 금요일이라는 사실 만으로도 설레는 하루네요 ...
5,5,지난해 9월 중순 이후에 둘이서 데이트 코스로 서울근교 갈만한곳을 찾아 강화도 여행...
6,6,이번에 합정에 놀러 갈 일이 있어서 미리 서울 데이트 맛집으로 유명한 곳을 하나하나...
7,7,여행 인플루언서 역마살 허브허브에게는 너무나 가혹한 코시국 ㅠㅠㅠ 올해도 아직까지 ...
8,8,안녕하세요 오늘은 모처럼 하늘도 맑고 해도 쨍쨍해서 날씨가 정말 좋았어요 그래서...
9,9,서울 가볼만한곳 4월 데이트코스 서울숲 튤립 도심 속 공원에서 잠깐의 산책을 했는...


In [81]:
# TF-IDF에 넣을 문장 list
contents =[]
for c in range(len(df)):
    temp = df['0'][c]
    contents.append(temp)

In [82]:
#################### TF-IDF 가중치 순위 구하는 function
#################### https://m.blog.naver.com/vangarang/221075347600
# =======================================
# -- TF-IDF function
# =======================================
def f(t, d):
    # d is document == tokens
    return d.count(t)

def tf(t, d):
    # d is document == tokens
    return 0.5 + 0.5*f(t,d)/max([f(w,d) for w in d])

def idf(t, D):
    # D is documents == document list
    numerator = len(D)
    denominator = 1 + len([ True for d in D if t in d])
    return log10(numerator/denominator)

def tfidf(t, d, D):
    return tf(t,d)*idf(t, D)

def tokenizer(d):
    okt = Okt()
    def keyword_extractor(text):
        tokens = okt.phrases(text)
        tokens = [token for token in tokens if len(token) > 2]  # 한 글자인 단어는 제외
        count_dict = [(token, text.count(token)) for token in tokens]
        ranked_words = sorted(count_dict, key=lambda x: x[1], reverse=True)[:20]
        return [keyword for keyword, freq in ranked_words]
    return keyword_extractor(d)

def tfidfScorer(D):
    tokenized_D = [tokenizer(d) for d in D]
    result = []
    for d in tokenized_D:
        result.append([(t, tfidf(t, d, tokenized_D)) for t in d])
    return result

In [83]:
## 결과
final_list =[]
for id, s in enumerate(tfidfScorer(contents)):
    s = sorted(s, key=lambda x:x[1],reverse=True)
    print('[%d] %s ...'%(id,s[:10]))
    final_list.append(s[:10])

[0] [('창신역', 1.9934362304976116), ('극강의', 1.9934362304976116), ('극강의 오르막', 1.9934362304976116), ('DDP쪽', 1.9934362304976116), ('성곽길이', 1.9934362304976116), ('오르막', 1.9934362304976116), ('극강의 오르막길', 1.9934362304976116), ('레몬에이드', 1.9934362304976116), ('DDP', 1.8173449714419305), ('바양반', 1.8173449714419305)] ...
[1] [('청담동 양갈비맛집', 1.9934362304976116), ('청담동 양갈비맛집 마마램', 1.9934362304976116), ('옥수수', 1.9934362304976116), ('파절이', 1.9934362304976116), ('지방부위', 1.9934362304976116), ('양고기', 1.8173449714419305), ('바로우', 1.8173449714419305), ('또띠아', 1.6924062348336306), ('양갈비', 1.5954962218255742), ('숄더렉', 1.5954962218255742)] ...
[2] [('창덕궁 후원', 1.9934362304976116), ('연경당', 1.9934362304976116), ('서울 데이트 코스 추천 장소', 1.9934362304976116), ('겨울 왕국', 1.9934362304976116), ('사진 찍', 1.9934362304976116), ('눈 오는 날', 1.9934362304976116), ('상고대', 1.9934362304976116), ('아닌 관람', 1.9934362304976116), ('있는 겨울', 1.9934362304976116), ('있는 겨울 왕국', 1.9934362304976116)] ...
[3] [('한강 요트투어', 1.9934362304976116), ('리무진

In [84]:
okt = Okt()
### counter에 사용할 데이터정제
ff_list=[]
for i in range(len(final_list)):
    for ii in range(len(final_list[i])):
        ff_list.append(final_list[i][ii][0])
result=''
for item in ff_list:
    result+=(item)
#### 다시 단어로 나누기 
tokens = okt.nouns(result)
tokens = [token for token in tokens if len(token) > 2]

In [85]:
tokens

['창신역',
 '오르막',
 '오르막',
 '오르막',
 '레몬에이드',
 '청담동',
 '청담동',
 '옥수수',
 '이지방',
 '또띠아',
 '숄더렉',
 '창덕궁',
 '데이트',
 '상고대',
 '리무진',
 '레인보우',
 '리무진',
 '세빛둥둥섬',
 '브릿지',
 '레인보우',
 '브릿지',
 '리무진',
 '새송이',
 '표고버섯',
 '그레이',
 '그레이',
 '머스터드',
 '치맛살',
 '와사비',
 '밴댕이',
 '주차장',
 '강화산성',
 '용흥궁',
 '불고기',
 '불고기',
 '비빔밥',
 '참기름',
 '브레이크',
 '브레이크',
 '도가니',
 '차찬텡',
 '데이트',
 '도가니',
 '닭튀김',
 '도가니',
 '전쟁기념관',
 '항공기',
 '헬리콥터',
 '수원화성',
 '모처럼',
 '모처럼',
 '데이트',
 '이팝나무',
 '꽃가루',
 '놀이터',
 '데이트',
 '데이트',
 '서울숲',
 '데이트',
 '서울숲',
 '나들이',
 '한그루',
 '구경만',
 '서울숲',
 '도서관',
 '개나리',
 '경복궁역',
 '경복궁역',
 '경복궁역',
 '데이트',
 '노들섬',
 '플라워',
 '사이드',
 '프리미엄',
 '프리미엄',
 '데이트',
 '또띠아',
 '연남동',
 '데이트',
 '아메리칸',
 '차이니즈',
 '아메리칸',
 '차이니즈',
 '돼지고기',
 '연남동',
 '데이트',
 '갈매기',
 '드라이브',
 '드라이브',
 '궁평항',
 '갈매기',
 '경기도',
 '경기도',
 '궁평항',
 '드라이브',
 '경기도',
 '드라이브',
 '경기도',
 '드라이브',
 '경기도',
 '궁평항',
 '와인잔',
 '무생채',
 '양념장',
 '건더기',
 '깍두기',
 '삼계탕',
 '삼계탕',
 '히히히',
 '배추김치',
 '떡갈비',
 '으샤으샤',
 '삼계탕',
 '덕수궁길',
 '삼각대',
 '주차장',
 '덕수궁',
 '일러스트',
 '뮤지션',
 '스타워즈',
 '일러

In [92]:
############불용어 처리
stop_words = '''
,흥선대원군,아일랜드,마무리,경기도,여행지,어린이,그동안,드라이브,나들이,동물원,
,데이트,반려견,담양군,당일치기,외국인,서울대,식물원,올림픽,강원도,알파카,코로나,해수욕장,동물원,양귀비,스키장,포스팅,
,제주도,대한민국,카메라,사람과,마포구,대교구,안국역,미러리스,이야기,서울시,금성면,주차장,안양천,고양이,크리스마스,경복궁역,이랜드,
'''
stop_words = stop_words.split(',')
result = []
for token in tokens: 
    if token not in stop_words: 
        result.append(token) 

In [93]:
#### TF-IDF로 나온 결과 Count 20개
count = Counter(result)
count.most_common(20)

[('덕수궁', 20),
 ('여의도', 14),
 ('다이닝', 11),
 ('분위기', 11),
 ('광화문', 10),
 ('청담동', 8),
 ('그레이', 8),
 ('파스타', 8),
 ('서울숲', 7),
 ('미술관', 7),
 ('연남동', 6),
 ('인사동', 6),
 ('디저트', 6),
 ('압구정', 6),
 ('수목원', 5),
 ('스테이크', 5),
 ('익선동', 5),
 ('경의선', 5),
 ('크루즈', 4),
 ('등나무', 4)]