In [32]:
import pandas as pd
import numpy as np
from math import log10
from konlpy.tag import Okt
from collections import Counter 
pd.set_option('display.max_row', 50000)

In [34]:
## TF-IDF대상 자료
df = pd.read_csv('TF-IDF/dataset/jeju_activity.csv',encoding='utf8')
## 내용물 특수문자 제거
df['0'] = df['0'].str.replace('[\W+]',' ')
## na값 제거
df = df.dropna()
df.reset_index(drop=True,inplace=True)

In [35]:
df

Unnamed: 0.1,Unnamed: 0,0
0,0,제주도 여행을 가서 가장 재미있었던 액티비티를 꼽자면 단연 오프로드예요 사실 방...
1,1,얼마전에 친구들이랑 제주 액티비티 체험하러 가서 제트스키 타고 왔는데 완전 신나더라...
2,2,이맘때 제주도는 온통 노랑치마와 연분홍저고리로 치장한 봄의 풍경으로 생긋생긋 수 놓...
3,3,안녕하세요 해운대원주민입니다 제주 액티비티 하면 어떤 게 제일 처음 떠오르세요 ...
4,4,새해부터 친구들과 계획했던 걸 드디어 하고 왔는데요 바로 제주 액티비티를 함께 하...
5,5,제주 액티비티 추천 서귀포잠수함 글 사진 미네쿠 제주액티비티 서귀포잠수함 제...
6,6,일상의 스트레스가 확 날아가는 야성미 넘치는 체험을 하고 왔습니다 알고 보니 여...
7,7,지난 주 독특한 경험을 하러 제주 9 81파크에 방문해 액티비티를 즐겼는데요 하루...
8,8,안녕하세요 여행블로거 벤사마입니다 저는 여행을 자주 다니다보니까 예전이랑은 여행...
9,9,안녕하세요 미미쵸코에요 제주여행 2일차날 오전엔 아르떼뮤지엄에 다녀왔고 그 ...


In [36]:
# TF-IDF에 넣을 문장 list
contents =[]
for c in range(len(df)):
    temp = df['0'][c]
    contents.append(temp)

In [37]:
#################### TF-IDF 가중치 순위 구하는 function
#################### https://m.blog.naver.com/vangarang/221075347600
# =======================================
# -- TF-IDF function
# =======================================
def f(t, d):
    # d is document == tokens
    return d.count(t)

def tf(t, d):
    # d is document == tokens
    return 0.5 + 0.5*f(t,d)/max([f(w,d) for w in d])

def idf(t, D):
    # D is documents == document list
    numerator = len(D)
    denominator = 1 + len([ True for d in D if t in d])
    return log10(numerator/denominator)

def tfidf(t, d, D):
    return tf(t,d)*idf(t, D)

def tokenizer(d):
    okt = Okt()
    def keyword_extractor(text):
        tokens = okt.phrases(text)
        tokens = [token for token in tokens if len(token) > 2]  # 한 글자인 단어는 제외
        count_dict = [(token, text.count(token)) for token in tokens]
        ranked_words = sorted(count_dict, key=lambda x: x[1], reverse=True)[:20]
        return [keyword for keyword, freq in ranked_words]
    return keyword_extractor(d)

def tfidfScorer(D):
    tokenized_D = [tokenizer(d) for d in D]
    result = []
    for d in tokenized_D:
        result.append([(t, tfidf(t, d, tokenized_D)) for t in d])
    return result

In [38]:
## 결과
final_list =[]
for id, s in enumerate(tfidfScorer(contents)):
    s = sorted(s, key=lambda x:x[1],reverse=True)
    print('[%d] %s ...'%(id,s[:10]))
    final_list.append(s[:10])

[0] [('포토스팟', 1.9637878273455553), ('고사리', 1.9637878273455553), ('천막 안', 1.9637878273455553), ('다양한 생태환경', 1.9637878273455553), ('관찰할 수', 1.9637878273455553), ('기울기', 1.9637878273455553), ('기사님', 1.9637878273455553), ('자분들', 1.9637878273455553), ('가장 재미있었던 액티비티', 1.9637878273455553), ('단연 오프로드', 1.9637878273455553)] ...
[1] [('제트스키', 1.9637878273455553), ('제주 제트스키', 1.9637878273455553), ('커피 한 잔', 1.9637878273455553), ('저희 차례', 1.9637878273455553), ('제대로 느낄 수', 1.9637878273455553), ('하이엔드', 1.9637878273455553), ('에너지', 1.9637878273455553), ('이것저것', 1.9637878273455553), ('오션뷰', 1.787696568289874), ('제주 액티비티 체험', 1.787696568289874)] ...
[2] [('덩물계곡', 1.9637878273455553), ('여행코스', 1.9637878273455553), ('엔진소리', 1.9637878273455553), ('액티비티하', 1.9637878273455553), ('자동차', 1.9637878273455553), ('제주도ATV를', 1.9637878273455553), ('바다와 들판', 1.9637878273455553), ('ATV체험장', 1.9637878273455553), ('푸른바다', 1.787696568289874), ('대포주상절리', 1.787696568289874)] ...
[3] [('다이버', 1.9637878273455553), ('세연교',

In [39]:
okt = Okt()
### counter에 사용할 데이터정제
ff_list=[]
for i in range(len(final_list)):
    for ii in range(len(final_list[i])):
        ff_list.append(final_list[i][ii][0])
result=''
for item in ff_list:
    result+=(item)
#### 다시 단어로 나누기 
tokens = okt.nouns(result)
tokens = [token for token in tokens if len(token) > 2]

In [40]:
tokens

['고사리',
 '기울기',
 '오프로드',
 '제대로',
 '하이엔드',
 '에너지',
 '진소리',
 '자동차',
 '제주도',
 '대포주상절리',
 '버세연교',
 '스쿠버',
 '유리창',
 '와이프',
 '서귀포',
 '잠수함',
 '빨간색',
 '그동안',
 '익스트림',
 '가까이',
 '서귀포',
 '잠수함',
 '선착장',
 '다이빙',
 '물고기',
 '자마자',
 '일반인',
 '와일드',
 '간장게장',
 '뚝배기',
 '반나절',
 '광개토대왕',
 '동물원',
 '광개토대왕',
 '알파카',
 '장거리',
 '단거리',
 '장거리',
 '동물원',
 '장거리',
 '스피드',
 '샤워실',
 '퍼시픽',
 '퍼시픽',
 '대포주상절리',
 '주상절리',
 '가까이',
 '패러글라이딩',
 '고등어',
 '아쉬움',
 '제주도',
 '오프로드',
 '갑자기',
 '글라이딩',
 '볼거리',
 '패러세일링',
 '해양스포츠',
 '타임즈',
 '타임즈',
 '전광판',
 '건너편',
 '레이서',
 '그대로',
 '파노라마',
 '그대로',
 '포인트',
 '박명수',
 '오픈카',
 '오프로드',
 '오프로드',
 '브액티브',
 '암벽등반',
 '액티브액티브',
 '제대로',
 '안전교육',
 '구좌읍',
 '순서대로',
 '둘러보기',
 '둘러보기',
 '구좌읍',
 '레일바이크',
 '타이밍',
 '짚라인',
 '마지막',
 '식물원',
 '시스터',
 '무중력',
 '시스템스',
 '손잡이',
 '이지스',
 '낚싯대',
 '성산일출봉',
 '성산일출봉',
 '초보자',
 '스토리온',
 '꽃사슴',
 '볼랜드',
 '볼랜드',
 '볼랜드',
 '볼랜드',
 '볼랜드',
 '마지막',
 '마지막',
 '트레킹',
 '트레킹',
 '사진사',
 '수월봉',
 '트레일',
 '수월봉',
 '전기자전거',
 '한경면',
 '한경면',
 '수월봉',
 '전망대',
 '오프로드',
 '드라이버',
 '풍력발전',
 '정류장',
 '사물함'

In [47]:
############불용어 처리
stop_words = '''
,관광지,제주도,주차장,어린이,정겨운,라벤더,그린티,비프리,블로그,여행지,대학생,전문가,나무꾼,부슬부슬,사단법인,
,사격장,사계절,페드르,고슴도치,미스틱,어드벤쳐,바이크,피아노,패키지,포스팅,프로젝트,그대로,스포츠,제주시,신혼여행,이용문,
,서비스,단거리,마지막,
'''
stop_words = stop_words.split(',')
result = []
for token in tokens: 
    if token not in stop_words: 
        result.append(token)  

In [48]:
#### TF-IDF로 나온 결과 Count 20개
count = Counter(result)
count.most_common(20)

[('오프로드', 16),
 ('짚라인', 13),
 ('레이스', 13),
 ('서핑보드', 12),
 ('아르떼', 10),
 ('잠수함', 9),
 ('볼랜드', 8),
 ('서귀포', 7),
 ('레이싱', 7),
 ('전시회', 7),
 ('주상절리', 6),
 ('충전기', 5),
 ('김뚜벅', 5),
 ('렌트카', 5),
 ('메리어트', 5),
 ('송악산', 5),
 ('스쿠버', 4),
 ('다이빙', 4),
 ('캔버스', 4),
 ('해수욕장', 4)]

In [31]:
################## 네이버블로그 [제주 관광지추천]검색 -> TF-IDF -> retokenize -> count 제주도 추천 여행지
# 1. 쇠소깍
# 2. 서프라이즈 
# 3. 아르떼
# 4. 용머리
#