# 데이터 전처리

In [18]:
import pandas as pd 
from tqdm import tqdm
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer

In [19]:
# 데이터 불러오기
data = pd.read_csv("./crawling_data_.csv")
del data['Unnamed: 0']
del data['text']
data

Unnamed: 0,관광지,주소,kr_text
0,경복궁,서울특별시 종로구 사직로 161(경복궁),은우맘의 취미생활광화문 역 맛집 엄마와 한정식 점심 꽃누리들밥 점오랜만에 역 근처...
1,창덕궁,서울특별시 종로구 율곡로 99(창덕궁),동에번쩍 서에번쩍 구길동 서울궁투어 후원 예약방법 전각 입장료 주차장꿀팁내돈내산...
2,창경궁,서울특별시 종로구 창경궁로 185(창경궁),사나의 여행 대온실 서울 궁궐 데이트 주차장 정보까지 대온실 생각이 딱 나더라고요...
3,덕수궁,서울특별시 종로구 세종대로 99(덕수궁),일 전 서울 한정식 맛집 한가람 본점 시청 점심서울 한정식 맛집 시청 점심 ...
4,경희궁,서울특별시 종로구 새문안로 55(경희궁),장돌뱅이와 곱단이의 살아가는 이야기정조는 지에 이렇게 썼다 대체로 궁궐이란 임금이...
...,...,...,...
117,한라산국립공원,제주특별자치도 제주시 제주시 1100로 2070-61,기억창고 어리목남벽영실어리목탐방안내소 한라산을 다시는 안 올줄 알았다 재미 없는 ...
118,제주올레길,"제주특별자치도 제주시, 서귀포시",당신의 일상은 안녕한가요서귀포 여행 제주 가파도 배시간 제주 올레길 코스 추천제주...
119,우도,제주특별자치도 제주시 삼양고수물길 1,어제박로우 천천히 걸어가기횟집 회양과국수군 직접 잡아 손질하는 제주도 물회 맛집...
120,비자림,제주특별자치도 제주시 구좌읍 비자숲길 55,일 전모든 일이 일어나는 데는 이유가 있어요푸르른 천년의 숲 그린카드 무료입...


## 정규화, 명사 추출

In [20]:
okt=Okt()

total = []
# i = data['kr_text'][0]
for i in tqdm(data['kr_text']):
    # 정규화
    t = okt.normalize(i)
    # 명사 추출
    nouns = okt.nouns(t)
    # 1글자 단어 삭제 
    nouns = [word for word in nouns if len(word) > 1]
    total.append(nouns)

100%|████████████████████████████████████████████████████████████████████████████████| 122/122 [15:16<00:00,  7.51s/it]


## 빈도 분석

In [21]:
# 빈도 분석
from collections import Counter

total_1000=[]
for n in tqdm(total):
    result=Counter(n)

    # 빈도 많은 순으로 1000개 반환
    total_1000.append(result.most_common(1000))

100%|███████████████████████████████████████████████████████████████████████████████| 122/122 [00:00<00:00, 174.68it/s]


In [22]:
data['total_1000'] = ''
data['total_1000'] = total_1000
data

Unnamed: 0,관광지,주소,kr_text,total_1000
0,경복궁,서울특별시 종로구 사직로 161(경복궁),은우맘의 취미생활광화문 역 맛집 엄마와 한정식 점심 꽃누리들밥 점오랜만에 역 근처...,"[(맛집, 403), (서울, 250), (야간, 189), (카페, 160), (..."
1,창덕궁,서울특별시 종로구 율곡로 99(창덕궁),동에번쩍 서에번쩍 구길동 서울궁투어 후원 예약방법 전각 입장료 주차장꿀팁내돈내산...,"[(후원, 288), (서울, 281), (카페, 219), (창경궁, 190), ..."
2,창경궁,서울특별시 종로구 창경궁로 185(창경궁),사나의 여행 대온실 서울 궁궐 데이트 주차장 정보까지 대온실 생각이 딱 나더라고요...,"[(서울, 290), (창덕궁, 258), (궁궐, 178), (야간, 172), ..."
3,덕수궁,서울특별시 종로구 세종대로 99(덕수궁),일 전 서울 한정식 맛집 한가람 본점 시청 점심서울 한정식 맛집 시청 점심 ...,"[(서울, 394), (미술관, 197), (돌담, 189), (여행, 176), ..."
4,경희궁,서울특별시 종로구 새문안로 55(경희궁),장돌뱅이와 곱단이의 살아가는 이야기정조는 지에 이렇게 썼다 대체로 궁궐이란 임금이...,"[(서울, 267), (맛집, 254), (박물관, 198), (떡볶이, 170),..."
...,...,...,...,...
117,한라산국립공원,제주특별자치도 제주시 제주시 1100로 2070-61,기억창고 어리목남벽영실어리목탐방안내소 한라산을 다시는 안 올줄 알았다 재미 없는 ...,"[(한라산, 1043), (국립공원, 481), (탐방, 409), (제주, 376..."
118,제주올레길,"제주특별자치도 제주시, 서귀포시",당신의 일상은 안녕한가요서귀포 여행 제주 가파도 배시간 제주 올레길 코스 추천제주...,"[(제주, 1158), (코스, 1140), (올레길, 1092), (제주도, 42..."
119,우도,제주특별자치도 제주시 삼양고수물길 1,어제박로우 천천히 걸어가기횟집 회양과국수군 직접 잡아 손질하는 제주도 물회 맛집...,"[(여행, 482), (제주, 458), (제주도, 373), (맛집, 231), ..."
120,비자림,제주특별자치도 제주시 구좌읍 비자숲길 55,일 전모든 일이 일어나는 데는 이유가 있어요푸르른 천년의 숲 그린카드 무료입...,"[(제주, 696), (제주도, 392), (여행, 358), (숲길, 221), ..."


In [23]:
# 중간 저장
data.to_csv("data_1.csv", encoding='utf-8')

In [24]:
data

Unnamed: 0,관광지,주소,kr_text,total_1000
0,경복궁,서울특별시 종로구 사직로 161(경복궁),은우맘의 취미생활광화문 역 맛집 엄마와 한정식 점심 꽃누리들밥 점오랜만에 역 근처...,"[(맛집, 403), (서울, 250), (야간, 189), (카페, 160), (..."
1,창덕궁,서울특별시 종로구 율곡로 99(창덕궁),동에번쩍 서에번쩍 구길동 서울궁투어 후원 예약방법 전각 입장료 주차장꿀팁내돈내산...,"[(후원, 288), (서울, 281), (카페, 219), (창경궁, 190), ..."
2,창경궁,서울특별시 종로구 창경궁로 185(창경궁),사나의 여행 대온실 서울 궁궐 데이트 주차장 정보까지 대온실 생각이 딱 나더라고요...,"[(서울, 290), (창덕궁, 258), (궁궐, 178), (야간, 172), ..."
3,덕수궁,서울특별시 종로구 세종대로 99(덕수궁),일 전 서울 한정식 맛집 한가람 본점 시청 점심서울 한정식 맛집 시청 점심 ...,"[(서울, 394), (미술관, 197), (돌담, 189), (여행, 176), ..."
4,경희궁,서울특별시 종로구 새문안로 55(경희궁),장돌뱅이와 곱단이의 살아가는 이야기정조는 지에 이렇게 썼다 대체로 궁궐이란 임금이...,"[(서울, 267), (맛집, 254), (박물관, 198), (떡볶이, 170),..."
...,...,...,...,...
117,한라산국립공원,제주특별자치도 제주시 제주시 1100로 2070-61,기억창고 어리목남벽영실어리목탐방안내소 한라산을 다시는 안 올줄 알았다 재미 없는 ...,"[(한라산, 1043), (국립공원, 481), (탐방, 409), (제주, 376..."
118,제주올레길,"제주특별자치도 제주시, 서귀포시",당신의 일상은 안녕한가요서귀포 여행 제주 가파도 배시간 제주 올레길 코스 추천제주...,"[(제주, 1158), (코스, 1140), (올레길, 1092), (제주도, 42..."
119,우도,제주특별자치도 제주시 삼양고수물길 1,어제박로우 천천히 걸어가기횟집 회양과국수군 직접 잡아 손질하는 제주도 물회 맛집...,"[(여행, 482), (제주, 458), (제주도, 373), (맛집, 231), ..."
120,비자림,제주특별자치도 제주시 구좌읍 비자숲길 55,일 전모든 일이 일어나는 데는 이유가 있어요푸르른 천년의 숲 그린카드 무료입...,"[(제주, 696), (제주도, 392), (여행, 358), (숲길, 221), ..."


In [25]:
# total 말뭉치 생성
total_ = []
for a in tqdm(total):
    text = ''
    for b in a : 
        text = text + ' ' + b
    total_.append(text)
total_

100%|████████████████████████████████████████████████████████████████████████████████| 122/122 [00:07<00:00, 16.10it/s]


[' 은우 취미 생활 광화문 맛집 엄마 한정식 점심 누리 근처 약속 양식 때문 한정식 점심 광화문 맛집 누리 예약 예약 엄마 가장 타임 방문 누리 안국역 시간 멜로디 여행 복원 광화문 현판 교체 사진 찍기 복원 공사 마무리 광화문 현판 교체 실제 방문 여러 가지 모습 관련 이야기 추가 사진 찍기 곳도 하나 소개 주소 서울 종로구 사직로 운영 시간 세렝게티 서울 데이트 코스 이탈리안 레스토랑 옥달 영업 시간 일요일 휴무 주소 서울 종로구 자하문로 전화 주말 가기 전날 예약 레스토랑 캐치 테이블 인근 식당 음식 몽몽 고기 뜰애 곱창 타운 곱창 데이트 고기 뜰애 곱창 타운 곱창 데이트 몽몽 지난주 친구 서울 식당 탐방 고기 위치 지하철역 바로 여기 세종 마을 음식 문화 거리 여기 식당 주소 서울특별시 종로구 여행 우수 서울 과방 예약 문화 축전 국내 서울 과방 예약 문화 축전 국내 축제 사진 우수 작년 처음 문화 축전 언제 가도 한번 축제 가면 생각 작년 축제 첫날 바로 올해 조금 시간 긍정 소녀 삼청동 카페 테라로사 국립 미술관 삼청동 근처 카페 분위기 카페 생각 오픈런 국립 현대 미술관 전시 보고 삼청동 카페 답지 옆쪽 공간 혼자 커피 쇼파 쇼파 어제 꼬블꼬블꼬 비서 한정식 맛집 도취 식당 코스 요리 위치 추억 의미 한참 생활 골목 조금 조금 골목 주택가 사이 간판 반짝 손님 맞이 송비글 일상 쌀국수 데이트 맛집 케이 맛집 쌀국수 케이 깜온 쌀국수 볶음 쌀국수 월남쌈 쌀국수 데이트 쌀국수 데이트 쌀국수 케이 깜온 소고기 쌀국수 부터 볶음 쌀국수 사이드 메뉴 월남쌈 주님 숙성 지구별 시골 종로 인사동 맛집 누리 한정식 점심 데이트 누리 한정식 점심 데이트 얼마 종로 인사동 맛집 이제 극단 무더위 부모님 모시 외출 시기 맛집 종로 점심 데이트 커플 시간 매식 카페 테로 에스프레소 다른 메뉴 좀더 포스팅 묵혔던 카페 테로 출구 코앞 위치 가게 이름 부근 에스프레소 바다 보이지 로그 맛집 서울 맛집 다이닝 분소 짝꿍 생일 방문 맛집 분소 골목 골목 이번 서울 맛집 가게

In [26]:
data['nouns'] = total_
data

Unnamed: 0,관광지,주소,kr_text,total_1000,nouns
0,경복궁,서울특별시 종로구 사직로 161(경복궁),은우맘의 취미생활광화문 역 맛집 엄마와 한정식 점심 꽃누리들밥 점오랜만에 역 근처...,"[(맛집, 403), (서울, 250), (야간, 189), (카페, 160), (...",은우 취미 생활 광화문 맛집 엄마 한정식 점심 누리 근처 약속 양식 때문 한정식 ...
1,창덕궁,서울특별시 종로구 율곡로 99(창덕궁),동에번쩍 서에번쩍 구길동 서울궁투어 후원 예약방법 전각 입장료 주차장꿀팁내돈내산...,"[(후원, 288), (서울, 281), (카페, 219), (창경궁, 190), ...",번쩍 번쩍 길동 서울 투어 후원 예약 방법 전각 입장료 주차장 꿀팁 서울 투어 후...
2,창경궁,서울특별시 종로구 창경궁로 185(창경궁),사나의 여행 대온실 서울 궁궐 데이트 주차장 정보까지 대온실 생각이 딱 나더라고요...,"[(서울, 290), (창덕궁, 258), (궁궐, 178), (야간, 172), ...",사나 여행 온실 서울 궁궐 데이트 주차장 정보 온실 생각 외관 감탄 역사 흔적 온...
3,덕수궁,서울특별시 종로구 세종대로 99(덕수궁),일 전 서울 한정식 맛집 한가람 본점 시청 점심서울 한정식 맛집 시청 점심 ...,"[(서울, 394), (미술관, 197), (돌담, 189), (여행, 176), ...",서울 한정식 맛집 한가람 본점 시청 점심 서울 한정식 맛집 시청 점심 한가람 본점...
4,경희궁,서울특별시 종로구 새문안로 55(경희궁),장돌뱅이와 곱단이의 살아가는 이야기정조는 지에 이렇게 썼다 대체로 궁궐이란 임금이...,"[(서울, 267), (맛집, 254), (박물관, 198), (떡볶이, 170),...",장돌 뱅이 이의 이야기 정조 대체로 궁궐 임금 거처 정치 사방 우러러 채색 덕수궁...
...,...,...,...,...,...
117,한라산국립공원,제주특별자치도 제주시 제주시 1100로 2070-61,기억창고 어리목남벽영실어리목탐방안내소 한라산을 다시는 안 올줄 알았다 재미 없는 ...,"[(한라산, 1043), (국립공원, 481), (탐방, 409), (제주, 376...",기억 창고 목남벽영 실어 리목 탐방 안내소 한라산 재미 고통 보상 시간 동안 국립...
118,제주올레길,"제주특별자치도 제주시, 서귀포시",당신의 일상은 안녕한가요서귀포 여행 제주 가파도 배시간 제주 올레길 코스 추천제주...,"[(제주, 1158), (코스, 1140), (올레길, 1092), (제주도, 42...",당신 일상 서귀포 여행 제주 가파도 배시 제주 올레길 코스 추천 제주 올레길 추천...
119,우도,제주특별자치도 제주시 삼양고수물길 1,어제박로우 천천히 걸어가기횟집 회양과국수군 직접 잡아 손질하는 제주도 물회 맛집...,"[(여행, 482), (제주, 458), (제주도, 373), (맛집, 231), ...",어제 로우 횟집 회양 국수 직접 손질 제주도 물회 맛집 요약 회양 국수 개인 숙소...
120,비자림,제주특별자치도 제주시 구좌읍 비자숲길 55,일 전모든 일이 일어나는 데는 이유가 있어요푸르른 천년의 숲 그린카드 무료입...,"[(제주, 696), (제주도, 392), (여행, 358), (숲길, 221), ...",전모 이유 천년 그린카드 무료 입장 천연기념물 지정 보호 천년 도착 주차장 매표소...


In [27]:
# 단어 10개만 추출
top10=[]
for a in tqdm(data['total_1000']):
    top10_=''
    for b in a[:10] :
        top10_ = top10_ + " " + b[0]
    top10.append(top10_)
top10

100%|██████████████████████████████████████████████████████████████████████████████| 122/122 [00:00<00:00, 7131.88it/s]


[' 맛집 서울 야간 카페 개장 시간 광화문 한복 관람 근처',
 ' 후원 서울 카페 창경궁 관람 궁궐 달빛 여행 기행 경복궁',
 ' 서울 창덕궁 궁궐 야간 온실 개장 여행 시간 고궁 스냅',
 ' 서울 미술관 돌담 여행 맛집 정동 장욱진 석조전 국립 카페',
 ' 서울 맛집 박물관 떡볶이 광화문 단지 궁궐 종로구 이점 시간',
 ' 홍대 거리 맛집 서울 경의선 카페 사람 쌀국수 합정 여행',
 ' 맛집 카페 성수 성수동 서울 데이트 피자 시간 성동구 위치',
 ' 디자인 동대문 서울 플라자 전시 전시회 여행 지엄 동대문역 거리',
 ' 잠실 맛집 부산 롯데 서울 시간 월드 타워 교복 위치',
 ' 서울 타워 남산 남산타워 전망대 야경 케이블카 여행 데이트 코스',
 ' 청와대 앞길 개방 경복궁 서울 산책 삼청동 시간 사랑 전면',
 ' 마을 서울 카페 맛집 경복궁 여행 통인시장 북촌 골목 데이트',
 ' 맛집 종로 카페 서울 데이트 거리 골목 익선 방문 시간',
 ' 고양 하남 맛집 안성 카페 시간 위치 방문 아이 파스타',
 ' 인천 차이나타운 맛집 짜장면 카페 연경 여행 중구 주차 주차장',
 ' 강화 도심 스토리 관광 한국 여행 인천 문화 파크 송도',
 ' 여행 꽃게 인천 냉면 맛집 서해 까나리 무진 시간 대청도',
 ' 백령도 여행 인천 해변 서풍 소청도 서해 시간 아라뱃길 홍어',
 ' 송도 센트럴 파크 맛집 인천 보트 카페 호텔 시간 주차',
 ' 수원 화성 화성행궁 여행 카페 행궁동 미디어아트 행궁 축제 수원시',
 ' 용인 민속촌 야간 개장 한국 아이 시간 공연 체험 여행',
 ' 에버랜드 용인 맛집 호텔 근처 카페 숙소 여행 라마 시간',
 ' 동물원 과천 서울 공원 리프트 아이 코끼리 시간 나들이 열차',
 ' 동굴 광명 맛집 와인 아이 시간 광명시 카페 근처 주차',
 ' 파주 평화 누리 공원 곤돌라 여행 맛집 관광지 카페 코스',
 ' 안성 랜드 코스모스 아이 핑크 여행 가을 경기도 뮬리 할인',
 ' 양평 핫도그 여행 맛집 연꽃 양

In [28]:
data['top10']=top10
data

Unnamed: 0,관광지,주소,kr_text,total_1000,nouns,top10
0,경복궁,서울특별시 종로구 사직로 161(경복궁),은우맘의 취미생활광화문 역 맛집 엄마와 한정식 점심 꽃누리들밥 점오랜만에 역 근처...,"[(맛집, 403), (서울, 250), (야간, 189), (카페, 160), (...",은우 취미 생활 광화문 맛집 엄마 한정식 점심 누리 근처 약속 양식 때문 한정식 ...,맛집 서울 야간 카페 개장 시간 광화문 한복 관람 근처
1,창덕궁,서울특별시 종로구 율곡로 99(창덕궁),동에번쩍 서에번쩍 구길동 서울궁투어 후원 예약방법 전각 입장료 주차장꿀팁내돈내산...,"[(후원, 288), (서울, 281), (카페, 219), (창경궁, 190), ...",번쩍 번쩍 길동 서울 투어 후원 예약 방법 전각 입장료 주차장 꿀팁 서울 투어 후...,후원 서울 카페 창경궁 관람 궁궐 달빛 여행 기행 경복궁
2,창경궁,서울특별시 종로구 창경궁로 185(창경궁),사나의 여행 대온실 서울 궁궐 데이트 주차장 정보까지 대온실 생각이 딱 나더라고요...,"[(서울, 290), (창덕궁, 258), (궁궐, 178), (야간, 172), ...",사나 여행 온실 서울 궁궐 데이트 주차장 정보 온실 생각 외관 감탄 역사 흔적 온...,서울 창덕궁 궁궐 야간 온실 개장 여행 시간 고궁 스냅
3,덕수궁,서울특별시 종로구 세종대로 99(덕수궁),일 전 서울 한정식 맛집 한가람 본점 시청 점심서울 한정식 맛집 시청 점심 ...,"[(서울, 394), (미술관, 197), (돌담, 189), (여행, 176), ...",서울 한정식 맛집 한가람 본점 시청 점심 서울 한정식 맛집 시청 점심 한가람 본점...,서울 미술관 돌담 여행 맛집 정동 장욱진 석조전 국립 카페
4,경희궁,서울특별시 종로구 새문안로 55(경희궁),장돌뱅이와 곱단이의 살아가는 이야기정조는 지에 이렇게 썼다 대체로 궁궐이란 임금이...,"[(서울, 267), (맛집, 254), (박물관, 198), (떡볶이, 170),...",장돌 뱅이 이의 이야기 정조 대체로 궁궐 임금 거처 정치 사방 우러러 채색 덕수궁...,서울 맛집 박물관 떡볶이 광화문 단지 궁궐 종로구 이점 시간
...,...,...,...,...,...,...
117,한라산국립공원,제주특별자치도 제주시 제주시 1100로 2070-61,기억창고 어리목남벽영실어리목탐방안내소 한라산을 다시는 안 올줄 알았다 재미 없는 ...,"[(한라산, 1043), (국립공원, 481), (탐방, 409), (제주, 376...",기억 창고 목남벽영 실어 리목 탐방 안내소 한라산 재미 고통 보상 시간 동안 국립...,한라산 국립공원 탐방 제주 코스 제주도 사랑 오름 등산 판악
118,제주올레길,"제주특별자치도 제주시, 서귀포시",당신의 일상은 안녕한가요서귀포 여행 제주 가파도 배시간 제주 올레길 코스 추천제주...,"[(제주, 1158), (코스, 1140), (올레길, 1092), (제주도, 42...",당신 일상 서귀포 여행 제주 가파도 배시 제주 올레길 코스 추천 제주 올레길 추천...,제주 코스 올레길 제주도 여행 올레 서귀포 걷기 추천 시간
119,우도,제주특별자치도 제주시 삼양고수물길 1,어제박로우 천천히 걸어가기횟집 회양과국수군 직접 잡아 손질하는 제주도 물회 맛집...,"[(여행, 482), (제주, 458), (제주도, 373), (맛집, 231), ...",어제 로우 횟집 회양 국수 직접 손질 제주도 물회 맛집 요약 회양 국수 개인 숙소...,여행 제주 제주도 맛집 땅콩 카페 아이스크림 성산 해수욕장 시간
120,비자림,제주특별자치도 제주시 구좌읍 비자숲길 55,일 전모든 일이 일어나는 데는 이유가 있어요푸르른 천년의 숲 그린카드 무료입...,"[(제주, 696), (제주도, 392), (여행, 358), (숲길, 221), ...",전모 이유 천년 그린카드 무료 입장 천연기념물 지정 보호 천년 도착 주차장 매표소...,제주 제주도 여행 숲길 맛집 천년 동쪽 시간 비자나무 구좌읍


In [29]:
top1000=[]
for a in tqdm(data['total_1000']):
    top1000_=''
    for b in a :
        top1000_ = top1000_ + " " + b[0]
    top1000.append(top1000_)
top1000

100%|███████████████████████████████████████████████████████████████████████████████| 122/122 [00:00<00:00, 550.32it/s]


[' 맛집 서울 야간 카페 개장 시간 광화문 한복 관람 근처 가을 여행 데이트 위치 삼계탕 방문 후기 예매 출구 예약 오늘 종로구 코스 추천 나들이 사진 한정식 주차 무료 과방 고궁 식당 문화 대전 영업 바로 정보 대여 입장 추석 매일 청와대 궁궐 분위기 광장 종로 주말 음식 거리 일상 호선 연휴 마을 티켓 날씨 아이 맥주 하나 휴무 친구 이번 정말 사람 기록 고기 주차장 토속 행사 구경 소개 골목 한식 박물관 점심 이야기 생각 제주 장소 이용 인왕산 누리 주소 산책 빵집 국립 에일 가장 쌀국수 도보 저녁 오픈 브레이크 안국역 본점 식사 건물 한우 타임 자하문로 입장료 부천 투어 등산 하루 세종 어제 국빈 경회루 브런치 야경 엄마 모습 가기 축전 미술관 보고 포스팅 북촌 지난 우리 방법 내부 창덕궁 특별 김밥 도우 여기 삼청동 사이 상견례 가족 가능 조금 메뉴 인사동 하반기 정도 베이커리 기간 외국인 창경궁 덕수궁 위해 브루 사직로 인근 가게 시작 파스타 체부동 취소표 고깃집 남산 도착 테이블 축제 추억 향원정 전화번호 진행 입구 들깨 이색 역사 수제 샌드위치 스냅 때문 운영 공간 얼마 와인 다시 밥집 김용현 화요일 모두 송도 체험 라스트 저희 요즘 한국 녹지 아침 경희궁 술집 한번 커피 다른 느낌 진짜 리뷰 기본 어디 다음 잔치 평일 모임 아주 여름 매장 광화문역 미리 복원 가지 전시 티켓팅 촌점 타고 참고 외관 감성 디저트 편의점 야행 인천 궤도 빙수 젤라또 이제 로그 하우스 건청궁 개방 지금 지하 안내 명절 메뉴판 이나 웨이 자리 음악회 복대 월요일 정기 미미 꿀팁 집옥재 피자 별빛 지하철 예전 마감 떡볶이 스코프 양식 레스토랑 곱창 처음 올해 부모님 인기 상회 유성구 조선 사실 살짝 지도 세상 전문점 요금 주변 고민 아키비스트 남편 그냥 명소 전통 소바 단체 가격 천안 갈비 오후 워낙 일찍 전화 작년 요리 간판 깜온 소고기 분소 마음 최근 대표 여행지 구매 도심 언니 인생 풍경 민속 일정 종묘 덕분 교대 월금 다소 버스 문장 호점 빌딩 금준 커리 포장 

In [30]:
data['top1000']=top1000
data

Unnamed: 0,관광지,주소,kr_text,total_1000,nouns,top10,top1000
0,경복궁,서울특별시 종로구 사직로 161(경복궁),은우맘의 취미생활광화문 역 맛집 엄마와 한정식 점심 꽃누리들밥 점오랜만에 역 근처...,"[(맛집, 403), (서울, 250), (야간, 189), (카페, 160), (...",은우 취미 생활 광화문 맛집 엄마 한정식 점심 누리 근처 약속 양식 때문 한정식 ...,맛집 서울 야간 카페 개장 시간 광화문 한복 관람 근처,맛집 서울 야간 카페 개장 시간 광화문 한복 관람 근처 가을 여행 데이트 위치 삼...
1,창덕궁,서울특별시 종로구 율곡로 99(창덕궁),동에번쩍 서에번쩍 구길동 서울궁투어 후원 예약방법 전각 입장료 주차장꿀팁내돈내산...,"[(후원, 288), (서울, 281), (카페, 219), (창경궁, 190), ...",번쩍 번쩍 길동 서울 투어 후원 예약 방법 전각 입장료 주차장 꿀팁 서울 투어 후...,후원 서울 카페 창경궁 관람 궁궐 달빛 여행 기행 경복궁,후원 서울 카페 창경궁 관람 궁궐 달빛 여행 기행 경복궁 시간 고궁 매화 안국역 ...
2,창경궁,서울특별시 종로구 창경궁로 185(창경궁),사나의 여행 대온실 서울 궁궐 데이트 주차장 정보까지 대온실 생각이 딱 나더라고요...,"[(서울, 290), (창덕궁, 258), (궁궐, 178), (야간, 172), ...",사나 여행 온실 서울 궁궐 데이트 주차장 정보 온실 생각 외관 감탄 역사 흔적 온...,서울 창덕궁 궁궐 야간 온실 개장 여행 시간 고궁 스냅,서울 창덕궁 궁궐 야간 온실 개장 여행 시간 고궁 스냅 한복 경복궁 문화 나들이 ...
3,덕수궁,서울특별시 종로구 세종대로 99(덕수궁),일 전 서울 한정식 맛집 한가람 본점 시청 점심서울 한정식 맛집 시청 점심 ...,"[(서울, 394), (미술관, 197), (돌담, 189), (여행, 176), ...",서울 한정식 맛집 한가람 본점 시청 점심 서울 한정식 맛집 시청 점심 한가람 본점...,서울 미술관 돌담 여행 맛집 정동 장욱진 석조전 국립 카페,서울 미술관 돌담 여행 맛집 정동 장욱진 석조전 국립 카페 현대 와플 궁궐 시간 ...
4,경희궁,서울특별시 종로구 새문안로 55(경희궁),장돌뱅이와 곱단이의 살아가는 이야기정조는 지에 이렇게 썼다 대체로 궁궐이란 임금이...,"[(서울, 267), (맛집, 254), (박물관, 198), (떡볶이, 170),...",장돌 뱅이 이의 이야기 정조 대체로 궁궐 임금 거처 정치 사방 우러러 채색 덕수궁...,서울 맛집 박물관 떡볶이 광화문 단지 궁궐 종로구 이점 시간,서울 맛집 박물관 떡볶이 광화문 단지 궁궐 종로구 이점 시간 서울역 카페 위치 종...
...,...,...,...,...,...,...,...
117,한라산국립공원,제주특별자치도 제주시 제주시 1100로 2070-61,기억창고 어리목남벽영실어리목탐방안내소 한라산을 다시는 안 올줄 알았다 재미 없는 ...,"[(한라산, 1043), (국립공원, 481), (탐방, 409), (제주, 376...",기억 창고 목남벽영 실어 리목 탐방 안내소 한라산 재미 고통 보상 시간 동안 국립...,한라산 국립공원 탐방 제주 코스 제주도 사랑 오름 등산 판악,한라산 국립공원 탐방 제주 코스 제주도 사랑 오름 등산 판악 시간 백록담 여행 환...
118,제주올레길,"제주특별자치도 제주시, 서귀포시",당신의 일상은 안녕한가요서귀포 여행 제주 가파도 배시간 제주 올레길 코스 추천제주...,"[(제주, 1158), (코스, 1140), (올레길, 1092), (제주도, 42...",당신 일상 서귀포 여행 제주 가파도 배시 제주 올레길 코스 추천 제주 올레길 추천...,제주 코스 올레길 제주도 여행 올레 서귀포 걷기 추천 시간,제주 코스 올레길 제주도 여행 올레 서귀포 걷기 추천 시간 바다 완주 오름 시작 ...
119,우도,제주특별자치도 제주시 삼양고수물길 1,어제박로우 천천히 걸어가기횟집 회양과국수군 직접 잡아 손질하는 제주도 물회 맛집...,"[(여행, 482), (제주, 458), (제주도, 373), (맛집, 231), ...",어제 로우 횟집 회양 국수 직접 손질 제주도 물회 맛집 요약 회양 국수 개인 숙소...,여행 제주 제주도 맛집 땅콩 카페 아이스크림 성산 해수욕장 시간,여행 제주 제주도 맛집 땅콩 카페 아이스크림 성산 해수욕장 시간 배시 코스 버거 ...
120,비자림,제주특별자치도 제주시 구좌읍 비자숲길 55,일 전모든 일이 일어나는 데는 이유가 있어요푸르른 천년의 숲 그린카드 무료입...,"[(제주, 696), (제주도, 392), (여행, 358), (숲길, 221), ...",전모 이유 천년 그린카드 무료 입장 천연기념물 지정 보호 천년 도착 주차장 매표소...,제주 제주도 여행 숲길 맛집 천년 동쪽 시간 비자나무 구좌읍,제주 제주도 여행 숲길 맛집 천년 동쪽 시간 비자나무 구좌읍 카페 코스 근처 산책...


In [32]:
# 중간 저장
data.to_csv("data_2.csv", encoding='utf-8')

## TFIDF

In [33]:
# 명사 TfidfVectorizer
# 불용어 처리
stop_words = ['가끔', '가도', '갑자기', '개구', '개월', '거기', '곳도', '과정', '관련', '관리', '구간', '구매', '구성', 
              '구역', '군데', '궁리', '그대로', '그동안', '기본', '기자', '나름', '나중', '내내', '내용', '내일', '년전', 
              '누구', '대리', '대부분', '대신', '대인', '덕분', '두번째', '둘러보기', '디피', '따라서', '랍니', '린지', 
              '마감', '마련', '마이', '마침', '매년', '매장', '며칠', '무엇', '무조건', '무척', '문의', '보통', '부근', 
              '비롯', '솔직', '안녕', '얼마나', '완전', '우린', '우선', '월월', '월일', '전날', '주의', '평소' ]

tfidf = TfidfVectorizer(min_df = 0.01,       # 단어가 1% 이상 사용 된 단어만 
                     max_df = 0.9,           # 90% 이상 사용된 단어는 제외
                     max_features = 10000,   # 총 단어 22111 -> 조건에 맞는 단어 중 많이 쓰인 10000개만
                     stop_words=stop_words)  # 제거할 단어 지정

dtm = tfidf.fit_transform(data['nouns'])

vocab = tfidf.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)

# 결과 전체 확인
pd.set_option('display.max_seq_items', None)
df_dtm.columns


Index(['가가', '가격표', '가공', '가교', '가구', '가나', '가늠', '가능성', '가다가', '가덕도', '가동',
       '가드', '가든', '가라', '가락', '가락지', '가람', '가랑비', '가래떡', '가량', '가로', '가로등',
       '가로수', '가로수길', '가루', '가리비', '가림', '가림성', '가마', '가마솥', '가뭄', '가미', '가방',
       '가배', '가보', '가비', '가빈', '가사', '가상', '가성', '가세', '가수', '가스', '가슴', '가시',
       '가신', '가십', '가야산', '가야시대', '가연', '가오리', '가옥', '가온', '가요', '가요제', '가우',
       '가운데', '가위', '가유', '가은', '가을로', '가을비', '가의', '가이드', '가이드북', '가인', '가입',
       '가자미', '가정', '가정식', '가제', '가족사진', '가죽', '가즈', '가축', '가츠라', '가치', '가파도',
       '가파르', '가파른', '가평', '가평군', '가평역', '가평읍', '가헌', '가희', '각각', '각공', '각광',
       '각국', '각기', '각도', '각봉', '각산', '각시', '각오', '각자', '각종', '각지', '간간이', '간격',
       '간곳', '간김', '간단', '간담', '간만', '간반', '간선', '간세', '간수', '간시', '간식', '간월',
       '간월산', '간월암', '간월재', '간의', '간이', '간이역', '간장', '간장게장', '간전', '간절곶', '간정',
       '간조', '간지', '간직', '간짜장', '간판', '간편', '간현', '간혹', '갈대', '갈등', '갈라', '갈래',
       '갈릭', '갈림길', '갈매기', '갈맷길', '갈비', '갈비살', '갈비찜', '

In [34]:
df_dtm

Unnamed: 0,가가,가격표,가공,가교,가구,가나,가늠,가능성,가다가,가덕도,...,흰여울,히든,히스토리,히트,히피,히힛,힌남노,힐링캠프,힐튼,힙합
0,0.000000,0.0,0.000000,0.0,0.002501,0.002010,0.003507,0.0,0.000000,0.0,...,0.0,0.000000,0.000000,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
1,0.000000,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.000000,0.0,...,0.0,0.000000,0.005954,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
2,0.000000,0.0,0.000000,0.0,0.001661,0.002670,0.000000,0.0,0.000000,0.0,...,0.0,0.000000,0.000000,0.0,0.0,0.002594,0.0,0.0,0.0,0.000000
3,0.001922,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.001222,0.0,...,0.0,0.015119,0.000000,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
4,0.006119,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.001296,0.0,...,0.0,0.010698,0.000000,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,0.000000,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.000491,0.0,...,0.0,0.000000,0.000000,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
118,0.000000,0.0,0.000000,0.0,0.000579,0.000000,0.000000,0.0,0.000000,0.0,...,0.0,0.000000,0.000000,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
119,0.000000,0.0,0.002058,0.0,0.000000,0.001335,0.000000,0.0,0.001221,0.0,...,0.0,0.000000,0.000000,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
120,0.000000,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.000000,0.0,...,0.0,0.000000,0.000000,0.0,0.0,0.000000,0.0,0.0,0.0,0.000000
