In [38]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

In [151]:
data = pd.read_csv('data/충청남도_전처리.csv')

In [152]:
# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(data['token'])

feature_names = vectorizer.get_feature_names_out()

# TF-IDF 값이 가장 큰 단어 추출
def get_top_keywords(tfidf_matrix, feature_names, top_n=20):
    keywords = []
    for i in range(tfidf_matrix.shape[0]):
        scores = {feature_names[col]: tfidf_matrix[i, col] for col in tfidf_matrix[i].nonzero()[1]}
        top_keywords = sorted(scores.items(), key=lambda x: x[1], reverse=True)[:top_n]
        keywords.append([kw for kw, _ in top_keywords])
    return keywords

# 상위 20개의 핵심 키워드 추출
top_keywords_per_review = get_top_keywords(tfidf_matrix, feature_names, top_n=20)

data['keywords'] = [' '.join(kw_list) for kw_list in top_keywords_per_review]

In [153]:
data

Unnamed: 0,시도,시군구,code,title,content,full_content,token,keywords
0,충청남도,계룡시,44250.0,<b>여행</b> 72. <b>충청남도 여행</b> 첫 번째 이야기(1일차 결과 &...,기간: 2022.6.6.(월)09:10~7(화)20:00[1박2일의 여정 중 제1일...,<b>여행</b> 72. <b>충청남도 여행</b> 첫 번째 이야기(1일차 결과 &...,첫 이야기 일차 결과 후기 기간 월화 박일 여정 일차 목적지 남부 지역 전시 특이 ...,사계 박물관 역사 이동 도착 공휴일 은퇴 박지 인문학 아내 칠백의총 계백 고택 기행...
1,충청남도,계룡시,44250.0,군엑스포/휴일나들이/<b>충청남도여행</b>/<b>계룡시</b>여행/당일치기여행,어제는 어디 갈까 하다가 남편이 계룡 세계 군 문화 엑스포를 가자고 해서 호기롭게 ...,군엑스포/휴일나들이/<b>충청남도여행</b>/<b>계룡시</b>여행/당일치기여행어제...,군 엑스포 휴일 나들이 당일치기 어제 갈다 남편 세계 군 문화 엑스포 호기롭 나서다...,마감 선글라스 롯데리아 당일치기 체험 먹다 휴일 엑스포 무조건 표시 집라인 호기롭 ...
2,충청남도,계룡시,44250.0,<b>여행</b> 69. <b>충청남도 여행</b> 1차(계획 짜기),기간: 2022.6.6(월)08:00~7(화)19:00[1박2일]목적지: 충청남도 ...,<b>여행</b> 69. <b>충청남도 여행</b> 1차(계획 짜기)기간: 2022...,차 계획 짜다 기간 월화 박일 목적지 남부 지역 전시 특이 사항 은퇴 부부 차 역사...,이동 관람 순위 박물관 화관 진산 기념관 이상재 대청댐 의전 박지 전승 차박 문학관...
3,충청남도,계룡시,44250.0,"논산 가볼만한곳, 돈암서원, 유네스코 세계유산, 돈암서원...",2021. 3. 4. (금)양촌면에 위치한 쌍계사를 구경하고 승용차로 30분 정도 ...,"논산 가볼만한곳, 돈암서원, 유네스코 세계유산, 돈암서원... 2021. 3. 4....",돈암서원 유네스코 세계 유산 돈암서원 금 양촌면 위치 쌍계사 구경 승용차 걸리다 연...,돈암서원 연산역 간이역 유산 급수탑 유네스코 세계 유생 손현주 양성 학문 산앙루 철...
4,충청남도,계룡시,44250.0,"은총의샘,서초3동/성 비오성당",월간 ''레지오 마리애''로 선교 활동​월간 '레지오 마리애'는 한국레지오 마리애 ...,"은총의샘,서초3동/성 비오성당월간 ''레지오 마리애''로 선교 활동​월간 '레지오 ...",은총 샘 서초동 비다 성당 월간 레 지오 마리 애로 선교 활동 월간 레 지오 마리 ...,지오 신앙 월간지 영성 선교 마리 월간 신입 pr 교본 입단 활동 자세 성숙하다 회...
...,...,...,...,...,...,...,...,...
4587,충청남도,홍성군,44800.0,"오서산, 홍성 갈만한 곳이자 7월 여행지로 딱인 백패킹 <b>명소</b> 추천","안녕하세요, 적벽이입니다.\n하늘은 우중충하고비가 주륵주륵 오는 장마로 인해집과 사...","오서산, 홍성 갈만한 곳이자 7월 여행지로 딱인 백패킹 <b>명소</b> 추천안녕...",오서산 갈다 이자 여행지 딱이다 패킹 명소 추천 안녕하다 적벽 하늘 우중충하다 고비...,패킹 스트레스 오서산 적벽 등대 암릉 능선 바위 호르몬 서해 훌훌 여행지 막히다 가...
4588,충청남도,홍성군,44800.0,"홍성(12경) 새조개 축제,죽도","홍성(12경) 새조개 축제, 죽도2023. 3. 4(1박2일)​코스 ▶​서울-김좌진...","홍성(12경) 새조개 축제,죽도홍성(12경) 새조개 축제, 죽도2023. 3. 4(...",홍 성경 조개 축제 죽도 홍 성경 조개 축제 죽도 박일 코스 김좌진 장군 생가지 한...,남당 남당항 생가 조개 서부 김좌진 전망대 선생 장군 노을 한용운 죽도 궁리 다홍 ...
4589,충청남도,홍성군,44800.0,<b>충청남도</b>세종시대한민국경기도대한민국경상<b>남도</b>진...,​\n오늘28명 방문로그아웃\n내 블로그글쓰기\n내 소식내가 남긴 글이웃 목록\n새...,<b>충청남도</b>세종시대한민국경기도대한민국경상<b>남도</b>진... ​\n오늘...,대한민국 대한민국 진 오늘 방문 로그아웃 블로그 글쓰기 소식 남기다 글 이웃 목록 ...,대한민국 cb 세종 독락정 블로그 구수 뉴스 길찾기 법원 부동산 nhkco sico...
4590,충청남도,홍성군,44800.0,"홍성의 맛집 #23, 추어어죽, 홍성의 새로운 <b>명소</b> 탄생예고...",어제 밤 KBS 생생정보통에서 충남 홍성군 광천에 있는 광천원조어죽이 전국 방송을 ...,"홍성의 맛집 #23, 추어어죽, 홍성의 새로운 <b>명소</b> 탄생예고... 어제...",추어 죽 새롭다 명소 탄생 예고 어제 밤 kbs 생생정보통 광천 광천 원조 죽이다 ...,추어탕 방송 미꾸라지 호박 원조 광천 전골 추어 방식 틀림없다 사투리 머리 제거 칭...


In [154]:
result_df = data.groupby(['시도','시군구','code'])['keywords'].agg(lambda x: ' '.join(map(str, x))).reset_index()

In [155]:
result_df.to_csv('data/충청남도_keywords.csv', index=False, encoding='utf-8-sig')

In [156]:
data = pd.read_csv('data/충청남도_keywords.csv')

In [157]:
data

Unnamed: 0,시도,시군구,code,keywords
0,충청남도,계룡시,44250.0,사계 박물관 역사 이동 도착 공휴일 은퇴 박지 인문학 아내 칠백의총 계백 고택 기행...
1,충청남도,공주시,44150.0,박물관 이동 도착 목적지 교회 약분 기념관 관람 독립 지다 분간 백야 숙박 건물 역...
2,충청남도,금산군,44710.0,사계 박물관 역사 이동 도착 공휴일 은퇴 박지 인문학 아내 칠백의총 계백 고택 기행...
3,충청남도,논산시,44230.0,다리 탑정호 입장료 쫄보 주차장 스카이 가든 무료 순환버스 철조망 건너다 개통 출렁...
4,충청남도,당진시,44270.0,로드 대파 카페 카페라테 버거 다양하다 트리플 메뉴 브런치 데이 주문 이드 취향 데...
5,충청남도,보령시,44180.0,아내 박물관 이동 짬뽕 도착 관람 박지 해설 생략 출발 백제 시간 고란사 닫히다 전...
6,충청남도,부여군,44760.0,아내 박물관 이동 짬뽕 도착 관람 박지 해설 생략 출발 백제 시간 고란사 닫히다 전...
7,충청남도,서산시,44210.0,아내 정순왕후 안견 천리 수목원 기념관 이동 도착 정조 유류 여분 몽유도원도 후손 ...
8,충청남도,서천군,44770.0,아내 박물관 이동 짬뽕 도착 관람 박지 해설 생략 출발 백제 시간 고란사 닫히다 전...
9,충청남도,아산시,44200.0,김여사 신정호 달언 마산 이순신장군 저수지 호수 남철 신정 충무공 꽃가루 정관 동상...


In [197]:
# 여러 개의 CSV 파일 읽기
files = ['data/강원특별자치도_keywords.csv', 'data/경기도_keywords.csv','data/경상남도_keywords.csv','data/경상북도_keywords.csv', 'data/광주광역시_keywords.csv','data/대구광역시_keywords.csv','data/대전광역시_keywords.csv','data/부산광역시_keywords.csv','data/서울특별시_keywords.csv','data/세종특별자치시_keywords.csv','data/울산광역시_keywords.csv','data/인천광역시_keywords.csv','data/전라남도_keywords.csv','data/전라북도_keywords.csv','data/제주특별자치도_keywords.csv','data/충청남도_keywords.csv','data/충청북도_keywords.csv']

# 데이터프레임들을 수직으로 합치기
dfs = [pd.read_csv(file) for file in files]
keyword_all = pd.concat(dfs, ignore_index=True)

In [201]:
# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(keyword_all['keywords'])

feature_names = vectorizer.get_feature_names_out()

# TF-IDF 값이 가장 큰 단어 추출
def get_top_keywords(tfidf_matrix, feature_names, top_n=50):
    keywords = []
    for i in range(tfidf_matrix.shape[0]):
        scores = {feature_names[col]: tfidf_matrix[i, col] for col in tfidf_matrix[i].nonzero()[1]}
        top_keywords = sorted(scores.items(), key=lambda x: x[1], reverse=True)[:top_n]
        keywords.append([kw for kw, _ in top_keywords])
    return keywords

top_keywords_per_review = get_top_keywords(tfidf_matrix, feature_names, top_n=50)

keyword_all['top_keywords'] = [' '.join(kw_list) for kw_list in top_keywords_per_review]

In [202]:
keyword_all

Unnamed: 0,시도,시군구,code,keywords,top_keywords
0,강원특별자치도,강릉시,42150.0,부채 심곡 정동 바다 할인 정동진 입장료 매표소 크루즈 써다 출범 무척 심곡항 절경...,주문진 먹다 하슬라 오죽헌 해변 율곡이이 바다 신사임당 경포 안목 초당 강문 아르떼...
1,강원특별자치도,고성군,42820.0,해변 생선 둘째 식당 순서대로 입다 이모 예쁘다 동해안 사진 다시 일정 아침 무지개...,하늬 대진항 라벤더 송지호 현내면 통일전망대 능파 바다 화진포 봉포 해수욕장 천진 ...
2,강원특별자치도,동해시,42170.0,동굴 황금박쥐 종유석 천곡 석순 동굴탐험 박쥐 굴속 동해 천장 신기하다 여름 석주 ...,묵호 동해 무릉 유천 비골 논골 라벤더 촛대 해암정 묵호항 글라이더 해랑 추암 스카...
3,강원특별자치도,삼척시,42230.0,유황 그림책 가곡 스파 온천 즐기다 성분 키즈 타임 테마 천수 풀이 알록달록하다 실...,장호항 종유석 맹방 비치 환선굴 죽서루 스노 쿨링 바다 장호 먹다 갈남항 해수욕장 ...
4,강원특별자치도,속초시,42210.0,해변 생선 둘째 식당 순서대로 입다 이모 예쁘다 동해안 사진 다시 일정 아침 무지개...,초아 먹다 오징어순대 청초 중앙시장 대포항 바다 대관람차 설악산 외옹치항 조양동 맛...
...,...,...,...,...,...
245,충청북도,청주시 상당구,43111.0,주말 서식 동굴 알려지다 미원면 박쥐 여행지 가족 황금박쥐 공원 생물 요청 시작 공...,청남대 대통령 상당산성 별장 성안길 노무현 대청호 용암동 건의 영춘제 점수 본관 광...
246,충청북도,청주시 서원구,43112.0,가스 순도 스턴 특수 lpg 의료 산업 메다 쌍용 ch 고순 헬륨 광혜원 시설 no...,무심천 청남대 대청댐 분평동 죽림동 남이면 고순 광혜원 헬륨 메탄 오송 ch lpg...
247,충청북도,청주시 청원구,43114.0,매매 건물 공장 창고 내수읍 토지 매입 이스트 외형 건축 동동 형태 신축 사용 알아...,북동 초정약수 토성 율량동 정행 율량 세종대왕 청남대 상당산성 율량점 청주대 광혜원...
248,충청북도,청주시 흥덕구,43113.0,송상현 충렬사 충렬 충절 모습 왜군 죽음 사당 죽다 비키 불효 싸우다 항전 항복 세...,오송 점수 청남대 건의 아고다 평가 복대동 확인 무심천 오송역 인쇄 숙소 청주역 안...


In [203]:
keyword_all.to_csv('data/keyword_all.csv', index=False, encoding='utf-8-sig')