In [None]:
# prompt: Jeju.csv 파일 판다스 데이터 프레임으로 가져오기

import pandas as pd

df = pd.read_csv('Jeju.csv')

In [None]:
# prompt: df 데이터 프레임에서 "Unnamed" 컬럼 삭제

# Drop columns with "Unnamed" in their name
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]

In [None]:
df.head()

Unnamed: 0,user_nick,content,score,year,month
0,海星j,济州牧官衙，作为朝鲜王朝（1392-1910）地方官员的衙门，在耽罗(Tamna)王朝期间一...,5.0,2020,8
1,M515shunyi1618,济州牧宫衙是朝鲜时期济州的衙门，这里曾经在战争中被损毁后来经过多次修整和重建，现在里面主要展...,4.0,2022,3
2,超级ctt,牧官衙是古时济州道的行政中心，经过多次的修缮和重建，基本保留了原有的风貌。 地方不大，麻雀虽...,4.0,2022,12
3,M30****3226,在东门市场附近，走路可到，环城旅游巴士也有这一站，去之前先看一下时间，四点以后貌似就不可以进...,5.0,2022,4
4,笑看人生218,济州牧官衙是济州岛蛮有名的的地标建筑，看门票便宜就进去看了看，建筑跟庭院都值得看看，在整个朝...,5.0,2022,7


In [None]:
# prompt: df['content'] 를 TF-IDF로 3개의 주제로 토픽모델링을 하고 각 토픽별 주요 키워드와 가중치 20개씩 추출

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000, stop_words='english')
tfidf = vectorizer.fit_transform(df['content'])

# 토픽 모델링 (LDA)
lda = LatentDirichletAllocation(n_components=3, random_state=42)
lda.fit(tfidf)

# 각 토픽별 주요 키워드와 가중치 추출
feature_names = vectorizer.get_feature_names_out()
for topic_idx, topic in enumerate(lda.components_):
    print(f"Topic {topic_idx + 1}:")
    top_keywords_idx = topic.argsort()[:-21:-1]  # 상위 20개 키워드
    top_keywords = [(feature_names[i], topic[i]) for i in top_keywords_idx]
    for keyword, weight in top_keywords:
        print(f"  - {keyword}: {weight:.4f}")
    print()

Topic 1:
  - 地方不大: 3.4605
  - 基本没有旅行团: 3.2360
  - 基本保留了原有的风貌: 3.2360
  - 多为韩国游客: 3.0814
  - 经过多次的修缮和重建: 2.6655
  - 介绍的是济州道的历史: 2.5021
  - 还有一个小型的成列馆: 2.5021
  - 可以随便免费品尝: 2.3281
  - 牧官衙是古时济州道的行政中心: 2.0589
  - 內衙等建筑在当时也是非常重要的机关: 1.8338
  - 还有东轩: 1.8338
  - 1910: 1.6348
  - 感觉还是很不错的: 1.4850
  - 很有意味: 1.4850
  - 作为中国番薯国的时候的建筑: 1.4850
  - 绝对值得前往游览: 1.3307
  - 已经毁坏了很多: 1.3307
  - 但仍能感受到从前的雄伟和磅礴的气势: 1.3307
  - 虽然历经沧桑: 1.3307
  - 果子很多: 1.3307

Topic 2:
  - 很不错: 3.3105
  - 各种味道的海苔品尝到撑: 2.7760
  - 建筑都是韩国特色: 2.3967
  - 这个古迹算是不错的去处: 2.3765
  - 济州市内景点不多: 1.9292
  - 占地并不大: 1.7804
  - 走走逛逛半小时差不多看完: 1.7804
  - 路过看看可以: 1.4855
  - 票价1500韩元: 1.4855
  - 一般化: 1.4855
  - 由于我喜欢历史: 1.4855
  - 所以才来的: 1.4855
  - 不喜欢历史的还是不要来: 1.4855
  - 这里曾经在战争中被损毁后来经过多次修整和重建: 1.3312
  - 现在里面主要展出介绍一些济州的历史: 1.3312
  - 门票1500韩元大概8块钱人民币还是非常值得参观的: 1.3312
  - 济州牧宫衙是朝鲜时期济州的衙门: 1.3312
  - 就因为离着中国近: 1.3312
  - 济州岛本来很小: 1.3312
  - 所以才有单独的府衙: 1.3312

Topic 3:
  - 环境很好: 2.3309
  - 直观的体现出了时代的亮点: 2.3309
  - 对于了解传统建筑和历史很有意义: 2.3309
  - 传统的韩国