In [17]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF

df = pd.read_csv('place_reviews.csv')

# 텍스트 데이터 전처리 (한국어의 경우, 형태소 분석 및 불용어 처리 등이 필요할 수 있음)
okt = Okt()
def preprocess(text):
    return ' '.join(okt.morphs(text))

df['preprocessed_review'] = df['review'].apply(preprocess)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000)
tfidf_matrix = vectorizer.fit_transform(df['preprocessed_review'])

# NMF를 사용한 토픽 모델링
n_topics = 5
nmf = NMF(n_components=n_topics, random_state=1).fit(tfidf_matrix)

# 토픽별 단어 출력
feature_names = vectorizer.get_feature_names_out()
n_top_words = 10

for topic_idx, topic in enumerate(nmf.components_):
    print(f"Topic #{topic_idx + 1}:")
    print(" ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()

# 리뷰별 토픽 분포
topic_distribution = nmf.transform(tfidf_matrix)

# 예시: 첫 번째 리뷰의 토픽 분포
print("Review 1 topic distribution:", topic_distribution[0])

Topic #1:
에서 으로 좋은 사진 하고 아이 생각 사람 정말 직원

Topic #2:
좋아요 하기 산책 바다 분위기 ㅎㅎ 사진 풍경 찍기 걷기

Topic #3:
너무 좋았어요 ㅠㅠ 좋았습니다 직원 아이 예뻐요 친절하시고 바다 분들

Topic #4:
최고 입니다 에요 정말 제주도 분위기 진짜 가성 였어요 여행

Topic #5:
오름 차박 be youtu https 정상 올렸습니다 검색 하시면 동영상

Review 1 topic distribution: [0.01245207 0.         0.         0.         0.        ]


In [22]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF

# 데이터 로드
# df = pd.read_csv('place_reviews.csv')

# 텍스트 데이터 전처리
okt = Okt()

def preprocess(text):
    return ' '.join(okt.morphs(text))

df['preprocessed_review'] = df['review'].apply(preprocess)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000, use_idf=True)
tfidf_matrix = vectorizer.fit_transform(df['preprocessed_review'])

# NMF를 사용한 토픽 모델링
n_topics = 5
nmf = NMF(n_components=n_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf_matrix)

# 토픽별 단어 출력
feature_names = vectorizer.get_feature_names_out()
n_top_words = 10

for topic_idx, topic in enumerate(nmf.components_):
    print(f"Topic #{topic_idx + 1}:")
    print(" ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()

# 리뷰별 토픽 분포
topic_distribution = nmf.transform(tfidf_matrix)

# 각 여행지별로 가장 높은 토픽 점수를 가지는 토픽을 선택하여 토픽 컬럼을 추가
place_topic = {}
for index, row in df.iterrows():
    place_name = row['place_name']
    topic_score = topic_distribution[index]
    dominant_topic = np.argmax(topic_score)
    
    if place_name not in place_topic:
        place_topic[place_name] = [0] * n_topics

    place_topic[place_name][dominant_topic] += 1

place_topic_column = []
for place_name, topic_scores in place_topic.items():
    dominant_topic = np.argmax(topic_scores)
    place_topic_column.append((place_name, dominant_topic))

place_topic_df = pd.DataFrame(place_topic_column, columns=['place_name', 'dominant_topic'])
df = df.merge(place_topic_df, on='place_name')

# 결과 확인
print(df.head())


Topic #1:
에서 으로 좋은 사진 아이 하고 정말 생각 사람 제주

Topic #2:
좋아요 하기 산책 바다 분위기 ㅎㅎ 풍경 사진 찍기 걷기

Topic #3:
너무 좋았어요 ㅠㅠ 좋았습니다 직원 아이 예뻐요 친절하시고 정원 어른

Topic #4:
최고 입니다 에요 분위기 제주도 정말 진짜 였어요 가성 시설

Topic #5:
차박 https be youtu 올렸습니다 검색 동영상 하시면 유튜브 오름

  place_name                                 review  \
0   이호테우해수욕장                                말 필요 없음   
1   이호테우해수욕장     이호테우 해변 비오는 날 방문했는데 운치있고 넘 좋네요!!!!   
2   이호테우해수욕장                         좋았어요 ㅎㅎ 말등대도보공   
3   이호테우해수욕장  귀여운 말등대가 있는 해수욕장🪅아이들 놀기 좋은 해수풀장이 있어요~   
4   이호테우해수욕장                            제주도 마지막 여행지   

                             preprocessed_review  dominant_topic_x  \
0                                        말 필요 없음                 0   
1        이호 테 우 해변 비오는 날 방문 했는데 운치 있고 넘 좋네요 !!!!                 0   
2                              좋았어요 ㅎㅎ 말 등대 도보 공                 0   
3  귀여운 말 등대 가 있는 해수욕장 🪅 아이 들 놀기 좋은 해수 풀 장이 있어요 ~                 0   
4                                    제주도 마지막 여행지                 0   

   dominant_topi

In [21]:
df

Unnamed: 0,place_name,review,preprocessed_review,dominant_topic
0,이호테우해수욕장,말 필요 없음,말 필요 없음,0
1,이호테우해수욕장,이호테우 해변 비오는 날 방문했는데 운치있고 넘 좋네요!!!!,이호 테 우 해변 비오는 날 방문 했는데 운치 있고 넘 좋네요 !!!!,0
2,이호테우해수욕장,좋았어요 ㅎㅎ 말등대도보공,좋았어요 ㅎㅎ 말 등대 도보 공,0
3,이호테우해수욕장,귀여운 말등대가 있는 해수욕장🪅아이들 놀기 좋은 해수풀장이 있어요~,귀여운 말 등대 가 있는 해수욕장 🪅 아이 들 놀기 좋은 해수 풀 장이 있어요 ~,0
4,이호테우해수욕장,제주도 마지막 여행지,제주도 마지막 여행지,0
...,...,...,...,...
4186,해거름마을공원,풍경 좋아요 잠깐 쉬어가기 좋은 카페도 있어요,풍경 좋아요 잠깐 쉬어가기 좋은 카페 도 있어요,0
4187,노형근린공원,공원 강아지랑 걷기도 좋고 넓고 숲도 많아서 자연구경 딱좋아요,공원 강아지 랑 걷기 도 좋고 넓고 숲 도 많아서 자연 구경 딱좋아요,0
4188,서복공원,조금 아쉽네요,조금 아쉽네요,0
4189,서복공원,정방폭포 봤다면 여기까지 둘러보기~ 정원 굿~~,정방폭포 봤다면 여기 까지 둘러보기 ~ 정원 굿 ~~,0


In [3]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF

# 데이터 로드
# df = pd.read_csv('place_reviews.csv')

# 텍스트 데이터 전처리
okt = Okt()

def preprocess(text):
    return ' '.join(okt.morphs(text))

df['preprocessed_review'] = df['review'].apply(preprocess)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000, use_idf=True)
tfidf_matrix = vectorizer.fit_transform(df['preprocessed_review'])

# NMF를 사용한 토픽 모델링
n_topics = 5
nmf = NMF(n_components=n_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf_matrix)

# 토픽별 단어 출력
feature_names = vectorizer.get_feature_names_out()
n_top_words = 2

topics = []
for topic_idx, topic in enumerate(nmf.components_):
    topic_keywords = " ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]])
    topics.append(topic_keywords)
    print(f"Topic #{topic_idx + 1}: {topic_keywords}")
    print()

# 리뷰별 토픽 분포
topic_distribution = nmf.transform(tfidf_matrix)

# 각 관광지별로 가장 높은 토픽 점수를 가지는 토픽을 선택
place_topic = {}
for index, row in df.iterrows():
    place_name = row['place_name']
    topic_score = topic_distribution[index]
    dominant_topic = np.argmax(topic_score)
    
    if place_name not in place_topic:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

    if topic_score[dominant_topic] > place_topic[place_name][1]:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

# 관광지별 대표 토픽(단어) 2개 출력
for place_name, (dominant_topic, _) in place_topic.items():
    print(f"{place_name}: {topics[dominant_topic]}")


OSError: [WinError 126] JVM DLL not found: C:\Users\lhe33\OneDrive - 명지대학교\바탕 화면\jdk-20.0.1\bin\server\jvm.dll


In [4]:
pip install konlpy

Note: you may need to restart the kernel to use updated packages.


In [1]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF

# 데이터 로드
df = pd.read_csv('place_reviews.csv')

# 불용어 목록 정의
stopwords = set(["의", "가", "이", "은", "들", "는", "좀", "잘", "걍", "과", "도", "를", "으로", "자", "에", "와", "한", "하다"])

# 텍스트 데이터 전처리
okt = Okt()

def preprocess(text):
    tokens = okt.morphs(text)
    tokens = [token for token in tokens if token not in stopwords]
    return ' '.join(tokens)

df['preprocessed_review'] = df['review'].apply(preprocess)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000, use_idf=True)
tfidf_matrix = vectorizer.fit_transform(df['preprocessed_review'])

# NMF를 사용한 토픽 모델링
n_topics = 5
nmf = NMF(n_components=n_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf_matrix)

# 토픽별 단어 출력
feature_names = vectorizer.get_feature_names_out()
n_top_words = 2

topics = []
for topic_idx, topic in enumerate(nmf.components_):
    topic_keywords = " ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]])
    topics.append(topic_keywords)
    print(f"Topic #{topic_idx + 1}: {topic_keywords}")
    print()

# 리뷰별 토픽 분포
topic_distribution = nmf.transform(tfidf_matrix)

# 각 관광지별로 가장 높은 토픽 점수를 가지는 토픽을 선택
place_topic = {}
for index, row in df.iterrows():
    place_name = row['place_name']
    topic_score = topic_distribution[index]
    dominant_topic = np.argmax(topic_score)
    
    if place_name not in place_topic:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

    if topic_score[dominant_topic] > place_topic[place_name][1]:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

# 관광지별 대표 토픽(단어) 2개 출력
for place_name, (dominant_topic, _) in place_topic.items():
    print(f"{place_name}: {topics[dominant_topic]}")


OSError: [WinError 126] JVM DLL not found: C:\Users\lhe33\OneDrive - 명지대학교\바탕 화면\jdk-20.0.1\bin\server\jvm.dll


In [9]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF

# 데이터 로드
df = pd.read_csv('place_reviews.csv')

# 불용어 목록 정의
stopwords = set(["의", "가", "이", "은", "들", "는", "좀", "잘", "걍", "과", "도", "를", "으로", "자", "에", "와", "한", "하다", "진짜", "여기", "너무", "youtu", "https", "좋아요", "좋고", "좋습니다",
                 "없어요", "엄청", "많이", "정말", "ㅎㅎ " ,"매우", "좋음", "코로나", "없음", "갑니다", "ㅋㅋ", "ㅠㅠ"
                 "같아요", "많고", "매우", "좋았어요", "있어서", "좋은", "있는"])

# 텍스트 데이터 전처리
def preprocess(text):
    tokens = text.split()
    tokens = [token for token in tokens if token not in stopwords]
    return ' '.join(tokens)

df['preprocessed_review'] = df['review'].apply(preprocess)

# TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000, use_idf=True)
tfidf_matrix = vectorizer.fit_transform(df['preprocessed_review'])

# NMF를 사용한 토픽 모델링
n_topics = 50
nmf = NMF(n_components=n_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf_matrix)

# 토픽별 단어 출력
feature_names = vectorizer.get_feature_names_out()
n_top_words = 2

topics = []
for topic_idx, topic in enumerate(nmf.components_):
    topic_keywords = " ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]])
    topics.append(topic_keywords)
    print(f"Topic #{topic_idx + 1}: {topic_keywords}")
    print()

# 리뷰별 토픽 분포
topic_distribution = nmf.transform(tfidf_matrix)

# 각 관광지별로 가장 높은 토픽 점수를 가지는 토픽을 선택
place_topic = {}
for index, row in df.iterrows():
    place_name = row['place_name']
    topic_score = topic_distribution[index]
    dominant_topic = np.argmax(topic_score)
    
    if place_name not in place_topic:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

    if topic_score[dominant_topic] > place_topic[place_name][1]:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

# 관광지별 대표 토픽(단어) 2개 출력
for place_name, (dominant_topic, _) in place_topic.items():
    print(f"{place_name}: {topics[dominant_topic]}")




Topic #1: 힘든 먹었습니다

Topic #2: youtu https

Topic #3: 좋아요 아이들

Topic #4: 그냥 한번은

Topic #5: 최고 사장님

Topic #6: ㅎㅎ 좋네요

Topic #7: 맛있어요 베이글

Topic #8: 제주도 갈때마다

Topic #9: 오름 작은

Topic #10: 뷰가 좋다

Topic #11: 산책하기 좋네요

Topic #12: 좋았습니다 왔는데

Topic #13: 생각보다 넓어서

Topic #14: 별로 비싸고

Topic #15: 바다 좋습니다

Topic #16: 친절하시고 사장님

Topic #17: ㅠㅠ 처음

Topic #18: 화장실 좋은데

Topic #19: 가성비 호텔

Topic #20: 사진 찍기

Topic #21: 제주 여행

Topic #22: 뷰는 조금

Topic #23: 입장료 비해

Topic #24: 가면 날씨

Topic #25: 다시 날씨

Topic #26: 하고 기대

Topic #27: 많아서 사람이

Topic #28: 좋았어요 다음에

Topic #29: 아주 작은

Topic #30: 재밌게 갑니다

Topic #31: 추천 보러

Topic #32: 갔는데 기대

Topic #33: 다른 비해

Topic #34: 커피 맛있음

Topic #35: 시간 즐거운

Topic #36: 카페 분위기

Topic #37: 넓고 주차장

Topic #38: 같아요 좋을

Topic #39: 있어요 있고

Topic #40: 깨끗하고 물도

Topic #41: 보고 저는

Topic #42: 관리가 친절하세요

Topic #43: 좋았음 분위기

Topic #44: 재밌어요 카트

Topic #45: 예뻐요 정상에서

Topic #46: 좋음 있음

Topic #47: 제일 제주에서

Topic #48: 아이들이 좋아해요

Topic #49: 아름다운 곳입니다

Topic #50: and the





이호테우해수욕장: 좋았음 분위기
남원큰엉해변: 갔는데 기대
함덕해수욕장: 아름다운 곳입니다
협재해수욕장: 바다 좋습니다
용머리해안: youtu https
황우지해안: 예뻐요 정상에서
삼양해수욕장: youtu https
행원해변: 가면 날씨
논짓물해변: 바다 좋습니다
검멀레해변: 추천 보러
몽돌해변: 바다 좋습니다
세기알해변: 제주 여행
신흥해수욕장: youtu https
하모해변: 화장실 좋은데
알작지해변: ㅠㅠ 처음
함덕해수욕장 주차장: 넓고 주차장
협재해수욕장 주차장: 넓고 주차장
협재해수욕장 캠핑장: 바다 좋습니다
곽지해수욕장 주차장: 넓고 주차장
삼양해수욕장 정자: 힘든 먹었습니다
삼양해수욕장 공영주차장: 힘든 먹었습니다
하도해수욕장 화장실: 관리가 친절하세요
이호테우해수욕장 화장실: youtu https
비자림: 산책하기 좋네요
서귀포자연휴양림: 가면 날씨
절물자연휴양림: 산책하기 좋네요
붉은오름자연휴양림: 산책하기 좋네요
교래자연휴양림: 넓고 주차장
한남시험림탐방: 제일 제주에서
제주시험림: 제일 제주에서
설록다원도순: 좋아요 아이들
서귀다원: 하고 기대
녹차동굴: 제주도 갈때마다
올레길 14-1코스(저지-서광 올레): ㅠㅠ 처음
항파두리 항몽유적지: 최고 사장님
이중섭거리: 좋아요 아이들
유채꽃프라자: 뷰는 조금
소천지: 최고 사장님
오늘은카트레이싱: 아주 작은
성읍랜드: 재밌게 갑니다
김경숙해바라기농장: 좋았습니다 왔는데
올티스: 시간 즐거운
남송이오름: youtu https
제주농업생태원: 시간 즐거운
국립제주박물관: 관리가 친절하세요
오설록티뮤지엄: 예뻐요 정상에서
세계자동차&피아노박물관: 아름다운 곳입니다
제주항공우주박물관: 좋았습니다 왔는데
박물관은살아있다 제주중문점: 그냥 한번은
제주해양동물박물관: 친절하시고 사장님
그리스신화박물관: 관리가 친절하세요
초콜릿박물관: and the
제주 세계자연유산센터: 다른 비해
테디베어뮤지엄 제주점: 추천 보러
조안베어뮤지엄: 많아서 사람이
비오토피아 수풍석박물관: 제주도 갈때마다
제주신영영화박물관 (

In [11]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from torch.utils.data import DataLoader, TensorDataset

# 데이터 로드
df = pd.read_csv('place_reviews.csv')

# 텍스트 데이터 전처리
def preprocess(text):
    tokens = text.split()
    tokens = [token for token in tokens if token not in stopwords]
    return ' '.join(tokens)

df['preprocessed_review'] = df['review'].apply(preprocess)

# CountVectorizer로 문서-단어 행렬 생성
vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=1000)
count_matrix = vectorizer.fit_transform(df['preprocessed_review'])

# LDA 토픽 모델링
n_topics = 50
lda = LatentDirichletAllocation(n_components=n_topics, random_state=1).fit(count_matrix)

# LDA 결과를 오토인코더의 입력으로 사용
topic_distributions = lda.transform(count_matrix)

# 오토인코더 정의
class Autoencoder(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Linear(input_size, hidden_size)
        self.decoder = nn.Linear(hidden_size, input_size)

    def forward(self, x):
        x = torch.relu(self.encoder(x))
        x = torch.relu(self.decoder(x))
        return x

# 하이퍼파라미터 설정
input_size = n_topics
hidden_size = 20
num_epochs = 100
batch_size = 16
learning_rate = 0.001

# 데이터 로더 설정
dataset = TensorDataset(torch.tensor(topic_distributions, dtype=torch.float32))
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

# 오토인코더 모델 생성 및 옵티마이저 설정
model = Autoencoder(input_size, hidden_size)
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# 오토인코더 학습
for epoch in range(num_epochs):
    for data in dataloader:
        inputs = data[0]

        # Forward
        outputs = model(inputs)

        # Backward
        loss = criterion(outputs, inputs)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

# 오토인코더를 사용하여 토픽 분포 인코딩 및 복원
topic_distributions_tensor = torch.tensor(topic_distributions, dtype=torch.float32)
encoded_topic_distributions = model.encoder(topic_distributions_tensor)
restored_topic_distributions = model.decoder(encoded_topic_distributions).detach().numpy()

# 각 관광지별로 가장 높은 토픽 점수를 가지는 토픽을 선택
place_topic = {}
for index, row in df.iterrows():
    place_name = row['place_name']
    topic_score = restored_topic_distributions[index]
    dominant_topic = np.argmax(topic_score)

    if place_name not in place_topic:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

    if topic_score[dominant_topic] > place_topic[place_name][1]:
        place_topic[place_name] = (dominant_topic, topic_score[dominant_topic])

# 관광지별 대표 토픽(단어) 2개 출력
for place_name, (dominant_topic, _) in place_topic.items():
    topic_keywords = " ".join([feature_names[i] for i in lda.components_[dominant_topic].argsort()[:-2 - 1:-1]])
    print(f"{place_name}: {topic_keywords}")


ModuleNotFoundError: No module named 'torch'