In [None]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt

## 1. 데이터 로드 및 명사 추출

In [None]:
# 리뷰 데이터 로드
df_reviews = pd.read_pickle('./reviews.pickle')

# Okt 형태소 분석기 초기화
okt = Okt()

# 리뷰 원문에서 명사 추출 (오류 발생 시 빈 리스트 반환)
def safe_get_nouns(text):
    try:
        return okt.nouns(str(text))
    except Exception:
        return []

df_reviews['review_nouns'] = df_reviews['리뷰'].apply(safe_get_nouns)

## 2. Wordset 데이터프레임 생성

In [None]:
# 명사 리스트를 개별 행으로 분리 (explode)
df_wordset = df_reviews[['review_number', 'review_nouns']].explode('review_nouns')

# 컬럼명 변경 및 결측치 제거
df_wordset.rename(columns={'review_nouns': 'word'}, inplace=True)
df_wordset.dropna(subset=['word'], inplace=True)
df_wordset.reset_index(drop=True, inplace=True)

## 3. 데이터 저장

In [None]:
# 최종 wordset 데이터 저장 (pickle, csv)
df_wordset.to_pickle('./wordset.pickle')
df_wordset.to_csv('./wordset.csv', index=False, encoding='utf-8-sig')