In [None]:
!pip install pandas scikit-learn

# 1. 필요한 라이브러리 임포트
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# 2. 데이터 로드
df = pd.read_csv('tagged_review_data_전체신발.csv', encoding='utf-8-sig')

# 3. TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_features=1000)
tfidf_matrix = vectorizer.fit_transform(df['tagged_review'].astype(str))  # NaN 방지

# 4. 단어 리스트 가져오기
feature_names = vectorizer.get_feature_names_out()

# 5. 밀집 행렬로 변환
dense = tfidf_matrix.todense()
tf_idf_df = pd.DataFrame(dense, columns=feature_names)

# tfidf 높은 순부터 정렬하기

# 6. 단어별 평균 TF-IDF 점수 계산
word_avg_tfidf = tf_idf_df.mean(axis=0).sort_values(ascending=False)

# 7. DataFrame으로 정리 + 정렬 + 반올림
result_df = pd.DataFrame({
    'word': word_avg_tfidf.index,
    'tf-idf': word_avg_tfidf.values
}).round(6).sort_values(by='tf-idf', ascending=False).reset_index(drop=True)

# 8. 저장
result_df.to_csv('review_tf-idf.csv', index=False, encoding='utf-8-sig')

# 9. 결과 확인
result_df
