# 키워드 추출 X

In [9]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt
import re

In [10]:
# 📥 1. 요약 데이터 불러오기
summary_df = pd.read_csv("../data/summaries.csv")
summary_df.dropna(inplace=True)

In [11]:
# 🧪 2. 조사 제거 전처리 함수
def remove_josa(text):
    stop_words = ["입니다", "있습니다", "하는", "그리고", "하지만", "또한", "이런", "저는", "그는",
                   "그녀는", "것은", "에서는", "으로", "이다", "을", "은", "를", "이", "가",
                    "의", "에", "와", "과", "한", "하는", "에서", "으로", "로", "에게", "께서"
                    "들", "이들", "그들", "저들", "이런", "저런", "그런", "이런저런",
                    "그런저런", "이런저런", "그런", "이런", "저런", "이런", "저런"]
    for sw in stop_words:
        text = text.replace(sw, "")
    text = re.sub(r"[^\w가-힣\s]", "", text)  # 특수문자 제거
    return text

In [12]:
summary_df['clean_summary'] = summary_df['summary'].apply(remove_josa)

In [13]:
# 3. TF-IDF 벡터화
vectorizer = TfidfVectorizer(max_features=20)
X = vectorizer.fit_transform(summary_df['clean_summary'])
keywords = vectorizer.get_feature_names_out()

In [14]:
# 4. 전체 요약문 기준 상위 키워드 시각화
import numpy as np
avg_scores = X.mean(axis=0).tolist()[0]
keyword_scores = dict(zip(keywords, avg_scores))

In [15]:
# 상위 10개 키워드 추출
sorted_keywords = sorted(keyword_scores.items(), key=lambda x: x[1], reverse=True)[:10]


In [16]:
# 결과 출력
print(" TF-IDF 키워드:")
for word, score in sorted_keywords:
    print(f"{word}: {score:.4f}")

 TF-IDF 키워드:
데터: 0.3186
특성: 0.2548
데터는: 0.2487
지식: 0.1793
adsp: 0.1434
암묵지: 0.1303
형식지: 0.1303
분류: 0.1272
시험서: 0.1202
시험: 0.1188
