1. JSON 파일에서 제목 불러오기

In [6]:
import json

# JSON 파일 경로
with open("../data/cnn_titles.json", "r", encoding="utf-8") as f:
    titles = json.load(f)

print("총 뉴스 제목 수:", len(titles))
print("예시:", titles[:3])

총 뉴스 제목 수: 10
예시: ['Samy Ntumba Shambuyi/AP', 'DRC president commutes death sentences for 3 Americans convicted in coup attempt', 'Israel announces expansion of military operation in Gaza to seize ‘large areas’ of land, ordering residents to leave']


2. spaCy를 이용한 영어 키워드 추출 (명사, 고유명사 중심)

In [9]:
import spacy

# 모델 불러오기
nlp = spacy.load("en_core_web_sm")

def extract_keywords_spacy(text):
    doc = nlp(text)
    # 명사(NOUN) 또는 고유명사(PROPN) 중 stop word가 아닌 것만 추출
    keywords = [token.text for token in doc if token.pos_ in ["NOUN", "PROPN"] and not token.is_stop]
    return keywords

3. 전체 제목에 대해 키워드 추출

In [12]:
# 전체 뉴스 제목 → 키워드 추출
all_keywords = []

for title in titles:
    keywords = extract_keywords_spacy(title)
    all_keywords.append({
        "title": title,
        "keywords": keywords
    })

# 예시 출력
for item in all_keywords[:5]:
    print("제목:", item["title"])
    print("키워드:", item["keywords"])
    print("-" * 40)

제목: Samy Ntumba Shambuyi/AP
키워드: ['Samy', 'Ntumba', 'Shambuyi', 'AP']
----------------------------------------
제목: DRC president commutes death sentences for 3 Americans convicted in coup attempt
키워드: ['DRC', 'president', 'death', 'sentences', 'Americans', 'coup', 'attempt']
----------------------------------------
제목: Israel announces expansion of military operation in Gaza to seize ‘large areas’ of land, ordering residents to leave
키워드: ['Israel', 'expansion', 'operation', 'Gaza', 'areas', 'land', 'residents']
----------------------------------------
제목: Putin calls up 160,000 men to Russian army in latest conscription drive, at crucial moment in Ukraine war
키워드: ['Putin', 'men', 'army', 'conscription', 'drive', 'moment', 'Ukraine', 'war']
----------------------------------------
제목: China’s military launches live-fire exercise in escalation of blockade drills near Taiwan
키워드: ['China', 'military', 'fire', 'exercise', 'escalation', 'blockade', 'drills', 'Taiwan']
--------------------

4. 결과 저장

In [16]:
# 결과를 JSON 파일로 저장
with open("../data/cnn_keywords.json", "w", encoding="utf-8") as f:
    json.dump(all_keywords, f, ensure_ascii=False, indent=2)

print("✅ 키워드 추출 결과 저장 완료!")

✅ 키워드 추출 결과 저장 완료!
