In [1]:
pip install pandas konlpy tqdm 

Note: you may need to restart the kernel to use updated packages.


In [2]:
pip install wordcloud matplotlib

Note: you may need to restart the kernel to use updated packages.


In [3]:
import os
import re
import gc
import time
import pandas as pd
from konlpy.tag import Okt
from tqdm import tqdm

In [11]:
# 설정 (경로 수정)
INPUT_CSV = "csv/melon_genre_steady_songs_with_lyrics.csv"
OUT_CSV   = "csv/melon_song_words.csv"
BATCH_SLEEP = 0.05   # 각 곡 처리 후 짧게 쉬기
SAVE_EVERY = 50      # 이 값만큼 곡 처리할 때마다 파일에 한번 더 flush(안전성)

EN_STOP = {"the","and","a","to","of","in","on","for","you","i","me","my","is","it","we","be","that","this"}
KO_STOP = {"나","너","우리","그대","너희","이","그","저","그것","이것","저것","너의","하다","있다","없다","같다","않다"}
okt = Okt()

In [12]:
pip install wordcloud matplotlib


Note: you may need to restart the kernel to use updated packages.


In [13]:
from collections import Counter
from wordcloud import WordCloud

def extract_words_light(lyrics: str):
    """
    한 곡 처리:
     - 한국어: 명사/동사/형용사만 추출, 한 글자 제거, KO_STOP 제거
     - 영어: 정규표현식 토큰화, 소문자화, EN_STOP 제거
    """
    if not isinstance(lyrics, str) or not lyrics.strip():
        return []

    text = re.sub(r"[^가-힣A-Za-z\s]", " ", lyrics)
    words = []

    # 한국어
    ko_text = " ".join(re.findall(r"[가-힣]+", text))
    if ko_text:
        try:
            tokens = okt.pos(ko_text, stem=True)
            for w, pos in tokens:
                w = w.replace("\u200b", "").strip()

                if pos in ("Noun","Verb","Adjective") and len(w) > 1 and w not in KO_STOP:
                    words.append(w.strip())   # ✅ (변경됨)
        except Exception:
            pass

    # 영어
    en_text = " ".join(re.findall(r"[A-Za-z]+", text))
    if en_text:
        en_tokens = re.findall(r"[A-Za-z]{2,}", en_text)
        for t in en_tokens:
            t = t.lower().strip()
            if t not in EN_STOP:
                words.append(t)

    return words


# -----------------------
# CSV 읽고 전체 단어 모으기
# -----------------------
df = pd.read_csv(INPUT_CSV)
genres = df['genre'].unique()
for i, genre in enumerate(genres, 1):   # i 자동 증가
    group = df[df['genre'] == genre]
    all_words = []
    for idx, row in tqdm(group.iterrows(), total=len(group), desc=f"Processing {genre}"):
        lyrics = row.get("lyrics", "")
        words = extract_words_light(lyrics)
        all_words.extend(words)

print(f"[INFO] 전체 {len(all_words)}개의 단어 추출 완료")


# -----------------------
# 워드클라우드 생성
# -----------------------
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 🔄 변경: 장르별로 그룹을 돌면서 워드클라우드 생성 및 저장
for genre, group in df.groupby("genre"):   # ✅ genre 기준으로 그룹핑
    all_words = []
    for idx, row in group.iterrows():
        lyrics = row.get("lyrics", "")
        words = extract_words_light(lyrics)
        all_words.extend(words)

    if not all_words:
        print(f"[WARN] 장르 '{genre}' 단어 없음 → 스킵")
        continue

    # ✅ Counter로 단어 빈도 집계
    word_freq = Counter(all_words)

    # ✅ 빈도 기반 워드클라우드 생성
    wc = WordCloud(
        font_path="Pretendard-ExtraBold.otf",
        width=800, height=400,
        background_color="white"
    ).generate_from_frequencies(word_freq)

    # ✅ 장르별 파일로 저장
    safe_genre = re.sub(r'[\/:*?"<>|]', "_", str(genre))
    save_path = f"wordcloud_{safe_genre}.png"
    wc.to_file(save_path)

    print(f"✅ '{genre}' 장르 워드클라우드 저장 완료 → {save_path}")

Processing 발라드: 100%|█████████████████████| 200/200 [00:00<00:00, 202.95it/s]
Processing 댄스: 100%|███████████████████████| 200/200 [00:01<00:00, 180.05it/s]
Processing 랩/힙합: 100%|████████████████████| 200/200 [00:01<00:00, 133.26it/s]
Processing 록/메탈: 100%|████████████████████| 200/200 [00:00<00:00, 243.89it/s]


[INFO] 전체 17820개의 단어 추출 완료
✅ '댄스' 장르 워드클라우드 저장 완료 → wordcloud_댄스.png
✅ '랩/힙합' 장르 워드클라우드 저장 완료 → wordcloud_랩_힙합.png
✅ '록/메탈' 장르 워드클라우드 저장 완료 → wordcloud_록_메탈.png
✅ '발라드' 장르 워드클라우드 저장 완료 → wordcloud_발라드.png
