In [2]:
import pandas as pd
import numpy as np
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer


In [3]:
df = pd.read_csv('steady_song_data.csv', index_col=0)
df

Unnamed: 0,genre,title,artist,lyric
0,"발라드, 국내드라마",내 손을 잡아,아이유,느낌이 오잖아 떨리고 있잖아 언제까지 눈치만 볼 거니 네 맘을 말해봐 딴청 피우지 ...
1,발라드,Timeless,SG 워너비,어쩜 살아가다 보면 한 번은 날 찾을지 몰라 난 그 기대 하나로 오늘도 힘겹게 버틴...
2,"발라드, 국내영화",희재,성시경,햇살은 우릴 위해 내리고 바람도 서롤 감싸게 했죠 우리 웃음속에 계절은 오고 또 갔...
3,발라드,거리에서,성시경,니가 없는 거리에는 내가 할일이 없어서 마냥 걷다 걷다보면 추억을 가끔 마주치지 떠...
4,발라드,라라라,SG 워너비,그대는 참 아름다워요 밤 하늘의 별빛보다 빛나요 지친 나의 마음을 따뜻하게 감싸줄 ...
...,...,...,...,...
339,발라드,또 운다 또,다비치,또 운다 또 울지 말라니까 내 말 좀 들어라 터진 눈물아 약한 마음아 상처 난 가슴...
340,"발라드, 국내드라마",날 위한 이별,디아,난 알고 있는데 다 알고 있는데 네가 있는 그 곳 어딘지 너도 가끔씩은 내 생각 날...
341,"발라드, 국내드라마",가끔,지아,눈을 가려도 다 보일 만큼 그대 모습이 느껴지는데 보고 싶단 말이 가슴에 넘치는데 ...
342,발라드,실화,린,떨리는 입술을 오므려 다가올 이별을 참아도 이미 내게 그렁그렁 담겨져 눈물 나겠지 ...


In [4]:

with open('stop_words.pkl', 'rb') as f:
    stop_words = pickle.load(f)

In [5]:
def nouns(sentence: str) -> list[str]:
        """Extract nouns from a given sentence

        Parameters:
            sentence: A sentence to analyze

        Returns: 
            A list of nouns in the given sentence
        """
        return [morpheme.surface for morpheme in mecab.parse(sentence) if morpheme.pos.startswith(('NNG', 'VA'))]

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from mecab import MeCab
from transformers import AutoModel, AutoTokenizer, BartForSequenceClassification, PreTrainedTokenizerFast, BartForConditionalGeneration

mecab = MeCab()
lyrics = [lyric for lyric in df['lyric']]
vectorizer = TfidfVectorizer(tokenizer=nouns, stop_words=stop_words)
X = vectorizer.fit_transform(lyrics)



In [7]:
vectorizer.vocabulary_
a = list(vectorizer.vocabulary_.items())
idx_to_voca = {}
for (voca, idx) in a:
    idx_to_voca[idx] = voca
len(idx_to_voca)
idx_to_voca

{293: '느낌',
 292: '눈치',
 374: '딴청',
 769: '손',
 88: '고개',
 393: '마다',
 275: '눈',
 447: '며칠',
 570: '밤',
 204: '꿈속',
 407: '많',
 654: '빈자리',
 1017: '옆',
 1160: '자릴',
 850: '실없',
 1084: '웃음',
 937: '얘기',
 1457: '핸드폰',
 1287: '진동',
 854: '심장',
 1296: '짓궂',
 413: '말투',
 675: '사랑',
 1243: '좋',
 701: '생각',
 177: '기대',
 1031: '오늘',
 1520: '힘겹',
 186: '기억력',
 1345: '추억',
 988: '없',
 1119: '이별',
 925: '앞',
 185: '기억',
 124: '괜찮',
 743: '세상',
 1163: '자신',
 1427: '하루',
 674: '사람',
 1461: '행복',
 394: '마음',
 49: '같',
 1127: '이젠',
 432: '멀',
 1182: '잠시',
 716: '서로',
 728: '선물',
 326: '대신',
 904: '아프',
 97: '고마워',
 143: '그날',
 1460: '햇살',
 531: '바람',
 87: '계절',
 425: '머릿결',
 1465: '향기',
 1024: '예쁜',
 754: '소리',
 451: '모두',
 805: '쉽',
 1347: '축복',
 1044: '올리',
 280: '눈물',
 1082: '울음',
 789: '순간',
 63: '걱정',
 1125: '이율',
 833: '시작',
 52: '거리',
 453: '모습',
 156: '그리움',
 1521: '힘든',
 559: '발걸음',
 154: '그리운',
 546: '반가워',
 461: '목소리',
 782: '수많',
 399: '막다른',
 192: '길',
 247: '낯익',
 598: '벽',
 6: '가로등',
 

In [8]:
stop_words

['거',
 '맘',
 '말',
 '내',
 '때',
 '건',
 '중',
 '걸',
 '넌',
 '척',
 '네',
 '번',
 '날',
 '난',
 '순',
 '수',
 '일',
 '속',
 '널',
 '것',
 '듯',
 '서',
 '적',
 '테',
 '조',
 '차',
 '곳',
 '니',
 '품',
 '집',
 '곁',
 '이',
 '등',
 '뭐',
 '게',
 '오',
 '남',
 '제',
 '뿐',
 '편',
 '우',
 '주',
 '분',
 '위',
 '칸',
 '창',
 '정',
 '데',
 '멘',
 '트',
 '지',
 '년',
 '기',
 '권',
 '장',
 '노',
 '땐',
 '줄',
 '탓',
 '꿈',
 '입',
 '묘',
 '통',
 '채',
 '꺼',
 '잔',
 '전',
 '홀',
 '뭘',
 '후',
 '뜸',
 '목',
 '화',
 '법',
 '그',
 '저',
 '동',
 '첨',
 '볼',
 '춤',
 '짐',
 '뼘',
 '리',
 '바',
 '끈',
 '마',
 '열',
 '땜',
 '힘',
 '륵',
 '애',
 '께',
 '워',
 '살',
 '겁',
 '처',
 '럼',
 '찰',
 '쌀',
 '명',
 '상',
 '호',
 '땀',
 '욕',
 '철',
 '문',
 '몫',
 '표',
 '패',
 '사',
 '쪽',
 '옷',
 '턱',
 '놈',
 '알',
 '대',
 '십',
 '터',
 '쯤',
 '키',
 '다',
 '갠',
 '벨',
 '생',
 '짝',
 '체',
 '얼',
 '월',
 '녘',
 '진',
 '뻔',
 '색',
 '움',
 '초',
 '절',
 '연',
 '촌',
 '돌',
 '부',
 '구',
 '석',
 '멤',
 '고',
 '랩',
 '젠',
 '칠',
 '치',
 '죄',
 '랍',
 '룹',
 '둡',
 '샘',
 '모',
 '개',
 '새',
 '님',
 '간',
 '질',
 '루',
 '산',
 '감',
 '양',
 '푼',
 '얘',
 '티',
 '외',
 '틈'

In [9]:
df.iloc[10]['lyric']

'너의 그 한 마디 말도 그 웃음도 나에겐 커다란 의미 너의 그 작은 눈빛도 쓸쓸한 그 뒷모습도 나에겐 힘겨운 약속 너의 모든 것은 내게로 와 풀리지 않는 수수께끼가 되네 슬픔은 간이역의 코스모스로 피고 스쳐 불어온 넌 향긋한 바람 나 이제 뭉게구름 위에 성을 짓고 널 향해 창을 내리 바람 드는 창을 너의 그 한 마디 말도 그 웃음도 나에겐 커다란 의미 너의 그 작은 눈빛도 쓸쓸한 그 뒷모습도 나에겐 힘겨운 약속 너의 모든 것은 내게로 와 풀리지 않는 수수께끼가 되네 슬픔은 간이역의 코스모스로 피고 스쳐 불어온 넌 향긋한 바람 나 이제 뭉게구름 위에 성을 짓고 널 향해 창을 내리 바람 드는 창을 슬픔은 간이역의 코스모스로 피고 스쳐 불어온 넌 향긋한 바람 나 이제 뭉게구름 위에 성을 짓고 널 향해 창을 내리 바람 드는 창을 너의 그 한 마디 말도 그 웃음도 나에겐 커다란 의미 너의 그 작은 눈빛도 쓸쓸한 그 뒷모습도 나에겐 힘겨운 약속'

In [10]:
for i in range(X.shape[0]):
    first_song = X.getrow(i)
    result = []
    for voca, score in zip(first_song.indices, sorted(first_song.data, reverse=True)):
        if(len(idx_to_voca[voca]) < 2):
            continue
        result.append({idx_to_voca[voca] : f'{score:.2f}'})
    print(f'{df.iloc[i]["artist"]} : {df.iloc[i]["title"]}')
    print(result[:10])
    print("-" * 250)

아이유 : 내 손을 잡아
[{'느낌': '0.46'}, {'눈치': '0.45'}, {'딴청': '0.41'}, {'고개': '0.16'}, {'마다': '0.16'}, {'며칠': '0.14'}, {'꿈속': '0.14'}, {'빈자리': '0.13'}, {'자릴': '0.13'}, {'실없': '0.12'}]
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
SG 워너비 : Timeless
[{'사랑': '0.32'}, {'생각': '0.29'}, {'기대': '0.28'}, {'오늘': '0.22'}, {'힘겹': '0.21'}, {'기억력': '0.20'}, {'추억': '0.20'}, {'이별': '0.17'}, {'기억': '0.16'}, {'괜찮': '0.15'}]
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
성시경 : 희재
[{'웃음': '0.39'}, {'사랑': '0.34'}, {'기억': '0.26'}, {'하루': '0.22'}, {'행복': '0.19'}, {'햇살': '0.17'}, {'바람': '0.16'}, {'계절': '0.15'}, {'머릿

In [11]:
new_lyric = """
우리 이제 헤어지기로 해
너도 알잖아 우린 충분했다는 걸
이별이 무서워 자꾸 피해 보지만
이젠 정말 끝인 걸
우리 사랑이 우리 추억이 이젠 끝나가지만
함께한 기억은 내가 다 가져갈게
끝이란 걸 알지만 끝이라고 안 할게
내 눈에 비친 네 모습이 날 나쁘게 만들어
나 이제 너와 서툰 이별을 하려 해
많이 아프겠지만 이제 정말 헤어지려 해
가끔 혼자 견디기 힘들어 나도 몰래 널 부르게 되면
그냥 지나쳐줘 서툰 이별이라서 그래
혹시 그때의 서로를 조금 더 이해했더라면
우린 조금은 달라졌을까
이제 와서 이러는 내가 너무 이기적인가 봐
내 눈에 비친 네 모습이 날 나쁘게 만들어
나 이제 너와 서툰 이별을 하려 해
많이 아프겠지만 이제 정말 헤어지려 해
가끔 혼자 견디기 힘들어 나도 몰래 널 부르게 되면
그냥 지나쳐줘 서툰 이별이라서 그래
우리의 최선은 여기까지인 것 같아
수고 많았어 이젠 널 보낼게
같은 추억 속에 우리를 이젠 보내줘야 해
애써 그냥 웃으며 아무렇지 않게 널 보낼게 워워
우리 이제 정말 이별을 하려 해
많이 아프겠지만 많이 힘들겠지만
혹시 우리가 다시 만나게 되는 날이 다가오면
그땐 꼭 안아줘 많이 보고 싶었다고 말해줘
""".replace("\n", ' ').strip()
new_lyric

'우리 이제 헤어지기로 해 너도 알잖아 우린 충분했다는 걸 이별이 무서워 자꾸 피해 보지만 이젠 정말 끝인 걸 우리 사랑이 우리 추억이 이젠 끝나가지만 함께한 기억은 내가 다 가져갈게 끝이란 걸 알지만 끝이라고 안 할게 내 눈에 비친 네 모습이 날 나쁘게 만들어 나 이제 너와 서툰 이별을 하려 해 많이 아프겠지만 이제 정말 헤어지려 해 가끔 혼자 견디기 힘들어 나도 몰래 널 부르게 되면 그냥 지나쳐줘 서툰 이별이라서 그래 혹시 그때의 서로를 조금 더 이해했더라면 우린 조금은 달라졌을까 이제 와서 이러는 내가 너무 이기적인가 봐 내 눈에 비친 네 모습이 날 나쁘게 만들어 나 이제 너와 서툰 이별을 하려 해 많이 아프겠지만 이제 정말 헤어지려 해 가끔 혼자 견디기 힘들어 나도 몰래 널 부르게 되면 그냥 지나쳐줘 서툰 이별이라서 그래 우리의 최선은 여기까지인 것 같아 수고 많았어 이젠 널 보낼게 같은 추억 속에 우리를 이젠 보내줘야 해 애써 그냥 웃으며 아무렇지 않게 널 보낼게 워워 우리 이제 정말 이별을 하려 해 많이 아프겠지만 많이 힘들겠지만 혹시 우리가 다시 만나게 되는 날이 다가오면 그땐 꼭 안아줘 많이 보고 싶었다고 말해줘'

In [12]:
X_new = vectorizer.transform([new_lyric])

In [13]:
feature_names = np.array(vectorizer.get_feature_names_out())
tfidf_scores = X_new.toarray()

# TF-IDF 점수가 높은 단어를 정렬하여 추출
top_n = 10  # 상위 10개 단어
indices = np.argsort(tfidf_scores[0])[::-1]  # TF-IDF 점수 내림차순 정렬
top_words = feature_names[indices][:top_n]
for idx, score in enumerate(tfidf_scores[0]):
    if score == 0.0:
        continue
    print(idx_to_voca[idx], idx, score)
print(indices)
print(top_words)
print("Top Keywords:", *top_words)
# print("Top Keywords score:", *tfidf_scores)

같 49 0.08969496790755523
그때 146 0.08442424948800889
그땐 147 0.12124917483618215
기억 185 0.059368180736825156
끝 205 0.2887328678781756
나쁘 216 0.2924236937274444
눈 275 0.10682179413823209
많 407 0.07039647796393643
모습 453 0.1285791891577958
무서워 486 0.1462118468637222
사랑 675 0.031129711129947526
서로 716 0.10889271999457573
서툰 724 0.5848473874548888
아무렇 883 0.12124917483618215
아프 904 0.21249462355290846
이기 1109 0.12124917483618215
이별 1119 0.41236193500823565
이젠 1127 0.25580998357603457
이해 1129 0.11557004233741829
추억 1345 0.14344927115686312
힘들 1524 0.21118943389180928
[ 724 1119  216 ... 1017 1018    0]
['서툰' '이별' '나쁘' '끝' '이젠' '아프' '힘들' '무서워' '추억' '모습']
Top Keywords: 서툰 이별 나쁘 끝 이젠 아프 힘들 무서워 추억 모습
