In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report


In [8]:
# 데이터 로드
file_path = 'new_indie.csv'
df = pd.read_csv(file_path)


df['lyrics'] = df['lyrics'].str.replace('\r\n', '', regex=False)
df

Unnamed: 0,title,artist,like_cnt,lyrics
0,비의 랩소디,임재현,2101,이젠 눈물 그쳐 나를 봐요우는 그대 더 아름다워내게 이 모습조차 더 남지 않도록그냥...
1,인사,범진,3048,돌아서는 너를 보며난 아무 말도 할 수 없었고슬퍼하기엔 짧았던나의 해는 저물어 갔네...
2,숲,최유리,5251,난 저기 숲이 돼볼게너는 자그맣기만 한 언덕 위를오르며 날 바라볼래나의 작은 마음 ...
3,사랑할 수밖에,볼빨간사춘기,1232,간지러웠어 널 보는 내 손이다 주고 싶었어 내 안에 남은 사랑까지지켜 주고 싶었어널...
4,주저하는 연인들을 위해,잔나비,22555,나는 읽기 쉬운 마음이야당신도 스윽 훑고 가셔요달랠 길 없는 외로운 마음 있지머물다...
...,...,...,...,...
692,연,오반(OVAN),22,우 어쩌면 우리는 Babe 우리도 모르게 Babe 서로를 계속 원했을까 아마언젠가부...
693,살아간다,최유리,616,나는 조금만 더 올라가면 보일걸그 말을 굳게 믿은 채 다시 살아간다나는 조그맣게 꿈...
694,Smoking Dreams,재지팩트(Jazzyfact),3969,i puff onetime and i puff twice on and on and ...
695,사랑했던 우리는 없어,리,12,뜨겁게 사랑했던 우리는 없어한없이 행복했던 우리는 없어노력해도 안되는답이없는 우리둘...


In [9]:

# 좋아요 수를 정수로 변환하고, 임계값 기준으로 '인기 있음', '인기 없음' 분류 생성
df['like_cnt'] = df['like_cnt'].str.replace(',', '').astype(int)
threshold = df['like_cnt'].median()  # 중간값을 기준으로 임계값 설정
df['popularity'] = df['like_cnt'].apply(lambda x: 'popular' if x > threshold else 'not_popular')

# 가사와 인기 레이블을 분리
X = df['lyrics']
y = df['popularity']

# 학습용과 테스트용 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 텍스트 벡터화
vectorizer = CountVectorizer()
X_train_vect = vectorizer.fit_transform(X_train)
X_test_vect = vectorizer.transform(X_test)

# Naive Bayes 모델 학습
model = MultinomialNB()
model.fit(X_train_vect, y_train)

# 예측 및 평가
y_pred = model.predict(X_test_vect)

# 정확도와 분류 보고서 출력
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
print('Classification Report:')
print(classification_report(y_test, y_pred))

Accuracy: 0.54
Classification Report:
              precision    recall  f1-score   support

 not_popular       0.49      0.52      0.50        63
     popular       0.58      0.55      0.56        77

    accuracy                           0.54       140
   macro avg       0.53      0.53      0.53       140
weighted avg       0.54      0.54      0.54       140

