In [2]:
pip install konlpy

Note: you may need to restart the kernel to use updated packages.


DEPRECATION: pyodbc 4.0.0-unsupported has a non-standard version number. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of pyodbc or contact the author to suggest that they release a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063


In [1]:
from __future__ import annotations
from keras.preprocessing.text import Tokenizer
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, Embedding, LSTM, Dropout
from keras.callbacks import EarlyStopping
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from konlpy.tag import Okt
from keras_preprocessing.sequence import pad_sequences

In [2]:
# 토크나이저 생성
tokenizer = Okt()

# 데이터셋 불러오기
train_data = pd.read_csv("../data/train.csv")
test_data = pd.read_csv("../data/test.csv")
title_name=pd.read_csv("../data/music_info.csv")

In [3]:
train_data

Unnamed: 0.1,Unnamed: 0,lyric,label
0,0,생각이 많은 건 말이야,0
1,1,당연히 해야 할 일이야,1
2,2,나에겐 우리가 지금 1순위야,1
3,3,안전한 유리병을 핑계로,-1
4,4,바람을 가둬 둔 것 같지만,1
...,...,...,...
2318,3187,널 위해 살아갈게,1
2319,3188,나약한 마음 따윈 모두 버릴게,1
2320,3189,우리의 사랑을 위해,1
2321,3190,너의 손을 잡고 놓지 않을게,-1


In [3]:
# 불용어 사전 로드
file_path="../words/stopwords-ko.txt"

with open(file_path,encoding='utf-8') as f:
  lines = f.readlines()
lines = [line.rstrip('\n') for line in lines]

stopwords = lines

# 훈련 데이터 전처리
okt = Okt()
X_train = []
for lyrics in train_data['lyric']:
  temp_X = []
  temp_X = okt.morphs(lyrics, stem=True) # 토큰화
  temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
  X_train.append(temp_X)

# 테스트 데이터 전처리
X_test = []
for lyrics in test_data['lyrics']:
  temp_X = []
  temp_X = okt.morphs(lyrics, stem=True) # 토큰화
  temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
  X_test.append(temp_X)

# 토큰화된 데이터의 일부 출력
print(X_train[100:103])
print(X_test[100:103])

[['손자', '돌려주다', '꼭'], ['난', '내', '놈', '씩'], ['이루다', '점점', '끝없이']]
[['짓', '없이', '그냥', '말', '만', '많다'], ['제발', '그만', '나오다', '"'], ['"', '노래', '못', '싱잉']]


In [14]:
X_train

[['생각', '많다', '건', '말', '이야'],
 ['당연하다', '일이'],
 ['에겐', '지금', '1', '순위'],
 ['안전하다', '유리', '병', '핑계'],
 ['바람', '가두다', '두다'],
 ['기억나다', '?', '그날'],
 ['잡다', '손', '엔', '말', '이야'],
 ['설레임', '보다', '커다랗다', '믿음', '담기다'],
 ['난', '함박', '웃음', '지다'],
 ['울음', '날'],
 ['소중하다', '건', '언제나', '두려움', '이니까'],
 ['문', '열다', '들리다', '목소리'],
 ['인하다', '변하다', '따뜻하다', '공기'],
 ['여전하다', '없다', '안녕하다'],
 [',', '사라지다', '별', '자리'],
 ['아스라이', '하얗다', '빛'],
 ['한', '꺼내다', '볼', '거야'],
 ['아낌없이', '반짝이다'],
 ['조금씩', '옅다', '가다'],
 ['내', '맘', '살', '숨', '쉬다', '테', '니'],
 ['여기다', ',', '서로', '끝', '아니다'],
 ['새롭다', '길', '모퉁이'],
 ['익숙하다', '진심', '속', '이지', '말'],
 ['추억', '떠오르다'],
 ['많이', '많이', '그립다', '거야'],
 ['고맙다', '이제'],
 ['사건', '지평선', '너머'],
 ['솔직하다', '두렵다', '기도'],
 ['노력', '정답', '아니다'],
 ['마지막', '선물', '산뜻하다', '안녕'],
 ['가렵지', '않다'],
 ['내', '뒤', '말', '많다'],
 ['말', '더', '필요하다'],
 ['무시', '마', '내', '걸어오다', '커리어'],
 ['더', '높이', '가줄'],
 ['내', '바르다', '세계', '젤', '위'],
 ['떨어지다', '돼다'],
 ['멋대로', '정', '나다', '애', '대해'],
 ['뜨겁다', '관심', '환영'],
 ['내',

In [4]:
# 토큰화 설정 및 토큰화 진행
max_words = 35000
tokenizer = Tokenizer(num_words = max_words)
tokenizer.fit_on_texts(X_train)
X_train = tokenizer.texts_to_sequences(X_train)
X_test = tokenizer.texts_to_sequences(X_test) 
print(X_train[100:103])
print(X_test[100:103])

[[1104, 1105, 180], [3, 1, 323, 261], [406, 267, 712]]
[[854, 71, 118, 6, 10, 76], [1886, 874, 120, 965], [965, 100, 8]]


In [5]:
# 라벨 데이터 준비
y_train = []
y_test = []

# 원-핫 인코딩
for i in range(len(train_data['label'])):
  if train_data['label'].iloc[i] == 1:
    y_train.append([0, 0, 1])
  elif train_data['label'].iloc[i] == 0:
    y_train.append([0, 1, 0])
  elif train_data['label'].iloc[i] == -1:
    y_train.append([1, 0, 0])

for i in range(len(test_data['label'])):
  if test_data['label'].iloc[i] == 1:
    y_test.append([0, 0, 1])
  elif test_data['label'].iloc[i] == 0:
    y_test.append([0, 1, 0])
  elif test_data['label'].iloc[i] == -1:
    y_test.append([1, 0, 0])

y_train = np.array(y_train)
y_test = np.array(y_test)

print(y_train[100:103])
print(y_test[100:103])

[[0 0 1]
 [0 0 1]
 [1 0 0]]
[[0 1 0]
 [0 0 1]
 [0 0 1]]


## 기존 모델
- 원핫인코딩 이용
- LSTM (64개 unit, hidden-layer 1개)
- optimizer: adam
- loss: categorical_crossentropy
- 조기종료 patience=5

In [6]:
# 데이터 길이 맞추기
max_len = 12 # 전체 데이터의 길이를 12로 맞춤
X_train = pad_sequences(X_train, maxlen=max_len)
X_test = pad_sequences(X_test, maxlen=max_len)

In [7]:
# 모델 구성
model = Sequential()
model.add(Embedding(max_words, 100))
model.add(LSTM(64,recurrent_dropout=0.2))
model.add(Dropout(0.5))
model.add(Dense(3, activation='softmax'))

In [8]:
# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 8: early stopping


In [9]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 84.97%


# 1. optimizer 변경
- 기존 모델: Adam 사용
- 실험: Nadam, SGD, RmsProp

## 1.1) Nadam

In [8]:
# 모델 컴파일
model.compile(optimizer='nadam', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 10: early stopping


In [9]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 84.93%


## 1.2) SGD

In [8]:
# 모델 컴파일
from keras.optimizers import gradient_descent_v2

sgd = gradient_descent_v2.SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(optimizer='sgd', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

  super(SGD, self).__init__(name, **kwargs)


Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 12: early stopping


In [9]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 49.54%


## 1.3) RmsProp

In [9]:
# 모델 컴파일
model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 10: early stopping


In [10]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 82.07%


Adam과 Nadam, SGD, RmsProp을 비교한 결과 Adam에서의 정확도가 84.97%로 가장 높은 것을 확인할 수 있었다. 따라서, 최적의 optimizer는 Adam이라고 할 수 있을 것이다.

# 2. loss function
- 기존 모델: categorical crossentropy
- 실험: MSE, MAE, Huber loss

## 2.1) MSE

In [8]:
# 모델 컴파일
model.compile(optimizer='adam', loss='mse', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 8: early stopping


In [9]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 84.70%


## 2.2) MAE

In [8]:
# 모델 컴파일
model.compile(optimizer='adam', loss='mae', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [9]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 49.58%


## 2.3) Huber loss

In [8]:
# 모델 컴파일
model.compile(optimizer='adam', loss='huber_loss', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 10: early stopping


In [9]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 83.89%


Categorical cross-entropy를 사용할 때의 정확도가 다른 실험에서의 정확도보다 높은 84.97%를 보이고 있다. 따라서 최적의 loss function은 categorical cross-entropy라고 볼 수 있다.

# 3. LSTM architecture 변경

## 3.1) hidden layer 수 변경

### 3.1.1) hidden layer = 2

In [10]:
model = Sequential()
model.add(Embedding(max_words, 100))
model.add(LSTM(64, return_sequences=True, dropout=0.5, recurrent_dropout=0.2))
model.add(LSTM(64, return_sequences=False, dropout=0.5, recurrent_dropout=0.2))
model.add(Dense(3, activation='softmax'))

In [11]:
# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 9: early stopping


In [12]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 85.04%


### 3.1.2) hidden layer = 3

In [13]:
model = Sequential()
model.add(Embedding(max_words, 100))
model.add(LSTM(64, return_sequences=True, dropout=0.5, recurrent_dropout=0.2))
model.add(LSTM(64, return_sequences=True, dropout=0.5, recurrent_dropout=0.2))
model.add(LSTM(64, return_sequences=False, dropout=0.5, recurrent_dropout=0.2))
model.add(Dense(3, activation='softmax'))

In [14]:
# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 9: early stopping


In [15]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 84.31%


layer 수가 2개일 때 정확도가 85.04%로 증가하였으므로 최적의 layer 수는 2개이다.

## 3.2) LSTM unit 수 변경

### 3.2.1) unit=32

In [16]:
# 모델 구성
model = Sequential()
model.add(Embedding(max_words, 100))
model.add(LSTM(32, return_sequences=True, dropout=0.5, recurrent_dropout=0.2))
model.add(LSTM(32, return_sequences=False, dropout=0.5, recurrent_dropout=0.2))
model.add(Dropout(0.5))
model.add(Dense(3, activation='softmax'))

In [17]:
# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 9: early stopping


In [18]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 83.04%


### 3.2.2) unit=128

In [19]:
# 모델 구성
model = Sequential()
model.add(Embedding(max_words, 100))
model.add(LSTM(128, return_sequences=True, dropout=0.5, recurrent_dropout=0.2))
model.add(LSTM(128, return_sequences=False, dropout=0.5, recurrent_dropout=0.2))
model.add(Dropout(0.5))
model.add(Dense(3, activation='softmax'))

In [20]:
# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 조기 종료 설정
early_stopping = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=5)

# 모델 학습
history = model.fit(X_train, y_train, epochs=20, validation_split=0.2, callbacks = [early_stopping])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 9: early stopping


In [21]:
# 모델 테스트 및 예측
print("\n 테스트 정확도 : {:.2f}%".format(model.evaluate(X_test,y_test)[1]*100))
predict = model.predict(X_test)


 테스트 정확도 : 85.00%


unit을 32, 64, 128로 바꾸어가며 실험한 결과 unit=64일 때 최적의 결과가 나타난다는 것을 관찰할 수 있었다.

# 4. 모델 변경

## 4.1) SVM

In [22]:
from sklearn import datasets, svm, pipeline

In [23]:
linear_svm = svm.LinearSVC()
poly_svm = svm.SVC(kernel = 'poly')
rbf_svm = svm.SVC(kernel = 'rbf')
sigmoid_svm = svm.SVC(kernel = 'sigmoid')

In [24]:
from sklearn.metrics import accuracy_score

In [25]:
# Linear Kernel
linear_svm.fit(X_train, train_data['label'])
y_pred = linear_svm.predict(X_test)
print('Accuracy: %.4f' % accuracy_score(test_data['label'], y_pred))

# Polynomial Kernel (default:3)
poly_svm.fit(X_train, train_data['label'])
y_pred = poly_svm.predict(X_test)
print('Accuracy: %.4f' % accuracy_score(test_data['label'], y_pred))

# RBF Kernel
rbf_svm.fit(X_train, train_data['label'])
y_pred = rbf_svm.predict(X_test)
print('Accuracy: %.4f' % accuracy_score(test_data['label'], y_pred))

# Sigmoid Kernel
sigmoid_svm.fit(X_train, train_data['label'])
y_pred = sigmoid_svm.predict(X_test)
print('Accuracy: %.4f' % accuracy_score(test_data['label'], y_pred))



Accuracy: 0.3497
Accuracy: 0.5146
Accuracy: 0.5262
Accuracy: 0.3909


SVM 모델을 이용한 경우 정확도는 LSTM을 이용했을 때보다 떨어지는 것을 확인할 수 있었다.

## 4.2) Logistic Regression

In [26]:
from sklearn.linear_model import LogisticRegression

In [27]:
lr_tf = LogisticRegression(max_iter=3000) 
lr_tf.fit(X_train, train_data['label']) # 학습
y_pred = lr_tf.predict(X_test)
 
from sklearn.metrics import accuracy_score
print('Misclassified samples: {} out of {}'.format((y_pred != test_data['label']).sum(),len(test_data['label'])))
print('Accuracy: %.4f' % accuracy_score(test_data['label'], y_pred))

Misclassified samples: 1292 out of 2594
Accuracy: 0.5019


Logistic Regression을 이용한 경우에도 역시 정확도가 0.5019로 LSTM을 이용했을 때보다 확연히 떨어지는 것을 확인할 수 있다.