In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from keras.datasets import reuters
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
!pip install gensim

# 머신러닝

## TF-IDF

In [4]:
# 벡터화 함수
def vectorization(n):
  # 빈도 높은 n개의 단어로 이루어진 데이터 불러오기
  (X_train, y_train), (X_test, y_test) = reuters.load_data(num_words=n, test_split=0.2)

  # 인덱스: 단어 형식으로 dict 변경, 토큰 3개 자리 위해 0, 1 ,2 자리는 비워둠
  index_word = {idx+3:word for word, idx in reuters.get_word_index().items()}

  # 0, 1, 2 자리에 각각 토큰 추가
  for idx, token in enumerate(["<pad>", "<sos>", "<unk>"]):
    index_word[idx] = token

  # 데이터 숫자에서 텍스트로 변환
  decoded = []
  for s in X_train:
    decoded.append(' '.join([index_word[text] for text in s]))
  X_train = decoded

  # test도 동일하게 진행
  decoded = []
  for s in X_test:
    decoded.append(' '.join([index_word[text] for text in s]))
  X_test = decoded

  # 텍스트 데이터 벡터 변환
  tfidfv = TfidfVectorizer()
  X_train_v = tfidfv.fit_transform(X_train)
  X_test_v = tfidfv.transform(X_test)

  return X_train_v, y_train, X_test_v, y_test

In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import ComplementNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report

In [6]:
def fitting(model, X_train, y_train, X_test, y_test):
  model.fit(X_train, y_train)
  pred = model.predict(X_test)

  print(type(model).__name__)
  print(f'정확도: {accuracy_score(y_test, pred):.4f}')
  print(f'f1-score: {f1_score(y_test, pred, average='weighted'):.4f}')
  print('-'*30)

In [5]:
lr = LogisticRegression(random_state=11)
svc = LinearSVC(random_state=11)
rf = RandomForestClassifier(random_state=11)
xgb = XGBClassifier(random_state=11)
cnb = ComplementNB()
knn = KNeighborsClassifier()
lgbm = LGBMClassifier(random_state=11, verbosity=-1)
dt = DecisionTreeClassifier(random_state=11)

In [6]:
# 단어장 개수 5000개인 경우
X_train_v, y_train, X_test_v, y_test = vectorization(5000)

for m in [lr, svc, rf, xgb, cnb, knn, lgbm, dt]:
  fitting(m, X_train_v, y_train, X_test_v, y_test)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/reuters.npz
[1m2110848/2110848[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/reuters_word_index.json
[1m550378/550378[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
LogisticRegression
정확도: 0.7979
f1-score: 0.7762
------------------------------
LinearSVC
정확도: 0.8290
f1-score: 0.8230
------------------------------
RandomForestClassifier
정확도: 0.7663
f1-score: 0.7430
------------------------------
XGBClassifier
정확도: 0.7996
f1-score: 0.7940
------------------------------
ComplementNB
정확도: 0.7707
f1-score: 0.7459
------------------------------
KNeighborsClassifier
정확도: 0.7818
f1-score: 0.7703
------------------------------




LGBMClassifier
정확도: 0.3491
f1-score: 0.1873
------------------------------
DecisionTreeClassifier
정확도: 0.6968
f1-score: 0.6929
------------------------------


In [7]:
# 단어장 개수 10000개인 경우
X_train_v, y_train, X_test_v, y_test = vectorization(10000)

for m in [lr, svc, rf, xgb, cnb, knn, lgbm, dt]:
  fitting(m, X_train_v, y_train, X_test_v, y_test)

LogisticRegression
정확도: 0.7956
f1-score: 0.7732
------------------------------
LinearSVC
정확도: 0.8299
f1-score: 0.8237
------------------------------
RandomForestClassifier
정확도: 0.7529
f1-score: 0.7295
------------------------------
XGBClassifier
정확도: 0.7925
f1-score: 0.7850
------------------------------
ComplementNB
정확도: 0.7707
f1-score: 0.7457
------------------------------
KNeighborsClassifier
정확도: 0.7894
f1-score: 0.7800
------------------------------




LGBMClassifier
정확도: 0.0583
f1-score: 0.0350
------------------------------
DecisionTreeClassifier
정확도: 0.6901
f1-score: 0.6860
------------------------------


In [8]:
# 단어장 개수 제한 없는 경우
X_train_v, y_train, X_test_v, y_test = vectorization(None)

for m in [lr, svc, rf, xgb, cnb, knn, lgbm, dt]:
  fitting(m, X_train_v, y_train, X_test_v, y_test)

LogisticRegression
정확도: 0.7916
f1-score: 0.7670
------------------------------
LinearSVC
정확도: 0.8295
f1-score: 0.8237
------------------------------
RandomForestClassifier
정확도: 0.7453
f1-score: 0.7195
------------------------------
XGBClassifier
정확도: 0.7979
f1-score: 0.7920
------------------------------
ComplementNB
정확도: 0.7649
f1-score: 0.7347
------------------------------
KNeighborsClassifier
정확도: 0.7707
f1-score: 0.7627
------------------------------




LGBMClassifier
정확도: 0.2538
f1-score: 0.1680
------------------------------
DecisionTreeClassifier
정확도: 0.7039
f1-score: 0.6989
------------------------------


In [9]:
acc = pd.DataFrame({'num_words=5000': [0.7979, 0.8290, 0.7663, 0.7996, 0.7707, 0.7818, 0.3491, 0.6968],
                            'num_words=10000': [0.7956, 0.8299, 0.7529, 0.7925, 0.7707, 0.7894, 0.0583, 0.6901],
                            'num_words=None': [0.7916, 0.8295, 0.7453, 0.7979, 0.7649, 0.7707, 0.2538, 0.7039]},
                             index=['LogisticRegression', 'LinearSVC', 'RandomForestClassifier', 'XGBClassifier',
                                          'ComplementNB', 'KNeighborsClassifier', 'LGBMClassifier',  'DecisionTreeClassifier'])

f1 = pd.DataFrame({'num_words=5000': [0.7762, 0.8230, 0.7430, 0.7940, 0.7459, 0.7703, 0.1873, 0.6929],
                            'num_words=10000': [0.7732, 0.8237, 0.7295, 0.7850, 0.7457, 0.7800, 0.0350, 0.6860],
                            'num_words=None': [0.7670, 0.8237, 0.7195, 0.7920, 0.7347, 0.7627, 0.1680, 0.6989]},
                             index=['LogisticRegression', 'LinearSVC', 'RandomForestClassifier', 'XGBClassifier',
                                          'ComplementNB', 'KNeighborsClassifier', 'LGBMClassifier',  'DecisionTreeClassifier'])

print('Accuracy')
display(acc)
print()
print('F1-score')
display(f1)

Accuracy


Unnamed: 0,num_words=5000,num_words=10000,num_words=None
LogisticRegression,0.7979,0.7956,0.7916
LinearSVC,0.829,0.8299,0.8295
RandomForestClassifier,0.7663,0.7529,0.7453
XGBClassifier,0.7996,0.7925,0.7979
ComplementNB,0.7707,0.7707,0.7649
KNeighborsClassifier,0.7818,0.7894,0.7707
LGBMClassifier,0.3491,0.0583,0.2538
DecisionTreeClassifier,0.6968,0.6901,0.7039



F1-score


Unnamed: 0,num_words=5000,num_words=10000,num_words=None
LogisticRegression,0.7762,0.7732,0.767
LinearSVC,0.823,0.8237,0.8237
RandomForestClassifier,0.743,0.7295,0.7195
XGBClassifier,0.794,0.785,0.792
ComplementNB,0.7459,0.7457,0.7347
KNeighborsClassifier,0.7703,0.78,0.7627
LGBMClassifier,0.1873,0.035,0.168
DecisionTreeClassifier,0.6929,0.686,0.6989


In [10]:
## 실험 ##

lr = LogisticRegression(max_iter=500, penalty='l2', random_state=11)
svc = LinearSVC(penalty='l2', random_state=11)
rf = RandomForestClassifier(n_estimators=500, n_jobs=-1, random_state=11)
xgb = XGBClassifier(n_estimators=500, random_state=11)
# cnb = ComplementNB()
# knn = KNeighborsClassifier()
lgbm = LGBMClassifier(n_estimators=500, learning_rate=0.05, random_state=11, verbosity=-1)
# dt = DecisionTreeClassifier(random_state=11)
# 단어장 개수 제한 없는 경우
X_train_v, y_train, X_test_v, y_test = vectorization(10000)

for m in [lr, svc, rf, xgb, lgbm]:
  fitting(m, X_train_v, y_train, X_test_v, y_test)

LogisticRegression
정확도: 0.7956
f1-score: 0.7732
------------------------------
LinearSVC
정확도: 0.8299
f1-score: 0.8237
------------------------------
RandomForestClassifier
정확도: 0.7591
f1-score: 0.7348
------------------------------
XGBClassifier
정확도: 0.8032
f1-score: 0.7968
------------------------------




LGBMClassifier
정확도: 0.1790
f1-score: 0.1893
------------------------------


## Word2Vec

In [1]:
from gensim.models import Word2Vec
import tensorflow as tf

In [7]:
# 빈도 높은 10000개의 단어로 이루어진 데이터 불러오기
(X_train, y_train), (X_test, y_test) = reuters.load_data(num_words=10000, test_split=0.2)

# 인덱스: 단어 형식으로 dict 변경, 토큰 3개 자리 위해 0, 1 ,2 자리는 비워둠
index_word = {idx+3:word for word, idx in reuters.get_word_index().items()}

# 0, 1, 2 자리에 각각 토큰 추가
for idx, token in enumerate(["<pad>", "<sos>", "<unk>"]):
  index_word[idx] = token

# 데이터 숫자에서 텍스트로 변환
decoded = []
for s in X_train:
  decoded.append(' '.join([index_word[text] for text in s]))
X_train = decoded

# test도 동일하게 진행
decoded = []
for s in X_test:
  decoded.append(' '.join([index_word[text] for text in s]))
X_test = decoded

In [8]:
# 문장 토큰화
X_train_tokenized = [sentence.split() for sentence in X_train]
X_test_tokenized = [sentence.split() for sentence in X_test]

In [9]:
# Word2Vec 학습
model = Word2Vec(sentences=X_train_tokenized, vector_size=256, window=5, min_count=5, workers=4, sg=0)

In [10]:
# Word2Vec 학습상태 확인
model_result = model.wv.most_similar('man')
print(model_result)

[('le', 0.8695319294929504), ('erbynn', 0.8632148504257202), ('glenn', 0.8598173260688782), ('kobena', 0.8547869324684143), ('iii', 0.8539669513702393), ('retired', 0.8518201112747192), ('rio', 0.8506918549537659), ('blue', 0.8469061255455017), ('olivetti', 0.8451955318450928), ('disc', 0.8423368334770203)]


In [11]:
w2v_model = model

# 문장 벡터화
def vectorize_sentence(sentence, model, max_len):
    vecs = []
    for word in sentence:
        if word in model.wv:
            vecs.append(model.wv[word])
        else:
            vecs.append(np.zeros(model.vector_size))
    # Padding
    if len(vecs) < max_len:
        vecs += [np.zeros(model.vector_size)] * (max_len - len(vecs))
    else:
        vecs = vecs[:max_len]
    return np.array(vecs)

X_train_w2v = np.array([vectorize_sentence(s, w2v_model, max_len=100) for s in X_train_tokenized])
X_test_w2v = np.array([vectorize_sentence(s, w2v_model, max_len=100) for s in X_test_tokenized])

In [12]:
# 2차원 변환 위해 벡터 평균 취하기
X_w2v_seq_train = X_train_w2v
X_w2v_seq_test = X_test_w2v

X_w2v_avg_train = np.mean(X_w2v_seq_train, axis=1)
X_w2v_avg_test = np.mean(X_w2v_seq_test, axis=1)

In [13]:
# TF-IDF에서 성능이 가장 잘나왔던 svc로 학습
svc = LinearSVC(random_state=1)
fitting(svc, X_w2v_avg_train, y_train, X_w2v_avg_test, y_test)

LinearSVC
정확도: 0.7529
f1-score: 0.7226
------------------------------


In [14]:
xgb = XGBClassifier(n_estimators=500, max_depth=5, eval_metric='mlogloss')
fitting(xgb, X_w2v_avg_train, y_train, X_w2v_avg_test, y_test)

XGBClassifier
정확도: 0.7329
f1-score: 0.7201
------------------------------


### 머신러닝 성능
- TfidfVectorizer를 사용하여 단어수에 따른 성능, 8개의 머신러닝 모델에 따른 성능을 비교해보았음.
- 하이퍼 파라미터를 수정하지 않은 기본 모델의 경우 LinearSVC 모델의 정확도와 f1_score 모두 약 0.82로 가장 높았으며 그 뒤로는 LogisticRegression과 XGBClassifier가 약 0.8의 정확도를 보임. LGBMClassifier를 제외하고는 나머지 모델 모두 비슷한 성능을 보임.
- 선형적인 방식으로 분류 경계를 찾는 LinearSVC과 Logisticregression 알고리즘이 다른 알고리즘에 비해 고차원의 희소 데이터(tf-idf로 인해 희소행렬을 가짐)를 효율적으로 처리하는 경향이 있어 그런 것으로 보임. 베이즈 모델의 경우 클래스 불균형에 강한 성능을 보이나 모든 단어가 서로 독립이라고 가정함. 그러나 실제 텍스트는 단어 순서나 조합이 중요하여 이 가정이 깨지며 선형모델만큼의 성능을 내기 어려웠던 것으로 보임. knn은 가까운 이웃과의 거리에 의존하게 되는데 고차원으로 갈수록 포인트 간 거리가 거의 비슷해지는 현상이 발생하여 성능이 0.75로 그친 것으로 보임. DecisionTree와 RandomForest는 트리 모델이 최적의 분할 지점을 찾기 어려워 성능이 낮은 것으로 보임. 부스팅 모델의 경우 LGBM보다 XGB가 희소 행렬에 대해 안정적으로 처리하도록 설계되어 있다고 하며, LGBM은 밀집행렬을 가정하고 효율적인 처리를 진행하나 희소성을 제대로 인지하지 못해 학습이 제대로 일어나지 않은 것으로 보임.
- Word2Vec는 Tfidf에서 성능이 잘 나왔던 LinearSVC와 XGBClassifier를 사용했으며 두 모델 모두 Tfidf를 통해 벡터화 한 경우보다 성능이 좋지 않았음. 이는 tfidf의 단어 중요도로 데이터를 바라보는 관점이 word2vec의 단어 의미로 데이터를 바라보는 관점보다 실습 데이터에 더 잘맞았던 것으로 생각해볼 수 있음.
- 단어수를 5000개, 10000개로 했을 때와 단어 수 제한을 두지 않았을 때 전반적으로 모델의 성능에는 큰 차이가 없었음. 이를 통해 가장 많이 등장하는 5000개의 단어만으로도 뉴스 카테고리를 분류하기에 충분했으며 이후 단어 수를 늘려감에 따라 추가되는 단어들은 오타나 고유명사 등의 노이즈 단어일 가능성이 높을 것이라는 것을 생각해 볼 수  있음.


# 딥러닝

In [15]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense, LSTM, Dropout

In [16]:
dense_model = Sequential([
    Flatten(input_shape=(100, 256)),
    Dense(512, activation='relu'),
    Dropout(0.3),
    Dense(128, activation='relu'),
    Dropout(0.3),
    Dense(46, activation='softmax')
])

dense_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
dense_model.summary()

  super().__init__(**kwargs)


In [17]:
# 모델 학습
dense_model.fit(X_train_w2v, y_train, epochs=10, batch_size=32, validation_split=0.2)

Epoch 1/10
[1m225/225[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m57s[0m 244ms/step - accuracy: 0.5177 - loss: 2.2593 - val_accuracy: 0.6717 - val_loss: 1.4914
Epoch 2/10
[1m225/225[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m55s[0m 243ms/step - accuracy: 0.6721 - loss: 1.3680 - val_accuracy: 0.6817 - val_loss: 1.3569
Epoch 3/10
[1m225/225[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m54s[0m 239ms/step - accuracy: 0.7418 - loss: 1.0495 - val_accuracy: 0.6889 - val_loss: 1.3810
Epoch 4/10
[1m225/225[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m55s[0m 244ms/step - accuracy: 0.7926 - loss: 0.8408 - val_accuracy: 0.6917 - val_loss: 1.4300
Epoch 5/10
[1m225/225[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m54s[0m 239ms/step - accuracy: 0.8185 - loss: 0.7545 - val_accuracy: 0.6873 - val_loss: 1.4995
Epoch 6/10
[1m225/225[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 242ms/step - accuracy: 0.8487 - loss: 0.6056 - val_accuracy: 0.6917 - val_loss: 1.5140
Epoch 7/10

<keras.src.callbacks.history.History at 0x7f60ee05d730>

In [18]:
# 46개의 클래스 중 가장 확률이 높은 클래스 선택
y_pred_proba = dense_model.predict(X_test_w2v)
y_pred = np.argmax(y_pred_proba, axis=1)

print(f'정확도: {accuracy_score(y_test, y_pred):.4f}')
print(f'f1-score: {f1_score(y_test, y_pred, average='weighted'):.4f}')

[1m71/71[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 39ms/step
정확도: 0.6768
f1-score: 0.6659


In [19]:
rnn_model = Sequential([
    LSTM(128, input_shape=(100, 256)),
    Dropout(0.3),
    Dense(64, activation='relu'),
    Dropout(0.3),
    Dense(46, activation='softmax')
])

rnn_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
rnn_model.summary()

  super().__init__(**kwargs)


In [20]:
rnn_model.fit(X_train_w2v, y_train, epochs=50, batch_size=100, validation_split=0.2)

Epoch 1/50
[1m72/72[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m26s[0m 325ms/step - accuracy: 0.3575 - loss: 2.9858 - val_accuracy: 0.5426 - val_loss: 1.8305
Epoch 2/50
[1m72/72[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m23s[0m 316ms/step - accuracy: 0.5186 - loss: 1.9229 - val_accuracy: 0.5882 - val_loss: 1.6737
Epoch 3/50
[1m72/72[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m41s[0m 317ms/step - accuracy: 0.5888 - loss: 1.6689 - val_accuracy: 0.6283 - val_loss: 1.5422
Epoch 4/50
[1m72/72[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m40s[0m 308ms/step - accuracy: 0.6284 - loss: 1.5901 - val_accuracy: 0.6555 - val_loss: 1.4801
Epoch 5/50
[1m72/72[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 318ms/step - accuracy: 0.6418 - loss: 1.4800 - val_accuracy: 0.6622 - val_loss: 1.3929
Epoch 6/50
[1m72/72[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m41s[0m 320ms/step - accuracy: 0.6467 - loss: 1.4387 - val_accuracy: 0.6761 - val_loss: 1.3213
Epoch 7/50
[1m72/72[

<keras.src.callbacks.history.History at 0x7f60e822cf20>

In [21]:
# 46개의 클래스 중 가장 확률이 높은 클래스 선택
y_pred_proba = rnn_model.predict(X_test_w2v)
y_pred = np.argmax(y_pred_proba, axis=1)

print(f'정확도: {accuracy_score(y_test, y_pred):.4f}')
print(f'f1-score: {f1_score(y_test, y_pred, average='weighted'):.4f}')

[1m71/71[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 56ms/step
정확도: 0.7756
f1-score: 0.7612


- 머신러닝 성능이 가장 잘 나왔던 10000개의 단어로 딥러닝 진행
- RNN 모델이 Dense Model보다 좋은 성능을 보였는데, 이는 dense model과 rnn모델의 차이인 순서 정보 처리가 모델 성능에 영향을 미친 것으로 생각해볼 수 있음.
- Dense Model는 약 0.69의 정확도, RNN은 약 0.77의 정확도를 보였으며, RNN의 epoch를 늘려보았으나 일정 구간 이후부터는 과적합이 발생하고 validation 성능이 정체된 모습을 보임. 두 모델 모두 LinearSVC보다 정확한 예측을 하지 못함.
- 데이터 부족으로 인한 딥러닝 모델의 과적합으로 높은 성능이 나오지 못한 것으로 보이며, 이로 인해 딥러닝의 장점을 극대화할 수 없는 상황인 것으로 보임. LinearSVC가 현재 상황까지는 데이터의 특성에 잘 맞고 가장 효율적인 선형 분리 능력을 갖고 있다고 볼 수 있음.