#### 뉴스 카테고리 다중분류 프로젝트

##### 목표: Vocabulary Size 변화가 뉴스 카테고리 다중분류 모델의 성능에 어떤 영향을 주는지 탐구

##### 데이터셋: Reuters 뉴스 분류 데이터셋

##### 사용 모델: 나이브 베이즈(MultinomialNB, ComplementNB), 로지스틱 회귀, 서포트 벡터 머신(SVM), 결정 트리, 랜덤 포레스트, 그래디언트 부스팅 트리, 보팅(앙상블), 순환 신경망(RNN)

##### 평가 지표: Accuracy, F1 Score (macro)

In [1]:
import numpy as np
import pandas as pd
import time
from tensorflow.keras.datasets import reuters
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC, SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, VotingClassifier
from sklearn.metrics import accuracy_score, f1_score

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset

# =========================================
# 1. 하이퍼파라미터
# =========================================
vocab_sizes = [2000, 5000, 10000, 20000]
MAX_LEN = 200
BATCH_SIZE = 64
EPOCHS = 20   # Early Stopping 적용하므로 넉넉하게
device = "cuda" if torch.cuda.is_available() else "cpu"

# =========================================
# 2. 전통 ML 모델 정의 (+ Voting 추가)
# =========================================
ml_models = {
    "MultinomialNB": MultinomialNB(),
    "ComplementNB": ComplementNB(),
    "Logistic": LogisticRegression(max_iter=1000),
    "SVM": LinearSVC(),
    "DecisionTree": DecisionTreeClassifier(),
    "RandomForest": RandomForestClassifier(),
    "GradientBoosting": GradientBoostingClassifier(),
    "Voting": VotingClassifier(
        estimators=[
            ("lr", LogisticRegression(C=10000, penalty="l2", max_iter=1000)),
            ("cb", ComplementNB()),
            ("grbt", GradientBoostingClassifier(random_state=0))
        ],
        voting="soft",
        n_jobs=-1
    )
}

# =========================================
# 3. RNN 모델 정의 (PyTorch)
# =========================================
class RNNClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim=128, hidden_dim=128, num_classes=46):
        super(RNNClassifier, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
        self.rnn = nn.LSTM(embed_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, num_classes)

    def forward(self, x):
        x = self.embedding(x)
        _, (h, _) = self.rnn(x)
        out = self.fc(h[-1])
        return out

# =========================================
# 4. 결과 저장 리스트
# =========================================
results = []

# =========================================
# 5. 메인 루프
# =========================================
for vocab in vocab_sizes:
    print(f"\n========== Vocab Size: {vocab} ==========")

    # ----- 데이터 로드 -----
    (x_train, y_train), (x_test, y_test) = reuters.load_data(num_words=vocab, test_split=0.2)

    # ----- 텍스트 복원 (ML 전용) -----
    word_index = reuters.get_word_index()
    index_word = {v+3: k for k, v in word_index.items()}
    index_word[0], index_word[1], index_word[2] = "<PAD>", "<START>", "<UNK>"

    x_train_text = [" ".join([index_word.get(i, "?") for i in seq]) for seq in x_train]
    x_test_text  = [" ".join([index_word.get(i, "?") for i in seq]) for seq in x_test]

    # ----- TF-IDF (ML 전용) -----
    vectorizer = TfidfVectorizer(max_features=vocab)
    X_train = vectorizer.fit_transform(x_train_text)
    X_test  = vectorizer.transform(x_test_text)

    # ----- 전통 ML 모델 학습/평가 -----
    for name, model in ml_models.items():
        start = time.time()
        model.fit(X_train, y_train)
        preds = model.predict(X_test)
        acc = accuracy_score(y_test, preds)
        f1  = f1_score(y_test, preds, average="macro")
        elapsed = time.time() - start

        results.append((vocab, name, acc, f1, elapsed))
        print(f"[ML] {name}: Acc={acc:.4f}, F1={f1:.4f}, Time={elapsed:.2f}s")

    # ----- RNN 데이터 준비 -----
    x_train_pad = pad_sequences(x_train, maxlen=MAX_LEN)
    x_test_pad = pad_sequences(x_test, maxlen=MAX_LEN)

    x_train_tensor = torch.tensor(x_train_pad, dtype=torch.long)
    y_train_tensor = torch.tensor(y_train, dtype=torch.long)
    x_test_tensor = torch.tensor(x_test_pad, dtype=torch.long)
    y_test_tensor = torch.tensor(y_test, dtype=torch.long)

    train_loader = DataLoader(TensorDataset(x_train_tensor, y_train_tensor), batch_size=BATCH_SIZE, shuffle=True)
    test_loader = DataLoader(TensorDataset(x_test_tensor, y_test_tensor), batch_size=BATCH_SIZE)

    # ----- RNN 모델 정의 -----
    model = RNNClassifier(vocab_size=vocab, num_classes=46).to(device)
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

    # ----- 학습 + Early Stopping -----
    best_f1 = 0
    patience, wait = 2, 0   # f1 2번 감소하면 stop
    start = time.time()

    for epoch in range(EPOCHS):
        model.train()
        for xb, yb in train_loader:
            xb, yb = xb.to(device), yb.to(device)
            optimizer.zero_grad()
            preds = model(xb)
            loss = criterion(preds, yb)
            loss.backward()
            optimizer.step()

        # --- Validation (여기서는 test set 사용) ---
        model.eval()
        all_preds, all_labels = [], []
        with torch.no_grad():
            for xb, yb in test_loader:
                xb, yb = xb.to(device), yb.to(device)
                preds = model(xb)
                pred_labels = preds.argmax(dim=1)
                all_preds.extend(pred_labels.cpu().numpy())
                all_labels.extend(yb.cpu().numpy())

        acc = accuracy_score(all_labels, all_preds)
        f1 = f1_score(all_labels, all_preds, average="macro")
        print(f"[RNN] Vocab={vocab}, Epoch={epoch+1}, Acc={acc:.4f}, F1={f1:.4f}")

        # --- Early Stopping 체크 ---
        if f1 > best_f1:
            best_f1 = f1
            wait = 0
        else:
            wait += 1
            if wait >= patience:
                print(f"Early stopping at epoch {epoch+1}")
                break

    elapsed = time.time() - start
    results.append((vocab, "RNN", acc, f1, elapsed))
    print(f"[RNN] Vocab={vocab}: Final Acc={acc:.4f}, F1={f1:.4f}, Time={elapsed:.2f}s")

# =========================================
# 6. 결과 DataFrame
# =========================================
df = pd.DataFrame(results, columns=["Vocab", "Model", "Accuracy", "F1", "Time(s)"])
print("\n===== Final Results =====")
print(df)

2025-09-01 03:52:20.493259: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.
2025-09-01 03:52:20.565818: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-09-01 03:52:22.330309: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:31] Could not find cuda drivers on your machine, GPU will not be used.
  return torch._C._cuda_getDeviceCount() > 0



[ML] MultinomialNB: Acc=0.6910, F1=0.1655, Time=0.02s
[ML] ComplementNB: Acc=0.7569, F1=0.4000, Time=0.02s
[ML] Logistic: Acc=0.7974, F1=0.4647, Time=7.00s
[ML] SVM: Acc=0.8321, F1=0.6733, Time=2.48s
[ML] DecisionTree: Acc=0.6972, F1=0.4533, Time=5.46s
[ML] RandomForest: Acc=0.7787, F1=0.4861, Time=24.76s
[ML] GradientBoosting: Acc=0.7618, F1=0.4974, Time=1092.25s
[ML] Voting: Acc=0.7974, F1=0.6009, Time=1097.24s
[RNN] Vocab=2000, Epoch=1, Acc=0.4924, F1=0.0316
[RNN] Vocab=2000, Epoch=2, Acc=0.4982, F1=0.0286
[RNN] Vocab=2000, Epoch=3, Acc=0.5490, F1=0.0489
[RNN] Vocab=2000, Epoch=4, Acc=0.5859, F1=0.0619
[RNN] Vocab=2000, Epoch=5, Acc=0.6020, F1=0.0723
[RNN] Vocab=2000, Epoch=6, Acc=0.6291, F1=0.1145
[RNN] Vocab=2000, Epoch=7, Acc=0.6371, F1=0.1331
[RNN] Vocab=2000, Epoch=8, Acc=0.6073, F1=0.1423
[RNN] Vocab=2000, Epoch=9, Acc=0.6701, F1=0.1747
[RNN] Vocab=2000, Epoch=10, Acc=0.6647, F1=0.1760
[RNN] Vocab=2000, Epoch=11, Acc=0.6888, F1=0.2115
[RNN] Vocab=2000, Epoch=12, Acc=0.6892, F

## 모델별 Vocab Size 영향 해석

### 1. **MultinomialNB**

* Vocab이 작을 때는 자주 등장하는 단어 중심으로 안정적인 성능을 보임
* Vocab이 커질수록 저빈도 단어까지 개별 토큰으로 포함되어 희소성이 증가
* 결과적으로 학습 데이터에서 충분히 보지 못한 단어들이 많아져 **성능이 점차 저하**됨

---

### 2. **ComplementNB**

* 희소 데이터에 강하도록 설계된 모델
* Vocab이 커지더라도 저빈도 단어의 영향을 상대적으로 잘 보완
* 따라서 **vocab 크기에 크게 흔들리지 않고 안정적인 성능 유지**

---

### 3. **Logistic Regression**

* Vocab이 커질수록 더 많은 단어 정보를 활용할 수 있어 분류 경계가 정교해짐
* 전체적으로 성능이 꾸준히 안정적이나, SVM보다는 낮은 수준
* 학습 시간은 비교적 길지만 Voting이나 GBM보다는 효율적

---

### 4. **SVM**

* 가장 뚜렷하게 vocab 증가 효과를 본 모델
* Vocab이 커질수록 텍스트 표현력이 향상되어 분류 경계가 더 정확해짐
* 전 구간에서 안정적으로 **가장 높은 F1 스코어와 정확도 기록**
* 학습 시간도 1\~3초 수준으로 매우 효율적

---

### 5. **Decision Tree**

* Vocab이 커져도 단어의 희소성이 커지면 분할 기준을 잘 잡기 어려움
* 그 결과 성능 개선은 거의 없고, 일부 구간에서는 성능이 들쭉날쭉
* 단일 트리의 한계로 인해 안정적인 분류에는 제약

---

### 6. **Random Forest**

* 다수의 트리를 합쳐서 성능은 Decision Tree보다는 안정적
* 그러나 vocab이 커질수록 희소 단어의 영향이 누적되어 성능 개선이 제한적
* 학습 시간은 20\~60초 이상 소요되며, 성능 대비 효율성이 낮음

---

### 7. **Gradient Boosting**

* Vocab 증가에 따라 분류 경계가 조금 더 정교해져 성능이 소폭 개선
* 하지만 학습 시간이 매우 길어 (20분 이상) 실용성은 떨어짐
* 성능과 시간을 함께 고려했을 때 비효율적인 모델

---

### 8. **Voting (앙상블)**

* Logistic, ComplementNB, GradientBoosting을 결합
* Vocab이 커질수록 안정적으로 성능이 향상 (F1 ≈ 0.60 → 0.66)
* 그러나 GradientBoosting이 포함되어 있어 학습 시간이 매우 길어짐
* 안정적인 성능은 보장하지만 **시간 비용이 큰 모델**

---

### 9. **RNN**

* Vocab이 커질수록 임베딩 파라미터 수가 급격히 증가
* 데이터 크기(약 1만 문서)가 충분하지 않아 저빈도 단어를 학습하기 어려움
* 결과적으로 성능 향상이 제한적이고 일부 구간에서는 오히려 성능이 흔들림
* Accuracy는 0.70 수준까지 도달했지만, F1 스코어는 여전히 낮음 (0.25\~0.35)

---