In [1]:
# $ sudo apt update
# $ sudo apt install default-jre

In [2]:
# ! pip install konlpy
# ! cd ~/work/text_preprocess


In [3]:
# ! git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
# %cd Mecab-ko-for-Google-Colab
# ! bash install_mecab-ko_on_colab190912.sh

In [4]:
# import os
# os.kill(os.getpid(), 9)

In [5]:
from konlpy.tag import Mecab

mecab = Mecab()
print(mecab.morphs('자연어처리가너무재밌어서밥먹는것도가끔까먹어요'))

['자연어', '처리', '가', '너무', '재밌', '어서', '밥', '먹', '는', '것', '도', '가끔', '까먹', '어요']


In [6]:
# 1. 사용할 모든 형태소 분석기를 import 합니다. (이 부분이 누락되었습니다)
from konlpy.tag import Hannanum, Kkma, Komoran, Mecab, Okt

# 2. 토크나이저 리스트를 생성하고 실행합니다.
tokenizer_list = [Hannanum(), Kkma(), Komoran(), Mecab(), Okt()]

kor_text = '코로나바이러스는 2019년 12월 중국 우한에서 처음 발생한 뒤 전 세계로 확산된, 새로운 유형의 호흡기 감염 질환입니다.'

for tokenizer in tokenizer_list:
    print('[{}] \n{}'.format(tokenizer.__class__.__name__, tokenizer.pos(kor_text)))

[Hannanum] 
[('코로나바이러스', 'N'), ('는', 'J'), ('2019년', 'N'), ('12월', 'N'), ('중국', 'N'), ('우한', 'N'), ('에서', 'J'), ('처음', 'M'), ('발생', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('뒤', 'N'), ('전', 'N'), ('세계', 'N'), ('로', 'J'), ('확산', 'N'), ('되', 'X'), ('ㄴ', 'E'), (',', 'S'), ('새롭', 'P'), ('은', 'E'), ('유형', 'N'), ('의', 'J'), ('호흡기', 'N'), ('감염', 'N'), ('질환', 'N'), ('이', 'J'), ('ㅂ니다', 'E'), ('.', 'S')]
[Kkma] 
[('코로나', 'NNG'), ('바', 'NNG'), ('이러', 'MAG'), ('슬', 'VV'), ('는', 'ETD'), ('2019', 'NR'), ('년', 'NNM'), ('12', 'NR'), ('월', 'NNM'), ('중국', 'NNG'), ('우', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('에', 'VV'), ('서', 'ECD'), ('처음', 'NNG'), ('발생', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('뒤', 'NNG'), ('전', 'NNG'), ('세계', 'NNG'), ('로', 'JKM'), ('확산', 'NNG'), ('되', 'XSV'), ('ㄴ', 'ETD'), (',', 'SP'), ('새', 'NNG'), ('롭', 'XSA'), ('ㄴ', 'ETD'), ('유형', 'NNG'), ('의', 'JKG'), ('호흡기', 'NNG'), ('감염', 'NNG'), ('질환', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
[Komoran] 
[('코로나바이러스', 'NNP'), ('는', 'JX'), ('2019', 'SN'

In [7]:
# python 버전 확인

! python --version

Python 3.12.11


In [8]:
# 유사단어 찾기를 위한 gensim 설치

!pip install gensim==4.3.2



In [9]:

# 의존성 연결을 위해 다운그레이드를 진행

!pip install scipy==1.12.0 numpy==1.26.3



In [10]:

# 설치 라이브러리 버전 확인

import pandas
import konlpy
import gensim

print(pandas.__version__)
print(konlpy.__version__)
print(gensim.__version__)

2.3.0
0.6.0
4.3.2


In [11]:
! pip install wordcloud



In [12]:
# 1. 나눔폰트 설치
!sudo apt-get -y install fonts-nanum*

# 2. 폰트 캐시 재생성
!sudo fc-cache -fv

# 3. matplotlib 캐시 삭제
!rm ~/.cache/matplotlib -rf

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
Note, selecting 'fonts-nanum-extra' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-coding' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum-eco' for glob 'fonts-nanum*'
Note, selecting 'fonts-nanum' for glob 'fonts-nanum*'
fonts-nanum is already the newest version (20200506-1).
fonts-nanum-coding is already the newest version (2.5-3).
fonts-nanum-eco is already the newest version (1.000-7).
fonts-nanum-extra is already the newest version (20200506-1).
0 upgraded, 0 newly installed, 0 to remove and 45 not upgraded.
Font directories:
	/root/.local/share/fonts
	/usr/local/share/fonts
	/usr/share/fonts
	/root/.fonts
	/usr/share/texmf/fonts/opentype/public/lm
	/usr/share/texmf/fonts/opentype/public/lm-math
	/usr/share/fonts/X11
	/usr/share/fonts/cMap
	/usr/share/fonts/cmap
	/usr/share/fonts/opentype
	/usr/share/fonts/truetype
	/usr/share/fonts/type1
	/usr/share/fonts/X11/Type1
	/usr/sh

In [13]:
!pip install tqdm



In [14]:
# 1. SentencePiece 라이브러리 설치
!pip install sentencepiece



In [15]:
# ====================================================================================
# 1. 라이브러리 Import
# ====================================================================================
import os
import random
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import TensorDataset, DataLoader
from sklearn.model_selection import train_test_split
from tqdm.notebook import tqdm

# --- 비교 실험을 위한 토크나이저 ---
import sentencepiece as spm
from konlpy.tag import Mecab

# ====================================================================================
# 2. 중앙 설정 (Configuration)
# ====================================================================================
CFG = {
    # --- 실험 선택 ---
    'TOKENIZER_TYPE': 'KoNLPy', # 'SentencePiece' 또는 'KoNLPy' 선택
    'KONLPY_TOKENIZER': 'Mecab',     # TOKENIZER_TYPE이 'KoNLPy'일 경우, 사용할 형태소 분석기
    
    # --- SentencePiece 하이퍼파라미터 ---
    'SP_VOCAB_SIZE': 10000,          # SentencePiece 단어 집합 크기
    'SP_MODEL_TYPE': 'bpe',          # 'bpe' 또는 'unigram'
    
    # --- KoNLPy 하이퍼파라미터 (추가) ---
    'KONLPY_VOCAB_SIZE': 10000,      # KoNLPy 사용 시 단어 집합 크기 제한
    
    # --- 모델 하이퍼파라미터 ---
    'EMBEDDING_DIM': 128,
    'HIDDEN_DIM': 128,
    'N_LAYERS': 1,
    'DROPOUT': 0.6,
    
    # --- 학습 하이퍼파라미터 ---
    'EPOCHS': 20,
    'LEARNING_RATE': 0.001,
    'BATCH_SIZE': 128,
    'MAX_LEN': 40,                   # 문장 최대 길이
    'PATIENCE': 3,                   # 조기 종료 조건
    'WEIGHT_DECAY': 1e-5,            # 가중치 감쇠 (L2 규제)
    
    # --- 기타 설정 ---
    'SEED': 42,
    'DEVICE': torch.device('cuda' if torch.cuda.is_available() else 'cpu'),
    'MODEL_SAVE_PATH': 'best_model.pth',
}

# ====================================================================================
# 3. 유틸리티 함수
# ====================================================================================
def seed_everything(seed):
    """재현성을 위한 시드 고정 함수"""
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = True

# ====================================================================================
# 4. 데이터 준비 함수
# ====================================================================================
def load_and_preprocess_data():
    """NSMC 데이터를 로드하고 전처리하는 함수"""
    # data_path = os.path.join(os.getenv("HOME"), 'work', 'workplace', 'AIFFEL_quest_rs', 'Exploration', 'Ex05', 'sentiment_classification', 'data')
    data_path = os.path.join(os.getenv("HOME"), 'work', 'mecab2', 'data')
    train_data = pd.read_table(os.path.join(data_path, 'ratings_train.txt'))
    test_data = pd.read_table(os.path.join(data_path, 'ratings_test.txt'))
    
    # --- 훈련 데이터 정제 ---
    train_data.dropna(subset=['document'], inplace=True)
    train_data.drop_duplicates(subset=['document'], inplace=True)
    
    # --- 테스트 데이터 정제 ---
    test_data.dropna(subset=['document'], inplace=True)
    test_data.drop_duplicates(subset=['document'], inplace=True)
    
    # --- 데이터셋 분리 ---
    train_set, val_set = train_test_split(train_data, test_size=0.2, random_state=CFG['SEED'], stratify=train_data['label'])
    
    print("✅ 데이터 로드 및 전처리 완료")
    return train_set, val_set, test_data

# ====================================================================================
# 5. 토크나이저 생성 함수 (KoNLPy 로직 수정)
# ====================================================================================
def get_tokenizer(cfg, train_df):
    """CFG에 따라 SentencePiece 또는 KoNLPy 토크나이저와 vocab_size를 반환"""
    
    if cfg['TOKENIZER_TYPE'] == 'SentencePiece':
        # --- (SentencePiece 로직은 이전과 동일) ---
        corpus_path = 'nsmc_corpus.txt'
        model_prefix = f'nsmc_{cfg["SP_MODEL_TYPE"]}_{cfg["SP_VOCAB_SIZE"]}'
        train_df['document'].to_csv(corpus_path, index=False, header=False)
        spm.SentencePieceTrainer.train(
            f'--input={corpus_path} --model_prefix={model_prefix} '
            f'--vocab_size={cfg["SP_VOCAB_SIZE"]} --model_type={cfg["SP_MODEL_TYPE"]}'
        )
        processor = spm.SentencePieceProcessor()
        processor.load(f'{model_prefix}.model')
        vocab_size = processor.get_piece_size()

        def tokenize_fn(corpus, max_len):
            sequences = []
            for sentence in corpus:
                ids = processor.encode_as_ids(str(sentence))
                ids = ids[:max_len] if len(ids) > max_len else ids + [0] * (max_len - len(ids))
                sequences.append(ids)
            return torch.tensor(sequences, dtype=torch.long)
            
        print(f"✅ SentencePiece 토크나이저 준비 완료 (vocab_size: {vocab_size})")
        return tokenize_fn, vocab_size

    elif cfg['TOKENIZER_TYPE'] == 'KoNLPy':
        # --- KoNLPy 토크나이저 생성 (vocab_size 제한 로직 추가) ---
        if cfg['KONLPY_TOKENIZER'] == 'Mecab':
            tokenizer = Mecab()
        else:
            from konlpy.tag import Okt
            tokenizer = Okt()
            
        # 1. 단어 빈도수 계산
        word_counts = {}
        for sentence in tqdm(train_df['document'], desc="KoNLPy Freq. Counting"):
            tokens = tokenizer.morphs(str(sentence))
            for token in tokens:
                word_counts[token] = word_counts.get(token, 0) + 1
        
        # 2. 빈도수 기준으로 상위 단어 선택
        # <PAD>, <UNK> 토큰을 위해 (vocab_size - 2)개만 선택
        sorted_words = sorted(word_counts, key=word_counts.get, reverse=True)
        top_words = sorted_words[:cfg['KONLPY_VOCAB_SIZE'] - 2]
        
        # 3. 최종 단어 사전 구축
        word_index = {'<PAD>': 0, '<UNK>': 1}
        for word in top_words:
            word_index[word] = len(word_index)
            
        vocab_size = len(word_index)

        def tokenize_fn(corpus, max_len):
            sequences = []
            for sentence in corpus:
                tokens = tokenizer.morphs(str(sentence))
                ids = [word_index.get(token, 1) for token in tokens] # 사전에 없으면 <UNK> (1)
                ids = ids[:max_len] if len(ids) > max_len else ids + [0] * (max_len - len(ids))
                sequences.append(ids)
            return torch.tensor(sequences, dtype=torch.long)
            
        print(f"✅ KoNLPy({cfg['KONLPY_TOKENIZER']}) 토크나이저 준비 완료 (vocab_size: {vocab_size})")
        return tokenize_fn, vocab_size

# ====================================================================================
# 6. 모델 정의
# ====================================================================================
class SentimentGRU(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, n_layers, dropout):
        super(SentimentGRU, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.gru = nn.GRU(embedding_dim, hidden_dim, num_layers=n_layers, batch_first=True)
        self.dropout = nn.Dropout(dropout)
        self.fc = nn.Linear(hidden_dim, 1)

    def forward(self, x):
        embedded = self.embedding(x)
        gru_out, hidden = self.gru(embedded)
        last_output = gru_out[:, -1, :]
        last_output = self.dropout(last_output)
        output = self.fc(last_output)
        return output

# ====================================================================================
# 7. 학습 및 평가 함수 (출력값 수정)
# ====================================================================================
def run_experiment(cfg, train_set, val_set, test_set):
    """하나의 설정(CFG)으로 전체 실험을 실행하는 메인 함수"""
    
    # --- 1. 토크나이저 및 데이터로더 준비 ---
    tokenize_fn, vocab_size = get_tokenizer(cfg, train_set)
    
    X_train = tokenize_fn(train_set['document'].tolist(), cfg['MAX_LEN'])
    y_train = torch.tensor(train_set['label'].values, dtype=torch.float32)
    X_val = tokenize_fn(val_set['document'].tolist(), cfg['MAX_LEN'])
    y_val = torch.tensor(val_set['label'].values, dtype=torch.float32)
    X_test = tokenize_fn(test_set['document'].tolist(), cfg['MAX_LEN'])
    y_test = torch.tensor(test_set['label'].values, dtype=torch.float32)

    train_loader = DataLoader(TensorDataset(X_train, y_train), batch_size=cfg['BATCH_SIZE'], shuffle=True)
    val_loader = DataLoader(TensorDataset(X_val, y_val), batch_size=cfg['BATCH_SIZE'], shuffle=False)
    test_loader = DataLoader(TensorDataset(X_test, y_test), batch_size=cfg['BATCH_SIZE'], shuffle=False)
    
    # --- 2. 모델, 손실함수, 옵티마이저 정의 ---
    model = SentimentGRU(vocab_size, cfg['EMBEDDING_DIM'], cfg['HIDDEN_DIM'], cfg['N_LAYERS'], cfg['DROPOUT']).to(cfg['DEVICE'])
    loss_fn = nn.BCEWithLogitsLoss()
    optimizer = optim.Adam(model.parameters(), lr=cfg['LEARNING_RATE'], weight_decay=cfg['WEIGHT_DECAY'])
    
    # --- 3. 학습 및 조기 종료 ---
    patience_counter = 0
    best_loss = np.Inf
    
    print("\n🚀 모델 학습을 시작합니다...")
    for epoch in range(cfg['EPOCHS']):
        # --- 훈련 단계 ---
        model.train()
        train_loss, train_correct, train_total = 0, 0, 0
        for inputs, labels in tqdm(train_loader, desc=f"Epoch {epoch+1:02d} [Train]"):
            inputs, labels = inputs.to(cfg['DEVICE']), labels.to(cfg['DEVICE'])
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = loss_fn(outputs.squeeze(), labels)
            loss.backward()
            optimizer.step()
            train_loss += loss.item()
            preds = torch.sigmoid(outputs.squeeze()) > 0.5
            train_correct += (preds == labels).sum().item()
            train_total += labels.size(0)

        # <<<--- 훈련 결과 계산 --- START ---
        # 매 에포크의 훈련이 끝나면 평균 손실과 정확도를 계산합니다.
        avg_train_loss = train_loss / len(train_loader)
        train_accuracy = train_correct / train_total
        # <<<--- 훈련 결과 계산 --- END ---
        
        # --- 검증 단계 ---
        model.eval()
        val_loss, val_correct, val_total = 0, 0, 0
        with torch.no_grad():
            for inputs, labels in val_loader:
                inputs, labels = inputs.to(cfg['DEVICE']), labels.to(cfg['DEVICE'])
                outputs = model(inputs)
                loss = loss_fn(outputs.squeeze(), labels)
                val_loss += loss.item()
                preds = torch.sigmoid(outputs.squeeze()) > 0.5
                val_correct += (preds == labels).sum().item()
                val_total += labels.size(0)

        avg_val_loss = val_loss / len(val_loader)
        val_accuracy = val_correct / val_total

        # <<<--- 출력문 수정 --- START ---
        # 기존 출력문에 avg_train_loss와 train_accuracy를 추가합니다.
        print(f"Epoch {epoch+1:02d} | "
              f"Train Loss: {avg_train_loss:.4f} | Train Acc: {train_accuracy*100:.2f}% | "
              f"Val Loss: {avg_val_loss:.4f} | Val Acc: {val_accuracy*100:.2f}%")
        # <<<--- 출력문 수정 --- END ---
        
        if avg_val_loss < best_loss:
            best_loss = avg_val_loss
            torch.save(model.state_dict(), cfg['MODEL_SAVE_PATH'])
            patience_counter = 0
        else:
            patience_counter += 1
        
        if patience_counter >= cfg['PATIENCE']:
            print(f"🛑 Early stopping triggered after {epoch+1} epochs.")
            break
            
    # --- 4. 최종 평가 ---
    print(f"\n🧪 최고 성능 모델('{cfg['MODEL_SAVE_PATH']}')로 최종 평가를 시작합니다...")
    model.load_state_dict(torch.load(cfg['MODEL_SAVE_PATH']))
    model.eval()
    test_loss, test_correct, test_total = 0, 0, 0
    with torch.no_grad():
        for inputs, labels in tqdm(test_loader, desc="[Testing]"):
            inputs, labels = inputs.to(cfg['DEVICE']), labels.to(cfg['DEVICE'])
            outputs = model(inputs)
            loss = loss_fn(outputs.squeeze(), labels)
            test_loss += loss.item()
            preds = torch.sigmoid(outputs.squeeze()) > 0.5
            test_correct += (preds == labels).sum().item()
            test_total += labels.size(0)

    avg_test_loss = test_loss / len(test_loader)
    test_accuracy = test_correct / test_total
    
    print("\n🎉 모델 평가가 완료되었습니다.")
    print("-" * 40)
    print(f"  - 최종 테스트 손실 (Loss): {avg_test_loss:.4f}")
    print(f"  - 최종 테스트 정확도 (Accuracy): {test_accuracy*100:.2f}%")
    print("-" * 40)
    
    return {'loss': avg_test_loss, 'accuracy': test_accuracy}

# ====================================================================================
# 8. 메인 실행 블록
# ====================================================================================
if __name__ == '__main__':
    seed_everything(CFG['SEED'])
    train_set, val_set, test_set = load_and_preprocess_data()
    
    # --- 여기서부터 실험을 실행합니다 ---
    # 예시 1: SentencePiece (bpe, vocab_size=10000) 실험
    CFG['TOKENIZER_TYPE'] = 'SentencePiece'
    CFG['SP_MODEL_TYPE'] = 'bpm'
    # results = run_experiment(CFG, train_set, val_set, test_set)
    
    # 예시 2: KoNLPy (Mecab) 실험 (CFG 변경 후 실행)
    # CFG['TOKENIZER_TYPE'] = 'KoNLPy'
    # CFG['KONLPY_TOKENIZER'] = 'Mecab'
    # results_mecab = run_experiment(CFG, train_set, val_set, test_set)
    
    # 예시 3: SentencePiece (unigram, vocab_size=16000) 실험 (CFG 변경 후 실행)
    # CFG['TOKENIZER_TYPE'] = 'SentencePiece'
    # CFG['SP_MODEL_TYPE'] = 'unigram'
    # CFG['SP_VOCAB_SIZE'] = 16000
    # results_sp_uni = run_experiment(CFG, train_set, val_set, test_set)

✅ 데이터 로드 및 전처리 완료


In [16]:
# 1) 데이터 준비와 확인

In [17]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split


In [18]:
# 데이터(네이버 영화 리뷰)) 준비 및 확인

#운영 체제 독립성과 가독성 및 유지 보수 편의성을 위한 코드 개선 
# data_path = os.path.join(os.getenv("HOME"), 'work', 'workplace', 'AIFFEL_quest_rs', 'Exploration', 'Ex05', 'sentiment_classification', 'data')
data_path = os.path.join(os.getenv("HOME"), 'work', 'mecab2', 'data')
train_data = pd.read_table(os.path.join(data_path, 'ratings_train.txt'))
test_data = pd.read_table(os.path.join(data_path, 'ratings_test.txt'))

train_data.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [19]:
#====================================================================================
# 1-2. 데이터 전처리 (정제)
#====================================================================================
# 1) 결측치 제거
# 'document' 컬럼에 결측치(NaN)가 있는 행을 제거합니다.
print("결측치 제거 전:", len(train_data))
train_data.dropna(subset=['document'], inplace=True)
print("결측치 제거 후:", len(train_data))

# 2) 중복 데이터 제거
# 'document' 컬럼 기준으로 중복된 리뷰를 제거합니다.
print("중복 데이터 제거 전:", len(train_data))
train_data.drop_duplicates(subset=['document'], inplace=True)
print("중복 데이터 제거 후:", len(train_data))




결측치 제거 전: 150000
결측치 제거 후: 149995
중복 데이터 제거 전: 149995
중복 데이터 제거 후: 146182


In [20]:
#====================================================================================
# 1-3. 데이터셋 분리
#====================================================================================
# 훈련 데이터셋을 훈련(train)과 검증(validation) 데이터셋으로 분리합니다.
# 테스트 데이터는 이미 분리되어 있으므로, 훈련 데이터를 8:2 비율로 나눕니다.
# stratify=train_data['label'] 옵션은 원본 데이터의 긍정/부정 비율을 유지하며 분리하도록 합니다.
train_set, val_set = train_test_split(train_data, test_size=0.2, random_state=42, stratify=train_data['label'])

print("훈련 데이터셋 개수:", len(train_set))
print("검증 데이터셋 개수:", len(val_set))
print("테스트 데이터셋 개수:", len(test_data))

훈련 데이터셋 개수: 116945
검증 데이터셋 개수: 29237
테스트 데이터셋 개수: 50000


In [21]:
# SentencePiece 학습용 코퍼스 파일 생성

# (이전 코드에서 train_set 데이터프레임이 생성되었다고 가정합니다.)

# 1. 저장할 파일 경로를 변수로 지정합니다.
corpus_file_path = 'nsmc_corpus.txt'

# 2. train_set에서 'document' 컬럼만 선택하여 .txt 파일로 저장합니다.
# index=False와 header=False 옵션은 불필요한 인덱스와 컬럼명을 파일에 쓰지 않도록 합니다.
train_set['document'].to_csv(corpus_file_path, index=False, header=False, encoding='utf-8')

# 3. 파일 생성 확인 및 내용 일부 출력
print(f"✅ '{corpus_file_path}' 파일이 성공적으로 저장되었습니다.")
print("\n[생성된 파일 내용 (상위 5줄)]")

with open(corpus_file_path, 'r', encoding='utf-8') as f:
    for i, line in enumerate(f):
        if i >= 5:
            break
        print(line.strip())

✅ 'nsmc_corpus.txt' 파일이 성공적으로 저장되었습니다.

[생성된 파일 내용 (상위 5줄)]
허니잼 예스잼 꿀잼 잼잼
.. 딱이 할말이 없다.
흥행이 안되는 이유가 있음. 엄청난 졸작이다.
재밌는데 평점 진짜 왜이리 낮지. 8점은 되야지 몰입도 쩌는데
음... 시간만 아까웠다


In [22]:
#SentencePiece 학습

# 1. SentencePiece 라이브러리 import
import sentencepiece as spm

# 2. SentencePiece 모델 학습 실행
# --input: 학습시킬 코퍼스 파일 경로
# --model_prefix: 생성될 모델 파일의 이름 (접두사)
# --vocab_size: 단어 집합의 크기
# --model_type: 사용할 모델 타입 (예: bpe, unigram)
spm.SentencePieceTrainer.train(
    '--input=nsmc_corpus.txt '
    '--model_prefix=nsmc_bpe_model '
    '--vocab_size=10000 '
    '--model_type=bpe'
)

print("\n✅ 모델 학습이 완료되었습니다.")
print("생성된 파일: nsmc_bpe_model.model, nsmc_bpe_model.vocab")


✅ 모델 학습이 완료되었습니다.
생성된 파일: nsmc_bpe_model.model, nsmc_bpe_model.vocab


sentencepiece_trainer.cc(178) LOG(INFO) Running command: --input=nsmc_corpus.txt --model_prefix=nsmc_bpe_model --vocab_size=10000 --model_type=bpe
sentencepiece_trainer.cc(78) LOG(INFO) Starts training with : 
trainer_spec {
  input: nsmc_corpus.txt
  input_format: 
  model_prefix: nsmc_bpe_model
  model_type: BPE
  vocab_size: 10000
  self_test_sample_size: 0
  character_coverage: 0.9995
  input_sentence_size: 0
  shuffle_input_sentence: 1
  seed_sentencepiece_size: 1000000
  shrinking_factor: 0.75
  max_sentence_length: 4192
  num_threads: 16
  num_sub_iterations: 2
  max_sentencepiece_length: 16
  split_by_unicode_script: 1
  split_by_number: 1
  split_by_whitespace: 1
  split_digits: 0
  pretokenization_delimiter: 
  treat_whitespace_as_suffix: 0
  allow_whitespace_only_pieces: 0
  required_chars: 
  byte_fallback: 0
  vocabulary_output_piece_score: 1
  train_extremely_large_corpus: 0
  seed_sentencepieces_file: 
  hard_vocab_limit: 1
  use_all_vocab: 0
  unk_id: 0
  bos_id: 1
  eo

In [23]:
#토큰화 확인

import sentencepiece as spm

# 1. 학습된 모델 파일을 로드합니다.
sp = spm.SentencePieceProcessor()
sp.load('nsmc_bpe_model.model')

# 2. 테스트할 샘플 문장을 준비합니다.
sample_sentence1 = "이 영화 진짜 재밌네요ㅋㅋ"
sample_sentence2 = "돈주고 보기엔 너무 아까웠어요"

# 3. 토큰화 결과를 확인합니다.
print(f"'{sample_sentence1}'")
# encode_as_pieces: subword 단위로 분리된 토큰 리스트 반환
print("Subword Tokens:", sp.encode_as_pieces(sample_sentence1))
# encode_as_ids: 정수 인덱스 리스트 반환
print("Encoded IDs:", sp.encode_as_ids(sample_sentence1))

print("-" * 30)

print(f"'{sample_sentence2}'")
print("Subword Tokens:", sp.encode_as_pieces(sample_sentence2))
print("Encoded IDs:", sp.encode_as_ids(sample_sentence2))

'이 영화 진짜 재밌네요ㅋㅋ'
Subword Tokens: ['▁이', '▁영화', '▁진짜', '▁재밌네요', 'ᄏᄏ']
Encoded IDs: [6, 5, 55, 1615, 9]
------------------------------
'돈주고 보기엔 너무 아까웠어요'
Subword Tokens: ['▁돈주고', '▁보기엔', '▁너무', '▁아까', '웠어요']
Encoded IDs: [1840, 2526, 25, 329, 4234]


Added: freq=149 size=2340 all=250351 active=13507 piece=인은
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=148 size=2360 all=251029 active=14185 piece=▁피해
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=147 size=2380 all=251608 active=14764 piece=▁메시
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=146 size=2400 all=252219 active=15375 piece=▁OST
bpe_model_trainer.cc(159) LOG(INFO) Updating active symbols. max_freq=146 min_freq=21
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=144 size=2420 all=252787 active=13179 piece=번째
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=143 size=2440 all=253517 active=13909 piece=지않은
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=142 size=2460 all=253945 active=14337 piece=▁프로그램
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=140 size=2480 all=254549 active=14941 piece=▁오락
bpe_model_trainer.cc(268) LOG(INFO) Added: freq=139 size=2500 all=255178 active=15570 piece=▁밑에
bpe_model_trainer.cc(159) LOG(INFO) Updating active symbols. max_freq=139 min_freq=20

In [24]:
# sp_tokenize 함수 구현 및 테스트
import sentencepiece as spm
import torch

# 1. 학습된 SentencePiece 모델 로드
sp = spm.SentencePieceProcessor()
# 이전에 학습시킨 모델 파일명을 사용합니다.
sp.load('nsmc_bpe_model.model')

# 2. sp_tokenize 함수 정의
def sp_tokenize(processor, corpus, max_len):
    """
    SentencePiece 모델을 사용하여 문장 리스트를 토큰화하고 패딩을 적용합니다.
    
    Args:
        processor (SentencePieceProcessor): 로드된 SentencePiece 모델 객체
        corpus (list of str): 토큰화할 문장들의 리스트
        max_len (int): 모든 시퀀스의 길이를 맞출 최대 길이
    
    Returns:
        torch.Tensor: 토큰화 및 패딩이 완료된 파이토치 텐서
    """
    tokenized_sequences = []
    for sentence in corpus:
        # 각 문장을 정수 ID 시퀀스로 변환
        ids = processor.encode_as_ids(sentence)
        
        # 패딩 또는 잘라내기
        if len(ids) > max_len:
            # 최대 길이를 초과하면 잘라냄
            ids = ids[:max_len]
        else:
            # 최대 길이보다 짧으면 0으로 패딩 추가
            ids += [0] * (max_len - len(ids))
            
        tokenized_sequences.append(ids)
    
    # 리스트를 파이토치 텐서로 변환
    return torch.tensor(tokenized_sequences, dtype=torch.long)

# 3. 샘플 문장으로 동작 확인
sample_corpus = [
    "이 영화 정말 최고예요!",
    "정말 재미없다. 비추.",
    "배우들 연기력이 아까운 영화."
]
max_sequence_length = 15  # 패딩을 적용할 최대 문장 길이

# 함수 호출
token_tensor = sp_tokenize(sp, sample_corpus, max_len=max_sequence_length)

# 4. 결과 출력
print("✅ sp_tokenize 함수 동작 확인")
print("-" * 30)
for i, sentence in enumerate(sample_corpus):
    print(f"원본 문장 {i+1}: {sentence}")
    print(f"토큰화 결과: {token_tensor[i]}")
    print()

print(f"최종 텐서의 크기: {token_tensor.shape}")

✅ sp_tokenize 함수 동작 확인
------------------------------
원본 문장 1: 이 영화 정말 최고예요!
토큰화 결과: tensor([   6,    5,   44,   70, 1580, 8323,    0,    0,    0,    0,    0,    0,
           0,    0,    0])

원본 문장 2: 정말 재미없다. 비추.
토큰화 결과: tensor([  44,  795, 8294, 2192, 8294,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0])

원본 문장 3: 배우들 연기력이 아까운 영화.
토큰화 결과: tensor([ 602, 2474,  710,    5, 8294,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0])

최종 텐서의 크기: torch.Size([3, 15])


In [25]:
# 1. PyTorch 라이브러리 import
import torch
import torch.nn as nn

# 2. 모델 설계: nn.Module을 상속받아 SentimentGRU 클래스 정의
class SentimentGRU(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, n_layers, dropout):
        """
        모델의 레이어를 정의하는 생성자
        
        Args:
            vocab_size (int): 단어 집합의 크기 (SentencePiece 모델의 vocab_size와 일치)
            embedding_dim (int): 각 단어를 표현할 임베딩 벡터의 차원
            hidden_dim (int): GRU 레이어의 은닉 상태(hidden state) 차원
            n_layers (int): 쌓을 GRU 레이어의 개수
            dropout (float): 드롭아웃 비율
        """
        super(SentimentGRU, self).__init__()
        
        # --- 레이어 정의 ---
        # 1. 임베딩 레이어: 정수 인덱스 -> 밀집 벡터
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        
        # 2. GRU 레이어: 임베딩 벡터 시퀀스를 입력받아 문맥 정보 추출
        # batch_first=True: 입력 텐서의 차원을 (batch_size, seq_len, embedding_dim)으로 설정
        self.gru = nn.GRU(embedding_dim, 
                          hidden_dim, 
                          num_layers=n_layers, 
                          batch_first=True, 
                          dropout=dropout)
        
        # 3. 완전 연결 레이어 (Dense Layer): GRU의 최종 출력을 받아 긍정/부정을 예측
        self.fc = nn.Linear(hidden_dim, 1)

    def forward(self, x):
        """
        모델의 순전파 로직을 정의
        데이터가 각 레이어를 거치는 순서를 결정합니다.
        
        Args:
            x (torch.Tensor): 입력 데이터 (토큰화 및 패딩된 정수 시퀀스 텐서)
        
        Returns:
            torch.Tensor: 모델의 최종 예측 결과 (logit)
        """
        # --- 데이터 흐름 정의 ---
        # x shape: (batch_size, max_len)
        
        # 1. 임베딩 레이어 통과
        embedded = self.embedding(x)
        # embedded shape: (batch_size, max_len, embedding_dim)
        
        # 2. GRU 레이어 통과
        # gru_out: 모든 시점(time step)의 은닉 상태
        # hidden: 마지막 시점의 은닉 상태
        gru_out, hidden = self.gru(embedded)
        # gru_out shape: (batch_size, max_len, hidden_dim)
        # hidden shape: (n_layers, batch_size, hidden_dim)
        
        # 3. 마지막 시점의 출력만 선택
        # 문장 전체의 의미를 담고 있는 마지막 단어의 출력을 사용
        last_output = gru_out[:, -1, :]
        # last_output shape: (batch_size, hidden_dim)
        
        # 4. 완전 연결 레이어 통과
        output = self.fc(last_output)
        # output shape: (batch_size, 1)
        
        return output

# 3. 모델 인스턴스 생성 및 구조 확인
# --- 하이퍼파라미터 정의 ---
VOCAB_SIZE = 10000       # SentencePiece 모델의 vocab_size와 동일해야 함
EMBEDDING_DIM = 128      # 임베딩 벡터 차원
HIDDEN_DIM = 128         # GRU 은닉 상태 차원
N_LAYERS = 2             # GRU 레이어 개수
DROPOUT = 0.6            # 드롭아웃 비율

# 모델 객체 생성
model = SentimentGRU(VOCAB_SIZE, EMBEDDING_DIM, HIDDEN_DIM, N_LAYERS, DROPOUT)

# 모델 구조 출력
print("✅ 모델 설계가 완료되었습니다.")
print(model)

✅ 모델 설계가 완료되었습니다.
SentimentGRU(
  (embedding): Embedding(10000, 128)
  (gru): GRU(128, 128, num_layers=2, batch_first=True, dropout=0.6)
  (fc): Linear(in_features=128, out_features=1, bias=True)
)


In [26]:
# 1. 필요 라이브러리 import
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import TensorDataset, DataLoader
from tqdm.notebook import tqdm
import numpy as np # best_loss 초기화를 위해 import

# ====================================================================================
# 1. 데이터 준비 및 DataLoader 생성 (이전과 동일)
# ====================================================================================

# 1-1. 하이퍼파라미터 정의
MAX_LEN = 40
BATCH_SIZE = 128

# 1-2. 데이터셋을 토큰화하고 텐서로 변환
X_train_tensor = sp_tokenize(sp, train_set['document'].tolist(), MAX_LEN)
y_train_tensor = torch.tensor(train_set['label'].values, dtype=torch.float32)

X_val_tensor = sp_tokenize(sp, val_set['document'].tolist(), MAX_LEN)
y_val_tensor = torch.tensor(val_set['label'].values, dtype=torch.float32)

# 1-3. DataLoader 생성
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)

val_dataset = TensorDataset(X_val_tensor, y_val_tensor)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False)

print("✅ 데이터로더 생성이 완료되었습니다.")

# ====================================================================================
# 2. 모델 학습 및 평가 실행 (조기 종료 로직 추가)
# ====================================================================================

# 2-1. 학습 관련 하이퍼파라미터 및 설정
EPOCHS = 20 # 최대 학습 횟수를 넉넉하게 설정
LEARNING_RATE = 0.001

# --- 조기 종료 관련 설정 ---
patience = 3                 # 성능 개선을 기다릴 횟수
patience_counter = 0         # 성능 미개선 횟수 카운터
best_loss = np.Inf           # 초기 최저 손실값을 무한대(inf)로 설정
best_model_path = 'best_model.pth' # 최고 성능 모델이 저장될 경로

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

loss_fn = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE, weight_decay=1e-5)

print(f"사용 디바이스: {device}")
print("\n🚀 모델 학습을 시작합니다 (조기 종료 적용)...")

# 2-2. 학습 루프 실행
for epoch in range(EPOCHS):
    # --- 훈련 단계 (이전과 동일) ---
    model.train()
    train_loss, train_correct, train_total = 0, 0, 0
    
    for inputs, labels in tqdm(train_loader, desc=f"Epoch {epoch+1:02d}/{EPOCHS} [Training]"):
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = loss_fn(outputs.squeeze(), labels)
        loss.backward()
        optimizer.step()
        
        train_loss += loss.item()
        preds = torch.sigmoid(outputs.squeeze()) > 0.5
        train_correct += (preds == labels).sum().item()
        train_total += labels.size(0)

    avg_train_loss = train_loss / len(train_loader)
    train_accuracy = train_correct / train_total

    # --- 검증 단계 (이전과 동일) ---
    model.eval()
    val_loss, val_correct, val_total = 0, 0, 0
    
    with torch.no_grad():
        for inputs, labels in val_loader:
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            loss = loss_fn(outputs.squeeze(), labels)
            val_loss += loss.item()
            preds = torch.sigmoid(outputs.squeeze()) > 0.5
            val_correct += (preds == labels).sum().item()
            val_total += labels.size(0)

    avg_val_loss = val_loss / len(val_loader)
    val_accuracy = val_correct / val_total
    
    print(f"Epoch {epoch+1:02d}/{EPOCHS} | "
          f"Train Loss: {avg_train_loss:.4f} | Train Acc: {train_accuracy*100:.2f}% | "
          f"Val Loss: {avg_val_loss:.4f} | Val Acc: {val_accuracy*100:.2f}%")

    # --- 조기 종료 로직 ---
    if avg_val_loss < best_loss:
        # 검증 손실이 개선되면, best_loss를 업데이트하고 모델 가중치를 저장
        best_loss = avg_val_loss
        torch.save(model.state_dict(), best_model_path)
        patience_counter = 0 # 카운터 초기화
        print(f"💡 Validation loss improved. Saving model to '{best_model_path}'")
    else:
        # 검증 손실이 개선되지 않으면 카운터 증가
        patience_counter += 1
        print(f"⚠️ Validation loss did not improve. Patience: {patience_counter}/{patience}")

    if patience_counter >= patience:
        # 카운터가 지정된 횟수에 도달하면 학습 중단
        print(f"🛑 Early stopping triggered after {epoch+1} epochs.")
        break

# --- 학습 종료 후 최고 성능 모델 로드 ---
print(f"\n🎉 모델 학습이 완료되었습니다. 최고 성능의 모델('{best_model_path}')을 로드합니다.")
model.load_state_dict(torch.load(best_model_path))

✅ 데이터로더 생성이 완료되었습니다.
사용 디바이스: cuda

🚀 모델 학습을 시작합니다 (조기 종료 적용)...


Epoch 01/20 [Training]:   0%|          | 0/914 [00:00<?, ?it/s]

Epoch 01/20 | Train Loss: 0.5259 | Train Acc: 71.34% | Val Loss: 0.3877 | Val Acc: 82.38%
💡 Validation loss improved. Saving model to 'best_model.pth'


Epoch 02/20 [Training]:   0%|          | 0/914 [00:00<?, ?it/s]

Epoch 02/20 | Train Loss: 0.3424 | Train Acc: 85.07% | Val Loss: 0.3455 | Val Acc: 84.82%
💡 Validation loss improved. Saving model to 'best_model.pth'


Epoch 03/20 [Training]:   0%|          | 0/914 [00:00<?, ?it/s]

Epoch 03/20 | Train Loss: 0.2951 | Train Acc: 87.44% | Val Loss: 0.3459 | Val Acc: 85.19%
⚠️ Validation loss did not improve. Patience: 1/3


Epoch 04/20 [Training]:   0%|          | 0/914 [00:00<?, ?it/s]

Epoch 04/20 | Train Loss: 0.2644 | Train Acc: 88.98% | Val Loss: 0.3447 | Val Acc: 85.19%
💡 Validation loss improved. Saving model to 'best_model.pth'


Epoch 05/20 [Training]:   0%|          | 0/914 [00:00<?, ?it/s]

Epoch 05/20 | Train Loss: 0.2307 | Train Acc: 90.61% | Val Loss: 0.3702 | Val Acc: 85.22%
⚠️ Validation loss did not improve. Patience: 1/3


Epoch 06/20 [Training]:   0%|          | 0/914 [00:00<?, ?it/s]

Epoch 06/20 | Train Loss: 0.1903 | Train Acc: 92.49% | Val Loss: 0.4036 | Val Acc: 84.80%
⚠️ Validation loss did not improve. Patience: 2/3


Epoch 07/20 [Training]:   0%|          | 0/914 [00:00<?, ?it/s]

Epoch 07/20 | Train Loss: 0.1463 | Train Acc: 94.52% | Val Loss: 0.4506 | Val Acc: 84.38%
⚠️ Validation loss did not improve. Patience: 3/3
🛑 Early stopping triggered after 7 epochs.

🎉 모델 학습이 완료되었습니다. 최고 성능의 모델('best_model.pth')을 로드합니다.


<All keys matched successfully>

In [27]:
# 1. 테스트 데이터셋의 결측치 확인
print(f"결측치 제거 전, test_data 개수: {len(test_data)}")
print(f"document 컬럼의 결측치 수: {test_data['document'].isnull().sum()}")

# 2. 결측치가 있는 행 제거
test_data.dropna(subset=['document'], inplace=True)

# 3. (선택적이지만 확실한 방법) 모든 값을 문자열 타입으로 변환
test_data['document'] = test_data['document'].astype(str)

print(f"결측치 제거 후, test_data 개수: {len(test_data)}")

# 4. 이제 sp_tokenize 함수를 호출하면 오류 없이 실행됩니다.
X_test_tensor = sp_tokenize(sp, test_data['document'].tolist(), MAX_LEN)
y_test_tensor = torch.tensor(test_data['label'].values, dtype=torch.float32)

# DataLoader 생성
test_dataset = TensorDataset(X_test_tensor, y_test_tensor)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)

결측치 제거 전, test_data 개수: 50000
document 컬럼의 결측치 수: 3
결측치 제거 후, test_data 개수: 49997


In [28]:
# 1. 필요 라이브러리 import
import torch
from torch.utils.data import TensorDataset, DataLoader
from tqdm.notebook import tqdm

# ====================================================================================
# 1. 테스트 데이터 준비 및 DataLoader 생성
# (test_data, sp, sp_tokenize, MAX_LEN, BATCH_SIZE 변수가 이미 정의되어 있다고 가정합니다.)
# ====================================================================================

# 1-1. 테스트 데이터셋을 토큰화하고 텐서로 변환
# DataFrame의 'document'와 'label' 컬럼을 사용합니다.
X_test_tensor = sp_tokenize(sp, test_data['document'].tolist(), MAX_LEN)
y_test_tensor = torch.tensor(test_data['label'].values, dtype=torch.float32)

# 1-2. DataLoader 생성
test_dataset = TensorDataset(X_test_tensor, y_test_tensor)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)

print("✅ 테스트 데이터로더 생성이 완료되었습니다.")

# ====================================================================================
# 2. 모델 평가 실행
# (model, loss_fn, device 변수가 이미 정의되어 있다고 가정합니다.)
# ====================================================================================

print("\n🧪 모델 최종 평가를 시작합니다...")

# 2-1. 모델을 평가 모드로 설정
# 드롭아웃 등 훈련 시에만 필요한 기능들을 비활성화합니다.
model.eval()

# 2-2. 평가 지표 초기화
test_loss = 0
test_correct = 0
test_total = 0

# 2-3. 기울기 계산 비활성화
# 메모리 사용량을 줄이고 계산 속도를 높입니다.
with torch.no_grad():
    for inputs, labels in tqdm(test_loader, desc="[Testing]"):
        inputs, labels = inputs.to(device), labels.to(device)
        
        # 순전파
        outputs = model(inputs)
        
        # 손실 계산
        loss = loss_fn(outputs.squeeze(), labels)
        test_loss += loss.item()
        
        # 정확도 계산
        preds = torch.sigmoid(outputs.squeeze()) > 0.5
        test_correct += (preds == labels).sum().item()
        test_total += labels.size(0)

# 2-4. 최종 성능 지표 계산
avg_test_loss = test_loss / len(test_loader)
test_accuracy = test_correct / test_total

# 3. 최종 결과 출력
print("\n🎉 모델 평가가 완료되었습니다.")
print("-" * 30)
print(f"  - 테스트 손실 (Loss): {avg_test_loss:.4f}")
print(f"  - 테스트 정확도 (Accuracy): {test_accuracy*100:.2f}%")
print("-" * 30)

✅ 테스트 데이터로더 생성이 완료되었습니다.

🧪 모델 최종 평가를 시작합니다...


[Testing]:   0%|          | 0/391 [00:00<?, ?it/s]


🎉 모델 평가가 완료되었습니다.
------------------------------
  - 테스트 손실 (Loss): 0.3462
  - 테스트 정확도 (Accuracy): 85.16%
------------------------------


# 회고

- sentencepiece
      - 테스트 손실 (Loss): 0.3462
      - 테스트 정확도 (Accuracy): 85.16%
- mecab
    - 테스트 손실 (Loss): 0.3436
    - 테스트 정확도 (Accuracy): 85.37%


## 결론
- 두 토크나이저의 성능 차이가 없음
- 학습률, vocab size 등 변경을 해봤으나 현재 설정이 가장 결과가 좋았음
