In [None]:
from sklearn.naive_bayes import MultinomialNB      # 나이브 베이즈 분류 모델 (단어 빈도 기반에 적합)
from sklearn.feature_extraction.text import CountVectorizer  # 문장을 단어 빈도 벡터로 바꿔주는 도구 (BoW)

# 1. 학습에 사용할 문장 데이터 (코퍼스)
corpus = ["자연어 처리는 재미있다", "Python은 강력하다"]
# 각 문장에 대한 라벨 (정답)
# 0번 문장은 0번 클래스, 1번 문장은 1번 클래스
labels = [0, 1]

# 2. 문장을 숫자 벡터로 변환 (BoW)
vectorizer = CountVectorizer()   # 단어 등장 횟수를 세는 벡터라이저 생성
# fit_transform:
# 1) 단어 사전(vocabulary) 만들고  2) 각 문장을 단어 빈도 벡터로 변환
X = vectorizer.fit_transform(corpus)
# 3. 나이브 베이즈 모델 생성 및 학습
model = MultinomialNB()   # 단어 빈도에 특화된 나이브 베이즈 모델
model.fit(X, labels)      # 벡터(X)와 정답(labels)으로 학습

# 4. 새로운 문장 예측
# 새로운 문장도 같은 방식으로 벡터로 변환해야 함
new_X = vectorizer.transform(["Python이 재미있다"])

# 예측 수행 (어느 클래스에 속할 확률이 높은지 판단)
print(model.predict(new_X))


[0]


In [None]:
import torch
import torch.nn as nn

class CNNClassifier(nn.Module):
    def __init__(self, vocab_size, embed_size, num_classes):
        super(CNNClassifier, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.conv = nn.Conv2d(1, 100, (3, embed_size))  # 3-gram 필터
        self.fc = nn.Linear(100, num_classes)

    def forward(self, x):
        x = self.embedding(x).unsqueeze(1)               # 채널 추가 (B, T, E) -> (B, 1, T, E)
        x = torch.relu(self.conv(x)).squeeze(3)
        x = torch.max(x, dim=2)[0]                       # Max pooling
        x = self.fc(x)
        return x
    

In [6]:
from sklearn.multiclass import OneVsRestClassifier  # One-Vs-Rest 래퍼 클래스(클래스별 이진분류)
from sklearn.linear_model import LogisticRegression

# 데이터 준비
corpus = ["자연어 처리는 재미있다", "Python은 강력하다"]
labels = [[1, 0], [0, 1]]  # 다중 레이블

# 모델 정의
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
 # 클래스별 이진분류기를 여러개 학습해서 다중 레이블 예측하는 분류기
model = OneVsRestClassifier(LogisticRegression())  
model.fit(X, labels)

# 예측 : 클래스별 0/1 배열
print(model.predict(vectorizer.transform(["Python이 재미있다"])))

[[1 0]]
