## Naive Bayes Classifier

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

#CounterVectorizer: 텍스트(문자열)을 숫자 벡터로 바꿔주는 도구
# 각 문장을 "단어의 등장 횟수”로 변환해서 머신러닝 모델이 처리할 수 있게 해줌
# 예: "Free money now!!!" → {"free": 1, "money": 1, "now": 1}
# <텍스트 전처리 단계>

In [10]:
from sklearn.naive_bayes import MultinomialNB

# MultinomialNB: 텍스트처럼 단어 등장 횟수를 기반으로 작동하는 나이브 베이즈 모델

In [14]:
from sklearn.pipeline import make_pipeline

# make_pipeline: 여러 작업을 한 번에 묶어서 간단하게 처리할 수 있게 해줌
# 텍스트 전처리(CountVectorizer) → 모델 학습(MultinomialNB)을 묶어서 하나의 흐름으로 만듦
# 매번 따로 벡터화하고 모델 학습 안 해도 됨 -> 실험에 용이!

In [16]:
import pandas as pd

In [20]:
data = {"text": ["Free money now!!!",
        "Hi, how are you?",
        "Win a free vacation to Bahamas",
        "Let's meet for lunch",
        "Earn money fast and easy",
        "Your invoice is attached",],
    "label": ["spam", "ham", "spam", "ham", "spam", "ham"]}

#spam: 스팸 메일 / ham: 일반적인 정상 메일

In [22]:
df = pd.DataFrame(data)

In [24]:
model = make_pipeline(CountVectorizer(), MultinomialNB())

#전처리 + 분류기 연결된 모델 만들기 -> 문장을 벡터로 변화해서 분류기 MNB로 학습

In [26]:
model.fit(df["text"],df["label"])

#학습 -> 이 과정을 통해 모델이 각 단어가 어느 클래스에서 많이 나오는지 확률을 학습

In [28]:
test_text = ["Free vacation now", "Lunch at 12?", "Your account invoice"]
predicted = model.predict(test_text)

#예측 -> 새로운 문장을 넣고, 모델이 스팸인지 햄인지 자동으로 분류
# 문장을 단어 카운트 벡터로 변환 -> 나이브 베이즈 확률 계산 -> 확률이 더 높은 클래스로 분류

In [32]:
for text, label in zip(test_text, predicted):
    print(f"'{text}' -> {label}")

#예측 결과 출력

'Free vacation now' -> spam
'Lunch at 12?' -> ham
'Your account invoice' -> ham


### 확률값 확인

In [39]:
test_text = ["Free vacation now", "Lunch at 12?", "Your account invoice"]

probs = model.predict_proba(test_text)

for text, prob in  zip(test_text, probs):
    print(f"'{text}' -> spam 확률: {prob[1]:.4f}, ham 확률: {prob[0]:.4f}")

#prob[1]: spam일 확률 -> 높을수록 스팸으로 판단

'Free vacation now' -> spam 확률: 0.9169, ham 확률: 0.0831
'Lunch at 12?' -> spam 확률: 0.3271, ham 확률: 0.6729
'Your account invoice' -> spam 확률: 0.1911, ham 확률: 0.8089


### 성능 평가

In [46]:
from sklearn.metrics import classification_report, confusion_matrix

X_test = ["Hi, how are you?", "Win free gift now!", "Let's meet", "Earn money fast"]
y_true = ["ham", "spam", "ham", "spam"]

y_pred = model.predict(X_test)

print('Confusion Matrix')
print(confusion_matrix(y_true, y_pred))

print('\n Classification Report')
print(classification_report(y_true, y_pred))


# Precision: "spam"이라고 예측한 것 중에 실제로 spam인 비율
# Recall: 실제 "spam" 중에 모델이 spam이라고 예측한 비율
# F1-score: Precision과 Recall의 조화 평균
# Support: 각 클래스의 실제 샘플 개수

Confusion Matrix
[[2 0]
 [0 2]]

 Classification Report
              precision    recall  f1-score   support

         ham       1.00      1.00      1.00         2
        spam       1.00      1.00      1.00         2

    accuracy                           1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



### 새로운 문장 테스트

In [49]:
new_emails = ["You won a free cruise ticket!",
    "Can you send the file again?",
    "Urgent! Your account has been compromised",
    "What time is the meeting today?",
    "Claim your free prize now!",]

new_pred = model.predict(new_emails)
new_probs = model.predict_proba(new_emails)

print("새로운 문장 테스트")
for text, pred, prob in zip(new_emails, new_pred, new_probs):
    print(f"'{text}' → 예측: {pred} | spam 확률: {prob[1]:.4f}")

새로운 문장 테스트
'You won a free cruise ticket!' → 예측: spam | spam 확률: 0.5864
'Can you send the file again?' → 예측: ham | spam 확률: 0.3271
'Urgent! Your account has been compromised' → 예측: ham | spam 확률: 0.3271
'What time is the meeting today?' → 예측: ham | spam 확률: 0.3271
'Claim your free prize now!' → 예측: spam | spam 확률: 0.7338
