# 나이브 베이즈(Naive Bayes) 

## 1. 나이브 베이즈란?
- **베이즈 정리**를 기반으로 한 **분류 알고리즘**  
- 이름에서 **"Naive(순진한)"** 이 붙은 이유:  
  ➡ 모든 **특성(Feature)** 들이 서로 **독립**이라고 가정하기 때문  
- 간단하고 빠르며, 특히 **텍스트 분류(스팸 메일, 감성 분석)** 에 자주 사용됨

---

## 2. 베이즈 정리 복습
**베이즈 정리 공식**  

$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$

- $P(A|B)$ : **B가 주어졌을 때 A일 확률** (사후 확률)
- $P(B|A)$ : **A일 때 B가 나올 확률** (가능도, Likelihood)
- $P(A)$ : **A가 발생할 확률** (사전 확률)
- $P(B)$ : **B가 발생할 확률** (정규화 상수)

---

## 3. 나이브 베이즈의 동작 원리
1. **사전 확률** $P(\text{클래스})$ 계산  
2. **특징별 조건부 확률** $P(\text{특징}|\text{클래스})$ 계산  
3. 모든 특징의 조건부 확률을 곱함 (독립 가정)  
4. 가장 확률이 큰 클래스를 선택

---

## 4. 나이브 베이즈 예시

---




### 1. 예시 상황
- **단어 등장 횟수 표**  

| 단어       | 스팸(Spam) | 정상(Ham) |
|------------|-----------|----------|
| 할인       | 4         | 1        |
| 무료       | 3         | 1        |
| 안녕하세요 | 1         | 5        |
| 총 단어 수 | 8   | 7    |

- **새로 받은 메일:** `"무료 할인"`

---

### 2. 계산 목표
우리는 이 메일이 **스팸일 확률**  
즉, $P(\text{스팸} \mid \text{무료, 할인})$ 을 구하고 싶음.

---

### 3. 베이즈 정리에 따라 계산
나이브 베이즈는 이렇게 계산함:

$P(\text{스팸} \mid \text{무료, 할인}) \propto P(\text{무료} \mid \text{스팸}) \times P(\text{할인} \mid \text{스팸}) \times P(\text{스팸})$

---

### 4. 각 확률 계산
1. **사전 확률** (P(스팸))  
   - 전체 메일 중 스팸 비율이라고 가정 (여기서는 데이터가 없으니 50%로 가정)  
   - $P(\text{스팸}) = 0.5$

2. **조건부 확률**  
   - $P(\text{무료} \mid \text{스팸}) = \frac{\text{스팸에서 '무료' 등장 횟수}}{\text{스팸 전체 단어 수}} = \frac{3}{8}$
   - $P(\text{할인} \mid \text{스팸}) = \frac{4}{8}$

---

### 5. 스팸일 확률 계산 (비례값)
$P(\text{스팸} \mid \text{무료, 할인}) \propto \frac{3}{8} \times \frac{4}{8} \times 0.5$

$\Rightarrow \frac{3}{8} \times \frac{4}{8} \times 0.5 = \frac{12}{128} = 0.09375$

---

### 6. 정상(Ham)일 확률 계산
같은 방식으로:

$P(\text{무료} \mid \text{정상}) = \frac{1}{7}$  
$P(\text{할인} \mid \text{정상}) = \frac{1}{7}$  
$P(\text{정상}) = 0.5$

$P(\text{정상} \mid \text{무료, 할인}) \propto \frac{1}{7} \times \frac{1}{7} \times 0.5 = \frac{1}{98} \times 0.5 \approx 0.0051$

---

### 7. 비교 후 결론
- 스팸: $0.09375$
- 정상: $0.0051$

➡ 스팸 확률이 훨씬 높으므로 `"무료 할인"` 메일은 **스팸**으로 분류.

---

### 8. 핵심 요약
> 나이브 베이즈는 **각 단어가 해당 클래스에서 나올 확률을 곱**해서  
> 가장 큰 확률을 가진 클래스를 선택한다.



## 5. 장점 & 단점
 **장점**
- 구현이 쉽고 계산이 빠름
- 적은 데이터로도 잘 동작
- 텍스트 분류에 강점

 **단점**
- 특성들이 서로 독립이라는 가정이 현실과 다를 수 있음
- 연속형 변수 처리 시 가정(예: 가우시안 분포)이 필요

---


In [1]:
import pandas as pd
from sklearn.naive_bayes import BernoulliNB
from sklearn.preprocessing import LabelEncoder

# 1. 데이터 준비 (R의 data.frame에 해당)
# 데이터셋 생성
data = pd.DataFrame({
    '무료': [1, 0, 1, 0],
    '할인': [1, 0, 0, 1],
    '쿠폰': [1, 0, 0, 0],
    'label': ["spam", "ham", "spam", "spam"]
})

print("--- 원본 데이터 ---")
print(data)

# 특성(X)과 타겟(y) 분리
X = data[['무료', '할인', '쿠폰']]
y = data['label']

# 2. Naive Bayes 모델 생성 및 학습 (R의 naiveBayes()에 해당)
# 이진 특성(0 또는 1)에 적합한 Bernoulli Naive Bayes 사용
model = BernoulliNB()

# 모델 학습
model.fit(X, y)

# 3. 새 메일에 대한 예측 (R의 predict()에 해당)
# 새 메일: "무료 할인" -> 무료=1, 할인=1, 쿠폰=0
test_data = pd.DataFrame({
    '무료': [1],
    '할인': [1],
    '쿠폰': [0]
})

# 예측 수행
prediction = model.predict(test_data)
# 확률 예측도 확인 가능
probabilities = model.predict_proba(test_data)

print("\n--- 새 메일 예측 결과 ---")
print(f"새 메일('무료 할인')의 예측 레이블: {prediction[0]}")
# 'spam'과 'ham'의 인덱스를 확인하여 확률과 매칭
# model.classes_를 확인하여 순서 알 수 있음
print(f"레이블 순서: {model.classes_}") 
print(f"예측 확률 (spam/ham): {probabilities[0]}") 


--- 원본 데이터 ---
   무료  할인  쿠폰 label
0   1   1   1  spam
1   0   0   0   ham
2   1   0   0  spam
3   0   1   0  spam

--- 새 메일 예측 결과 ---
새 메일('무료 할인')의 예측 레이블: spam
레이블 순서: ['ham' 'spam']
예측 확률 (spam/ham): [0.10258515 0.89741485]
