
# 📘 가우시안 나이브 베이즈(Gaussian Naive Bayes)란?

\*\*나이브 베이즈(Naive Bayes)\*\*는 조건부 확률 기반의 **단순하지만 매우 효율적인 분류 알고리즘**입니다.
그 중 **가우시안 나이브 베이즈**는 입력 특성(feature)이 **연속형 실수 값**이고, 각 특성이 클래스별로 **정규분포(Gaussian distribution)를 따른다고 가정**하는 경우에 사용됩니다.

> “가우시안”이라는 이름은 각 특성 값이 클래스별로 **정규분포를 따를 것**이라고 가정하기 때문입니다.

---

## 🧠 핵심 아이디어

> **베이즈 정리(Bayes’ Theorem)** + **특성 간 조건부 독립 가정**

$$
P(C \mid X) = \frac{P(X \mid C) P(C)}{P(X)}
$$

* $X = (x_1, x_2, ..., x_n)$: 입력 피처
* $C$: 클래스
* $P(C \mid X)$: 입력 $X$가 주어졌을 때 클래스 $C$일 확률

> 핵심 가정:

$$
P(X \mid C) = P(x_1 \mid C) \cdot P(x_2 \mid C) \cdots P(x_n \mid C)
$$

즉, 특성들끼리는 **조건부 독립**이라는 가정을 합니다.

---

## 🔢 Gaussian 분포 가정

각 특성 $x_i$는 클래스 $C_k$에 대해 **정규분포**를 따른다고 가정:

$$
P(x_i \mid C_k) = \frac{1}{\sqrt{2\pi \sigma_{C_k}^2}} \exp\left( -\frac{(x_i - \mu_{C_k})^2}{2\sigma_{C_k}^2} \right)
$$

* $\mu_{C_k}$: 클래스 $C_k$의 해당 피처의 평균
* $\sigma_{C_k}^2$: 클래스 $C_k$의 해당 피처의 분산

---

## ⚙️ 동작 방식

1. **학습 (Train)**:

   * 각 클래스 $C_k$별로:

     * 사전 확률 $P(C_k)$
     * 각 피처의 평균 $\mu_{C_k}$ 및 분산 $\sigma_{C_k}^2$ 계산

2. **예측 (Predict)**:

   * 입력 벡터 $X$에 대해:

     * 클래스별 **로그 확률** 계산:

       $$
       \log P(C_k \mid X) \propto \log P(C_k) + \sum_i \log P(x_i \mid C_k)
       $$
     * 가장 높은 확률을 가지는 클래스를 선택

---

## ✅ 장점

| 항목              | 설명                        |
| --------------- | ------------------------- |
| **매우 빠름**       | 학습과 예측 속도가 빠르며 계산 자원 적음   |
| **적은 데이터로도 효과** | 통계적 추정 기반이라 소규모 샘플에서도 안정적 |
| **높은 해석 가능성**   | 모델 구조가 단순하여 이해가 쉬움        |
| **실시간 시스템에 적합** | 빠른 추론 속도로 스트리밍 등에도 활용 가능  |

---

## ⚠️ 단점

| 항목                  | 설명                             |
| ------------------- | ------------------------------ |
| **조건부 독립 가정이 비현실적** | 실제로 피처들 사이에 상호작용이 존재할 수 있음     |
| **정규분포 가정의 제약**     | 특성 분포가 정규분포에서 많이 벗어나면 성능 저하    |
| **복잡한 경계 처리 부족**    | 단순한 확률 기반 분류기 → 복잡한 비선형 경계 불가능 |

---

## 📌 다른 나이브 베이즈와의 차이

| 모델 이름                       | 설명                       |
| --------------------------- | ------------------------ |
| **Gaussian Naive Bayes**    | 연속형 데이터 (정규분포 가정)        |
| **Multinomial Naive Bayes** | 단어 카운트 등 **이산형 정수 데이터**  |
| **Bernoulli Naive Bayes**   | 이진 데이터 (0 또는 1)          |
| **Complement Naive Bayes**  | 클래스 불균형에 강한 변형 (텍스트에 적합) |

---

## 🧪 예시 코드 (Scikit-learn)

```python
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.metrics import classification_report

X, y = load_iris(return_X_y=True)

model = GaussianNB()
model.fit(X, y)

y_pred = model.predict(X)
print(classification_report(y, y_pred))
```

---

## 🧩 실제 활용 분야

| 분야         | 사용 예                                       |
| ---------- | ------------------------------------------ |
| **의료 진단**  | 환자의 수치 데이터를 기반으로 질병 분류                     |
| **스팸 필터링** | 이메일의 피처(길이, 키워드 빈도 등)로 스팸 여부 예측            |
| **사기 탐지**  | 거래 금액, 패턴으로 이상 거래 여부 판별                    |
| **문서 분류**  | 뉴스, 리뷰, 이메일을 카테고리로 분류 (Multinomial과 병행 활용) |

---

## 📊 평가 지표

* Accuracy
* Precision / Recall / F1-score
* Confusion Matrix

→ 클래스 불균형 상황에서는 **F1-score** 또는 **ROC-AUC**가 중요

---

## ✅ 결론 요약

**가우시안 나이브 베이즈는:**

> ✔ 정규분포를 따르는 연속형 데이터에 적합한
> ✔ 빠르고 효율적인 확률 기반 분류기입니다.
> ✔ 복잡한 구조보다는 빠른 판단, 해석 가능성, 적은 자원 소모가 중요할 때 유리합니다.

