# Naive Bayes
 나이브베이즈 분류문제를 해결하기 위한 확률 기반 머신러닝 알고리즘이다.



**Naive Bayes의 기본 개념**


나이브 베이즈는 입력 `X`가 주어졌을 때, 각 클래스 `Class`가 될 **사후확률(Posterior Probability)**
`P(Class | X)`를 계산하고, 그 값이 가장 큰 클래스를 선택하는 알고리즘이다.


이때 사용하는 핵심 공식이 바로 **베이즈 정리(Bayes' theorem)** 이다.


**베이즈 정리(Bayes' Theorem)**


   나이브 베이즈는 베이즈 정리를 이용해 사후확률을 계산한다.


   $$
   P(Class \mid X) = \frac{P(X \mid Class) \cdot P(Class)}{P(X)}
   $$


   - `P(Class | X)` : 입력 `X`가 주어졌을 때, 클래스 `Class`일 확률 (사후확률)
   - `P(X | Class)` : 특정 클래스일 때 입력 `X`가 관측될 확률 (우도)
   - `P(Class)` : 그 클래스 자체의 확률 (사전확률)
   - `P(X)` : 전체 데이터에서 `X`가 나올 확률 (정규화 상수)


   분류 문제에서 클래스들끼리 비교할 때는 분모 `P(X)`가 공통이므로
   일반적으로 다음 형태로만 비교해도 된다.


   $$
   P(Class \mid X) \propto P(X \mid Class) \cdot P(Class)
   $$
---


**Naive Bayes의 핵심 요소**


1. **사전확률(Prior Probability)**
   - 데이터를 보기 “이전”에 각 클래스가 등장할 확률
   - 예: 전체 메일 중 스팸 메일 비율


2. **우도(Likelihood)**
   - “특정 클래스라고 가정했을 때, 현재 입력 X가 나올 확률”
   - 예: 스팸 메일일 때 단어 `광고`가 등장할 확률


3. **사후확률(Posterior Probability)**
   - 입력 X가 주어졌을 때 실제로 어떤 클래스인지에 대한 확률
   - 나이브 베이즈는 이 값을 최대화하는 클래스를 예측값으로 선택


4. **독립 가정(Conditional Independence)**
   - 모든 특성들이 서로 독립이라고 가정
   - 이 가정 덕분에 계산이 단순해지고 속도가 매우 빨라진다.
   - 입력 벡터 `X = (x₁, x₂, …, xₙ)` 에 대해 다음과 같이 근사한다.


   $$
   P(X \mid Class)
   = P(x_1 \mid Class) \cdot P(x_2 \mid Class) \cdot \dots \cdot P(x_n \mid Class)
   $$



---


**Naive Bayes의 종류**


- **Gaussian Naive Bayes**
  - 연속형(숫자) 특성
  - 각 특성이 정규분포를 따른다고 가정
  - 예: 키, 몸무게, 길이 등 연속형 데이터 분류


- **Multinomial Naive Bayes**
  - 단어 개수(빈도) 기반 데이터
  - Bag-of-Words, TF-IDF 벡터와 함께 사용
  - 예: 뉴스 기사 분류, 문서 카테고리 분류


- **Bernoulli Naive Bayes**
  - 0/1 (True/False)로 표현되는 특성
  - 단어가 문서에 “존재한다 / 존재하지 않는다” 여부 기반
  - 예: 스팸메일, 특정 키워드 여부가 중요한 경우


---




**라플라스 스무딩(Laplace Smoothing)**


텍스트 분류에서 특정 클래스에서 어떤 단어가 한 번도 등장하지 않으면,
그 단어의 조건부 확률이 0이 된다.


이때 여러 단어 확률을 곱하면 `전체 확률이 0`이 되는 문제가 발생한다.
이를 방지하기 위해 **스무딩(smoothing)** 을 사용한다.


라플라스 스무딩 공식은 다음과 같다.


$$
P(word \mid class)
= \frac{count + \alpha}{total + \alpha \cdot V}
$$


- `count` : 해당 클래스에서 그 단어가 등장한 횟수
- `total` : 해당 클래스에서 등장한 전체 단어 수
- `V` : 전체 단어(단어 사전)의 크기
- `α` : 스무딩 계수(일반적으로 1 사용)


스무딩을 적용하면 한 번도 등장하지 않은 단어라도
작은 확률을 부여하여 전체 확률이 0으로 붕괴되는 것을 막을 수 있다.




## Gaussian Naive Bayes


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [5]:
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report

#1. 데이터 로드
iris = load_iris()
X = iris.data
y = iris.target

#2. 학습/평가셋 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

#3. 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


#4. 모델 생성/학습
gnb = GaussianNB()
gnb.fit(X_train, y_train)

#5. 예측
y_pred = gnb.predict(X_test)

# 6.평가
print('정확도(accuracy):', accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred, target_names=iris.target_names))
print(confusion_matrix(y_test, y_pred))
confusion_matrix(y_test, y_pred)

정확도(accuracy): 0.9666666666666667
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      0.90      0.95        10
   virginica       0.91      1.00      0.95        10

    accuracy                           0.97        30
   macro avg       0.97      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30

[[10  0  0]
 [ 0  9  1]
 [ 0  0 10]]


array([[10,  0,  0],
       [ 0,  9,  1],
       [ 0,  0, 10]])