# 나이브 베이즈 알고리즘 (Naive Bayes)

**나이브 베이즈(Naive Bayes)**는 확률 이론과 베이즈 정리를 기반으로 한 **지도 학습(Supervised Learning)** 알고리즘입니다. 주로 **분류(Classification)** 문제에 사용되며, 제한적인 상황에서 **회귀(Regression)** 문제에도 활용될 수 있습니다.

---

## 나이브 베이즈의 특징
1. **베이즈 정리(Bayes Theorem) 기반**:
   - 베이즈 정리를 활용하여 데이터의 클래스 조건부 확률을 계산합니다.
   - 베이즈 정리:
     \[
     P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)}
     \]
     - \(P(C|X)\): 주어진 데이터 \(X\)에 대한 클래스 \(C\)의 조건부 확률.
     - \(P(X|C)\): 클래스 \(C\)에 대한 데이터 \(X\)의 조건부 확률.
     - \(P(C)\): 클래스 \(C\)의 사전 확률(Prior Probability).
     - \(P(X)\): 데이터 \(X\)의 사전 확률.

2. **나이브 가정**:
   - 모든 특징(feature)이 서로 독립적이라고 가정합니다.
   - 실제로 독립성이 완벽하지 않더라도 성능이 우수한 경우가 많습니다.

3. **빠르고 효율적**:
   - 계산량이 적으며, 대규모 데이터셋에도 적합합니다.

---

## 나이브 베이즈의 종류
1. **가우시안 나이브 베이즈 (Gaussian Naive Bayes)**:
   - 특징이 연속적인 값을 가지며, 가우시안(정규) 분포를 따르는 경우에 사용.

2. **멀티노미얼 나이브 베이즈 (Multinomial Naive Bayes)**:
   - 특징이 이산적 값(예: 단어 빈도)인 경우에 적합.

3. **베르누이 나이브 베이즈 (Bernoulli Naive Bayes)**:
   - 특징이 이진 값(0과 1)인 경우에 적합.

---

## 나이브 베이즈의 장단점
### 장점
1. **속도**:
   - 간단한 구조로 인해 매우 빠르게 동작.
2. **대규모 데이터 적합**:
   - 학습 및 예측이 효율적이며, 대규모 데이터에도 성능이 우수.
3. **다양한 데이터 유형 지원**:
   - 연속형 데이터, 이산형 데이터 모두 처리 가능.

### 단점
1. **독립 가정의 한계**:
   - 특징 간 상관관계가 강할 경우 성능이 저하될 수 있음.
2. **정확도**:
   - 복잡한 데이터셋에서는 다른 알고리즘에 비해 성능이 떨어질 수 있음.

---

## 나이브 베이즈의 활용 사례
1. **이메일 스팸 필터링**:
   - 베르누이 나이브 베이즈를 사용하여 스팸 여부를 판별.
2. **문서 분류**:
   - 멀티노미얼 나이브 베이즈를 활용해 텍스트 분류(예: 뉴스 기사 카테고리).
3. **질병 진단**:
   - 가우시안 나이브 베이즈로 환자의 증상 데이터를 바탕으로 질병 예측.
4. **추천 시스템**:
   - 사용자 행동 데이터를 분석하여 맞춤형 추천 제공.

---

## 나이브 베이즈의 회귀 적용
나이브 베이즈는 기본적으로 **분류 알고리즘**으로 설계되었지만, 확장 방식을 통해 **회귀 문제**에도 사용할 수 있습니다. 회귀 문제에서는 Gaussian Naive Bayes를 활용하여 연속형 데이터를 처리할 수 있습니다.


## 1. Classification

In [4]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# Load dataset
iris = load_iris()
X, y = iris.data, iris.target

# Split dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train Naive Bayes classifier
gnb = GaussianNB()
gnb.fit(X_train, y_train)

# Make predictions
y_pred = gnb.predict(X_test)

# Evaluate the model
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))


Accuracy: 1.00

Classification Report:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      1.00      1.00         9
   virginica       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



## 2. Regression (Gaussian Naive Bayes)

In [5]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

# Load dataset
housing = fetch_california_housing()
X, y = housing.data, housing.target

# Convert continuous labels to categorical (e.g., low, medium, high)
y_binned = np.digitize(y, bins=[1.5, 3.0])  # Bins: [0-1.5: Low, 1.5-3.0: Medium, >3.0: High]

# Split dataset
X_train, X_test, y_train, y_test = train_test_split(X, y_binned, test_size=0.2, random_state=42)

# Train Gaussian Naive Bayes
gnb = GaussianNB()
gnb.fit(X_train, y_train)

# Make predictions
y_pred = gnb.predict(X_test)

# Evaluate the model
print(f"Accuracy: {accuracy_score(y_test, y_pred):.2f}")
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=["Low", "Medium", "High"]))


Accuracy: 0.51

Classification Report:
              precision    recall  f1-score   support

         Low       0.89      0.07      0.13      1500
      Medium       0.48      0.98      0.65      1870
        High       0.80      0.25      0.38       758

    accuracy                           0.51      4128
   macro avg       0.72      0.43      0.39      4128
weighted avg       0.69      0.51      0.41      4128

