### 나이브 베이즈

- "Naive" 가정: 모든 특성(속성, feature)이 독립(independent)이며 동등하게 중요하다고 가정함.

장점으로는 단순하고 빠르며 노이즈와 결측치가 있어도 잘 수행된다.
데이터셋의 갯수는 영향을 주지 않으며 결과로는 확률이 나온다.

단점으로는 모든 속성은 독립적이라는 가정에 의존하며 수치 속성으로 구성된 데이터셋에 대해서는 이상적이지 않다.

In [None]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print(cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 features.  For instance, field 0 is Mean Radius, field
    10 is Radius SE, field 20 is Worst Radius.

    - 

:Number of Instances: 569

:Class Distribution: 212 - Malignant, 357 - Benign

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(cancer.data,
                                                    cancer.target,
                                                    stratify=cancer.target,
                                                    random_state=7)

print(x_train.shape, y_test.shape)

(426, 30) (143,)


In [None]:
import numpy as np
from sklearn.naive_bayes import GaussianNB

# 모델 생성 및 학습
cancer_nb = GaussianNB()
cancer_nb.fit(x_train, y_train) # fit(문제, 답)

# 예측
pred = cancer_nb.predict(x_test)

print(y_test)            # 실제 정답 라벨
print(pred)              # 예측 결과 (클래스 값, 확률 아님)
print(y_test == pred)    # 예측이 맞았는지 True/False 배열
print(np.mean(y_test == pred))  # 정확도 (정답 비율)

[1 0 1 1 1 1 0 1 1 1 0 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 0 1 0 1 0 1 0 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1 0 1 1 0 0 0 1 0 1
 0 1 0 0 1 1 1 0 1 1 1 1 1 1 0 0 0 0 1 1 0 1 1 1 1 0 1 0 0 0 1 1 1 1 0 1 0
 0 1 1 1 1 0 0 0 0 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0]
[1 0 1 1 1 1 0 1 1 1 0 1 1 1 0 0 1 0 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 0 0 1 1 0 0 0 1 1 0 1 1 1 0 1 1 0 0 0 1 0 1
 0 1 0 0 1 1 1 0 1 1 1 0 1 1 0 1 0 0 1 1 0 0 1 1 1 0 1 0 1 0 1 1 1 1 0 1 0
 0 0 1 1 1 0 0 1 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 1 1 1 0 0 1 0 1 0]
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True False  True  True  True  True  True  True  True  True  True
  True  True False  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True False  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  Tru

iris 데이터를 나이브 베이즈에 적용해 보기

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

x_train, x_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    stratify=iris.target,
                                                    random_state=7)

iris_nb = GaussianNB() # GaussianNB는 KNN과 달리 조정할 주요 하이퍼파라미터가 없으며, 학습 속도가 빠르고 간단한 확률 기반 분류기
iris_nb.fit(x_train, y_train)
pred = iris_nb.predict(x_test)

print(y_test)
print(pred)
print("mean :", np.mean(y_test == pred))

[0 0 2 1 0 1 0 2 0 2 2 1 0 0 1 2 0 1 2 0 0 2 2 2 1 1 1 1 0 1 1 2 0 0 1 1 2
 2]
[0 0 2 1 0 1 0 2 0 2 2 1 0 0 1 2 0 1 2 0 0 2 2 2 1 1 1 1 0 1 1 2 0 0 1 1 2
 2]
mean : 1.0


In [None]:
print(cancer.data.shape)
print(cancer.data)

(569, 30)
[[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]


In [None]:
lst_idx = list(range(1, 20))
print(lst_idx)
np.random.shuffle(lst_idx)
print(lst_idx)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
[16, 1, 17, 12, 5, 19, 9, 18, 15, 10, 8, 4, 3, 13, 2, 6, 11, 14, 7]


In [None]:
cancer.data[lst_idx[int(20*0.7)]] # lst_idx(shuffle 한 값)의 값을 통해 비율을 따저 랜덤으로 데이터를 뽑을 수 있음

array([1.969e+01, 2.125e+01, 1.300e+02, 1.203e+03, 1.096e-01, 1.599e-01,
       1.974e-01, 1.279e-01, 2.069e-01, 5.999e-02, 7.456e-01, 7.869e-01,
       4.585e+00, 9.403e+01, 6.150e-03, 4.006e-02, 3.832e-02, 2.058e-02,
       2.250e-02, 4.571e-03, 2.357e+01, 2.553e+01, 1.525e+02, 1.709e+03,
       1.444e-01, 4.245e-01, 4.504e-01, 2.430e-01, 3.613e-01, 8.758e-02])

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit # 클래스 비율을 유지하면서 데이터를 무작위로 섞어 여러 번 훈련/테스트 세트로 나누는 함수
acc = []
split = StratifiedShuffleSplit(n_splits=10, test_size=0.3) # 이 객체가 "10번 나누기" 설정(n_splits=10)을 기억하고 있어서,
for train_idx, test_idx in split.split(cancer.data, cancer.target): # split.split(data, target)을 호출하면 10개의 훈련/테스트 인덱스 쌍을 차례대로 생성해주는 역할
  #print(train_idx)
  #print(test_idx)
  cancer_nb = GaussianNB()
  cancer_nb.fit(cancer.data[train_idx], cancer.target[train_idx])
  pred = cancer_nb.predict(cancer.data[test_idx])
  print(np.mean(cancer.target[test_idx] == pred))
  acc.append(np.mean(cancer.target[test_idx] == pred))
  print("-------")
np.mean(acc)

0.9415204678362573
-------
0.9473684210526315
-------
0.9415204678362573
-------
0.9415204678362573
-------
0.9298245614035088
-------
0.9473684210526315
-------
0.9415204678362573
-------
0.9239766081871345
-------
0.9005847953216374
-------
0.935672514619883
-------


np.float64(0.9350877192982455)

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

scaler = StandardScaler()
cancer_zst = scaler.fit_transform(cancer.data) # 전처리 z-score

split = StratifiedShuffleSplit(n_splits=10, test_size=0.3, random_state=7)
nb_cv_acc = [] # naive bayes-cross validation-accuracy
knn_cv_acc = []
first = True

for k in range(1, 41, 2):
    tmp_acc = []
    for train_idx, test_idx in split.split(cancer.data, cancer.target):
      if first: # 변수를 만들지 않고 k == 1로 해도 됨
        # naive bayes
        cancer_nb = GaussianNB()
        cancer_nb.fit(cancer.data[train_idx], cancer.target[train_idx])
        pred = cancer_nb.predict(cancer.data[test_idx])
        nb_cv_acc.append(np.mean(cancer.target[test_idx] == pred))

      # knn
      cancer_knn = KNeighborsClassifier(n_neighbors=k)
      # 학습
      cancer_knn.fit(cancer_zst[train_idx], cancer.target[train_idx])
      pred = cancer_knn.predict(cancer_zst[test_idx])
      tmp_acc.append(np.mean(cancer.target[test_idx] == pred))

    knn_cv_acc.append(np.mean(tmp_acc))
    first = False

print(np.mean(nb_cv_acc))
print(np.argmax(knn_cv_acc), knn_cv_acc[np.argmax(knn_cv_acc)]) # argmax 인덱스 값 구하기

# 0.9432748538011696
# 1 0.968421052631579 -> for k in range(1, 41, 2): 즉 k가 3일때
# 확률 기반보다 거리 기반이 더 어울린다는 걸 알 수 있음

0.9432748538011696
1 0.968421052631579


In [None]:
from sklearn.model_selection import GridSearchCV
# GridSearchCV 여러 하이퍼파라미터 조합을 시도하고, 교차 검증을 통해 가장 성능이 좋은 모델을 찾아주는 함수
param_grid = [
    {'n_neighbors':range(1, 41, 2)}
]

scaler = StandardScaler()
cancer_knn = scaler.fit_transform(cancer.data)
cancer_knn = KNeighborsClassifier()
grid_m = GridSearchCV(cancer_knn, param_grid, cv=10, return_train_score=True,
                      verbose=3) # cancer_knn 모델을 대상으로 param_grid의 하이퍼파라미터 조합을 10조각으로 평가하고, 각 조합에 대한 학습 데이터의 성능을 기록하며, 진행 과정을 자세히 출력한다.
grid_m.fit(cancer_zst, cancer.target)

Fitting 10 folds for each of 20 candidates, totalling 200 fits
[CV 1/10] END n_neighbors=1;, score=(train=1.000, test=0.965) total time=   0.0s
[CV 2/10] END n_neighbors=1;, score=(train=1.000, test=0.930) total time=   0.0s
[CV 3/10] END n_neighbors=1;, score=(train=1.000, test=0.947) total time=   0.0s
[CV 4/10] END n_neighbors=1;, score=(train=1.000, test=0.982) total time=   0.0s
[CV 5/10] END n_neighbors=1;, score=(train=1.000, test=1.000) total time=   0.0s
[CV 6/10] END n_neighbors=1;, score=(train=1.000, test=0.947) total time=   0.0s
[CV 7/10] END n_neighbors=1;, score=(train=1.000, test=0.912) total time=   0.0s
[CV 8/10] END n_neighbors=1;, score=(train=1.000, test=0.947) total time=   0.0s
[CV 9/10] END n_neighbors=1;, score=(train=1.000, test=0.947) total time=   0.0s
[CV 10/10] END n_neighbors=1;, score=(train=1.000, test=0.929) total time=   0.0s
[CV 1/10] END n_neighbors=3;, score=(train=0.979, test=0.982) total time=   0.0s
[CV 2/10] END n_neighbors=3;, score=(train=0.

GridSearchCV()

| 매개변수                     | 설명                                                                                     |
| ------------------------ | -------------------------------------------------------------------------------------- |
| **`estimator`**          | 학습에 사용할 모델 객체입니다. 예: `KNeighborsClassifier()` 등                                        |
| **`param_grid`**         | 튜닝할 하이퍼파라미터의 조합을 딕셔너리 형태로 정의합니다. 예: `{'n_neighbors': [1, 3, 5, 7]}`                    |
| **`cv`**                 | 교차 검증에 사용할 폴드 수입니다. 예: `cv=10`이면 데이터를 10조각으로 나눠 검증                                     |
| **`scoring`**            | 평가 기준을 지정합니다. 예: `'accuracy'`, `'f1'`, `'roc_auc'` 등. 지정하지 않으면 모델 기본 scoring 사용        |
| **`return_train_score`** | `True`로 설정하면 각 파라미터 조합에 대해 학습 데이터의 성능도 기록합니다. 기본값은 `False`                             |
| **`verbose`**            | 출력 로그의 상세 수준입니다. 숫자가 클수록 더 많은 정보를 출력합니다.<br>예: `0`=출력 없음, `1`=간단 출력, `2/3`=자세한 진행상황 출력 |
| **`n_jobs`**             | 병렬 실행 시 사용할 CPU 수입니다. `-1`로 하면 모든 CPU 사용                                               |


In [None]:
grid_m.best_params_

{'n_neighbors': 7}

In [None]:
grid_m.best_score_

np.float64(0.9683897243107771)

In [None]:
# 파이프라인 구성하기
from sklearn.pipeline import Pipeline

# 1. 파이프라인 정의: 데이터 전처리와 분류기를 하나로 묶음, 분류기를 추가하고 싶은 경우 분류기와 해당 분류기의 하이퍼파라미터를 추가
pip = Pipeline([
    ("preprocess", StandardScaler()),  # Z-score 표준화
    ("classifier", KNeighborsClassifier())  # 분류기: KNN
])

# 2. 하이퍼파라미터 그리드 설정
grid_param = [
    {
        "preprocess": [StandardScaler()],  # 전처리 적용
        "classifier": [KNeighborsClassifier()],  # 분류기: KNN
        "classifier__n_neighbors": range(1, 40, 2)  # KNN의 k값 범위: 1~39 (홀수만)
    },
    {
        "preprocess": [None],  # 전처리 없이
        "classifier": [GaussianNB()]  # 분류기: 나이브 베이즈
        # Naive Bayes는 전처리 없이 원본 데이터 사용 (가정상 정규분포에 민감)
    }
]

# 3. GridSearchCV 객체 생성
grid_m = GridSearchCV(
    pip,  # 파이프라인 모델을 대상으로
    grid_param,  # 탐색할 파라미터 조합 목록
    cv=5,  # 5-폴드 교차 검증
    return_train_score=True,  # 훈련 데이터의 점수도 기록
    verbose=3  # 진행 상황 출력
)

# 4. 전체 데이터(cancer.data, cancer.target)를 대상으로 학습 및 평가 수행
grid_m.fit(cancer.data, cancer.target)

Fitting 5 folds for each of 21 candidates, totalling 105 fits
[CV 1/5] END classifier=KNeighborsClassifier(), classifier__n_neighbors=1, preprocess=StandardScaler();, score=(train=1.000, test=0.956) total time=   0.0s
[CV 2/5] END classifier=KNeighborsClassifier(), classifier__n_neighbors=1, preprocess=StandardScaler();, score=(train=1.000, test=0.974) total time=   0.0s
[CV 3/5] END classifier=KNeighborsClassifier(), classifier__n_neighbors=1, preprocess=StandardScaler();, score=(train=1.000, test=0.974) total time=   0.0s
[CV 4/5] END classifier=KNeighborsClassifier(), classifier__n_neighbors=1, preprocess=StandardScaler();, score=(train=1.000, test=0.930) total time=   0.0s
[CV 5/5] END classifier=KNeighborsClassifier(), classifier__n_neighbors=1, preprocess=StandardScaler();, score=(train=1.000, test=0.938) total time=   0.0s
[CV 1/5] END classifier=KNeighborsClassifier(), classifier__n_neighbors=3, preprocess=StandardScaler();, score=(train=0.980, test=0.974) total time=   0.0s
[C

In [None]:
grid_m.best_params_, grid_m.best_score_

({'classifier': KNeighborsClassifier(),
  'classifier__n_neighbors': 7,
  'preprocess': StandardScaler()},
 np.float64(0.9701288619779538))

✅ 해석:

최적의 분류기: KNeighborsClassifier

최적의 하이퍼파라미터: n_neighbors = 7

전처리 방식: StandardScaler() 사용 (Z-score 표준화)

교차검증 평균 정확도: 약 0.9701 (97.01%)

따라서,
KNN (k=7) + Z-score 표준화 조합이 Naive Bayes나 다른 설정들보다 가장 성능이 좋은 분류기 조합임을 확인할 수 있음