# 지도학습 실습 - Naive Bayesian Classifier

이번 튜토리얼에서는 다음과 같은 **프로세스 파이프라인**으로 나이브 베이지언 모델의 학습을 진행합니다.

- Scikit-Learn의 Datasets 클래스를 활용하여 지도학습용 데이터 구축
- Scikit-Learn의 나이브 베이지언 모듈을 활용하여 모델 생성 및 결과 예측
- 생성된 모델의 하이퍼 파라메터 튜닝을 통한 모델 최적화

# 1. Import Library

In [None]:
# 필요 라이브러리 설치 및 확인 
# 데이터를 정리하기 위한 라이브러리 호출
!pip install pandas
# 데이터를 계산하기 위한 라이브러리 호출
!pip install numpy
# 데이터를 plotting하기 위한 라이브러리 2개 호출
!pip install matplotlib
!pip install seaborn
# 데이터를 분석하기 위한 라이브러리 호출
!pip install scikit-learn

In [None]:
# 필요 라이브러리 호출
# 위에서 확인한 4가지를 호출해 봅시다
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Scikit-learn에서 필요한 라이브러리들을 호출해봅시다.
# 데이터셋과 나이브 베이지언 라이브러리를 호출해 봅시다.
from sklearn import datasets
from sklearn.naive_bayes import CategoricalNB, GaussianNB, ComplementNB, MultinomialNB

# 데이터를 학습과 추정을 위한 셋트로 분리하는 라이브러리를 호출해 봅시다.
from sklearn.model_selection import train_test_split

# 모델을 평가하고 확인하는 라이브러리를 호출해 봅시다.
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay

# 
from sklearn.semi_supervised import LabelSpreading
from sklearn.semi_supervised import SelfTrainingClassifier

from sklearn.inspection import DecisionBoundaryDisplay

# 2. Data Load

- 기계학습에서 가장 기본적으로 사용되는 데이터인 iris를 사용해봅시다

In [None]:
# 데이터셋에서 iris를 호출해 봅시다.
iris = datasets.load_iris()

In [None]:
# iris 데이터 셋을 확인해 봅시다.
print(iris)

In [None]:
print(iris.data)

In [None]:
print(iris.target)

In [None]:
print(iris.target_names)

- 데이터를 가시화 해봅시다

In [None]:
# 가시화를 위해 우선 두개의 피쳐만을 선택해 봅시다
X = iris.data[:, :2]
# 지도학습을 위한 target을 결정해 봅시다
y = iris.target

In [None]:
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5 # 가시화 결과에 좌우 여백을 주어 봅시다
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5 # 가시화 결과에 상하 여백을 주어 봅시다

In [None]:
# (8,6)크기로 그래프를 그려봅시다
plt.figure(1, figsize=(8, 6))

# 그래프 초기화
plt.clf()

# Plot the training points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1, edgecolor="k")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")

#그래프 좌우/상하 길이 결정
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)

# 그래프 눈금은 없도록 결정
plt.xticks(())
plt.yticks(())

# 그래프 출력
plt.show()

In [None]:
# 데이터를 학습과 평가 데이터 세트로 분류
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 0, stratify=y)

# 3. Model Building

- 나이브 베이지언 라이브러리를 사용하여 모델을 학습시켜 봅시다 

In [None]:
#가장 기본 나이브 베이지언을 만들어봅시다 
clf = CategoricalNB()

In [None]:
#전체 데이터를 사용해 모델을 학습해 봅시다 - 데이터 분석
clf.fit(X,y)

In [None]:
#모델의 예측 결과를 확인해봅시다
predictions = clf.predict(X)

In [None]:
#모델의 정확도를 '직접 ' 계산해 봅시다
sum(predictions==y)/len(y)

In [None]:
#모델의 정확도를 '라이브러리로' 확인해 봅시다
accuracy_score(y,predictions)

- 위에서 사용된 데이터트 2개의 피쳐만을 사용하였을 때입니다.
- 만약 모든 피쳐를 사용한다면 어떻게 될까요?

In [None]:
# 모든 피쳐의 데이터를 선택해 봅시다
X = iris.data
# 지도학습을 위한 target을 결정해 봅시다
y = iris.target

In [None]:
# 데이터를 학습과 평가 데이터 세트로 분류
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 0, stratify=y)

In [None]:
# 모델을 만들고 정확도를 확인해 봅시다
clf = CategoricalNB()
clf.fit(X,y)
predictions = clf.predict(X)
accuracy_score(y,predictions)

- 학습 데이터 세트와 평가 데이터 세트를 사용하여 봅시다

In [None]:
#학습 데이터 세트를 사용하여 모델을 학습시켜봅시다
clf.fit(X_train,y_train)

#평가 데이터 세트를 사용하여 모델의 성능을 확인하여 봅시다
predictions = clf.predict(X_test)

#모델의 성능을 confusion matrix로 확인하여 봅시다
cm = confusion_matrix(y_test, predictions)
print(cm)

In [None]:
# ConfusionMatrixDisplay를 사용하여 시각적 표현 성능을 올려봅시다
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["Class 1","Class 2","Class 3"])
disp.plot()

![nn](colormap.png)

In [None]:
# seaborn 라이브러리로 표현해 봅시다
sns.heatmap(cm, annot=True)

In [None]:
#갯수 대신 확률로 표현해 봅시다
sns.heatmap(cm/np.sum(cm), annot=True, 
            fmt='.2%', cmap='Blues')

In [None]:
# Confusion matrix에는 동시에 여러가지 정보를 입력할수도 있습니다.
group_names = ['00','01','02','10','11','12','20','21','22']
group_counts = ['{0:0.0f}'.format(value) for value in
                cm.flatten()]
group_percentages = ['{0:.2%}'.format(value) for value in
                     cm.flatten()/np.sum(cm)]
labels = [f'{v1}\n{v2}\n{v3}' for v1, v2, v3 in
          zip(group_names,group_counts,group_percentages)]
labels = np.asarray(labels).reshape(3,3)
sns.heatmap(cm, annot=labels, fmt='', cmap='Blues')

# 4. Hyperparameter Tuning

- 학습된 모델의 성능에 기반하여 최적의 파라메터와 모델을 골라봅시다

In [None]:
# 모델 간 성능의 가시화를 위해 우선 두개의 피쳐만을 선택해 봅시다
X = iris.data[:, :2]
# 지도학습을 위한 target을 결정해 봅시다
y = iris.target
# 데이터를 학습과 평가로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 0, stratify=y)

In [None]:
# 나이브 베이지언의 종류를 바꾸어 가면서 학습을 수행하여 봅시다.
models = (    
    GaussianNB(),
    ComplementNB(), 
    MultinomialNB(),
)

#모델을 동시에 학습시켜 봅시다
models = (clf.fit(X_train, y_train) for clf in models)

In [None]:
# 각 모델의 이름을 기록해둡시다.
titles = (
    "GaussianNB",
    "ComplementNB",
    "MultinomialNB",
)

In [None]:
#비교 그림을 그려봅시다. (2X2)
plt.clf()
fig, sub = plt.subplots(1, 3, figsize=(12,3))
plt.subplots_adjust(wspace=0.4, hspace=0.4)

#두 개의 피쳐를 x축, y축이 될 수 있도록 선택하여 줍니다.
X0, X1 = X[:, 0], X[:, 1]

for clf, title, ax in zip(models, titles, sub.flatten()):
    # Decision boundary display method를 사용하여 결과를 가시화해 봅시다
    disp = DecisionBoundaryDisplay.from_estimator(
        clf,
        X,
        response_method="predict",
        cmap=plt.cm.coolwarm,
        alpha=0.8,
        ax=ax,
        xlabel=iris.feature_names[0],
        ylabel=iris.feature_names[1],
    )
    #실제 데이터 결과를 뿌려서 표현하여 줍니다.
    ax.scatter(X0, X1, c=y, cmap=plt.cm.coolwarm, s=20, edgecolors="k")
    ax.set_xticks(())
    ax.set_yticks(())
    ax.set_title(title)

plt.show()

- 우리는 가시화를 위해 2개의 피쳐만을 선택하였습니다.
- 이번에는 가시화를 포기하고 모든 피쳐를 다 사용하여 보도록 합시다.

In [None]:
# 데이터 셋팅
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 0, stratify=y)

In [None]:
# 나이브 베이지언 모델 셋팅
models = (
    GaussianNB(),
    ComplementNB(), 
    MultinomialNB(),
)
models = (clf.fit(X_train, y_train) for clf in models)

In [None]:
for clf, title in zip(models, titles):
    clf.fit(X_train,y_train)
    predictions = clf.predict(X_test)
    print("모델 종류 : {}, 정확도 : {}".format(title,accuracy_score(y_test,predictions)))

- 다른 데이터를 사용해 봅시다 (과제: datasets의 wine data, digits, breast_cancer를 사용해보기)

In [None]:
# wine data를 호출하여 봅시다.
wine = datasets.load_wine()

In [None]:
# 데이터 셋팅
X = wine.data
y = wine.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 0, stratify=y)

In [None]:
# 나이브 베이지언 모델 셋팅
models = (
    GaussianNB(),
    ComplementNB(), 
    MultinomialNB(),
)
models = (clf.fit(X_train, y_train) for clf in models)

In [None]:
for clf, title in zip(models, titles):
    clf.fit(X_train,y_train)
    predictions = clf.predict(X_test)
    print("모델 종류 : {}, 정확도 : {}".format(title,accuracy_score(y_test,predictions)))

# 5. Extras

- 실제 상황에서는 모든 데이터의 target이 정상적이지 않을수도 있습니다.
- 만약 일부 데이터의 target이 지워져 있다면?

In [None]:
# 가시화를 위해 우선 두개의 피쳐만을 선택해 봅시다
X = iris.data[:, :2]
# 지도학습을 위한 target을 결정해 봅시다
y = iris.target

In [None]:
# 그래프를 위한 mesh의 크기를 결정합니다.
h = 0.02

rng = np.random.RandomState(0)
y_rand = rng.rand(y.shape[0])
y_30 = np.copy(y)
y_30[y_rand < 0.3] = -1  # 전체 데이터의 30프로의 레이블을 삭제
y_50 = np.copy(y)
y_50[y_rand < 0.5] = -1  # 전체 데이터의 50프로의 레이블을 삭제

# k-NN으로 지워진 target을 유추하는 경우
ls30 = (LabelSpreading().fit(X, y_30), y_30, "Label Spreading 30% data")
ls50 = (LabelSpreading().fit(X, y_50), y_50, "Label Spreading 50% data")
ls100 = (LabelSpreading().fit(X, y), y, "Label Spreading 100% data")

In [None]:
# 나이브 베이지언으로 지워진 target을 유추하는 경우
base_classifier = GaussianNB()
st30 = (
    SelfTrainingClassifier(base_classifier).fit(X, y_30),
    y_30,
    "Self-training 30% data",
)
st50 = (
    SelfTrainingClassifier(base_classifier).fit(X, y_50),
    y_50,
    "Self-training 50% data",
)

nb_gaussian = (GaussianNB().fit(X, y), y, "NaiveBayesian with Gaussian")


In [None]:
# create a mesh to plot in
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

In [None]:
# target별로 다른 색으로 표현하기 위해 색을 부여합니다.
color_map = {-1: (1, 1, 1), 0: (0, 0, 0.9), 1: (1, 0, 0), 2: (0.8, 0.6, 0)}

In [None]:
classifiers = (ls30, st30, ls50, st50, ls100, nb_gaussian)
for i, (clf, y_train, title) in enumerate(classifiers):
    # Plot the decision boundary. For that, we will assign a color to each
    # point in the mesh [x_min, x_max]x[y_min, y_max].
    plt.subplot(3, 2, i + 1)
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

    # Put the result into a color plot
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)
    plt.axis("off")

    # Plot also the training points
    colors = [color_map[y] for y in y_train]
    plt.scatter(X[:, 0], X[:, 1], c=colors, edgecolors="black")

    plt.title(title)

plt.suptitle("Unlabeled points are colored white", y=0.1)
plt.show()