# 나이브베이즈 분류 (Naive Bayes Classfication)

지도학습 중 분류기법의 하나

대표적으로 사용되는 곳 : 스팸메일 분류 필터, 텍스트 분류, 추천 시스템, 감정 분석, ...

머신러닝 - 지도학습 : 

Feature, Label 파악하는 것이 중요

Label : 우리가 원하는 분류 예) 치마, 반바지, 긴바지, 모자, ... 등

Feature : 디자인, 모양, 색, 원단, 질감, ... 등

In [None]:
# 날씨에 따라 긴바지를 입을지 반바지를 입을지

# 'sunny',''rainy','overcast', ...
weather = ['sunny','sunny','overcast','rainy','overcast','rainy','rainy',
           'sunny','overcast','overcast','rainy','sunny','rainy','sunny']

# mild, cool, cold
temp = ['mild','cool','cold','cold','cold','cool','mild',
        'mild','cool','cold','cool','mild','mild','cool']

# 긴바지 : long, 반바지 : short
pants = ['short','short','long','long','long','short', 'long',
         'short','short','long','short','long','long','short']

컴퓨터가 이해하는 것 : 0,1

어휘추출(Feature Encoding) - String => int로

자연어 (text)로 되어있는 문서를 컴퓨터가 이해하는 숫자로 변환을 해줘야..!

In [None]:
# feature encoding 

from sklearn import preprocessing

# LabelEncoder() : 문자를 0부터 시작하는 정수형 문자로 바꿔주는 기능
le = preprocessing.LabelEncoder()

weather_encoder = le.fit_transform(weather)
print(weather_encoder)

# 'sunny' : 2 
# 'overcast' : 0
# 'rainy' : 1

temp_encoder = le.fit_transform(temp)
print(temp_encoder)
# 'mild' : 2
# 'cool' : 1
# 'cold' : 0

label = le.fit_transform(pants)
print(label)
# 'short' : 1
# 'long' : 0

[2 2 0 1 0 1 1 2 0 0 1 2 1 2]
[2 1 0 0 0 1 2 2 1 0 1 2 2 1]
[1 1 0 0 0 1 0 1 1 0 1 0 0 1]


In [None]:
# fit_transform() : 학습시킬 dataset에서만 사용
# fit : 평균, 표준편차를 계산
# transform : 정규화작업

In [None]:
# encoding이 된 weather와 temp를 결합 (feature : weather + temp)

features = zip(weather_encoder,temp_encoder)
features = list(features)
print(features)

[(2, 2), (2, 1), (0, 0), (1, 0), (0, 0), (1, 1), (1, 2), (2, 2), (0, 1), (0, 0), (1, 1), (2, 2), (1, 2), (2, 1)]


In [None]:
# 모델 만들어서 -> 데이터를 훈련 -> 예측

from sklearn.naive_bayes import GaussianNB

# Naive Bayes : 각각의 특성을 개별적으로 취급해서 모델을 학습시키고 그 특성에서 클래스별 통계를 단순 취합
#     GaussianNB    : 연속적으로 나오는 데이터가 있다면 적용 가능
#     BernoulliNB   : 이진(Binary) 데이터에 적용 가능
#     MultinomialNB : 카운트 데이터에 적용 가능

# 모델 만들기
model = GaussianNB()

# 데이터 학습 시키기
model.fit(features, label)

# 예측
predict = model.predict([[0,1]]) # 흐리고 시원한 날 무슨 바지 입지?
print(predict) # 긴바지 !



[0]


# Iris 품종

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
print(iris)

print(type(iris)) # Bunch 클래스 : {'data':[],'target':[]}
# data : features
# target : label

print(iris.data.shape) # 150행, 4열
print(iris.feature_names) # ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
print(iris.target_names) # ['setosa' 'versicolor' 'virginica']

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

In [None]:
x = iris.data
y = iris.target 

x,y = datasets.load_iris(return_X_y=True)
# return_X_y=True : numpy.ndarray들의 튜플(data, target)을 리턴시켜라
# return_X_y=False : (default) > Bunch 클래스 타입을 리턴 

In [None]:
from sklearn.model_selection import train_test_split
# data 분리
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2)

In [None]:
# print(x_train)
# data를 정규화해서 변환하기
from sklearn.preprocessing import StandardScaler

sc = StandardScaler() # 평균 0, 표준편차 1인 정규분포를 만드는
sc.fit(x_train,y_train) # data 변환시 필요함
x_train_tf = sc.transform(x_train)  # 학습 시킬 data 변환
x_test_tf = sc.transform(x_test)    # 테스트할 data 변환

In [None]:
from sklearn.naive_bayes import GaussianNB

g = GaussianNB()

# 학습
g.fit(x_train_tf, y_train)

# 예측
predict = g.predict(x_test_tf)
print(predict)
print(y_test)

[1 0 0 1 1 1 1 0 2 2 2 2 2 2 0 0 1 2 2 1 0 1 1 0 1 0 1 2 1 1]
[1 0 0 1 1 1 1 0 2 2 1 2 2 2 0 0 1 2 2 1 0 1 2 0 1 0 1 2 1 1]


In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, predict))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         8
           1       0.92      0.92      0.92        13
           2       0.89      0.89      0.89         9

    accuracy                           0.93        30
   macro avg       0.94      0.94      0.94        30
weighted avg       0.93      0.93      0.93        30



In [None]:
print((y_test != predict).sum()) # 실제 테스트용 정답고 예측한 것이 같지 않은 부분의 합계 수

2


# 장점 :
1. data양이 클 때 도움
2. 간단하고, 빠르고, 정확

# 단점 :
1. Feature간의 독립성이 필수 ! > Feature간에 상관관계가 서로 없어야 함 
2. 실생활에 바로 적용하기 어려움

In [None]:
# sklearn에서 wine에 대한 dataset 불러서.. 예측 / 정답 비교

from sklearn import datasets

wine = datasets.load_wine()
print(wine) # 와인데이터의 전체 정보
print()
print(wine.feature_names) # wine 데이터의 feature 정보
print(wine.target_names) # wine 데이터의 label 정보 (target_names: 숫자로 된 데어트이 원래 이름)
print(wine['target']) # target

{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
        8.350e+02],
       [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
        8.400e+02],
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
 

In [None]:
wine.data.shape

(178, 13)

In [None]:
# 데이터 분리
from sklearn.model_selection import train_test_split

x = wine.data
y = wine.target

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2, random_state=105)

In [None]:
# 모델 -> 훈련 -> 예측
from sklearn.naive_bayes import GaussianNB

wineGnb = GaussianNB()
wineGnb.fit(x_train, y_train)

predict = wineGnb.predict(x_test)

print(predict)
print(y_test)

[2 1 2 0 1 1 1 1 2 1 0 1 1 2 2 2 2 1 1 1 2 2 2 0 0 0 1 1 2 1 0 1 1 0 2 1]
[2 1 2 0 1 1 1 1 2 0 0 1 1 2 2 2 2 1 1 1 2 2 2 0 0 0 1 1 2 1 0 1 1 0 2 1]


In [None]:
# 정확도(accuarcy_score) 얼마나 되는지 확인
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, predict))

0.9722222222222222
