# 나이브 베이즈 분류 ( Naive Bayes Classification )   
   
Supervised Learning - Classification   
   
대표적으로 사용되는 분야 : 스팸메일 구분 필터, 텍스트 분류, 추천 시스템, 감정 분석 등등   
   
feature, Label 어떻게 설정하는가가 매우 중요   
Label : 우리가 원하는 분류의 유형 ex) 치마, 반바지, 긴바지, 모자   
Feature : 디자인, 모양, 색, 질감, 원단 ...

In [7]:
# 날씨에 따라 긴바지를 입을지, 반바지를 입을지 추천해주는 모델 제작

# 'sunny', 'overcast', 'snow'

weather = ['sunny', 'sunny','overcast', 'snow',  'overcast','snow', 'snow',
            'sunny', 'overcast','overcast', 'snow', 'sunny', 'snow', 'sunny']
# 'mild', 'cool', 'cold' - 기온 묘사
temp = ['mild', 'cool', 'cold', 'cold', 'cold', 'cool', 'mild',
        'mild', 'cool', 'cold', 'cool', 'mild', 'mild', 'cool']

# 긴바지 : long, 반바지 : short
pants = ['short', 'short', 'long','long', 'long', 'short', 'long',
         'short', 'short', 'long', 'short', 'long', 'long', 'short']




# 당연히, 컴퓨터 입장에서는 숫자 해석하는게 훨씬 빠름   
   
어휘 추출(Feature Encoding) : String을 int로

In [11]:
from sklearn import preprocessing

#Label Encoder() : 문자를 0부터 시작하는 정수형 숫자로 바꿔줌
le = preprocessing.LabelEncoder()

# fit_transform() : train dataset에서만 사용(학습시킬 데이터셋에서만 사용)
# fit : 평균, 표준편차를 계산
# transform : 정규화 작업

# 날씨 데이터를 숫자로 변환
# sunny : 2
# overcast : 0
# snow : 1
weather_encoder = le.fit_transform(weather)
print(weather_encoder)

[2 2 0 1 0 1 1 2 0 0 1 2 1 2]


In [12]:
# 기온 묘사를 숫자로 변환
# mild : 2 / cool : 1 / cold : 0
temp_encoder = le.fit_transform(temp)
print(temp_encoder)

[2 1 0 0 0 1 2 2 1 0 1 2 2 1]


In [13]:
# 옷 라벨도  숫자로 변환
# short : 1 / long : 0
label = le.fit_transform(pants)
print(label)

[1 1 0 0 0 1 0 1 1 0 1 0 0 1]


In [19]:
# encoding된 weather와 temp를 결합

features = zip(weather_encoder,temp_encoder)
features = list(features)
print(features)

[(2, 2), (2, 1), (0, 0), (1, 0), (0, 0), (1, 1), (1, 2), (2, 2), (0, 1), (0, 0), (1, 1), (2, 2), (1, 2), (2, 1)]


In [21]:
# 모델 생성 후 훈련 => 모델에 대한 성능 평가 진행

from sklearn.naive_bayes import GaussianNB

# Naive Bayes : 각각의 특성을 개별적으로 취급해서 학습, 그 특성에서 클래스별 통계를 취합
# Gaussian Naive Bayes : 연속적으로 나오는 데이터에 적합
# Bernoulli Naive Bayes : 이진(Binary) 데이터에 적용
# Multinomial Naive Bayes : 카운트 데이터에 적용

# 모델 생성
model = GaussianNB()

# 모델 훈련
model.fit(features, label)

# 성능 평가
# snow, cold => which pants?
predict = model.predict([[1,0]])
print(predict)
# 0 : 긴바지

[0]


# 장점 :
1. data의 양이 클 때 도움
2. 간단하고, 빠르고, 정확   
   
# 단점 :
1. Feature 간의 독립성이 필수적임 => Feature 내부의 요소끼리 상관관계가 없어야함   


In [26]:
from sklearn import datasets

iris = datasets.load_iris()
print(type(iris))

# Bunch 클래스 : {'data': [ ], 'target':[ ]}
# 파이썬 dict와 상당히 유사함, sklearn에 내장된 대부분의 클래스들이 bunch 클래스를 리턴함
# data : features / target : label

print(iris.data.shape)
# (150,4) 150개의 행, 4개의 열 - 이차원 데이터
print()
print(iris.feature_names)

# sepal : 꽃받침 / petal : 꽃잎
print()

# 붓꽃의 종류
print(iris.target_names)


<class 'sklearn.utils._bunch.Bunch'>
(150, 4)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

['setosa' 'versicolor' 'virginica']


In [28]:
from sklearn.model_selection import train_test_split

X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=104)
#random_state= 시드값

In [29]:
from sklearn.naive_bayes import GaussianNB
gs = GaussianNB()

In [30]:
# 예측
predict = gs.fit(X_train, y_train).predict(X_test)
print(predict)
print(y_test)

[0 0 0 1 1 1 1 2 1 0 0 1 1 2 1 0 1 1 2 0 1 0 2 0 2 1 0 0 0 1]
[0 0 0 1 2 1 1 2 1 0 0 1 1 2 1 0 1 1 2 0 1 0 2 0 2 1 0 0 0 1]


In [31]:
print(X_test.shape[0])
# 실제 테스트용 정답과 예측이 같지 않은 부분의 수의 합계를 내서 출력
print((y_test != predict).sum())

30
1
