<a href="https://colab.research.google.com/github/NaYunJeong/K-Digital-Training-Class/blob/main/Aug08_4_NaiveBayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 나이브베이즈 분류 (Naive Bayes Classification)

지도학습 중 분류 기법의 하나

대표적으로 사용되는 곳 : 스팸메일 구분하는 필터, 텍스트 분류, 추천 시스템, 감정 분석, ...

머신러닝 - 지도학습 :

Feature, Label 파악이 중요

Label : 우리가 원하는 분류
  ex) 치마, 반바지, 긴바지, 모자

Feature : 디자인, 모양, 색, 질감, 원단, ...

In [1]:
# 날씨에 따라서 긴바지를 입을지 반바지를 입을지

# 'sunny', 'overcast', 'snow'
weather = ['sunny', 'sunny', 'overcast', 'snow', 'overcast', 'snow', 'snow',
           'sunny', 'overcast', 'overcast', 'snow', 'sunny', 'snow', 'sunny']

# 'mild', 'cool', 'cold'
temp = ['mild', 'cool', 'cold', 'cold', 'cold', 'cool', 'mild',
        'mild', 'cool', 'cold', 'cool', 'mild', 'mild', 'cool']

# 긴바지 : long, 반바지 : short
pants = ['short', 'short', 'long', 'long', 'long', 'short', 'long',
         'short', 'short', 'long', 'short', 'long', 'long', 'short']

컴퓨터가 이해하는 것 : 0, 1

어휘추출(Feature Encoding) - String을 int로

In [2]:
from sklearn import preprocessing

# LabelEncoder() : 문자를 0부터 시작하는 정수형 숫자로 바꿔주는 기능
le = preprocessing.LabelEncoder()

# fit_transform() : train dataset에서만 사용
#   fit : 평균, 표준편차를 계산
#   transform : 정규화작업

weather_encoder = le.fit_transform(weather)
print(weather_encoder)
# 'sunny' : 2 / 'overcast' : 0 / 'snow' : 1

[2 2 0 1 0 1 1 2 0 0 1 2 1 2]


In [4]:
temp_encoder = le.fit_transform(temp)
print(temp_encoder)
# 'mild' : 2 / 'cool' : 1 / 'cold' : 0

[2 1 0 0 0 1 2 2 1 0 1 2 2 1]


In [5]:
label = le.fit_transform(pants)
print(label)
# 'short' : 1 / 'long' : 0

[1 1 0 0 0 1 0 1 1 0 1 0 0 1]


In [6]:
# 날씨/ 기온 => 문제
# 바지 => 정답
# encoding된 weather와 temp를 결합

features = zip(weather_encoder, temp_encoder)
features = list(features)
print(features)

[(2, 2), (2, 1), (0, 0), (1, 0), (0, 0), (1, 1), (1, 2), (2, 2), (0, 1), (0, 0), (1, 1), (2, 2), (1, 2), (2, 1)]


In [7]:
# 모델 만들기 => 데이터들을 훈련 => 성능 평가
from sklearn.naive_bayes import GaussianNB

# Naive Bayes : 각각의 특성을 개별적으로 취급해서 학습을 시키고 그 특성에서 클래스별 통계를 취합
# GaussianNB : 연속적으로 나오는 데이터가 있다면 적용
# BernoulliNB : 이진(Binary) 데이터에 적용
# MultinomialNB : 카운트 데이터 적용

# 모델 만들기
model = GaussianNB()

# 데이터 훈련
model.fit(features, label)

# 성능 평가
predict = model.predict([[1, 0]]) # 눈이 오고 추운날에는 무슨 바지를 입어야 할까?
print(predict)    # 'long' 긴 바지

[0]


# 장점 :
1. data의 양이 클 때 도움
2. 간단하고, 빠르고, 정확

# 단점 :
1. Feature간의 독립성이 필수 => 각 특성간에 상관관계가 서로 없어야 함

In [8]:
from sklearn import datasets

iris = datasets.load_iris()
print(type(iris))
# Bunch 클래스 : {'data' : [], 'target' : []}
#   : 파이썬의 dict와 유사한 클래스, 데이터셋에 내장되어있는 데이터들은 Bunch클래스를 return
#   data : features / target : label

print(iris.data.shape) # (150, 4) : 150개의 행, 4개의 열(변수, columns)
print()
print(iris.feature_names)
# sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'
#   sepal : 꽃받침 / petal : 꽃잎
print()
print(iris.target_names)
# 'setosa' 'versicolor' 'virginica' / 붓꽃의 종류

<class 'sklearn.utils._bunch.Bunch'>
(150, 4)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

['setosa' 'versicolor' 'virginica']


In [10]:
from sklearn.model_selection import train_test_split

X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=104)

In [11]:
from sklearn.naive_bayes import GaussianNB
gs = GaussianNB()

In [12]:
# 예측
predict = gs.fit(X_train, y_train).predict(X_test)
print(predict)
print(y_test)

[0 0 0 1 1 1 1 2 1 0 0 1 1 2 1 0 1 1 2 0 1 0 2 0 2 1 0 0 0 1]
[0 0 0 1 2 1 1 2 1 0 0 1 1 2 1 0 1 1 2 0 1 0 2 0 2 1 0 0 0 1]


In [15]:
print(X_test.shape[0])
# 실제 테스트용 정답과 예측이 같지 않은 부분의 수의 합계를 내서 출력
print((y_test != predict).sum()) # 예측이 다른것의 갯수 1개 => 꽤나 정확함

30
1
