# 붓꽃 분류
- 통계적 분류기 : 주어진 데이터가 특정 클래스에 속하는 지를 조건부 확률을 통해서 예측
- 베이즈 이론의 조건부 확률을 기반으로 만들어진 분류 모델 알고리즘
    - 참고) 로지스틱 회귀분석 : 선형회귀 모델을 기반으로 분류에 사용될 수 있도록 변형한 분류 모델
- 일종의 경험을 쌓는 이론(선행 -> 후행 발생) : 새로운 경험이 추가될수록 해당 모델의 정밀도가 높아짐
- 텍스트 데이터처럼 희소하면서 고차원인 경우 높은 정확도와 빠른 처리속도 제공
    - 각각의 단어를 벡터화 시켜서 처리하는데, 벡터의 크기는 크지만 한 단어가 갖는 값은 아주 작다 (10줄 문장 내 포함된 단어가 50개라고 했을 때 출현횟수를 벡터화 시키면 몇 번 안된다 -> 희소행렬)
- 적용 분야 : 스팸메일 분류, 문서(주제) 분류, 컴퓨터 네트워크 침입자 분류
        - ex) 서버는 접속이라는 매 이벤트마다 로그데이터라는 텍스트 데이터를 남겨둔다. 이때 정상 로그와 비정상 로그 간의 텍스트 차이를 분류하여 침입 감지 및 사전 차단하는 알고리즘을 머신러닝으로 개발한 사례가 있다.

## 패키지 로딩

In [1]:
from sklearn.datasets import load_iris
from sklearn.naive_bayes import GaussianNB
# 독립변수가 연속형이므로 가우시안 나이브 베이즈 사용
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix # 분류 모델 성능 측정용 평가지표

## 데이터 로드 및 분할

In [4]:
x, y = load_iris(return_X_y=True)
# returen_X_y=True : 독립변수와 종속변수의 값을 나눠서 한 번에 가져옴

x_train, x_test, y_train, y_test = train_test_split(x, y,
                                                    test_size=0.3,
                                                    stratify=y,
                                                    random_state=123) # 랜덤 X
x_train.shape, y_train.shape, x_test.shape, y_test.shape

((105, 4), (105,), (45, 4), (45,))

## 모델 생성 

In [5]:
# GaussianNB : 설명변수가 연속형인 경우 사용하는 모델
model = GaussianNB()
model.fit(x_train, y_train)

GaussianNB()

## 모델 평가

In [6]:
y_hat = model.predict(x_test)
acc = accuracy_score(y_test, y_hat)
acc # 정확도 0.977777

0.9777777777777777

In [7]:
cm = confusion_matrix(y_test, y_hat)
cm # 혼동 행렬

array([[15,  0,  0],
       [ 0, 14,  1],
       [ 0,  0, 15]], dtype=int64)

# 버섯 분류

In [None]:
# 독버섯과 식용버섯에 대한 데이터
# type : edible, poisonous : 이진분류
# 멀티노미얼 나이브 베이즈 : 모든 특성, 즉 설명변수들이 범주형이므로

# 원핫인코딩시 너무 많은 컬럼이 생겨버린다.. (이미 있는 컬럼 21개 * 컬럼별 unique한 요소)
# 라벨링
# unique / 결측치 확인

## 패키지 로딩

In [None]:
from sklearn.naive_bayes import MultinomialNB
# 독립변수가 범주형이므로 멀티노미얼 나이브 베이즈 사용
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, roc_auc_score # 분류 모델 성능 측정용 평가지표

import numpy as np
import pandas as pd

## 데이터 로드 및 확인

In [8]:
import numpy as np
import pandas as pd

mushroom_origin = pd.read_csv('mushrooms.csv')
mushroom_origin.head()

Unnamed: 0,type,cap_shape,cap_surface,cap_color,bruises,odor,gill_attachment,gill_spacing,gill_size,gill_color,...,stalk_surface_below_ring,stalk_color_above_ring,stalk_color_below_ring,veil_type,veil_color,ring_number,ring_type,spore_print_color,population,habitat
0,poisonous,convex,smooth,brown,yes,pungent,free,close,narrow,black,...,smooth,white,white,partial,white,one,pendant,black,scattered,urban
1,edible,convex,smooth,yellow,yes,almond,free,close,broad,black,...,smooth,white,white,partial,white,one,pendant,brown,numerous,grasses
2,edible,bell,smooth,white,yes,anise,free,close,broad,brown,...,smooth,white,white,partial,white,one,pendant,brown,numerous,meadows
3,poisonous,convex,scaly,white,yes,pungent,free,close,narrow,brown,...,smooth,white,white,partial,white,one,pendant,black,scattered,urban
4,edible,convex,smooth,gray,no,none,free,crowded,broad,black,...,smooth,white,white,partial,white,one,evanescent,brown,abundant,grasses


In [56]:
# 카피본 떠놓고 시작하기
mushroom = mushroom_origin.copy()
mushroom.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8124 entries, 0 to 8123
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   type                      8124 non-null   object
 1   cap_shape                 8124 non-null   object
 2   cap_surface               8124 non-null   object
 3   cap_color                 8124 non-null   object
 4   bruises                   8124 non-null   object
 5   odor                      8124 non-null   object
 6   gill_attachment           8124 non-null   object
 7   gill_spacing              8124 non-null   object
 8   gill_size                 8124 non-null   object
 9   gill_color                8124 non-null   object
 10  stalk_shape               8124 non-null   object
 11  stalk_root                8124 non-null   object
 12  stalk_surface_above_ring  8124 non-null   object
 13  stalk_surface_below_ring  8124 non-null   object
 14  stalk_color_above_ring  

## 데이터 전처리
- for문을 이용한 라벨링
- 컬럼의 값 & unique 값 가져오기 / 딕셔너리로 맵핑 정보

In [57]:
x = mushroom.drop('type', axis=1)
# x = mushroom.iloc[:, 1:]
y = mushroom['type']
print(y.value_counts()) # y의 유니크값 분포 보기

edible       4208
poisonous    3916
Name: type, dtype: int64


In [58]:
# sklearn : 라벨 인코딩
from sklearn.preprocessing import LabelEncoder

for col in x.columns:
    labels = LabelEncoder().fit_transform(x[col])
    x[col]=labels

In [59]:
x.head()

Unnamed: 0,cap_shape,cap_surface,cap_color,bruises,odor,gill_attachment,gill_spacing,gill_size,gill_color,stalk_shape,...,stalk_surface_below_ring,stalk_color_above_ring,stalk_color_below_ring,veil_type,veil_color,ring_number,ring_type,spore_print_color,population,habitat
0,2,3,0,1,7,1,0,1,0,0,...,3,7,7,0,2,1,4,0,3,4
1,2,3,9,1,0,1,0,0,0,0,...,3,7,7,0,2,1,4,1,2,0
2,0,3,8,1,1,1,0,0,1,0,...,3,7,7,0,2,1,4,1,2,2
3,2,2,8,1,7,1,0,1,1,0,...,3,7,7,0,2,1,4,0,3,4
4,2,3,3,0,6,1,1,0,0,1,...,3,7,7,0,2,1,0,1,0,0


## 학습/평가용 데이터 분할

In [60]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y,
                                                    train_size=0.8,
                                                    stratify=y,
                                                    random_state=125) # 랜덤 X
# y.value_counts()
# stratify=y : 두 클래스 edible와 poisonous를 train/test에 동일한 비율로 넣어주기 위함
x_train.shape, y_train.shape, x_test.shape, y_test.shape

((6499, 22), (6499,), (1625, 22), (1625,))

## 모델 생성

In [61]:
from sklearn.naive_bayes import MultinomialNB
# MultinomialNB : 설명변수가 범주형이므로 멀티노미얼 나이브 베이즈 사용

model = MultinomialNB()
model.fit(x_train, y_train)

MultinomialNB()

## 예측

In [63]:
y_hat = model.predict(x_test)
print('실제 값: ', y_test[:5].values)
print('예측 값: ', y_hat[:5])

실제 값:  ['edible' 'edible' 'poisonous' 'poisonous' 'edible']
예측 값:  ['edible' 'edible' 'edible' 'poisonous' 'edible']


## 모델 평가

In [64]:
cm = confusion_matrix(y_test, y_hat)
cm # 혼동 행렬

array([[727, 115],
       [164, 619]], dtype=int64)

<pre>
                             Predict
----------------------------------------------------------
                  edible        |      poisonous       (알파벳 순서로 정렬)
----------------------------------------------------------
   |    |                       |
A  |  e |          727          |         115
C  |    |                       |
T  |------------------------------------------------------  
U  |    |                       |
A  |  p |          164          |         619
L  |    |                       |
----------------------------------------------------------
</pre>

In [None]:
np.set_printoptions(suppress=True, precision=2)
# 정밀도를 소수점 세 자리까지 보여줌

In [68]:
# 모델의 클래스 확인하기
model.classes_

array(['edible', 'poisonous'], dtype='<U9')

In [70]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, classification_report, roc_auc_score # 분류 모델 성능 측정용 평가지표

print(f'정확도: {accuracy_score(y_test, y_hat):.3f}') # (TN+TP) / (전체)
print(f'정밀도: {precision_score(y_test, y_hat, pos_label="poisonous"):.3f}') # TP / (FP+TP)
print(f'재현율: {precision_score(y_test, y_hat, pos_label="poisonous"):.3f}') # TP / (FN+TP)
# pos_label='poisonous' : label로 사용할 class명을 명시해줘야 한다
# pos_label=1 is not a valid label. It should be one of ['edible', 'poisonous']
# y는 0과 1이 아닌 edible과 poisonous라는 문자열로 되어있으므로 오류 발생

# roc_auc_score
print(f'AUC:{roc_auc_score(y_test, model.predict_proba(x_test)[:, 1]):.3f}')

정확도: 0.828
정밀도: 0.843
재현율: 0.843
AUC:0.893


In [48]:
# 한 번에 조회하기
report = classification_report(y_test, y_hat)
print(report)

              precision    recall  f1-score   support

           0       0.81      0.86      0.83      1263
           1       0.84      0.78      0.81      1175

    accuracy                           0.82      2438
   macro avg       0.82      0.82      0.82      2438
weighted avg       0.82      0.82      0.82      2438

