# 7장 범주형 데이터 이진분류 경진대회 환경 세팅된 노트북 양식

## 분류모델의 종류와 특징
> 선형 모델과 비선형 모델 <br>

> 이진 분류와 다중 분류 <br>

> 확률적 모델과 결정적 모델

### 로지스틱 회귀
> 로지스틱 함수를 기반으로 확률적 예측 <br>

선형모델 / 확률적 모델

In [8]:
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
import warnings
warnings.filterwarnings('ignore')

iris = load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=0, stratify = y)

log_reg = LogisticRegression()

acc = cross_val_score(log_reg, X_train, y_train, cv=10, scoring='accuracy')
log_reg.fit(X_train,y_train)

pred = log_reg.predict(X_test)

print(classification_report(y_test, pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00        10
           2       1.00      1.00      1.00        10

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



In [12]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test,pred)

array([[10,  0,  0],
       [ 0, 10,  0],
       [ 0,  0, 10]])

확률적 모델이므로 각 객체의 확률을 예측할 수 있음

In [17]:
pred_proba = log_reg.predict_proba(X_test).round(3)
pred_proba

array([[0.977, 0.023, 0.   ],
       [0.008, 0.851, 0.141],
       [0.953, 0.047, 0.   ],
       [0.   , 0.249, 0.751],
       [0.97 , 0.03 , 0.   ],
       [0.01 , 0.891, 0.099],
       [0.   , 0.18 , 0.819],
       [0.979, 0.021, 0.   ],
       [0.971, 0.029, 0.   ],
       [0.041, 0.948, 0.011],
       [0.   , 0.027, 0.973],
       [0.029, 0.915, 0.056],
       [0.003, 0.784, 0.213],
       [0.   , 0.108, 0.892],
       [0.019, 0.956, 0.025],
       [0.   , 0.21 , 0.789],
       [0.   , 0.193, 0.806],
       [0.007, 0.895, 0.098],
       [0.003, 0.83 , 0.167],
       [0.977, 0.023, 0.   ],
       [0.981, 0.019, 0.   ],
       [0.001, 0.24 , 0.759],
       [0.   , 0.113, 0.887],
       [0.   , 0.162, 0.838],
       [0.978, 0.022, 0.   ],
       [0.003, 0.766, 0.232],
       [0.021, 0.922, 0.057],
       [0.   , 0.008, 0.992],
       [0.979, 0.021, 0.   ],
       [0.964, 0.036, 0.   ]])

### 나이브베이즈
> 나이브베이즈 확률에 따라 분류, 조건부확률에 기반하므로 스팸메일 분류 등에 많이 쓰인다. 

비선형 모델 / 확률적 모델

In [18]:
from sklearn.naive_bayes import CategoricalNB

nb_clf = CategoricalNB()

acc = cross_val_score(nb_clf, X_train, y_train, cv=10, scoring='accuracy')
nb_clf.fit(X_train,y_train)

pred = nb_clf.predict(X_test)

print(classification_report(y_test, pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       0.82      0.90      0.86        10
           2       0.89      0.80      0.84        10

    accuracy                           0.90        30
   macro avg       0.90      0.90      0.90        30
weighted avg       0.90      0.90      0.90        30



In [19]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test,pred)

array([[10,  0,  0],
       [ 0,  9,  1],
       [ 0,  2,  8]])

In [21]:
nb_clf.predict_proba(X_test).round(3)

array([[1.   , 0.   , 0.   ],
       [0.   , 0.989, 0.011],
       [1.   , 0.   , 0.   ],
       [0.   , 0.266, 0.734],
       [1.   , 0.   , 0.   ],
       [0.   , 0.989, 0.011],
       [0.   , 0.002, 0.998],
       [1.   , 0.   , 0.   ],
       [1.   , 0.   , 0.   ],
       [0.   , 0.995, 0.005],
       [0.   , 0.002, 0.998],
       [0.003, 0.964, 0.034],
       [0.   , 0.938, 0.062],
       [0.   , 0.002, 0.998],
       [0.   , 0.989, 0.011],
       [0.001, 0.691, 0.308],
       [0.002, 0.039, 0.959],
       [0.   , 0.822, 0.178],
       [0.001, 0.323, 0.677],
       [1.   , 0.   , 0.   ],
       [1.   , 0.   , 0.   ],
       [0.003, 0.63 , 0.367],
       [0.   , 0.266, 0.734],
       [0.   , 0.011, 0.988],
       [1.   , 0.   , 0.   ],
       [0.   , 0.822, 0.178],
       [0.   , 0.989, 0.011],
       [0.   , 0.002, 0.998],
       [1.   , 0.   , 0.   ],
       [1.   , 0.   , 0.   ]])

사이킷런에서는 총 5가지 종류의 NB 함수를 지원
 

- BernoulliNB : 가장 기본적인 NB 함수로 이진 분류 시에 사용
- CategoricalNB : 분류할 카테고리의 종류가 3가지 이상일 때 사용
- MultinomialNB : 텍스트의 등장 횟수처럼 이산적인 값의 수를 예측할 때 사용
- GaussianNB : 예측할 값이 연속적인 값인 경우에 사용
- ComplementNB : target label의 balance가 맞지 않는 불균형한 상황에 사용

 

### 결정트리
> 엔트로피 를 최소화 해주는 변수 찾아내는 방식으로 변수를 추려내어 분류로 가장 과정의 추론이 쉽다

비선형 모델 / 결정적 모델

In [11]:
from sklearn.tree import DecisionTreeClassifier
import numpy as np

dt_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=100)
dt_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=100)
dt_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=100)

models = [dt_clf_1,dt_clf_3,dt_clf_5]

for i,m in enumerate(models):
    scores = cross_val_score(m, X_train, y_train, cv=10, scoring='accuracy')
    print("평균 교차검증 정확도 : ", np.round(np.mean(scores), 3))

평균 교차검증 정확도 :  0.667
평균 교차검증 정확도 :  0.925
평균 교차검증 정확도 :  0.942


In [14]:
dt_clf_5.fit(X_train, y_train)
pred = dt_clf_5.predict(X_test)

from sklearn.metrics import accuracy_score
print("의사결정나무(교차검증 후) 예측 정확도 : {0:.5f}".format(accuracy_score(y_test, pred)))
print()
print(confusion_matrix(y_test,pred))

의사결정나무(교차검증 후) 예측 정확도 : 0.96667
[[10  0  0]
 [ 0 10  0]
 [ 0  1  9]]


### 랜덤포레스트 분류
> 여러개의 트리를 만들어 begging 연산하는 앙상블 모델로 빠르고 효과 좋음

비선형 모델 / 확률적 모델

In [22]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

X, y = load_iris(return_X_y=True) # iris 데이터 로드
rf = RandomForestClassifier(n_estimators=10, random_state=42) # 앙상블 모델 객체 생성
rf.fit(X, y) # 모델 훈련
proba = rf.predict_proba(X) # 예측 확률 계산
print(proba) # 예측 확률 출력

[[1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [1.  0.  0. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  0.9 0.1]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  0.9 0.1]
 [0.  0.9 0.1]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  0.9 0.1]
 [0.  1.  0. ]
 [0.  0.9 0.1]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  1.  

확률로 예측하나, 소프트보팅 방식의 확률이므로 로지스틱이나, 나이브베이즈와는 차이가 있음

In [23]:
pred = rf.predict(X_test)
print(confusion_matrix(y_test,pred))

[[10  0  0]
 [ 0 10  0]
 [ 0  0 10]]


### 서포트벡터머신 (SVM)
> 하나의 회귀선으로 구분이 어려운 문제를 보조선을 그어서 마진을 통해 구분

선형모델 / 결정적 모델


In [26]:
from sklearn.datasets import load_iris
from sklearn.svm import SVC

X, y = load_iris(return_X_y=True) # iris 데이터 로드
svm = SVC(kernel='rbf', random_state=42) # SVM 모델 객체 생성
svm.fit(X, y) # 모델 훈련
pred = svm.predict(X_test) # 예측 수행
print(confusion_matrix(y_test,pred))

[[10  0  0]
 [ 0 10  0]
 [ 0  0 10]]
