# 분류(Classification)
- gridSearchCV를 사용해서 최적의 HyperParameter를 찾는 작업도 해야 함

In [2]:
from sklearn.datasets import load_iris
iris = load_iris()

In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size = 0.2, random_state = 2021,
    # stratify-Kfold: y 클래스간의 비율을 어느정도 일정하게 하는 것
    # stratify = y_value를 주면 y값 클래스 비율을 일정하게 맞춰주는 것
    stratify = iris.target
)

1) 로지스틱 회귀

In [4]:
from sklearn.linear_model import LogisticRegression
# 모델 생성
lr = LogisticRegression(verbose = 1)
# 모델 학습
lr.fit(X_train, y_train)
# 예측(= y^)
pred_lr = lr.predict(X_test)
# 평가
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred_lr)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.3s finished


0.9333333333333333

1-2) 결과 확인 <br>
    &nbsp;&nbsp; y = WX + b <br>
    &nbsp;&nbsp; W: 1x4, 계수 행렬 <br>
    &nbsp;&nbsp; X: 4x1 

In [5]:
# 1. Weight(=Coefficient), 계수 확인
""" 
setosa = -0.4949*sepal_leng + 0.7932*sepal_width -2.34*petal_leng -0.9401*petal_width 
versicolor는 2번째 행의 계수
verginica는 3번째 행의 계수
"""
lr.coef_

array([[-0.48975689,  0.79836821, -2.34881089, -0.94042849],
       [ 0.5080346 , -0.34013914, -0.10321307, -1.00596032],
       [-0.01827772, -0.45822907,  2.45202395,  1.94638881]])

In [6]:
# 2. Bias(=Intercept), y절편 확인
""" 계수에다 더해준다.
setosa = -0.4949*sepal_leng + 0.7932*sepal_width -2.34*petal_leng -0.9401*petal_width + 10.11 """
lr.intercept_

array([ 10.0582529 ,   1.93021974, -11.98847264])

2) 결정 트리

In [7]:
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
pred_dtc = dtc.predict(X_test)
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred_dtc)

0.9

2-1) 결과 확인


In [8]:
# 가장 영향을 많이 준 feature의 가중치를 보여줌
dtc.feature_importances_

array([0.        , 0.01666667, 0.55525328, 0.42808005])

3) SVC

In [9]:
from sklearn.svm import SVC
svc = SVC()
svc.fit(X_train, y_train)
pred_svc = svc.predict(X_test)
accuracy_score(y_test, pred_svc)

0.9

In [10]:
# SVC 하이퍼 파라미터
svc.get_params()
""" C가 클수록 하드 마진(이상치 제외)
C가 작을수록 소프트 마진(이상치 포함가능성 높음) """

{'C': 1.0,
 'break_ties': False,
 'cache_size': 200,
 'class_weight': None,
 'coef0': 0.0,
 'decision_function_shape': 'ovr',
 'degree': 3,
 'gamma': 'scale',
 'kernel': 'rbf',
 'max_iter': -1,
 'probability': False,
 'random_state': None,
 'shrinking': True,
 'tol': 0.001,
 'verbose': False}

4) 랜덤포레스트

In [11]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.fit(X_train, y_train)
pred_rf = svc.predict(X_test)
accuracy_score(y_test, pred_rf)

0.9

5) 최근접 이웃(K nearest Neighbor)

In [12]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
pred_knn = svc.predict(X_test)
accuracy_score(y_test, pred_knn)

0.9

## 결과 비교

In [13]:
import pandas as pd
df = pd.DataFrame({
    'y_test':y_test,
    'dtc':pred_dtc,
    'lr':pred_lr,
    'svc':pred_svc,
    'rf':pred_rf,
    'knn':pred_knn
})
df

Unnamed: 0,y_test,dtc,lr,svc,rf,knn
0,0,0,0,0,0,0
1,1,1,1,1,1,1
2,1,2,1,1,1,1
3,2,2,2,2,2,2
4,0,0,0,0,0,0
5,1,1,1,1,1,1
6,0,0,0,0,0,0
7,1,1,1,1,1,1
8,2,2,2,2,2,2
9,0,0,0,0,0,0
