### 1. 문제 정의
- iris 데이터에 scaler를 적용해서 모델을 학습해보자

### 2. 데이터 수집

In [1]:
import numpy as np
import pandas as pd
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [2]:
# x,y 데이터 정의
iris= load_iris()

In [3]:
df= pd.DataFrame(iris.data, columns= iris.feature_names)
df.shape

(150, 4)

In [4]:
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


### 3. Scaler 적용 - 4가지 종류 모두

In [5]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import Normalizer

### Standard Scaler

In [6]:
scaler= StandardScaler()
scaler.fit(df)
train_scaler= scaler.transform(df)

In [7]:
scaler_df= pd.DataFrame(train_scaler, columns= iris['feature_names'])
scaler_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444
...,...,...,...,...
145,1.038005,-0.131979,0.819596,1.448832
146,0.553333,-1.282963,0.705921,0.922303
147,0.795669,-0.131979,0.819596,1.053935
148,0.432165,0.788808,0.933271,1.448832


In [8]:
x= scaler_df
y= iris.target

In [9]:
x.shape

(150, 4)

In [10]:
y.shape

(150,)

### 4. train-test 데이터셋 분할

In [11]:
x_train, x_test, y_train, y_test= train_test_split(x,y,
                                                   test_size= 0.3,
                                                   random_state= 0)

In [12]:
x_train.shape

(105, 4)

In [13]:
y_train.shape

(105,)

In [14]:
x_train.shape

(105, 4)

In [15]:
y_train.shape

(105,)

### 5. 모델링(모델선택, 모델학습, 모델평가) - 4가지 Scaler 모두 모델 만들어 보기

#### KNN
- 분류 알고리즘
- 예측하려는 데이터 x가 주어지면, 기존 데이터 중 속성이 비슷한 k개의 이웃을 먼저 찾는 알고리즘
- x를 둘러싼 k개의 가장 가까운 이웃을 찾고, 이웃 데이터가 가장 많이 속해있는 목표 클래스를 예측값으로 결정
- k값에 따라 모델의 예측력이 달라지므로 적합한 k값 설정이 필요

In [16]:
from sklearn.neighbors import KNeighborsClassifier

In [17]:
knn= KNeighborsClassifier(n_neighbors= 5)
knn.fit(x_train, y_train)

KNeighborsClassifier()

In [18]:
pred= knn.predict(x_test)
print('예측값: ', pred)

예측값:  [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


#### 로지스틱 회귀
- 분류 알고리즘/ 회귀 x => 이름만 회귀
- 시그모이드 함수의 출력값(0~1)을 각 분류 클래스에 속하게 될 확률값으로 사용
- 1에 가까우면 해당 클래스로 분류, 0에 가까우면 해당 클래스가 아니라고 분류

In [19]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [20]:
lr= LogisticRegression()
lr.fit(x_train, y_train)

LogisticRegression()

In [21]:
lr_pred= lr.predict(x_test)
print('예측값: ', lr_pred)

예측값:  [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


In [22]:
prob= lr.predict_log_proba(x_test)
prob

array([[-8.85689243e+00, -3.48630161e+00, -3.12391837e-02],
       [-5.07091898e+00, -5.09639689e-02, -3.13705532e+00],
       [-4.67322419e-03, -5.36825856e+00, -1.63611173e+01],
       [-1.05505722e+01, -2.46980958e+00, -8.84238061e-02],
       [-2.50980712e-02, -3.69752345e+00, -1.39190101e+01],
       [-1.01763106e+01, -4.60301467e+00, -1.01105799e-02],
       [-1.76118089e-02, -4.04801734e+00, -1.42071310e+01],
       [-4.98851053e+00, -3.35063614e-01, -1.28052414e+00],
       [-6.06282335e+00, -3.13822318e-01, -1.32041920e+00],
       [-3.78625977e+00, -1.14132575e-01, -2.46298797e+00],
       [-6.57802502e+00, -8.37261942e-01, -5.69664480e-01],
       [-3.89130690e+00, -2.75180061e-01, -1.51346436e+00],
       [-4.28501905e+00, -1.62111120e-01, -1.99598363e+00],
       [-5.51670685e+00, -3.64964391e-01, -1.19812471e+00],
       [-4.34788301e+00, -2.96003849e-01, -1.41353702e+00],
       [-9.08186062e-03, -4.70603258e+00, -1.55827222e+01],
       [-4.16258794e+00, -3.37081338e-01

#### decision tree
- 의사결정나무 모델은 트리 알고리즘 사용
- 트리의 각 분기점(node)에는 데이터셋의 피처를 하나씩 위치시킴
- 각 분기점에서 해당 피처에 관한 임의의 조건식을 갖고 2개 이상의 줄기로 가지를 나누면서 데이터를 구분
- 이때, 각 분기점에서 분류가 가장 잘 되는 최적의 기준을 찾는 과정이 중요

In [23]:
from sklearn.tree import DecisionTreeClassifier

In [24]:
dt= DecisionTreeClassifier(max_depth= 3, random_state= 0)
dt.fit(x_train, y_train)

DecisionTreeClassifier(max_depth=3, random_state=0)

In [25]:
dt_pred= dt.predict(x_test)
print('예측값: ', dt_pred)

예측값:  [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2 1 1 2 0 2 0 0]


In [26]:
acc= accuracy_score(y_test, dt_pred)
print('Accuracy: %4f'%acc)

Accuracy: 0.977778


### 6. accuracy 다 뽑아보기

In [27]:
from sklearn.metrics import accuracy_score

knn-accuracy

In [28]:
acc= accuracy_score(y_test, pred)
print('Accuracy: %.4f'%acc)

Accuracy: 0.9778


로지스틱-accuracy

In [29]:
acc= accuracy_score(y_test, lr_pred)
print('Accuracy: %.4f'%acc)

Accuracy: 0.9778


df-accuracy

In [30]:
acc= accuracy_score(y_test, dt_pred)
print('Accuracy: %.4f'%acc)

Accuracy: 0.9778
