# ML 모델 구축 단계
### 1. 데이터 준비
### 2. 데이터 가공, 변경, 추출 등의 피처 추출
### 3. 데이터 분리
### 4. ML 알고리즘 학습 및 예측
### 5. 모델 평가

In [1]:
import sklearn

In [2]:
print(sklearn.__version__)

1.2.1


In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [5]:
import pandas as pd

In [16]:
import pandas as pd
#붓꽃 데이터 세트를 로딩합니다. 
iris = load_iris()
# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다. 
iris_data = iris.data
# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 n니mpy로 가지고 있습니다. 
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)
# 붓꽃 데이터 세트를 자세히 보기 위해 DataFram은으로 변환합니다.
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [18]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
test_size=0.2, random_state=11)

In [19]:
dt_clf = DecisionTreeClassifier(random_state=11)

In [20]:
dt_clf.fit(X_train, y_train)

In [21]:
pred = dt_clf.predict(X_test)

In [22]:
print(pred)

[2 2 1 1 2 0 1 0 0 1 1 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]


In [23]:
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, pred))

0.9333333333333333


#  교차 검증 - k fold, Stratified K fold
- cross_val_score(), GridSarchCV

In [24]:
from sklearn.model_selection import KFold

In [25]:
features = iris.data

In [26]:
kfold = KFold(n_splits=5)
acc = []
print(kfold.split(features))

<generator object _BaseKFold.split at 0x0000025F32D65120>


In [27]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)

In [37]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier 
from sklearn.model_selection import GridSearchCV
# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리 
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121) 
dtree = DecisionTreeClassifier()
#
## 파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth':[1, 2, 3], 'min_samples_split':[2, 3]}

In [38]:
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

In [39]:
grid_dtree.fit(X_train, y_train)

In [40]:
grid_dtree.cv_results_

{'mean_fit_time': array([0.00099254, 0.00066733, 0.00033315, 0.00065192, 0.00033267,
        0.        ]),
 'std_fit_time': array([9.44290085e-06, 4.71876367e-04, 4.71145571e-04, 4.61405776e-04,
        4.70471221e-04, 0.00000000e+00]),
 'mean_score_time': array([0.        , 0.00033394, 0.        , 0.00033331, 0.00033418,
        0.00099985]),
 'std_score_time': array([0.00000000e+00, 4.72269487e-04, 0.00000000e+00, 4.71370354e-04,
        4.72606661e-04, 6.83651389e-07]),
 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_split': 2},
  {'max_depth': 1, 'min_samples_split': 3},
  {'max_depth': 2, 'min_samples_split': 2},
  {'max_depth': 2, 'min_sa

In [42]:
estimator = grid_dtree.best_estimator_

In [43]:
pred = estimator.predict(X_test)
print(accuracy_score(y_test, pred))

0.9666666666666667


# 데이터 전처리
### 데이터 인코딩 - 레이블 인코딩(LabelEncoder), 원핫 인코딩(OneHotEncoder), get_dummies()

In [44]:
from sklearn.preprocessing import LabelEncoder

In [49]:
items=['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print(labels)

[0 1 4 5 3 3 2 2]


In [50]:
print(encoder.inverse_transform(labels))

['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


In [51]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

In [52]:
items = np.array(items).reshape(-1, 1)

In [53]:
one = OneHotEncoder()
one.fit(items)
one_labels = one.transform(items)

In [57]:
print(one_labels.toarray(), one_labels.shape)

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]] (8, 6)


In [58]:
df = pd.DataFrame({'items':['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### 피처 스케일링과 정규화-  StandardScaler(평균 0 분산 1인 가우시안 정규 분포),  MinMaxScaler(데이터를 0~1값 사이로 변환 / 음수라면 -1~1)

In [59]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [60]:
iris_scaled

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00, -1.22474487e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00, -1.22474487e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00, -1.22474487e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00, -1.22474487e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00, -1.22474487e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00, -1.22474487e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00, -1.22474487e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00, -1.22474487e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00, -1.22474487e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00

In [61]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [62]:
iris_scaled

array([[0.22222222, 0.625     , 0.06779661, 0.04166667, 0.        ],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667, 0.        ],
       [0.11111111, 0.5       , 0.05084746, 0.04166667, 0.        ],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667, 0.        ],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667, 0.        ],
       [0.30555556, 0.79166667, 0.11864407, 0.125     , 0.        ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333, 0.        ],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667, 0.        ],
       [0.02777778, 0.375     , 0.06779661, 0.04166667, 0.        ],
       [0.16666667, 0.45833333, 0.08474576, 0.        , 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667, 0.        ],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667, 0.        ],
       [0.13888889, 0.41666667, 0.06779661, 0.        , 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        , 0.        ],
       [0.41666667, 0.83333333, 0.

# 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
### 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습/테스트 데이터 분리
### 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미 fit()된 Scaler 객체를 이용해 transform()으로 변환

# 머신러닝 어플리케이션
### 데이터의 가공 및 변환 과정의 전처리 작업 -> 데이터를 학습/테스트로 분리하는 데이터 세트 분리 작업 -> 학습 데이터를 기반으로 머신러닝 알고리즘을 적용해 모델 학습 -> 학습된 모델을 기반으로 테스트 데이터에 대한 예측 수행 -> 예측된 결과값과 실제 값과 비교해 모델에 대한 평가 수행

## 데이터 전처리 작업
#### 오류 데이터 보정, 결손값 처리 등 다양한 데이터 클렌징 작업
#### 레이블 인코딩이나 원핫 인코딩 같은 인코딩 작업
#### 데이터의 스케일링/정규화 작업으로 데이터 분포 설정

## 데이터 분리
#### 단순 분리가 아닌 교차 검증 수행(KFold, StratifiedKFold. cross_val_score( ))
#### 그리고 최적의 하이퍼 파라미터를 교차 검증을 통해 추출 : GridSearchCV