# 2020.12.06 복습
# [파이썬 머신러닝 완벽 가이드] 책 정리!

================================================

## 사이킷런


In [2]:
# 다운로드
"""
conda install scikit-learn
pip install scikit-learn
"""

'\nconda install scikit-learn\npip install scikit-learn\n'

In [3]:
import sklearn

print(sklearn.__version__)

0.21.1



**************************************************** 

### Estimator : 학습(fit), 예측(predict)
 - Classifier
     - DecisionTreeClassifier
     - RandomForestClassifier
     - GradientBoostingClassifier
     - GaussianNB
     - SVC
 - Regressor
     - LinearRegression
     - Ridge
     - Lasso
     - RandomForestRegressor
     - GradientBoostingRegressor

**************************************************** 

### 사이킷런의 주요 모듈

 - 예제 데이터
     - sklearn.datasets
 - 피처 처리
     - sklearn.preprocessing
     - sklearn.feature_selection
     - sklearn.feature_extraction
 - 피처 처리 & 차원 축소
     - sklearn.decomposition
 - 데이터 분리, 검증 & 파라미터 튜닝
     - sklearn.model_selection
 - 평가
     - sklearn.metrics
 - ML 알고리즘
     - sklearn.ensemble
     - sklearn.linear_model
     - sklearn.naive_bayes
     - sklearn.neighbors
     - sklearn.svm
     - sklearn.tree
     - sklearn.cluster
 - 유틸리티
     - sklearn.pipeline

****************************************************

### 내장된 데이터 세트
 - datasets.load_boston()
     - 회귀 용도
     - 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
 - datasets.load_breast_cancer()
     - 분류 용도
     - 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
 - datasets.load_diabetes()
     - 회귀 용도
     - 당뇨 데이터 세트
 - datasets.load_digits()
     - 분류 용도
     - 0-9 숫자의 이미지 데이터 세트
 - datasets.load_iris()
     - 분류 용도
     - 붓꽅에 대한 피처를 가진 데이터 세트

****************************************************

### 붓꽃 품종 예측하기

In [5]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

##### 데이터 세트 분리

In [15]:
import pandas as pd

iris = load_iris()
print(type(iris), "\n")

keys = iris.keys()
print('붓꽃 데이터 세트의 키들 :', keys, "\n")

iris_data = iris.data
iris_label = iris.target

print('iris target값 :', iris_label, "\n")
print('iris target명 :', iris.target_names, "\n")

iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

<class 'sklearn.utils.Bunch'> 

붓꽃 데이터 세트의 키들 : dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename']) 

iris target값 : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2] 

iris target명 : ['setosa' 'versicolor' 'virginica'] 



Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [7]:
x_train, x_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=10)

##### 모델 학습 : fit
##### 예측 수행 : predict

In [9]:
dt_clf = DecisionTreeClassifier(random_state=10)
dt_clf.fit(x_train, y_train)

pred = dt_clf.predict(x_test)

##### 평가 

In [10]:
from sklearn.metrics import accuracy_score
print("예측 정확도 : {0:.4f}".format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9667


********************************************

### 교차 검증

#### K 폴드 교차 검증
#### : K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법

In [23]:
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=10)

kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기 :', features.shape[0])

n_iter = 0

for train_index, test_index in kfold.split(features):
    x_train, x_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(x_train, y_train)
    pred = dt_clf.predict(x_test)
    
    n_iter += 1
    
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    
    print("\n{0} 교차 검증 정확도:{1}, 학습 데이터 크기:{2}, 검증데이터 크기:{3}".format(n_iter, accuracy, train_size, test_size))
    cv_accuracy.append(accuracy)

print("\n평균 검증 정확도 :", np.mean(cv_accuracy))

붓꽃 데이터 세트 크기 : 150

1 교차 검증 정확도:1.0, 학습 데이터 크기:120, 검증데이터 크기:30

2 교차 검증 정확도:0.9667, 학습 데이터 크기:120, 검증데이터 크기:30

3 교차 검증 정확도:0.9, 학습 데이터 크기:120, 검증데이터 크기:30

4 교차 검증 정확도:0.9333, 학습 데이터 크기:120, 검증데이터 크기:30

5 교차 검증 정확도:0.7333, 학습 데이터 크기:120, 검증데이터 크기:30

평균 검증 정확도 : 0.9066599999999999



#### cross_val_score()


In [22]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_cls = DecisionTreeClassifier(random_state=10)

data = iris_data.data
label = iris_data.target

scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=5)
print("교차 검증별 정확도 :", np.round(scores, 4))
print("평균 검증 정확도 :", np.round(np.mean(scores), 4))

교차 검증별 정확도 : [0.9667 0.9667 0.9    0.9333 1.    ]
평균 검증 정확도 : 0.9533


#### GridSearchCV
#### : Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공한다.

In [36]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

iris_data = load_iris()
x_train, x_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=10)

dtree = DecisionTreeClassifier()

parameters = {'max_depth':[1, 2, 3], 'min_samples_split':[2, 3]}



import pandas as pd

### refit=True이면 가장 좋은 파라미터 설정으로 재학습시킨다.
grid_tree = GridSearchCV(dtree, parameters, cv=3, refit=True)

grid_tree.fit(x_train, y_train)

scores_df = pd.DataFrame(grid_tree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]



Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.691667,5,0.690476,0.692308,0.692308
1,"{'max_depth': 1, 'min_samples_split': 3}",0.691667,5,0.690476,0.692308,0.692308
2,"{'max_depth': 2, 'min_samples_split': 2}",0.925,3,0.928571,0.948718,0.897436
3,"{'max_depth': 2, 'min_samples_split': 3}",0.925,3,0.928571,0.948718,0.897436
4,"{'max_depth': 3, 'min_samples_split': 2}",0.958333,1,0.928571,0.974359,0.974359
5,"{'max_depth': 3, 'min_samples_split': 3}",0.958333,1,0.928571,0.974359,0.974359


In [37]:
print('최적 파라미터 :', grid_tree.best_params_)
print('최고 정확도 : {0:.4f}'.format(grid_tree.best_score_))

최적 파라미터 : {'max_depth': 3, 'min_samples_split': 2}
최고 정확도 : 0.9583


In [38]:
estimator = grid_tree.best_estimator_

pred = estimator.predict(x_test)
print('데이터 세트 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

데이터 세트 정확도 : 0.9333


**************

### 데이터 인코딩
 - 레이블 인코딩
     - 카테고리 피처를 코드형 숫자 값으로 변환하는 것이다.
     
 - 원-핫 인코딩
     - 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 9을 표시하는 방식이다. 

In [40]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import numpy as np

items = ['A', 'B', 'C', 'D', 'E', 'B', 'C']
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels = labels.reshape(-1, 1)

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원 핫 인코딩 데이터')
print(oh_labels.toarray())

print('원 핫 인코딩 데이터 차원')
print(oh_labels.shape)

원 핫 인코딩 데이터
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]]
원 핫 인코딩 데이터 차원
(7, 5)


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


### 더 쉽게 사용하는 법

In [41]:
import pandas as pd

df = pd.DataFrame({'item':['A', 'B', 'C', 'C', 'D', 'A']})
pd.get_dummies(df)

Unnamed: 0,item_A,item_B,item_C,item_D
0,1,0,0,0
1,0,1,0,0
2,0,0,1,0
3,0,0,1,0
4,0,0,0,1
5,1,0,0,0


********************************************

### 피처 스케일링과 정규화
 - 표준화 : 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다.
     - StandardScaler
     - MinMaxScaler 
 - 정규화

===============================================================================

## 평가

### 정확도
 - 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표
 - 정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수
 - 정확도 = (TN + TP)/(TN + FP + FN + TP)

### 오차행렬
 - 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고 있는지도 함께 보여주는 지표
 - 이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표
 - TN : 예측값(0), 실제값(0)        FP : 예측값(1), 실제값(0)
 - FN : 예측값(0), 실제값(1)        TP : 예측값(1), 실제값(1)

### 정밀도
 - 예측을 1로 한 대상 중에 예측과 실제 값이 1로 일치한 데이터의 비율을 뜻한다.
 - TP/(FP+TP)
 - 암환자

### 재현율
 - 실제 값이 1인 대상 중에 예측과 실제 값이 1로 일치한 데이터의 비율을 뜻한다.
 - TP/(FN+TP)
 - 스팸메일

### F1 스코어
 - 정밀도와 재현율을 결합한 지표
 - F1 = 2*(precision * recall)/(precision + recall)

### ROC AUC
 - 이진 분류 의 예측 성능 측정에서 중요하게 사용되는 지표

===============================================================================

# 노트 정리한 것 위주로 학습