# 기본 개념 
## ML의 요소
### 특징(features)
* 학습 모델에 공급되는 입력 = 독립변수

### 레이블(label)
* 학습모델의 입력값에 대한 출력값 = 종속변수

### 샘플(sample)
* 기계학습에 주어지는 예시 = 학습 대상
->지도 학습의 경우 sample feature와 그에 대한 label을 입력

### 학습(learning)
* 모델을 만들거나 배우는 것 = 샘플 기반 모델 생성

### 예측(prediction)
* 레이블이 없는 샘플을 이용해 모델에 적용 = 결과 예측

### 지도학습
- 회귀(regression)
    * 의미
        -실수 입력(x)에 대해 실수 출력(y)이 주어지는 학습
    * 예시
        -Linear, Polynomial
    
- 분류(classification)
    * 의미
        -입력에 대해 두개 이상의 레이블로 분할하는 것
        -학습에 대한 레이블 제공 필수
    * 예시
        -kNN,SVM,의사결정트리, Naive-Bayes, 
        <br>Logistic Regression 등

### 비지도학습
- 의미
    *레이블이 주어지지 않고 컴퓨터가 스스로 데이터를 나누는 것
- 예시
    * k-means 클러스터링

### 강화학습
- 의미 
    * 컴퓨터의 결과에 따라 처벌이나 보상을 주어지는 학습
    


# 기본적 지도학습 예시
## 분류
### 개념
* 피처와 레이블로 모델을 학습한 뒤, 테스트 데이터 세트를 기반으로 레이블을 예측한다.

### 과정
1. 데이터 세트 분리
    * 데이터를 학습 데이터와 테스트 데이터로 분리한다.
<br>
</br>
2. 모델 학습
    * ML 알고리즘을 적용해 학습 데이터를 기반으로 학습시킨다.
<br>
</br>
3. 예측 수행
    * ML모델을 이용해 테스트 데이터의 레이블을 예측한다.
<br>
</br>
4. 평가
    * 예측 결과와 테스트 데이터의 실제 결과를 비교해 ML 모델 성능을 평가한다.
    
### 붓꽃 데이터 기반 지도학습-분류 예시

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

iris = load_iris()
#데이터 호출

iris_data = iris.data
iris_label = iris.target
#데이터와 레이블 지정

X_train, X_test, y_train, y_test = train_test_split(iris_data,iris_label,test_size=0.2,random_state=11)
#데이터 분리(훈련,테스트)

dt_clf = DecisionTreeClassifier()
#모델 선정

dt_clf.fit(X_train, y_train)
#모델 학습
pred = dt_clf.predict(X_test)
#예측 수행

print(dt_clf.score(X_test,y_test))
print(accuracy_score(y_test,pred))
# 모델 평가: 정확도 기반

0.8666666666666667
0.8666666666666667


### 데이터의 구분: 학습데이터, 테스트 데이터
#### 학습 데이터
* 머신러닝 알고리즘 학습 목적
* 데이터의 성격: 속성(독립변수)와 결정값(종속변수)로 구성

#### 테스트 데이터
* 학습된 알고리즘의 테스트 목적
* 데이터의 성격: 속성(독립변수)만으로 구성
* 테스트 데이터의 실제 결정값(종속변수)는 알고리즘의 평가 목적으로 사용

### 교차 검증
#### 의미
* 최초 데이터: 학습데이터 세트, 테스트 데이터 세트 구분
* 학습 데이터 세트: 실제 학습 데이터, 검증 데이터 구분
* 학습 데이터 자체를 학습 데이터와 검증 데이터로 구분하여 1차 평가를 하고 학습/검증 이후 테스트 데이터 세트를 기반으로 최종 성능 평가
#### 필요성
##### 오버피팅의 가능성 축소
1. 오버피팅
    <br>*데이터를 학습, 테스트 데이터로 분리 학습하는 과정에서 학습 데이터에 대한 정확성이 너무 높아서 테스트 데이터를 제대로 예측하지 못하는 현상
    <br>->이 가능성을 줄이기 위해서 학습 데이터 자체에서 검증 데이터를 분리 학습 시켜 학습 과정에서 검증을 진행하면서 오버피팅의 확률을 줄인다.
    
#### K-fold 교차 검증
##### 의미
* 학습 데이터 세트를 임의의 k개의 폴드 세트로 구분하여 검증 평가를 각기 다른 데이터 세트로 k번 실행하는 방식의 학습/검증 과정
#####  종류
    1. 일반 k-fold
    2. Stratified K-fold
        * 분균형한 분포를 가진 레이블 데이터의 경우 임의로 k개의 폴드 세트로 구분하는 과정에서 데이터의 왜곡이 발생 할 수 있다.
        * 이를 방지하기 위해 전체 데이터 레이블의 분포를 반영하여 데이터를 구분하여 데이터 왜곡을 방지한다.
    
#### cross_val_score()
##### K-fold 교차검증의 과정
    1. 폴드 세트 설정
    2. for 루프를 통해 반복적인 학습/검증 데이터 추출 및 학습/검증 수행
    3. 폴드 세트 별 예측 성능을 평균한 최종 성능 평가

##### cross_val_score함수
    -> 일련의 k-fold 교차 검증을 한번에 수행한다.
    -> 이때, 교차 검증의 지표는 사용자가 임의로 설정 할 수 있다.

#### GridSearchCV()
##### 활용법
    * 분류(Classifier)나 회귀(Regression) 같은 알고리즘 활요에 사용되는 하이퍼 파라미터의 순차적 입력을 할 수 있게 하여 최적의 파라미터 도출을 돕는다.
#### 실행과정
    * 특정 알고리즘의 하이퍼 파라미터가 2종류에 각각의 파라미터에 n개의 수치를 입력하는 경우 n^2의 결과값이 나오고 이중 최적의 파라미터를 도출한다.


#### 교차검증 예시

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np
import pandas as pd

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)
# 데이터 호출, 데이터 및 레이블 지정, 모델 설정

# 일반 k-fold
kfold = KFold(n_splits=5)
cv_accuracy = []

n_iter = 0

for train_index , test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1

    accuracy = np.round(accuracy_score(y_test,pred))
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]

    print(f'#{n_iter} 교차 검증 정확도 {accuracy}, 학습데이터 크기:{train_size}, 검증데이터 크기:{test_size}')
    print(f'#{n_iter} 검증 세트 인덱스{test_index}')

    cv_accuracy.append(accuracy)

print(f'\n 평균 검증 정확도 {np.mean(cv_accuracy)}')

# 해당 과정에서 StratifiedKFold로 변경해서 데이터 편향에 따른 왜곡을 줄일 수 있다.

#1 교차 검증 정확도 1.0, 학습데이터 크기:120, 검증데이터 크기:30
#1 검증 세트 인덱스[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
#2 교차 검증 정확도 1.0, 학습데이터 크기:120, 검증데이터 크기:30
#2 검증 세트 인덱스[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
#3 교차 검증 정확도 1.0, 학습데이터 크기:120, 검증데이터 크기:30
#3 검증 세트 인덱스[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
#4 교차 검증 정확도 1.0, 학습데이터 크기:120, 검증데이터 크기:30
#4 검증 세트 인덱스[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
#5 교차 검증 정확도 1.0, 학습데이터 크기:120, 검증데이터 크기:30
#5 검증 세트 인덱스[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

 평균 검증 정확도 1.0


In [3]:
# cross_val_score의 활용
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris, load_diabetes
from sklearn import datasets, linear_model
import numpy as np


iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

scores = cross_val_score(dt_clf,data,label,scoring='accuracy',cv=3)
# 모델, 데이터, 레이블, 지표, 분할 수를 설정하여 위의 과정을 한번에 처리
# 이진분류나 다중 클래스의 경우 자동으로 StratifiedKFold 설정

print('교차 검증별 정확도: ',np.round(scores,4))
print('평균 검증 정확도:',np.round(np.mean(scores),4))


교차 검증별 정확도:  [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


In [4]:
#GridSearchCV의 활용
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data,iris_data.target,test_size=0.2, random_state=121)

dtree = DecisionTreeClassifier()

parameters = {'max_depth':[1,2,3],'min_samples_split':[2,3]}


import pandas as pd

grid_dtree = GridSearchCV(dtree,param_grid=parameters,cv=3)

grid_dtree.fit(X_train,y_train)

scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params','mean_test_score','rank_test_score',\
    'split0_test_score','split1_test_score','split2_test_score']]
#->근디 여기는 왜 scoring을 지정 안했는디 최적 파라미터 같은게 나오냐....
# 기본적으로 scoring을 지정하지 않아도 model에서 method 형태로 score가 지정되어
#있다면 자동으로 해당 method가 사용된다.


print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

estimator = grid_dtree.best_estimator_
pred = estimator.predict(X_test)
print('테스트 데이터 정확도: {0:4f}'.format(accuracy_score(y_test,pred)))


GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.9750
테스트 데이터 정확도: 0.966667


# 머신러닝 관련 라이브러리 
## Scikit-learn
### DecisionTreeClassifier
#### import
##### class sklearn.tree.DecisionTreeClassifier(*, criterion=‘gini’, splitter=‘best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, class_weight=None, ccp_alpha=0.0)

