# 머신러닝의 개념(ML)
- 데이터를 기반으로 패턴을 학습하고 결과를 추출하는 알고리즘 기법
- 지도학습 (Supervised Learning): 정답이 있는 데이터를 활용해 데이터를 학습시키는 것입니다. 입력 값(X data)이 주어지면 입력값에 대한 Label(Y data)를 주어 학습시키며 대표적으로 분류, 회귀 문제가 있다.

- 비지도 학습 (Un-Supervised Learning): 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화 하여 새로운 데이터에 대한 결과를 예측하는 방법을 비지도학습 이라고 합니다. 라벨링 되어있지 않은 데이터로부터 패턴이나 형태를 찾아야 한다. 실제로 지도 학습에서 적절한 피처를 찾아내기 위한 전처리 방법으로 비지도 학습을 이용하기도 한다. 군집화(클러스터링), 차원축소(PCA)가 대표적이다.
- 강화학습(Reinforcement Learning): 데이터가 존재하는 것도 아니고 데이터가 있어도 정답이 따로 정해져 있지 않으며 자신이 한 행동에 대해 보상(reward)를 받으며 학습하는 것을 말합니다.



# 머신러닝 용어
- 피처(feature) : 데이터의 일반 속성, 데이터의 값을 잘 예측하기 위한 데이터의 특징들을 머신러닝/딥러닝에서는 "Feature"라고 부르며, 지도, 비지도, 강화학습 모두 적절한 feature를 잘 정의하는 것이 핵심이다.


- 레이블, 클래스, 타겟 값, 결정 값 : 정답데이터를 의미한다.

# 사이킷런(scikit-learn)

- scikit-learn을 이용하여 기계학습을 실행할 때, 자신이 하고 싶은 분석(분류/회귀/클러스터링 등)에 대해서 적당한 모델을 선택하는 것에 대해 도움이 된다. 그리고 scikit-learn으로 간단히 모델을 바꿔 기계학습을 하는 것도 가능하다.

In [73]:
import numpy as np
import pandas as pd
import sklearn
from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split, KFold , StratifiedKFold, cross_val_score , cross_validate
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
sklearn.__version__

'0.24.1'

In [5]:
iris = load_iris()
print("type: ",type(iris))
print('keys:', iris.keys())

type:  <class 'sklearn.utils.Bunch'>
keys: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [8]:
print('data : ', iris.data, type(iris.data))
print()
print('target: ', iris.target) # 타겟값이 수치형으로 되어있다. 
print() # 학습을 하기위해서는 타겟값이 수치형이어야함!
print('target_names: ', iris.target_names)
print()
print('feature_names: ', iris.feature_names)

data :  [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.

In [12]:
# feature, target을 이용해서 데이터 프레임을 만들어보자
iris_label = iris.target # 변수값에 복사
iris_data = iris.data # 변수값에 복사

iris_frm = pd.DataFrame(data = iris_data,
                       columns=iris.feature_names)
iris_frm['target'] = iris_label
iris_frm

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


### 지도학습(Supervised Learning) - 분류(classification)
- step 01. 데이터세트 분리(학습 데이터, 테스트 데이터)
- step 02. 학습 데이터를 기반으로 NL 알고리즘을 적용해 학습 모델을 만든다.
- step 03. 분류예측을 수행(테스트 데이터를 활용해서)
- step 04. 평가

#### 분류(Classifier)
- DecisionTreeClassifier
- RandomForestClassifier
- GradientBoostingClassifier
- GaussianNB
- SYC

#### 회귀(Regression)
- LinearRegression
- Ridge
- Lasso
- RandomForestRegression
- GradientBoostingRegression

In [15]:
print('학습데이터와 테스트 데이터로 분리')

X_train,X_test,y_train,y_test = train_test_split(iris_data,
                                                 iris_label,
                                                test_size=0.2,
                                                shuffle=False,
                                                random_state = 200)


학습데이터와 테스트 데이터로 분리


In [16]:
print('train data:',X_train)
print('train label:',y_train)
print()
print('test data:',X_test)
print('test data:',y_test)

train data: [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]


In [17]:
print('알고리즘이 적용된 모델을 선정해서 학습시켜보자')
print()

dtc = DecisionTreeClassifier()
dtc.fit(X_train,y_train)


알고리즘이 적용된 모델을 선정해서 학습시켜보자



DecisionTreeClassifier()

In [18]:
print('새로운 데이터를(test) 이용해서 예측을 해보자')
print()
y_predict = dtc.predict(X_test)
print('y_test:',y_test)
print('y_predict:',y_predict)

새로운 데이터를(test) 이용해서 예측을 해보자

y_test: [2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_predict: [2 1 2 1 2 2 1 1 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2]


In [25]:
print('예측 정확도구해보기')
print()
print('예측정확도 : {0:.2f}'.format(accuracy_score(y_test, y_predict)))

예측 정확도구해보기

예측정확도 : 0.80


In [28]:
print('데이터 프레임 형식에서 학습 데이터와 테스트데이터를 분리한다면?')
print('피처만 추출한다면?')
iris_feature_frm = iris_frm.iloc[:,:-1]
print('레이블만 추출한다면?')
iris_label_frm = iris_frm.iloc[:,-1]

X_train,X_test,y_train,y_test = train_test_split(iris_feature_frm,
                                                 iris_label_frm,
                                                test_size=0.2,
                                                shuffle=True,
                                                random_state = 200)

데이터 프레임 형식에서 학습 데이터와 테스트데이터를 분리한다면?
피처만 추출한다면?
레이블만 추출한다면?


In [29]:
print('train data:',X_train)
print('train label:',y_train)
print()
print('test data:',X_test)
print('test data:',y_test)

train data:      sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
39                 5.1               3.4                1.5               0.2
99                 5.7               2.8                4.1               1.3
92                 5.8               2.6                4.0               1.2
4                  5.0               3.6                1.4               0.2
97                 6.2               2.9                4.3               1.3
..                 ...               ...                ...               ...
42                 4.4               3.2                1.3               0.2
68                 6.2               2.2                4.5               1.5
16                 5.4               3.9                1.3               0.4
105                7.6               3.0                6.6               2.1
26                 5.0               3.4                1.6               0.4

[120 rows x 4 columns]
train label: 39     0
99    

In [30]:
print('알고리즘이 적용된 모델을 선정해서 학습시켜보자')
print()

dtc02 = DecisionTreeClassifier()
dtc02.fit(X_train,y_train)

알고리즘이 적용된 모델을 선정해서 학습시켜보자



DecisionTreeClassifier()

In [31]:
print('새로운 데이터를(test) 이용해서 예측을 해보자')
print()
y_predict = dtc02.predict(X_test)
print('y_test:',y_test)
print('y_predict:',y_predict)

새로운 데이터를(test) 이용해서 예측을 해보자

y_test: 84     1
122    2
28     0
24     0
75     1
109    2
81     1
98     1
80     1
100    2
124    2
2      0
34     0
44     0
128    2
13     0
93     1
41     0
63     1
137    2
19     0
60     1
126    2
11     0
47     0
18     0
96     1
107    2
141    2
53     1
Name: target, dtype: int32
y_predict: [1 2 0 0 1 2 1 1 1 2 2 0 0 0 2 0 1 0 1 2 0 1 2 0 0 0 1 2 2 1]


In [32]:
print('예측 정확도구해보기')
print()
print('예측정확도 : {0:.2f}'.format(accuracy_score(y_test, y_predict)))

예측 정확도구해보기

예측정확도 : 1.00


In [34]:
print('학습과 예측시 테스트데이터를 사용하지 않고, 학습데이터로만 학습과 예측을 진행한다면?')

print('피처만 추출한다면?')
iris_feature_frm = iris_frm.iloc[:,:-1]
print('레이블만 추출한다면?')
iris_label_frm = iris_frm.iloc[:,-1]

X_train,X_test,y_train,y_test = train_test_split(iris_feature_frm,
                                                 iris_label_frm,
                                                test_size=0.2,
                                                shuffle=True,
                                                random_state = 200)

bad_dtc03 = DecisionTreeClassifier()
bad_dtc03.fit(X_train, y_train)

y_predict = bad_dtc03.predict(X_train)

print('예측정확도 : {0:.2f}'.format(accuracy_score(y_train, y_predict))) 
# 학습된 데이터로 예측하면 당연히 100%가 나온다.

학습과 예측시 테스트데이터를 사용하지 않고, 학습데이터로만 학습과 예측을 진행한다면?
피처만 추출한다면?
레이블만 추출한다면?
예측정확도 : 1.00


### 교차검증(Cross Validation)
- 교차검증을 사용하는 이유?
    - 과적합(overfitting)을 방지하기 위한 방법
    - 데이터의 편중을 막기위해서
- KFold 방식

In [38]:
fold_iris = load_iris()
features = fold_iris.data
label = fold_iris.target

fold_dt_clf = DecisionTreeClassifier()

In [41]:
print('5개의 폴더 세트를 분리하여 각 폴더 세트별 정확도를 담아보자')
cv_accuracy=[]
kfold = KFold(n_splits=5)

5개의 폴더 세트를 분리하여 각 폴더 세트별 정확도를 담아보자


In [45]:
n_iter=0
for train_idx, test_idx in kfold.split(features):
#     print('train_idx : ',train_idx)
#     print('test_idx : ',test_idx)
        X_train, X_val = features[train_idx], features[test_idx]
        y_train, y_val = label[train_idx], label[test_idx]
        
        # 학습과 예측
        fold_dt_clf.fit(X_train,y_train)
        fold_pred = fold_dt_clf.predict(X_val)
        
        n_iter += 1
        
        #학습 데이터에 대한 검증 정확도 측정
        acc = accuracy_score(y_val, fold_pred)
        print('{} 교차검증 정확도 : {}, 학습 데이터 크기 : {}, 검증데이터 크기 : {}'.format(n_iter, acc, X_train.shape[0],X_val.shape[0]))
        
        cv_accuracy.append(acc)
print('교차검증 평균 정확도 : ', np.mean(cv_accuracy))

1 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
2 교차검증 정확도 : 0.9666666666666667, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
3 교차검증 정확도 : 0.8666666666666667, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
4 교차검증 정확도 : 0.9333333333333333, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
5 교차검증 정확도 : 0.8, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
교차검증 평균 정확도 :  0.9133333333333333


- 불균형한 분포도를 가진 레이블 데이터 집합을 위한 KFold 방식 -> Stratified KFold
- 레이블의 분폴르 먼저 고려한뒤 이 분포와 동일하게 학습, 검증 데이터 세트로 분할

In [48]:
print('기존 KFold 방식의 문제점을 확인해보자')
print()

fold_iris_frm = pd.DataFrame(data = fold_iris.data,
                            columns= fold_iris.feature_names)
fold_iris_frm['target'] = fold_iris.target
fold_iris_frm

print('--value counts--')
print(fold_iris_frm['target'].value_counts())

기존 KFold 방식의 문제점을 확인해보자

--value counts--
0    50
1    50
2    50
Name: target, dtype: int64


In [49]:
bad_fold_iris = KFold(n_splits = 3)
n_iter =0 

In [52]:
for train_idx, test_idx in bad_fold_iris.split(fold_iris_frm):
    #print(train_idx, test_idx)
    n_iter += 1
    label_train = fold_iris_frm['target'].iloc[train_idx]
    label_val = fold_iris_frm['target'].iloc[test_idx]
    
    print('교차검증 횟수 :', n_iter)
    print('학습 레이블 데이터 분포 : \n' , label_train.value_counts() )
    print('검증 레이블 데이터 분포 : \n' , label_val.value_counts() ) # 편중되어 있는 것 확인 가능
    

교차검증 횟수 : 1
학습 레이블 데이터 분포 : 
 1    50
2    50
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 0    50
Name: target, dtype: int64
교차검증 횟수 : 2
학습 레이블 데이터 분포 : 
 0    50
2    50
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 1    50
Name: target, dtype: int64
교차검증 횟수 : 3
학습 레이블 데이터 분포 : 
 0    50
1    50
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 2    50
Name: target, dtype: int64


In [56]:
print('레이블 값의 분포를 반영해주지 못하는 문제를 해결하기 위해서 Stratified KFold 사용')
print()

skf = StratifiedKFold(n_splits = 3)
n_iter = 0

for train_idx, test_idx in skf.split(fold_iris_frm,fold_iris_frm['target']):
    #print(train_idx, test_idx)
    n_iter += 1
    label_train = fold_iris_frm['target'].iloc[train_idx]
    label_val = fold_iris_frm['target'].iloc[test_idx]
    
    print('교차검증 횟수 :', n_iter)
    print('학습 레이블 데이터 분포 : \n' , label_train.value_counts() )
    print('검증 레이블 데이터 분포 : \n' , label_val.value_counts() ) 
    

레이블 값의 분포를 반영해주지 못하는 문제를 해결하기 위해서 Stratified KFold 사용

교차검증 횟수 : 1
학습 레이블 데이터 분포 : 
 2    34
0    33
1    33
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 0    17
1    17
2    16
Name: target, dtype: int64
교차검증 횟수 : 2
학습 레이블 데이터 분포 : 
 1    34
0    33
2    33
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 0    17
2    17
1    16
Name: target, dtype: int64
교차검증 횟수 : 3
학습 레이블 데이터 분포 : 
 0    34
1    33
2    33
Name: target, dtype: int64
검증 레이블 데이터 분포 : 
 1    17
2    17
0    16
Name: target, dtype: int64


- iris 데이터를 이용해서 StratifiedKFold 교차검증을 진행해보자
- random_state = 100
- StratifiedKFold 교차검증을 (3, 5) 진행후 평균 정확도를 확인해보자
- 회귀 X , 분류 O 
- 회귀에서 지원되지 않는 이유 : 회귀는 연속되는 숫자값이기 때문이다.

In [63]:
fold_iris = load_iris()
features = fold_iris.data
label = fold_iris.target

dt_model = DecisionTreeClassifier(random_state=100)

In [71]:
print('5개의 폴더 세트를 분리하여 각 폴더 세트별 정확도를 담아보자')
cv_accuracy=[]
stf_kfold = StratifiedKFold(n_splits=5)

5개의 폴더 세트를 분리하여 각 폴더 세트별 정확도를 담아보자


In [72]:
n_iter=0
for train_idx, test_idx in stf_kfold.split(features,label):
#     print('train_idx : ',train_idx)
#     print('test_idx : ',test_idx)
        X_train, X_val = features[train_idx], features[test_idx]
        y_train, y_val = label[train_idx], label[test_idx]
        
        # 학습과 예측
        dt_model.fit(X_train,y_train)
        fold_pred = dt_model.predict(X_val)
        
        n_iter += 1
        
        #학습 데이터에 대한 검증 정확도 측정
        acc = accuracy_score(y_val, fold_pred)
        print('{} 교차검증 정확도 : {}, 학습 데이터 크기 : {}, 검증데이터 크기 : {}'.format(n_iter, acc, X_train.shape[0],X_val.shape[0]))
        
        cv_accuracy.append(acc)
print('교차검증 평균 정확도 : ', np.mean(cv_accuracy))

1 교차검증 정확도 : 0.9666666666666667, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
2 교차검증 정확도 : 0.9666666666666667, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
3 교차검증 정확도 : 0.9, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
4 교차검증 정확도 : 0.9333333333333333, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
5 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증데이터 크기 : 30
교차검증 평균 정확도 :  0.9533333333333334


- 위 과정을 한번에 수행해주는 함수가 존재 : cross_val_score(예측모델, 피쳐세트, 레이블, 성능평가 지표 , 폴드수)
- 위 과정의 절차는 폴드 설정 → 반복을 통해서 학습 및 테스트의 인덱스를 추출 → 학습과 예측

In [84]:
fold_iris = load_iris()
features = fold_iris.data
labels = fold_iris.target

dt_model = DecisionTreeClassifier(random_state=100)

# 성능평가지표로 accuracy, 교차검증 5회를 수행한다면?
print('성능평가지표:accuracy, 교차검증 5회 수행시')
scores = cross_val_score(dt_model,features,labels,scoring='accuracy',cv=5)
print(scores)
print('평균 검증 정확도 : ',np.round(np.mean(scores),2))
print(type(scores),'\n')

print('cross_validate 함수 사용시') # 부가적인 다른 정보도 반환해줌.
scores = cross_validate(dt_model,features,labels, scoring='accuracy',cv=5)
print('type : ', type(scores), 'scores : ', scores)
# Dictionary 형태로 반환되어 key로 접근 가능
print('교차검증시간 : ', scores['fit_time'])
print('교차검증별 정확도 : ', scores['test_score'])
print('평균 검증 정확도 : ', np.round(np.mean(scores['test_score']),2))

성능평가지표:accuracy, 교차검증 5회 수행시
[0.96666667 0.96666667 0.9        0.93333333 1.        ]
평균 검증 정확도 :  0.95
<class 'numpy.ndarray'> 

cross_validate 함수 사용시
type :  <class 'dict'> scores :  {'fit_time': array([0.00299621, 0.00100017, 0.00216556, 0.00299573, 0.00399208]), 'score_time': array([0.00099206, 0.00099826, 0.0008235 , 0.        , 0.00199246]), 'test_score': array([0.96666667, 0.96666667, 0.9       , 0.93333333, 1.        ])}
교차검증시간 :  [0.00299621 0.00100017 0.00216556 0.00299573 0.00399208]
교차검증별 정확도 :  [0.96666667 0.96666667 0.9        0.93333333 1.        ]
평균 검증 정확도 :  0.95
