# 머신러닝 개념(ML)

- 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법
- 지도학습(Supervised Learning), 비지도학습(Un-Supervised Learning)
- 데이터에 정답이 들어있으면 지도학습 / 데이터에 정답이 없으면 비지도학습(그래서 군집화 시킴)
- 지도학습(분류, 회귀), 비지도학습(클러스터링, 차원축소)

# 머신러닝 용어(데이터 형식 : DataFrame)
- 피처(feature) : 데이터의 일반 속성
- 레이블, 클래스, 타켓 값, 결정 값 : 정답 데이터


In [None]:
import numpy as np
import pandas as pd

print('numpy version -', np.__version__)
print('pandas version -', pd.__version__)

In [None]:
import sklearn
from sklearn.datasets import load_iris

print('sklearn version -', sklearn.__version__)

In [None]:
iris=load_iris()
print(type(iris))
print('type -',type(iris))
print('keys -',iris.keys()) #키값 확인

In [None]:
print('data=',iris.data)
print('data type-',type(iris.data))

In [None]:
print('target=',iris.target)
print('target type-',type(iris.target))
print()
print('target_names=',iris.target_names)
print('target_names type-',type(iris.target_names))
print()
print('feature_names=',iris.feature_names)
print('feature_names type-',type(iris.feature_names))

In [None]:
print('feature, target를 이용해서 데이터 프레임을 만들어보자-')

# feature=pd.DataFrame(iris.feature_names)
# target=pd.DataFrame(iris.target)

print(feature)
print()
print(target)


iris_frm=pd.DataFrame(data=iris.data,
                     columns=iris.feature_names)

iris_frm

iris_frm['target']=iris.target
iris_frm

### 지도학습 - 분류 (classification)
- step 01. 데이터 분리(training data, test data)
- step 02. 학습데이터를 기반으로 ML 알고리즘을 적용해 학습 모델을 생성
- step 03. 테스트 데이터를 기반으로 분류예측을 수행
- step 04. 모델의 성능평가


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score


In [None]:
# 튜플=패킹 : 파이썬은 튜플을 통해 return 값을 여러개 반환할 수 있음

In [None]:
print('step 01.')
print()
X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    test_size=0.2,
                                                    shuffle=True,
                                                   random_state=100)

In [None]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape #튜플형식 표현은 30, 40, 콤마를 붙여야 함

# a=(30,)
# type(a)

In [None]:
print('train data -', X_train)
print()
print('train target -', y_train)

In [None]:
print('test data -', X_test)
print()
print('test target -', y_test)

In [None]:
print('step 02. fit()') #학습은 fit()
print()

iris_dtc_model=DecisionTreeClassifier() #디시전 트리 형식으로 학습
iris_dtc_model.fit(X_train, y_train)

In [None]:
print('step 03. predict()')
print()

y_pred = iris_dtc_model.predict(X_test)
print('y_test-', y_test) # 정답
print('y_pred-', y_pred) # 예측결과

In [None]:
print('step 04. 예측정확도 -')
print()
print('acc-', accuracy_score(y_test, y_pred))

In [None]:
display(iris_frm)
print(type(iris_frm))

In [None]:
#데이터 프레임 형식에서 학습데이터와 테스트데이터를 분리한다면?
# iloc() 이용해서 피처와 타켓을 추출한다면

iris_feature_frm = iris_frm.iloc[:,:3]
# iris_feature_frm = iris_frm.iloc[:,:-1]
iris_target_frm = iris_frm.iloc[:,4]
#iris_target_frm = iris_frm.iloc[:,-1]

display(iris_feature_frm)
print()
display(iris_target_frm)
print()
print(type(iris_feature_frm),type(iris_target_frm))

In [None]:
X_train, X_test, y_train, y_test = train_test_split(iris_feature_frm,
                                                    iris_target_frm,
                                                    test_size=0.2,
                                                    shuffle=True,
                                                   random_state=100)

In [None]:
iris_dtc_model=DecisionTreeClassifier() #디시전 트리 형식으로 학습
iris_dtc_model.fit(X_train, y_train)

In [None]:
# 학습한 데이터를 테스트 데이터로 쓰게되면 롹률이 100% 되므로 머신러닝으로 적합하지 않음(과대적합)
# y_pred = iris_dtc_model.predict(X_test)
y_pred = iris_dtc_model.predict(X_train)
print('y_test-', y_test) # 정답
print('y_pred-', y_pred) # 예측결과

In [None]:
print('step 04. 예측정확도 -')
print()
print('acc-', accuracy_score(y_train, y_pred))

### 교차검증(cross validation)
- 과적합(overffiting)을 방지하기 위한 방법
- 데이터의 편중을 막기위해서
- KFold 방식

In [None]:
from sklearn.model_selection import KFold, StratifiedKFold, cross_val_score, cross_validate

In [None]:
fold_iris = load_iris()

features = fold_iris.data
label = fold_iris.target


In [None]:
features

In [None]:
label

In [73]:
print('5개의 포더 세트를 분리하여 각 폴더 세트별 정확도를 확인해보자 -')
cv_acc = []
kfold=KFold(n_splits=5)

fold_dct_model = DecisionTreeClassifier()

for train_idx, test_idx in kfold.split(features):
#     print('train idx -', train_idx)
#     print('test idx -', test_idx)
    X_train, X_val = features[train_idx], features[test_idx]
    y_train, y_val = label[train_idx], label[test_idx]
#     print('X_train -',X_train)
#     print('X_train -',X_val)
    fold_dct_model.fit(X_train, y_train)
    fold_pred = fold_dct_model.predict(X_val)

    acc = accuracy_score(y_val,fold_pred)
#     print('acc -',acc)
    cv_acc.append(acc)

5개의 포더 세트를 분리하여 각 폴더 세트별 정확도를 확인해보자 -


In [74]:
print('교차검증 평균 정확도 -',np.mean(cv_acc))

교차검증 평균 정확도 - 0.9199999999999999


In [79]:
print('기존 KFold 방식의 문제점 확인 -')
print()
fold_iris_frm = pd.DataFrame(data = fold_iris.data,
                            columns= fold_iris.feature_names)
fold_iris_frm['target'] = fold_iris.target
fold_iris_frm

기존 KFold 방식의 문제점 확인 -



Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [84]:
fold_iris_frm['target'].value_counts()

0    50
1    50
2    50
Name: target, dtype: int64

In [87]:
bad_fold_iris = KFold(n_splits = 3)
n_iter=0

fold_dct_model = DecisionTreeClassifier()

for train_idx, test_idx in kfold.split(fold_iris_frm):
    n_iter += 1
    
    label_train = fold_iris_frm['target'].iloc[train_idx]
    label_val = fold_iris_frm['target'].iloc[test_idx]
    print('교차검증 횟수 -',n_iter)
    print()
    print('학습 레이블 데이터 분포 - \n',label_train)
    print('검증 레이블 데이터 분포 - \n',label_val)

교차검증 횟수 - 1

학습 레이블 데이터 분포 - 
 30     0
31     0
32     0
33     0
34     0
      ..
145    2
146    2
147    2
148    2
149    2
Name: target, Length: 120, dtype: int32
검증 레이블 데이터 분포 - 
 0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
21    0
22    0
23    0
24    0
25    0
26    0
27    0
28    0
29    0
Name: target, dtype: int32
교차검증 횟수 - 2

학습 레이블 데이터 분포 - 
 0      0
1      0
2      0
3      0
4      0
      ..
145    2
146    2
147    2
148    2
149    2
Name: target, Length: 120, dtype: int32
검증 레이블 데이터 분포 - 
 30    0
31    0
32    0
33    0
34    0
35    0
36    0
37    0
38    0
39    0
40    0
41    0
42    0
43    0
44    0
45    0
46    0
47    0
48    0
49    0
50    1
51    1
52    1
53    1
54    1
55    1
56    1
57    1
58    1
59    1
Name: target, dtype: int32
교차검증 횟수 - 3

학습 레이블 데이터 분포 - 
 0      0
1      0
2      0
3      0
4      0
      ..
145  

### [실습]
- 아이리스 데이터를 이용하여 StratifiedKFold 교차검증을 진행해 보자
- random_state = 200
- StratifiedKFold(3, 5) 평균 정확도 확인

In [88]:
from sklearn.model_selection import KFold, StratifiedKFold, cross_val_score, cross_validate
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [91]:
cv_acc = []
skf=StratifiedKFold(n_splits=3)

iris_dtc_model=DecisionTreeClassifier(random_state=200) #디시전 트리 형식으로 학습
iris_dtc_model.fit(X_train, y_train)

n_iter=0

for train_idx, test_idx in kfold.split(features, label):
    n_iter += 1
    
#     print('train idx -', train_idx)
#     print('test idx -', test_idx)
    X_train, X_val = features[train_idx], features[test_idx]
    y_train, y_val = label[train_idx], label[test_idx]
# #     print('X_train -',X_train)
# #     print('X_train -',X_val)
    fold_dct_model.fit(X_train, y_train)
    fold_pred = fold_dct_model.predict(X_val)

    acc = accuracy_score(y_val,fold_pred)
#     print('acc -',acc)
    cv_acc.append(acc)


print('교차검증 평균 정확도 -',np.mean(cv_acc))

train idx - [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34
  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  67  68  69
  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87
  88  89  90  91  92  93  94  95  96  97  98  99 116 117 118 119 120 121
 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139
 140 141 142 143 144 145 146 147 148 149]
test idx - [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]
train idx - [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  34
  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52
  53  54  55  56  57  58  59  60  61  62  63  64  65  66  83  84  85  86
  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104
 105 106 107 108 109 110 111 112 113 114 115 133 134 135 136 1

  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)
