# review 2

- 사이킷런으로 시작하는 머신러닝

In [2]:
import sklearn

- 첫 번째 머신러닝 만들어보기 - 붓꽃 품종 예측하기
  - 붓꽃 데이터 세트로 붓꽃의 품종을 분류해보자
  - 분류는 대표적인 지도학습 방법의 하나이다. 
  - 학습을 위한 다양한 피처와 분류 결정값인 레이블 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다. 
  - 즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다. 

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier # 트리 기반 ML 알고리즘 구현한 클래스 모임 모듈
from sklearn.model_selection import train_test_split
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다.
# from sklearn.datasets import load_iris 선이행 돼야 함
iris = load_iris()
# DICT 형태로 되어있다.
# key와 value 형태로 되어있음


# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다. 
# DICT에서 특정 키를 불러오는 방법 기억해두자
iris_data = iris.data


# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있습니다. 
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다. 
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target # label 칼럼 새로 생성해주었음
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [3]:
# iris
# key와 value 형태로 되어있음을 확인할 수 있다. 

- 이어서 다음 날

---

- 학습용 데이터와 테스트용 데이터를 분리.

In [5]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state = 11)
# random_state = 11 -> 호출할 때마다 같은 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값.
# X_train, X_test, y_train, y_test = 학습 데이터, 테스트 데이터, 학습 레이블, 테스트 레이블

- 의사 결정 트리를 이용해 학습과 예측을 수행해보자

In [7]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# DecisionTreeClassifier 객체의 fit() 메서드에 학습용 피처 데이터 속성과 결정값 데이터 세트를 입력해 호출하면 학습을 수행한다.
# 학습 수행중
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

- 학습 완료되었음
- DecisionTreeClassifier의 객체인 dt_clf가 학습 완료됐기에, dt_clf의 메서드 중 predict를 이용하여 예측을 수행한다.
- 예측 수행해보자
  - 이때 예측은 반드시 학습데이터가 아닌 다른 데이터를 이용해야 하며, 일반적으로 테스트 데이터 세트를 이용한다. 

In [8]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

In [11]:
# 예측 결과
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

- 예측 결과 기반으로 의사 결정 트리 기반의 예측 성능을 평가해보자
- 여러가지 성능 평가 방법 중 정확도를 측정해보자
  - 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표.
  - 즉 pred의 값과 y_test가 얼마나 일치하는지 확인하는 절차가 될 것

In [12]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.933333


- 절차
  - 1) 데이터 세트 분리
  - 2) 모델 학습
  - 3) 예측 수행
  - 4) 평가(예측된 결괏값과 테스트 레이블 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가한다)

---

- 사이킷런의 기반 프레임워크 익히기
  - 사이킷런은 ML 모델 학습을 위해서 fit()을 학습된 모델의 예측을 위해 predict() 메서드를 제공
  - 지도학습의 주요 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit()과 predict()만을 이용해 학습과 예측 결과를 반환할 수 있다. 

- Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부른다. 
- 즉, 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator라고 부른다. 따라서 당연히 Estimator 클래스는 fit()과 predict()를 내부에서 구현하고 있다. 

- ***cross_val_score()와 같은 evaluation 함수, GridSearchCV와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 이 Estimator를 인자로 받는다. 인자로 받은 Estimator에 대해서 cross_val_score(), GridSearchCV.fit() 함수 내에서 이 Estimator의 fit()과 predict()를 호출해서 평가를 하거나 하이퍼 파라미터 튜닝을 수행하는 것이다.***

- 사이킷런에서 비지도학습인 차원 축소, 클러스트링, 피처 추출 등을 구현한 클래스 역시 대부분 fit(), transform()을 적용한다. 
  - 비지도 학습과 피처 추출에서 fit()은 지도학습에서의 fit()과 같이 학습을 의미하는 것이 아니라 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업이다.
  - fit()으로 변환을 위한 사전 구조를 맞추면 이후 입력 데이터의 차원 변환, 클러스트링, 피처 추출 등의 실제 작업은 transform()으로 수행한다. 
  - 사이킷런은 fit()과 transform()을 하나로 결합한 fit_transform()도 함께 제공한다. (함께 사용하는만큼 주의가 필요.)

---

- 사이킷런의 주요 모듈

```python
sklearn.datasets # 사이킷런에 내장돼 있는 예제로 제공하는 데이터 세트
sklearn.preprocessing # 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)
```
그 외의 다양한 모듈들에 대해서는 교재 94p를 참고한다. 

- 일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 피처의 가공, 변경, 추출을 수행하는 피처 처리, ML 알고리즘 학습/예측 수행, 그리고 모델 평가의 단계를 반복적으로 수행하는 것.

---

- 분류와 클러스트링을 위한 표본 데이터 생성기
```python
datasets.make_classifications() # 분류를 위한 데이터 세트를 무작위로 생성
datasets.make_blobs() # 클러스트링을 위한 데이터 세트를 무작위로 생성
```
- 사이킷런에 내장된 이 데이터 세트는 일반적으로 딕셔너리 형태로 돼 있다.
  - 키는 보통 data, target(분류 시 레이블 값, 회귀 시 숫자 결괏값 데이터 세트), target_name(개별 레이블 이름), feature_names, DESCR(데이터 세트에 대한 설명과 각 피처의 설명)로 구성돼 있다. 
  - data,target은 넘파이 배열(ndarray), 나머지는 넘파이 배열 또는 파이썬 리스트 타입, DESCR은 스트링 타입

---

- feature의 데이터 값을 반환하기 위해서는 내장 데이터 세트 API를 호출한 뒤에 그 Key 값을 지정하면 된다.
  - 예제를 통해 알아보자

In [2]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


- sklearn.utils.Bunch은 클래스로서 파이썬 딕셔너리 자료형과 유사
  - 위에서 내가 DICT와 유사하다고 했는데 틀린 건 아니고 sklearn.utils.Bunch이 클래스가 DICT과 유사

In [6]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키 : ', keys)

붓꽃 데이터 세트의 키 :  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


---

- Model Selection 모듈 소개
  - 학습 데이터와 테스트 데이터 세트를 분리, 교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공.

- 학습/테스트 데이터 세트 분리 - train_test_split()

In [8]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data # 타겟은 제외
train_label = iris.target # 타겟
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도 : ', accuracy_score(train_label, pred))

예측 정확도 :  1.0


- 정확도 100%
  - 위의 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문이다.
    - 모의고사 답을 알고 있는 상태에서 동일 모의고사를 또 본 것.
    - 그래서 sklearn.model_selection 모듈에서 train_test_split을 로드해야 한다.

In [10]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier() # 객체 생성
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size = .3, random_state=121)
# 추가적인 파라미터 : shuffle = True(가 디폴트) : 데이터를 분리하기 전에 데이터를 미리 섞을지 결정, 데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용된다.

- 학습 데이터를 기반으로 학습 후 예측해보자

In [11]:
dt_clf.fit(X_train, y_train) # 학습
pred = dt_clf.predict(X_test) # 예측
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


- 교차 검증(부제 : 다양한 모의고사 수행)
  - 모델이 학습 데이터에만 과도하게 최적화되어 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 과도하게 떨어지는 `과적합` 방지.
  - 데이터 편증 방지

- K 폴드 교차 검증은 가장 보편적으로 사용되는 교차 검증 기법
  - 먼저 K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가(1차 평가)를 반복적으로 수행
  - K번 평가를 수행 뒤, 평균한 결과를 가지고 예측 성능을 평가.
  - 예를 들어 K=5라면, 데이터를 5등분하고, (이해의 편의를 위해 번호매긴다면) 첫 번째 평가는 5번 덩어리, 두 번째 평가는 4번 덩어리..이런식으로 5번 반복!

In [15]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold # 이 모듈에 아까 train_test_split 함수도 있었음
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

kfold = KFold(n_splits = 5) # KFold 객체
cv_accuracy = []  # 폴드 세트별 정확도를 담을 리스트 객체 생성
print('붓꽃 데이터 세트 크기: ', features.shape[0])

붓꽃 데이터 세트 크기:  150


In [18]:
features.shape

(150, 4)

In [22]:
n_iter = 0

# KFold객체의 split( ) 호출하면 폴드 별 학습용, 검증용 테스트의 row 인덱스를 array로 반환해줌!  
for train_index, test_index  in kfold.split(features):
    # kfold.split(features) 반환결과가 train_index, test_index 이 형태!
    
    # kfold.split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    #학습 및 예측 
    dt_clf.fit(X_train , y_train) # 학습    
    pred = dt_clf.predict(X_test) # 예측
    n_iter += 1 
    
    # 반복 시 마다 정확도 측정 
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter,test_index))
    
    cv_accuracy.append(accuracy)
    
# 개별 iteration별 정확도를 합하여 평균 정확도 계산 
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy)) 


#1 교차 검증 정확도 :1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


- 검증 시마다 검증 세트의 인덱스가 달라짐을 알 수 있다.

---

- 이어서