# **사이킷런으로 시작하는 머신러닝**

**1. 사이킷런 소개와 특징**

사이킷런(scikit-learn) 소개
- 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리
- 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리는 제공함
- 텐서플로, 케라스 등 딥러닝 전문 라이브러리와 함께 대표하는 파이썬 ML 라이브러리

사이킷런의 특징
- 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공함
- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공함
- 오랜 기간 실전 환경에서 검증됐으며 매우 많은 환경에서 사용된느 성숙한 라이브러리

  -> Anaconda를 설치하면 기본으로 사이킷런까지 설치가 완료되기에 별도의 설치가 필요없음

but, 최신버전의 사이킷런을 사용하고 싶으면 pip를 이용하여 설치하면 됨

     pip install scikit-learn==1.0.2

버전 확인을 위해서는 **sklearn.__version__**으로 확인하면 됨


In [2]:
pip install scikit-learn==1.0.2

Collecting scikit-learn==1.0.2
  Downloading scikit-learn-1.0.2.tar.gz (6.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.7/6.7 MB[0m [31m15.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mPreparing metadata [0m[1;32m([0m[32mpyproject.toml[0m[1;32m)[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Preparing metadata (pyproject.toml) ... [?25l[?25herror
[1;31merror[0m: [1mmetadata-generation-failed[0m

[31m×[0m Encountered error while generating package metadata.
[31m╰─>[0m See above for output.

[1;35mnote[0m: This is an issue with the package mentioned above, not pip.
[1;36mhint[0m: See above for details.


In [3]:
import sklearn

print(sklearn.__version__)

1.6.1


**2. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기**

붓꽃 데이터 세트
- 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(Feature)를 기반으로 꽃의 품종을 예측하기 위한 데이터셋

  -> 이를 이용하여 붓꽃의 품종을 분류(Classification)하자!

  **분류(Classification): 대표적인 지도학습(Supervised Learning) 방법의 하나

지도학습
- 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측함

=> 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식
- 학습을 위해 주어진 데이터 세트를 train dataset, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 test dataset라고 함

사이킷런 모듈
- 사이킷런 모듈명: sklearn으로 시작
  - sklearn.datasets 내 모듈: 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임
  - sklearn.tree 내 모듈: 트리 기반 ML 알고리즘을 구현한 클래스의 모임
  - sklearn.model_selection: 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임
  - 하이퍼 파라미터: 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터의 통칭

    -> 이를 통하여 머신러닝 알고리즘의 성능 튜닝 가능

In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

- load_iris() 함수를 임포트하여 붓꽃 데이터 세트를 생성함
- sklearn.tree내 DecisionTreeClassifier을 임포트하여 ML알고리즘으로 의사 결정 트리 알고리즘을 이용함
- 전체 데이터셋을 학습데이터와 테스트데이터로 분리하기 위해 train_test_split을 임포트함

In [5]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다.
iris = load_iris()

# iris.date는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다.
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있습니다.
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다.
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


- load_iris() 함수를 이용하여 붓꽃 데이터 세트를 로딩한 후, 피처들과 데이터 값 어떻게 구성되어 있는지 확인하기 위하여 DataFrame으로 변환하는 과정을 거쳤다.

  -> 이때 피처를 확인하면 **sepal length, sepal width, petal length, petal width**가 있는 것을 알 수 있고, 레이블(결정값)은 **0, 1, 2**의 세 가지 값으로 구성되어 있으며 **0은 Setosa 품종, 1은 versicolor 품종, 2는 virginica 품종**을 의미함

In [6]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

해당 코드를 이용하여 학습용 데이터와 테스트용 데이터를 분리해보자.

** 이를 분리해야 하는 이유는 학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하기 위해선 테스트 데이터 세트가 필요하기 때문임!!

-> 사이킷런에서는 이러한 데이터분리에 유용한 train_test_split() API를 제공함
- train_test_split(): 학습 데이터와 테스트 데이터를 test_size 파라미터 입력값의 비율로 분할 (test_size=(테스트 데이터의 비율))
  - test_size : 테스트 데이터의 비율을 작성
  - random_state: 따로 지정하지 않을 경우 수행할 때마다 다른 학습/테스트용 데이터 세트를 생성하지만, 이를 지정하는 경우 동일한 데이터 세트로 분리해줌 (이는 random값을 생성하는 seed와 같은 의미로, 숫자 자체는 어떤 값을 지정해도 무관함)

[코드분석]

다음 코드를 분석해보면 train_test_spit()의 iris_data는 피처 데이터 세트, iris_label은 레이브 데이터 세트이다. 이때 test_size=0.2는 전체 데이터 세트 중 테스트 데이터는 20%, 학습용 데이터는 80%로 분할한다는 의미이다. 마지막으로 random_state를 11로 지정하여 수행할 때마다 동일한 데이터 세트로 분리하도록 하였다.
  

In [7]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행
dt_clf.fit(X_train, y_train)

학습데이터를 확보했으므로 이를 기반으로 머신러닝 분류 알고리즘 중 하나인 의사결정트리를 이용하여 학습과 예측을 수행해보자.

- DecisionTreeClassifier() : 의사결정트리 클래스를 객체로 생성함
  - fit(): 학습용 피처 데이터 속성과 결정값 데이터 세트를 입력하여 호출하면 학습을 수행하는 메서드

[코드 분석]

dt_clf에 의사결정 트리 클래스 객체를 생성하여 내부에 위에서 입력된 random_state=11을 입력하였다. (동일한 학습/예측 결과를 출력하기 위해 입력하였음)

이후 dt_clf.fit 내부에 X_train, Y_train을 입력하여 학습을 수행하였다.

In [8]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
pred = dt_clf.predict(X_test)

학습된 DecisionTreeClassifier 객체를 이용하여 예측을 수행해보자.
- 예측은 반드시 학습 데이터가 아닌 다른 데이터를 이용해야 하고, 일반적으로 테스트 데이터 세트를 이용함
  - predict(): 테스트용 피처 데이터 세트를 입력하고 호출하면 학습된 모델 기반에서 테스트 데이터 세트에 대한 예측값을 반환하게 됨
  
[코드 분석]

위에서 학습이 완료된 dt_clf 객체에서 .predict()를 이용하여 X_test의 테스트 피처 데이터 세트로 예측을 수행하고 이를 pred 객체에 저장하였다.

In [9]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


예측 결과를 기반으로 의사 결정 트리 기반의 DecisionTreeClassifier의 예측 성능을 정확도를 측정하여 평가해보자.
- 정확도: 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표
  - accuracy_score(): 정확도를 측정하는 함수로, 첫 번째 파라미터에 실제 레이블 데이터 세트, 두 번째 파라미터에 예측 레이블 데이터 세트를 입력하면 됨

[코드 분석]

학습한 의사 결정 트리의 알고리즘 예측 정확도가 약 93.33%으로 측정되었다.

[분류를 예측한 프로세스 정리]

1. **데이터 세트 분리**: 데이터를 학습 데이터와 테스트 데이터로 분리
2. **모델 학습**: 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습함
3. **예측 수행**: 학습된 ML 모델을 이용해 테스트 데이터의 분류를 예측함
4. **평가**: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교하여 ML 모델 성능을 평가함

**3. 사이킷런의 기반 프레임워크 익히기**

Estimator 이해 및 fit(), predict() 메서드
- 사이킷 런 클래스는 fit()과 predict()만을 이용하여 간단하게 학습과 예측결과를 반환함
  - fit(): ML 모델 학습을 위한 메서드
  - predict(): 학습된 모델을 예측하기 위한 메서드

Estimator 클래스
- Classifier(분류)와 Regressor(회귀)의 클래스를 통칭하여 부르는 말
- Classifier(분류) 구현 클래스
  - DecisionTreeClassifier
  - RandomForestClassifier
  - GradientBoostingClassifer
  - GaussianNB
  - SVC
- Regressor(회귀) 구현 클래스
  - LinearRegression
  - Ridge
  - Lasso
  - RandomForestRegressor
  - GradientBoostingRegressor

- 비지도학습인 차원 축소, 클러스터링, 피처 추출 등을 구현한 클래스 역시 대부분 fit()과 transform()을 적용함
  - fit(): 지도학습과 달리 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업을 수행
  - transform(): 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업을 수행

사이킷런의 주요 모듈
- 예제 데이터 <sklearn.datasets>: 사이킷런에 내장되어 예제로 제공하는 데이터 셋
- 피처 처리 <sklearn.preprocessing>: 데이터 전처리에 필요한 다양한 가공 기능을 제공 (문자열을 숫자형 코드값으로 인코딩, 정규화, 스케일링 등)
- 피처 처리 <sklearn.feature_slection>: 알고리즘에 큰 영향을 미치는 피처 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공
- 피처 처리 <sklearn.feature_extraction>: 테스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용
- 피처 처리 & 차원 축소 <sklearn.decomposition>: 차원 축소와 관련한 알고리즘을 지원하는 모듈로 PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있음
- 데이터 분리, 검증 & 파라미터 튜닝 <sklearn.model_selection>: 교차 검증을 위한 학습용/테스트용 분리, 그리드 서치(Grid Search)로 최적 파라미터 추출 등의 API 제공
- 평가 <sklearn.metrics>: 분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공
- ML 알고리즘 <sklearn.ensemble>: 앙상블 알고리즘을 제공하며 랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공함
- ML 알고리즘 <sklearn.linear_model>: 주로 선형 회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원, 또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공
- ML 알고리즘 <sklearn.naives_bayes>: 나이브 베이즈 알고리즘을 제공하는 모듈로, 가우시안 NB, 다항분포 NB 등
- ML 알고리즘 <sklearn.neighbors>: 최근접 이웃 알고리즘 제공, K-NN 등
- ML 알고리즘 <sklearn.svm>: 서포트 벡터 머신 알고리즘 제공
- ML 알고리즘 <sklearn.tree>: 의사 결정 트리 알고리즘 제공
- ML 알고리즘 <sklearn.cluster>: 비지도 클러스터링 알고리즘 제공 (K-평균, 계층형, DBSDAN 등)
- ML 알고리즘 <sklearn.pipline>: 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 먺어서 실행할 수 있는 유틸리티 제공

  -> 피처의 가공, 변경, 추출을 수행하는 피처 처리(feature processing), ML 알고리즘 학습/예측 수행, 모델 평가의 단계를 반복적으로 수행

내장된 예제 데이터 세트

사이킷런에는 별도의 외부 웹사이트에서 데이터 세트를 내려 받을 필요 없이 간단하면서 좋은 데이터 세트가 내장되어 있는데, 이는 datasets 모듈에 있는 여러 API를 호출하여 만들 수 있음

(1) 분류나 회귀 연습용 예제 데이터
- datasets.load_boston(): 회귀 용도이며, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
- datasets.load_breast_cancer(): 분류 용도이며, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
- datasets.load_diabetes(): 회귀 용도이며, 당뇨 데이터 세트
- datasets.load_digits(): 분류 용도이며, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
- datsets.load_iris(): 분류 용도이며, 붓꽃에 대한 피처를 가진 데이터 세트

fetch 계열의 명령의 경우, 데이터의 크기가 커서 패키지에 처음부터 저장되어 있지 않고 인터넷에서 내려밭은 후 scikit_lear_data라는 서브 디렉토리에 저장하여 불러들이는 데이터로 사용된다.
- fetch_covtype(): 회귀분석용 토지 조사 자료
- fetch_20newgroups(): 뉴스 그룹 텍스트 자료
- fetch_olivetti_faces(): 얼굴 이미지 자료
- fetch_lfw_people(): 얼굴 이미지 자료
- fetch_ifw_pairs(): 얼굴 이미지 자료
- fetch_rcv1(): 로이터 뉴스 말뭉치
- fetch_mldata(): ML 웹사이트에서 다운로드

(2) 분류와 클러스터링을 위한 표본 데이터 생성기
- datasets.make_clasification(): 분류를 위한 데이터 세트를 만듦. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해줌
- datasets.make_blocks(): 클러스터링을 위한 데이터 세트를 무작위로 생성해줌. 군집 지정 개수에 따라 여러가지 클러스터링을 위한 데이터 세트를 쉽게 만들어줌

데이터의 구성을 확인해보면 사이킷런의 내장된 데이터 세트는 일반적으로 딕셔너리 형태로 되어 있고, 키는 보통 data, target_name, feature_names, DESCR로 구성돼 있음.

(1) 넘파이 배열 (ndarray)타입
- data: 피처의 데이터 세트
- target: 분류 시 레이블 값, 회귀일 땐 숫자 결괏값 데이터 세트

(2) 넘파이 배열 또는 파이썬 리스트(list) 타입
- target_names: 개별 레이블의 이름
- feature_names: 피처의 이름

(3) 스트링 타입
- DESCR: 데이터 세트에 대한 설명과 각 피처의 설명

In [10]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


[코드 분석]

load_iris() API 반환 결과는 sklearn.utils.Bunch 클래스로 이는 파이썬 딕셔너리 자료형과 유사하다.

In [11]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


데이터 세트에 내장되어 있는 대부분의 데이터 세트는 딕셔너리 형태의 값을 반환하는 경우가 다수인데, 딕셔너리 형태이기 때문에 피처 데이터 값을 추출하기 위해서는 데이터세트.data(or 데이터세트['data'])를 이용해야 함

In [12]:
print('\n feature_names의 type:', type(iris_data.feature_names))
print('feature_names의 shape:', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names의 type:', type(iris_data.target_names))
print('target_names의 shape:', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:', type(iris_data.data))
print('data의 shape:', iris_data.data.shape)
print(iris_data['data'])

print('\n target의 type:', type(iris_data.target))
print('target의 shape:', iris_data.target.shape)
print(iris_data.target)


 feature_names의 type: <class 'list'>
feature_names의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 type: <class 'numpy.ndarray'>
target_names의 shape: 3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 

**4. Model Selection 모듈 소개**
- 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분할 및 평가, Estimator의 하이처 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공


In [13]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도:', accuracy_score(train_label, pred))

예측 정확도: 1.0


위의 코드는 테스트 데이터 세트를 이용하지 않고 동일한 학습 데이터 세트로 학습하고 예측까지 진행한 결과이다. 해당 결과는 예측 정확도가 1.0(100%)로 나왔는데, 이는 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문에 나타난 결과이다.

따라서 위의 결과를 보았을 때 학습 데이터 세트와 테스트 데이터 세트는 달라야 하며, 이는 사이키ㅅ런의 train_test_split()이라는 명령어를 통해 원본 데이터 세트에서 학습 및 테스트 데이터 세트를 분리해야 한다.

In [14]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)

학습/테스트 데이터 세트 분리 - train_test_split()
- test_size: 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링 할 것인가를 결정 (디폴트: 0.25)
- train_size: 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정 (대개 test_size_parameter을 사용함)
- shuffle: 데이터를 분리하기 전 데이터를 미리 섞을지를 결정(디폴트: True), 이를 통해 데이터를 분산시켜 좀 더 효율적인 학습 및 테스트 데이터 세트를 만들 수 있음
- random_state: 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수값으로, 이를 지정하지 않으면 수행할 때마다 다른 학습/테스트용 데이터를 생성함
- train_test_split() 반환값: 튜플 형식으로, 순차적으로 학습용 데이터의 피처 데이터, 테스트용 데이터의 피처 데이터, 학습 데이터의 레이블 데이터, 테스트용 데이터의 레이블 데이터 세트를 반환함

[코드 분석]

위의 코드에선 tset_size를 0.3으로 지정한 것으로 보아 test data를 30% train data를 70%로 분리한 것을 알 수 있다. 또한 random_state=121로 지정하여 데이터가 수행할 때마다 랜덤하게 변화하는 것을 방지하였다.

In [15]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


이를 통해 데이터를 학습한 후 예측 정확도를 측정해보자.

[코드 분석]

테스트 데이터로 예측을 수행한 결과 정확도가 약 95.56%인 것을 확인할 수 있었다. 하지만 이는 붓꽃 데이터가 150개라는 적은 데이터 양을 가지고 있기 때문에, 30%인 45개의 데이터셋을 가지고 성능을 파악하기엔 부족한 감이 있다고 판단할 수 있다.

즉, 학습을 위한 데이터의 양을 일정 수준 이상으로 보장하는 것도 중요하나 학습된 모델에 대한 다양한 데이터를 기반으로 예측 성능을 평가하는 것도 중요하다는 것이다.

- 학습 데이터와 이에 대한 예측 성능을 평가하기 위한 별도의 테스트용 데이터를 분리하는 경우 **과적합(overfitting)**에 취약한 약점을 가질 수 있음

** 과적합(Overfitting): 모델이 학습 데이터만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행하는 경우 예측 성능이 과도하게 떨어지는 것을 의미

  -> 고정된 학습 데이터와 테스트 데이터로 평가를 진행하다 보면 테스트 데이터만 최적의 성능을 발휘할 수 있게 편향된 모델을 유도하는 경향이 생기게 됨
    
  => 문제해결의 key: **교차검증을 이용한 다양한 학습과 평가 수행**!

교차 검증
- 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행함
- 각 세트에서 수행한 평가 결과에 따라 하이퍼 파라미터 튜닝 등의 모델 최적화를 손쉽게 진행 가능

K 폴드 교차 검증
- 가장 보편적으로 사용되는 교차 검증 기법
- K개의 데이터 폴드 세트를 만들어 K번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법

  = 학습 데이터 세트와 검증 데이터 세트를 점진적으로 변경하면서 마지막 K번째 까지 학습과 검증을 수행하는 방법
- 사이킷런에서는 이를 구현하기 위해 KFold와 StratifiedKFold 클래스를 제공함

In [16]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold = KFold(n_splits=5)
cv_accuracy=[]
print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


먼저 KFold 교차 검증을 진행하기 위해서 붓꽃 데이터 세트와 DecisionTreeClassifier을 다시 생성하고 5개의 폴드 세트로 분리하는 KFold 객체를 생성하였다.
이때 전체 붓꽃 데이터 세트의 크기는 150개 이므로 120개는 train dataset으로, 30개는 test dataset으로 다시 한번 분할하자

In [17]:
n_iter = 0

# KFold 객체의 split()를 호출하면 폴드별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
  # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)
  n_iter += 1
  # 반복 시마다 정확도 측정
  accuracy = np.round(accuracy_score(y_test, pred), 4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print('\n#{0} 교차 검증 정확도:{1}, 학습 데이터 크기:{2}, 검증 데이터 크기:{3}'.format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도:1.0, 학습 데이터 크기:120, 검증 데이터 크기:30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도:0.9667, 학습 데이터 크기:120, 검증 데이터 크기:30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도:0.8667, 학습 데이터 크기:120, 검증 데이터 크기:30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도:0.9333, 학습 데이터 크기:120, 검증 데이터 크기:30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도:0.7333, 학습 데이터 크기:120, 검증 데이터 크기:30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


for문을 이용하여 교차 검증 시 마다 학습데이터와 검증데이터의 인덱스를 달리 부여하여 이들이 어떻게 할당 되었는지 확인하고 이를 기반으로 검증을 수행하였더니 평균 검증 정확도는 약 90%가 도출되었음을 알 수 있다.

Stratified K 폴드
- 불균형(imbalanced)한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식
  - 이러한 불균형은 특정 레이블 값이 특이하게 많거나 적을 때 분포가 한쪽으로 치우치며 나타나게 됨
- 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배함

In [18]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label']=iris.target
iris_df['label'].value_counts()

Unnamed: 0_level_0,count
label,Unnamed: 1_level_1
0,50
1,50
2,50


먼저 DataFrame을 추출하여 레이블 값의 분포도를 확인하였다.
해당 레이블 값은 0,1,2 값 모두 50ㄱ로 동일하다는 것을 알 수 있다

In [22]:
kfold = KFold(n_splits=3)
n_iter=0
for train_index, test_index in kfold.split(iris_df):
  n_iter += 1
  label_train=iris_df['label'].iloc[train_index]
  label_test=iris_df['label'].iloc[test_index]
  print('##교차 검증: {0}.format(n_iter)')
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포: \n', label_test.value_counts())

##교차 검증: {0}.format(n_iter)
학습 레이블 데이터 분포:
 label
1    50
2    50
Name: count, dtype: int64
검증 레이블 데이터 분포: 
 label
0    50
Name: count, dtype: int64
##교차 검증: {0}.format(n_iter)
학습 레이블 데이터 분포:
 label
0    50
2    50
Name: count, dtype: int64
검증 레이블 데이터 분포: 
 label
1    50
Name: count, dtype: int64
##교차 검증: {0}.format(n_iter)
학습 레이블 데이터 분포:
 label
0    50
1    50
Name: count, dtype: int64
검증 레이블 데이터 분포: 
 label
2    50
Name: count, dtype: int64


이후 문제가 되는 현상을 도출하기 위해 앞서 수행한 KFold 교차검증을 해당 데이터로 진행하여 보자.

과정을 진행한 결과, 교차 검증 시마다 3개의 폴드 세트로 만들어지는 학습 레이블과 검증 레이블이 완전히 다른 값으로 추출되는 것을 확인할 수 있다. 즉 학습 레이블에 1,2만 있고 0이 없기 때문에 학습모델은 0을 학습하지 못하고, 검증레이블의 0을 바로 검증해야 하는 현상이 발생한다.

(데이터가 0,1,2가 고르게 뽑혀 100개의 데이터를 주는 것이 아닌, 그냥 앞에서부터 데이터를 100개 끊어서 준 경우를 나타냄)

In [24]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
  n_iter +=1
  label_train=iris_df['label'].iloc[train_index]
  label_test=iris_df['label'].iloc[test_index]
  print('## 교차 검증: {0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포: \n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 label
2    34
0    33
1    33
Name: count, dtype: int64
검증 레이블 데이터 분포: 
 label
0    17
1    17
2    16
Name: count, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 label
1    34
0    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포: 
 label
0    17
2    17
1    16
Name: count, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 label
0    34
1    33
2    33
Name: count, dtype: int64
검증 레이블 데이터 분포: 
 label
1    17
2    17
0    16
Name: count, dtype: int64


이러한 문제를 StratifiedKFold를 이용하여 해결하여보자.

동일한 데이터셋을 가지고 StratifiedKFold를 이용하여 학습데이터와 평가데이터를 분류하고 데이터의 분포를 확인하기 위해선 학습.검증 데이터를 나누는 과정에서 레이블 데이터의 분포도를 확인해야 한다.

즉 앞서 KFold 교차검증에서는 split 메서드의 인자로 피처 데이터 세트만 주면 되었지만, 지금은 피쳐 데이터 세트와 레이블 데이터 세트를 동시에 입력하여야 한다.

[코드 분석]

출력 결과를 확인하면 학습 레이블과 검증 레이블의 데이터 값의 분포도가 거의 유사한 것을 확인할 수 있다. 따라서 이러한 분할이 진행되었을 때 학습과 평가가 모두 0, 1, 2에 대해서 진행될 수 있다는 점이다.

In [36]:
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy=[]

# StratifiedKFold의 split() 호출 시 반드시 레이블 데이터 세트도 추가 입력이 필요하다.
for train_index, test_index in skfold.split(features, label):
  # split()으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터를 추출함
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)

  # 반복 시마다 정확도 측정
  n_iter +=1
  accuracy = np.round(accuracy_score(y_test,pred), 4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

  #교차 검증별 정확도 및 평균 정확도 계산
  print('\n 교차 검증별 정확도:', np.round(cv_accuracy, 4))
  print('## 평균 검증 정확도:', np.round(np.mean(cv_accuracy), 4))


#1 교차 검증 정확도 :0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

 교차 검증별 정화도: [0.98]
## 평균 검증 정확도: 0.98

#2 교차 검증 정확도 :0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

 교차 검증별 정화도: [0.98 0.94]
## 평균 검증 정확도: 0.96

#3 교차 검증 정확도 :0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

 교차 검증별 정화도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9667


마찬가지로 StratifiedKFold로 교차 검증한 결과를 확인하여 보자.
다음 인덱스와 정확도를 확인한 결과, 평균 검증 정확도가 약 96.67%로 측정된 것을 확인할 수 있다.

다만 StratifiedKFold의 경우 일반 분류에서의 교차검증은 반드시 StratifiedKFold를 이용하는 것이 맞으나, **회귀에서의 교차검증은 지원되지 않는다는 점**을 유의해야 한다

-> 회귀의 결정값은 이산값 형태가 아닌 연속되 숫자값이기 때문에 결정값 별 분포를 정하는 의미가 없기 때문임

교차 검증을 보다 간편하게 - cross_val_score()
- 위에서 KFold의 교차검증 과정을 보면 폴드 세트를 설정하고, for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출한 뒤 반복적으로 학습과 예측을 수행하고 예측성능을 반환하는 것을 확인할 수 있음

  -> cross_val_score()는 이러한 과정을 한꺼번에 수행해주는 API임!

- 주요 파라미터
  - estimator: 사이킷런의 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor을 의미
  - X: 피처 데이터 세트
  - y: 레이블 데이터 세트
  - scoring: 예측 성능 평가 지표 기술
  - cv: 교차 검증 폴드 수
- 반환값: scoring 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환
- 데이터 분할: 기본적으로 Stratified KFold를 수행하나, 회귀의 경우 일반 KFold를 수행

In [28]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data=iris_data.data
label=iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


cross_val_score의 과정을 자세히 살펴보자.
cross_val_score의 경우 cv로 지정된 횟수 만큼 scoring 파라미터로 지정된 평가 지표로 평가 결과값을 배열로 반환한다. (이때 결과값은 일반적으로 평균하여 나타낸다. )

다음 코드를 돌려보면 Stratified KFold와 동일하게 평균 검증 정확도가 96.67%로 나타난 것을 확인할 수 있고, 대신 코드는 굉장히 짧아진 것도 확인할 수 있다.

GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에(하이퍼 파라미터)
- 머신러닝 알고리즘을 구성하는 주요 구성 요소로 해당 값을 조정하여 알고리즘의 예측 성능을 갸선 가능
- 사이킷런은 GridSearchCV라는 API를 이용하여 Classifier나 Regression과 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하여 편리하게 최적의 파라미터를 도출 할 수 있는 방안을 제공함
  - 데이터 세트를 cross-validation을 위한 학습/테스트 데이터 세트로 자동으로 분할한 뒤 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차 적용하여 최적의 파라미터를 찾도록 함
- 수행시간이 상대적으로 오래걸리는 단점도 존재
- 주요 파라미터
  - estimator: classifier, regressor, pipeline이 사용 가능
  - param_grid: key+ 리스트 값을 가지는 딕셔너리가 주어짐, estimator 튜닝을 위해 파라미터 명과 사용될 여러 파라미터 값을 지정함
  - scoring: 예측 성능을 측정할 평가 방법을 지정함, (별도의 성능 평가 지표 함수도 사용 가능)
  - cv: 교차 검증을 위해 분할 되는 학습/테스트 세트의 개수를 지정
  - refit: 디폴트가 True이며 True로 생성 시 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습 시킴

In [30]:
grid_parameters = {'max_depth':[1, 2, 3], 'min_samples_split': [2, 3]}

하이퍼 파라미터의 경우 해당 코드를 돌리면 순차적으로 앞선 인덱스부터 바꿔가며 적용되며 총 6번의 과정을 수행하는 것을 알 수 있다.(3 * 2 번의 과정)

In [32]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121)
dtree = DecisionTreeClassifier()

### 파라미터를 딕셔너리 형태로 설정
parameters={'max_depth':[1, 2, 3], 'min_samples_split':[2 ,3]}

먼저 해당 코드를 보면 train_test_split을 통하여 train data를 80%, test date를 20%로 할당하고, 이들을 의사결정트리의 주요 하이퍼 파라미터인 max_depth와 min_samples_split의 값을 변화시키며 최적화를 진행하였다.

In [33]:
import pandas as pd

# param_groid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정.
### refit=True가 default임. Truedlaus rkwkd whgdms vkfkalxj tjfwjddmfh wogkrtmq tlzla
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)
# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습 평가
grid_dtree.fit(X_train, y_train)

# GridSEarchCV 결과를 추출하여 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


이후 학습 데이터 세트를 GridSearchCV객체의 fit(학습데이터 세트) 로 입력하자. 이를 수행하면 학습 데이터를 cv에 기술된 폴딩 세트로 분할하여 param_grid에 기술된 하이퍼파라미터를 순차적으로 변경하며 학습/평가를 수행하고, 이를 cv_result에 기록하는 것을 확인할 수 있다.

[코드 분석]

위의 결과를 확인하면 총 6개의 결과를 확인할 수 있고 앞서 말한 하이퍼 파라미터 인자를 순차적으로 6번 변경하며 학습과 평가를 진행한것을 확인할 수 있다. 칼럼 중 rank_test_score을 확인하면 칼럼값에 따라 예측 성능의 순위가 부여된 것을 확인할 수 있다.

여기서 나타나는 칼럼 별 의미
- params: 수행할 때마다 적용된 개별 하이퍼 파라미터 값
- rank_test_score: 하이퍼 파라미터 별로 성능이 좋은 score 순위를 나타냄 (1이 가장 좋으며 이것이 최적의 하이퍼 파라미터임)
- mean_test_score: 개별 하이퍼 파라미터 별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값

In [34]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


여기서 앞서 확인한 표의 최적 파라미터와 최고 정확도를 다시하면 출력하면 max_depth가 3, min_samplse_split이 2일 때 검증용 폴드 세트에서 평균 정확도가 97.5로  측정되는 것을 확인할 수 있다.

In [35]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요없음
pred=estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9667


이를 통해 해당 하이퍼 파라미터로 적용된 estimator을 이용하여 테스트 데이터 세트를 예측하고 성능을 평가해본 결과 테스트 데이터 세트의 정확도는 96.67%의 정확도를 가지는 것을 확인할 수 있다.