# chapter 2. Machine Learning Starting with Scikit-Learn 

## Scikit-Learn 

**사이킷런**은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다. <br>
파이썬 기반 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고, 가장 파이썬스러운 API를 제공한다. <br>
머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임 워크와 API를 제공한다. 

In [2]:
import sklearn

print(sklearn.__version__)

1.2.1


## 붓꽃 품종 예측하기

**분류(Classification)** 은 대표적인 **지도 학습(Supervised Learning)** 방법의 하나이다. <br>
지도학습을 위한 다양한 피처와 분류 결정값인 **레이블 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측**한다. <br>
즉 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다. <br>

**sklearn.datasets** 내 모듈은 사이킷런 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임이다. <br>
**sklearn.tree** 내 모듈은 트리 기반 ML 알고리즘을 구현한 클래스 모임이다. <br>
**sklearn.model_selection**은 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분석하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임이다. <br>
**하이퍼 파라미터**란 머신러닝 알고리즘 별 최적의 학습을 위해 직접 입력하는 파라미터를 통칭하며, 하이퍼 파라미터를 통해 머신러닝 알고리즘 성능 튜닝이 가능하다. <br>

**데이터 세트를 학습 데이터와 테스트 데이터로 분리**하는 데는 **train_test_split()** 함수를 사용한다. 

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [5]:
import pandas as pd

# 붓꽃 데이터 세트 로드
iris = load_iris()

# iris.data는 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있다. 
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블 데이터를 numpy로 가지고 있다.
iris_label = iris.target
print('iris target 값 : ', iris_label)
print('iris target 이름 : ', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환한다. 
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target 값 :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 이름 :  ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


**학습용 데이터와 테스트용 데이터 분리**

학습용 데이터와 테스트용 데이터는 **반드시 분리**해야 한다. <br>
사이킷런에서 제공하는 **train_test_split()** API를 이용, 학습 데이터와 테스트 데이터를 **test_size 파라미터 입력값의 비율로 분할**할 수 있다. 

In [6]:
X_train, X_test, Y_train, Y_test = train_test_split(iris_data, iris_label, 
                                                   test_size = 0.2, random_state = 11)

첫번째 파라미터인 iris_data는 피처 세트이다. <br>
두번째 파라미터인 iris_label은 레이블 데이터 세트이다. <br>
세번째 파라미터인 test_size는 전체 데이터 세트 중 테스트 데이터 세트의 비율이다. (0.2는 전체 20%) <br>
마지막 파라미터인 random_state는 호출할 때마다 같은 학습, 테스트용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값이다. 

위 코드까지는 학습 데이터를 확보하는 과정이다. <br>
확보한 데이터를 기반으로 머신러닝 분류 알고리즘의 하나인 **의사 결정 트리를 이용해 학습과 예측을 수행**한다. <br>

**사이킷런의 의사 결정 트리 클래스**인 **DecisionTreeClassifier**를 객체로 생성한다.

In [9]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)

# 학습 수행
dt_clf.fit(X_train, Y_train)

**예측은 반드시 학습 데이터가 아닌 다른 데이터를 이용**해야 한다. <br>
**predict()** 메서드에 테스트용 피처 데이터 세트를 입력해 호출하면 **학습된 모델 기반에서 테스트 데이터 세트에 대한 예측값을 반환**한다. 

In [11]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

**정확도**는 **예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지**를 평가하는 지표이다. <br>
사이킷런은 정확도 측정을 위해 **accuracy_score()** 함수를 제공한다. 

In [12]:
from sklearn.metrics import accuracy_score
print('예측 정확도 : {0:.4f}'.format(accuracy_score(Y_test, pred)))

예측 정확도 : 0.9333


**붓꽃 데이터 세트로 분류를 예측한 프로세스**

1. 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리한다. <br>
2. 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다. <br>
3. 예측 수행 : 학습된 ML 모델을 이용해 테스트 데이터의 분류를 예측한다. <br>
4. 평가 : 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML 모델 성능을 평가한다. 

## 사이킷런의 기반 프레임워크 

### Estimator 이해 및 fit(), predict() 메서드

사이킷런은 **ML모델 학습을 위해 fit()** 을, **학습된 모델의 예측을 위해 predict()** 메서드를 제공한다. <br>
사이킷런에서는 **분류 알고리즘을 구현한 클래스를 Classifier**로, **회귀 알고리즘을 구현한 클래스를 Regressor**로 지칭한다. <br>
**지도학습의 모든 알고리즘을 구현한 클래스를 통칭해 Estimator**라고 부른다. <br>
하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 Estimator를 인자로 받는다. <br>

**비지도학습과 피처 추출에서 fit()** 은 지도학습의 fit()과 같이 학습을 의미하는 것이 아니라 **입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업**이다. <br>
**fit()으로 변환을 위한 사전 구조를 맞추면 이후 입력 데이터의 차원 변환**, **클러스터링, 피처 추출 등의 실제 작업은 transform()** 으로 수행한다. 
사이킷런은 **fit()과 transform()을 하나로 결합**한 **fit_transform()** 도 제공한다. 


### 사이킷런의 주요 모듈

|분류|모듈명|설명|
|:------:|:---:|:---:|
|예제 데이터|sklearn.datasets|사이킷런에 내장되어 예제로 제공하는 데이터 세트|
|피처 처리|sklearn.feature_preprocessing|데이터 전처리에 필요한 다양한 가공 기능 제공 (문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)|
|피처 처리|sklearn.feature_selection|알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공|
|피처 처리|sklearn.feature_extraction|텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용한다.|
|피처 처리 & 차원 축소|sklearn.decompostion|차원 축소와 관련한 알고리즘을 지원하는 모듈이다. <br> PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있다.|
|데이터 분리, 검증 & 파라미터 튜닝|sklearn.model_selection|교차 검증을 위한 학습용 / 테스트용 분리, 그리드 서치로 최적 파라미터 추출 등의 API 제공|
|평가|sklearn.metrics|분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법을 제공한다.|
|ML 알고리즘|sklearn.ensemble|앙상블 알고리즘 제공|
|ML 알고리즘|sklearn.linear_model|주로 선형 회귀, Ridge, Lasso 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원한다. 또한 SGD 관련 알고리즘도 제공한다.|
|ML 알고리즘|sklearn.navie_bayes|나이브 베이즈 알고리즘 제공|
|ML 알고리즘|sklearn.neighbors|최근접 이웃 알고리즘 제공|
|ML 알고리즘|sklearn.svm|서포트 백터 머신 알고리즘 제공|
|ML 알고리즘|sklearn.tree|의사 결정 트리 알고리즘 제공|
|ML 알고리즘|sklearn.cluster|비지도 클러스터링 알고리즘 제공|
|유틸리티|sklearn.pipline|피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공|

### 내장된 예제 데이터 세트

사이킷런에 내장 되어있는 데이터 세트는 **분류나 회귀를 연습하기 위한 예제용도의 데이터 세트**와 **분류나 클러스터링을 위해 표본 데이터로 생성될 수 있는 데이터 세트**로 나뉜다. <br>
fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장되어 있지 않고, 내려받아 홈 디렉터리 아래의 scikti_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터이다. <br>

**분류와 클러스터링을 위한 표본 데이터 생성기** <br>
|API명|설명|
|:------:|:---:|
|datasets.make_classifictions()|분류를 위한 데이터 세트를 만든다. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성한다.|
|datasets.make_blobs()|클러스터링을 위한 데이터 세트를 무작위로 생성해 준다. 군집 지정 갯수에 따라 여러가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 준다.|

<br>

**분류나 회귀를 위한 연습용 예제 데이터** <br>

사이킷런 내장 데이터 세트는 일반적으로 **딕셔너리 형태**로 되어있다. <br>
키는 보통 data, target_name, feature_names, DESCR로 구성되어 있다. <br>

**data**는 피처의 데이터 세트를 가리킨다. <br>
**target**은 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트이다. <br>
**target_names**는 개별 레이블의 이름을 나타낸다. <br>
**feature_names**는 피처의 이름을 나타낸다. <br>
**DESCR**은 데이터 세트에 대한 설명과 각 피처의 설명을 나타낸다. <br>

피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출할 뒤 그 키값을 지정하면 된다. 

In [15]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


Bunch 클래스는 파이썬 딕셔너리 자료형과 유사하다. 

In [16]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키 : ', keys)

붓꽃 데이터 세트의 키 :  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


데이터 키는 피처들의 데이터 값을 가리킨다. <br>
**데이터 값을 추출**하기 위해서는 **데이터 세트.data(데이터 세트['data'])** 를 이용한다. 

In [18]:
print('feature_names의 type : ', type(iris_data.feature_names))
print('feature_names의 shape : ', len(iris_data.feature_names))
print(iris_data.feature_names)

print('target_names의 type : ', type(iris_data.target_names))
print('target_names의 shape : ', len(iris_data.target_names))
print(iris_data.target_names)

print('data의 type : ', type(iris_data.data))
print('data의 shape : ', len(iris_data.data.shape))
print(iris_data['data'])

print('target의 type : ', type(iris_data.target))
print('target의 shape : ', len(iris_data.target.shape))
print(iris_data.target)

feature_names의 type :  <class 'list'>
feature_names의 shape :  4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
target_names의 type :  <class 'numpy.ndarray'>
target_names의 shape :  3
['setosa' 'versicolor' 'virginica']
data의 type :  <class 'numpy.ndarray'>
data의 shape :  2
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3