2.3 사이킷런 기반의 프레임워크 익히기
=====

## 2.3.1 Estimator 이해 및 fit(), predict() 메서드

사이킷런은 API 일관성과 개발 편의성을 제공하기 위한 노력이 엿보이는 패키지.

사이킷런은 ML 모델 학습을 위하여 fit(), 학습 된 모델의 예측을 위해 predict() 메서드를 제공
* 지도학습의 주요 두 축인 분류(Classification)와 회귀(Regression)의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit()과 predict()만을 이용해 간단하게 학습/예측 결과를 반환
* 분류 알고리즘을 구현한 클래스를 Classifier, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭
* 위의 Classifier와 Regressor를 합쳐서 **Estimator 클래스**
* 즉, 지도학습의 모든 알고리즘 구현한 클래스를 통칭하여 Estimator라고 지칭


![estimator](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fk.kakaocdn.net%2Fdn%2FtHxOf%2FbtqCbUw5TZM%2F9pkKG6suDzXZK2qwPHpEA1%2Fimg.png)

사이킷런에서 비지도학습인 차원 축소, 클러스터링, 피처 추출 등을 구현한 클래스는 대부분 fit()과 transform()을 적용

비지도학습/피처 추출에서의 fit()은 지도학습의 fit()과 같이 학습을 의미하는 것이 아니라 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업

비지도학습에서 fit()과 transform()을 하나로 결합한 fit_transform()도 함께 제공.

## 2.3.2 사이킷런의 주요 모듈

|**분류**|**모듈명**|**설명**|
|:---|:---|:---|
|`예제 데이터`|sklearn.datasets|사이킷런에 내장되어 예제로 제공하는 데이터 세트|
||sklearn.preprocessing|데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)|
|`피처 처리`|sklearn.feature_selection|알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공|
||sklearn.feature_extraction|텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨.<br>예를 들어 텍스트 데이터에서 Count Vectorizer나 Tf-Idf Vectorizer 등을 생성하는 기능 제공.<br>텍스트 데이터의 피처 추출은 sklearn.feature_extraction.text 모듈에, 이미지 데이터의 피처 추출은 sklearn.feature_extraction.image 모듈에 지원 API가 있음|
|`피처 처리 & 차원 축소`|sklearn.decomposition|차원 축소와 관련한 알고리즘을 지원하는 모듈이다. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있다.|
|`데이터 분리, 검증 & 파라미터 튜닝`|sklearn.model_selection|교차 검증을 위한 학습용/테스트용 분리, 그리드 서치(Grid Search)로 최적 파라미터 추출 등의 API 제공|
|`평가`|sklearn.metrics|분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공<br>Accuracy, Precision, Recall, ROC-AUC, RMSE 등 제공|
||sklearn.ensemble|앙상블 알고리즘 제공<br>랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공|
||sklearn.linear_model|주로 선형 회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원. 또한 SGD(Stochastic Gradient Desccent) 관련 알고리즘도 제공|
||sklearn.naïve_bayes|나이브 베이즈 알고리즘 제공. 가우시안 NB. 다항 분포 NB 등|
|`ML 알고리즘`|sklearn.neighbors|앙상블 알고리즘 제공<br>랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공|
||sklearn.svm|서포트 벡터 머신 알고리즘 제공|
||sklearn.tree|의사 결정 트리 알고리즘 제공|
||sklearn.cluster|비지도 클러스터링 알고리즘 제공<br>(K-평균, 계층형, DBSCAN 등)|
|`유틸리티`|sklearn.pipeline|피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공|


머신러닝 모델을 구축하는 주요 프로세스는 피처의 가공, 변경, 추출을 수행하는 피처 처리(feature processing), ML 알고리즘 학습/예측 수행, 그리고 모델 평가의 단계를 반복적으로 수행하는 것

사이킷런은 이런 일련의 과정을 편리하고 다양하며 유연하게 지원함.

## 2.3.3 내장 된 예제 데이터 세트

datasets 모듈에는 외부 웹사이트에서 데이터 세트를 내려받을 필요 없이 예제로 활용할 수 있는 좋은 데이터 세트가 내장 되어있음.
* datasets.load_boston() : 보스턴의 집 피처들과 가격 (회귀)
* datasets.load_breast_cancer() : 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 (분류)
* datasets.load_diabetes() : 당뇨 데이터 세트 (회귀)
* datasets.load_digits() : 0-9까지 숫자 이미지 픽셀 데이터 (분류)
* datasets.load_iris() : 붓꽃에 대한 피처를 가진 데이터 (분류)

fetch 명령은 데이터 크기가 커서 패키지 내장이 아닌 인터넷에서 다운로드 받아 사용할 수 있는 데이터들. 해당 명령은 인터넷에 연결 돼 있지 않으면 사용할 수 없음.

### Datasets의 구조

사이킷런에 내장된 데이터 세트는 일반적으로 **딕셔너리 형태**로 돼 있음.

Key는 보통 data, target, target_name, feature_names, DESCR로 구성 

* data는 피처의 데이터 세트를 가리킵니다. (넘파이 배열)
* target은 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트 (넘파이 배열)
* target_names는 개별 레이블의 이름 (넙파이 배열 or 리스트)
* feature_names는 피처의 이름 (넙파이 배열 or 리스트)
* DESCR은 데이터 세트에 대한 설명과 각 피처의 설명 (string)

In [3]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))


<class 'sklearn.utils.Bunch'>


Bunch 클래스는 파이썬의 딕셔너리 자료형과 유사 (일반적으로 key-value 형태의 JSON과 유사)

In [4]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [5]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:',type(iris_data.target))
print('target 의 shape:',iris_data.target.shape)
print(iris_data.target)

print('DESCR : ', iris_data.DESCR)



 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0

![iris](https://tensorflowkorea.files.wordpress.com/2019/09/p038.jpg)