# 사이킷런의 기반 프레임워크 익히기
---
### Estimator 이해 및 fit(), predict() 메서드
* fit() : ML 모델 학습
* predict() : 학습된 모델 예측


### 지도학습 
> 분류(Classification) - 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로 지칭
  
> 회귀(Regression) - 사이킷런에서는 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭
### Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부름
* Estimator 클래스는 fit(), predict()를 내부에서 구현하고 있음
* cross_val_score()와 같은 evaluation 함수, GridSearchCV와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 이 Estimator를 인자로 받고, 인자로 받은 Estimator에 대해서 cross_val_score(), GridSearchCV.fit() 함수 내에서 이 Estimator의 fit()과 predict()를 호출해서 평가를 하거나 하이퍼 파라미터 튜닝을 수행하는 것

### 비지도학습
> 사이킷런에서 비지도학습인 차원 축소, 클러스터링, 피처 추출(Feature Extraction) 등을 구현한 클래스 역시 대부분 fit()과 transfor()을 적용
> * 비지도 학습과 피처 추출에서 fit()은 지도학습에 학습 의미 X, 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업 
> * 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업은 transfom()으로 수행
> * 사이킷런은 fit()과 transform()을 하나로 결합한 fit_transform()도 함꼐 제공


### 내장된 예제 데이터 세트 
* datasets.load_boston() : 회귀 용도, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
* datasets.load_breast_cancer() : 분류 용도, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트 
* datasets.load_diabetes() : 회귀 용도, 당뇨 데이터 세트
* datasets.load_digits() : 분류 용도, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트 
* datasets.load_iris() 분류 용도, 붓꽃에 대한 피처를 가진 데이터 세트

#### 개별 키가 가리키는 데이터 세트의 의미
* data는 피처의 데이터 세트를 가리킴
* target은 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트
* target_names는 개별 레이블의 이름
* feature_names는 피처의 이름 
* DESCR은 데이터 세트에 대한 설명과 각 피처의 설명

In [1]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


In [2]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들: ', keys)

붓꽃 데이터 세트의 키들:  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [3]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)


 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0