### 1. Estimator 이해 및 fit(), predict() 메서드

* 사이킷런은 ML 모델 학습을 위해 `fit()`을, 학습된 모델의 예측을 위해 `predict()` 메서드를 제공<br>
* 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭<br>
* Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부름. 지도학습의 모든 알고리즘을 구현한 클래스를 통챙해 Estimator라고 부름

* 인자로 받은 Estimator에 대해서 `cross_val_score()`, `GridSearchCV.fit()` 함수 내에서 이 Estiamtor의 `fit()`과 `predict()`를 호출해서 평가를 하거나 하이퍼 파라미터 튜닝을 수행
* 비지도학습인 차원 축소, 클러스터링, 피처 추출 등을 구현한 클래스 역시 대부분 `fit()`과 `transform()`을 적용
    * 비지도학습과 피처 추출에서 `fit()`은 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업
    * 변환을 위한 사전 구조를 맞추면 이후 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업은 `transform()`으로 수행
    * `fit()`과 `transform()`을 하나로 결합한 `fit_transform()`도 함께 제공

### 2. 내장된 예제 데이터 세트
* 분류나 회귀를 연습하기 위한 예제용도의 데이터 세트와 분류나 클러스터링을 ㅜ이해 표본 데이터로 생성될 수 있는 데이터 세트로 나뉘어짐
* 분류나 회귀 연습용 예제 데이터

API명 | 설명
:------|:------
datasets.load_boston() | 회귀 용도. 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
datasets.load_breast_cancer() | 분류 용도, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
datasets.load_diabetes() | 회귀 용도, 당뇨 데이터 세트
datasets.load_digits() | 분류 용도, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
datasets.load_iris() | 분류 용도, 붓꽃에 대한 피처를 가진 데이터 세트

* fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터
    * 최초 사용 시 인터넷에 연결돼 있지 않으면 사용 불가
    
명령어|설명
:----|:-----
fetch_covtype()| 회귀 분석용 토지 조사 자료
fetch_20newsgroups()| 뉴스 그룹 텍스트 자료
fetch_olivetti_faces()|얼굴 이미지 자료
fetch_lfw_people()|얼굴 이미지 자료
fetch_lfw_paris()|얼굴 이미지 자료
fetch_rcv1()|로이터 뉴스 말뭉치
fetch_mldata()|ML 웹사이트에서 다운로드

### 3. 분류나 회귀를 위한 연습용 예제 데이터 구성

* 사이킷런에 내장된 데이터 세트는 일반적으로 딕셔너리 형태로 돼 있음
* 키는 data, target, target_name, feature_names, DESCR로 구성
    * data: 피처의 데이터 세트 (넘파이 배열 타입)
    * target: 분류시 레이블값, 회귀시 숫자 결괏값 데이터 세트 (넘파이 배열 타입)
    * target_names: 개별 레이블의 이름 (넘파이 배열 혹은 파이썬 리스트 타입)
    * feature_names: 피처의 이름 (넘파이 배열 혹은 파이썬 리스트 타입)
    * DESCR: 데이터 세트에 대한 설명과 각 피처의 설명 (스트링 타입) <br>
   <br> 
* 피처의 데이터 값을 반환받기 위해선 내장 데이터 세트 API를 호출한 뒤 그 Key 값을 지정

**1. 붓꽃 데이터 세트 생성**
    * Bunch 클래스: 파이썬 딕셔러니 자료형과 유사
    * 데이터 세트에 내장돼 있는 대부분의 데이터 세트는 딕셔너리 형태의 값을 반환

In [5]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))


<class 'sklearn.utils.Bunch'>


**2. key 값 확인**

In [3]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)


붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [4]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names)) 
print(iris_data.target_names) # 혹은 iris_data[target_names]를 출력

print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])

print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)



 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']

 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0