## Estimator 이해 및 fit(), predict() 메서드

1. fit(), predict()  
  - 사이킷런은 ML 모델 학습을 위해 fit(), 학습된 모델의 예측을 위해 predict() 메서드를 제공한다.  
  
  
2. 지도학습  
  - 주요 두축인 분류, 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit(), predict()만을 이용해 간단하게 학습과 예측 결과를 반환한다.  
  - 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 그리고 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭한다.  
  - Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부른다.  
  => 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator라고 부른다.  


3. 사이킷런에서 비지도학습인 차원 축소, 클러스터링, 피처 추출(Feature Extraction) 등을 구현한 클래스 역시 대부분 fit()과 transform()을 적용한다. 비지도학습과 피처 추출에서 fit()은 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업이다. fit()으로 변환을 위한 사전 구조를 맞추면 이후 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업은 transform()으로 수행한다.  


4. 사이킷런은 fit()과 transform()을 하나로 결합한 fit_transform()도 함께 제공한다. 별도로 호출할 필요를 줄여주지만, 사용에 약간의 주의가 필요하다.  
  

## 사이킷런의 주요 모듈

1. 예제 데이터  
  - sklearn.datasets : 사이킷런에 내장되어 예제로 제공하는 데이터 세트  
  
  
2. 피처 처리  
  - sklearn.preprocessing : 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)  
  - sklearn.feature_selection : 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공  
  - sklearn.feature_extraction 
    - 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는 데 사용됨  
    - 텍스트 데이터의 피처 추출은 sklearn.feature_extraction.test 모듈에, 이미지 데이터의 피처 추출은 sklearn.feature_extraction.image 모듈에 지원 API가 있음  
    
    
3. 피처 처리 & 차원 축소  
  - sklearn.decomposition : 차원 축소와 관련한 알고리즘을 지원하는 모듈임. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능을 수행할 수 있음  
  
  
4. 데이터 분리, 검증 & 파라미터 튜닝  
  - sklearn.model_selection : 교차 검증을 위한 학습용/테스트용 분리, 그리드 서치로 최적 피라미드 추출 등의 API 제공
  

5. 평가  
    - sklearn.metrics
        - 분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법 제공  
        - Accuracy, Precision, Recall, ROC-AUC, RMSE 등 제공  


6. ML 알고리즘
  - sklearn.ensemble
      - 앙상블 알고리즘 제공  
      - 랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공  
  - sklearn.linear_model
      - 주로 선형 회귀, 릿지, 라쏘 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원. 또한 SGD(Stochastic Gradient Descent) 관련 알고리즘도 제공  
  - sklearn.naive_bayes  
      - 나이브 베이즈 알고리즘 제공  
      - 가우시안 NB, 다항 분포 NB 등  
  - sklearn.neighbors  
      - 최근접 이웃 알고리즘 제공  
      - K-NN 등
  - sklearn.svm  
      - 서포트 벡터 머신 알고리즘 제공  
  - sklearn.tree  
      - 의사 결정 트리 알고리즘 제공  
  - sklearn.cluster  
      - 비지도 클러스터링 알고리즘 제공(K-평균, 계층형, DBSCAN 등)
 
 
7. 유틸리티  
    - sklearn.pipeline
        - 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묵어서 실행할 수 있는 유틸리티 제공

## 내장된 예제 데이터 세트

1. 분류나 회귀 연습용 예제 데이터  
  - datasets.load_boston() : 회귀 용도이며, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트  
  - datasets.load_breast_cancer() : 분류 용도이며, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트  
  - datasets.load_diabetes() : 회귀 용도이며, 당뇨 데이터 세트  
  - datasets.load_digits() : 분류 용도이며, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트  
  - datasets.load_iris() : 분류 용도이며, 붓꽃에 대한 피처를 가진 데이터 세트  
  

2. fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터이다.  
  - fetch_covtype() : 회귀 분석용 토지 조사 자료  
  - fetch_20newsgroups() : 뉴스 그룹 텍스트 자료  
  - fetch_olivetti_faces() : 얼굴 이미지 자료  
  - fetch_lfw_people() : 얼굴 이미지 자료  
  - fetch_lfw_pairs() : 얼굴 이미지 자료  
  - fetch_rcv1() : 로이터 뉴스 말뭉치  
  - fetch_mldata() : ML 웹사이트에서 다운로드  
  
  
3. 분류와 클러스터링을 위한 표본 데이터 생성기  
  - datasets.make_classifications() : 분류를 위한 데이터 세트를 만든다. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위해 데이터를 무작위로 생성한다.  
  - datasets.make_blobs() : 클러스터링을 위한 데이터 세트를 무작위로 생성한다. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 준다.  
  
  
4. 키는 보통 data, target, target_name, feature_names, DESCR로 구성  
  - data : 피처의 데이터 세트, 넘파이 배열  
  - target : 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트, 넘파이 배열(ndarray)  
  - target_names : 개별 레이블의 이름, 넘파일 배열 or 파이썬 리스트  
  - feature_names : 피처의 이름, 넘파일 배열 or 파이썬 리스트  
  - DESCR : 데이터 세트에 대한 설명과 각 피처의 설명, 스트링 타입  

In [1]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data)) # Bunch 클래스는 파이썬 딕셔너리 자료형과 유사하다.

<class 'sklearn.utils.Bunch'>


In [2]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:',keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [3]:
print('\n feature_names의 type:',type(iris_data.feature_names))
print(' feature_names의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names의 tyep:', type(iris_data.target_names))
print(' target_names의 shape:', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:', type(iris_data.data))
print(' data의 shape:', iris_data.data.shape)
print(iris_data['data'])

print('\n target의 type:', type(iris_data.target))
print(' target의 shape:', iris_data.target.shape)
print(iris_data.target)


 feature_names의 type: <class 'list'>
 feature_names의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 tyep: <class 'numpy.ndarray'>
 target_names의 shape: 3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
 data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5