## 03. 사이킷런의 기반 프레임워크 익히기

#### Estimator 이해 및 fit(), predict() 메서드

* 사이킷런의 주요 모듈
 - 예제 데이터
         sklearn.datasets : 
         내장되어 예제로 제공하는 데이터셋
 - 피처 처리
         sklearn.preprocessing : 
         데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등)
         
         sklearn.feature_selection : 
         알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공
         
         sklearn.featue_extraction :
         텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨.
 - 피처 처리 & 차원 축소
         sklearn.decomposition :
         차원 축소와 관련한 알고리즘을 지원하는 모듈. PCA, NMF, Truncated SVD등을 통해 차원 축소 기능을 수행
 - 데이터 분리, 검증 & 파라미터 튜닝
         sklearn.model_selection
         교차 검증을 위한 학습용/테스트용 분리, 그리드 서치(GridSearch)로 최적 파라미터 추출 등의 API 제공
 - 평가
         sklearn.metrics
         분류, 회귀, 클러스터링, 페어와이즈(Pairwise)에 대한 다양한 성능 측정 방법 제공
         Accuracy, pricision, Recall, ROC_AUC, RMSE 등 제공
 - ML 알고리즘
         sklearn.ensemble
         앙상블 알고리즘 제공
         랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등을 제공
         
         sklearn.linear_model
         주로 선형회귀, 릿지(Ridge), 라쏘(Lasso) 및 로지스틱 회귀 등 회귀 관련 알고리즘을 지원, 또한 SGD(Stochasic Gradient Descent)관련 알고리즘도 제공
         
         sklean.naive_bayes
         나이브 베이즈 알고리즘 제공. 가우시안 NB, 다항분포 NB 등
         
         sklean.neighbors
         최근접 이웃 알고리즘 제공. K-NN 등
         
         sklean.tree
         의사결정 트리 알고리즘 제공
         
         sklean.cluster
         비지도 클러스터링 알고릴즘 제공(K-평균, 계층형, DBSAN 등)
 - 유틸리티
         sklearn.pipeline
         피처 처리 등의 변환과 ML알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공
 

* 내장된 예제 데이터 세트
    - datasets.load_boston() : 회귀 용도이며, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
    - datasets.load_breast_cancer() : 분류 용도, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
    - datasets.load_diabetes() : 회귀 용도, 당뇨 데이터 세트
    - datasets.load_digits() : 분류 용도, 0~9의 이미지 픽셀 데이터 세트
    - datasets.load_iris() : 분류 용도, 붓꽃에 대한 피처를 가진 데이터 세트

* 외부에서 가져오는 fetch계열 데이터 세트
    - fetch_covtpe() : 회귀 분석용 토지 조사 자료
    - fetch_20newsgroups() : 뉴스 그룹 텍스트 자료
    - fetch_lfw_people() : 얼굴 이미지 자료
    - fetch_lfw_pairs() : 얼굴 이미지 자료
    - fetch_rcv1() : 로이터 뉴스 말뭉치
    - fetch_mldata() : ML 웹사이트에서 다운로드

* 분류와 클러스터링을 위한 표본 데이터 생성기
    - dataset.make_classifications() : 분류를 위한 데이터 세트를 만듬. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위해 데이터를 무작위로 생성
    - datasets.make_blobs() : 클러스터링을 위한 데이터 세트를 무작위를 생성, 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만듬

In [2]:
# 붓꽃 데이터 세트 생성
from sklearn.datasets import load_iris
iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [3]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들 : ', keys)

붓꽃 데이터 세트의 키들 :  dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [16]:
print('feature_names 의 type:',type(iris_data.feature_names))
print('feature_names 의 shape',len(iris_data.feature_names))
print(iris_data.feature_names)

feature_names 의 type: <class 'list'>
feature_names 의 shape 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [21]:
print('target_names 의 type:',type(iris_data.target_names))
print('target_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

target_names 의 type: <class 'numpy.ndarray'>
target_names 의 shape: 3
['setosa' 'versicolor' 'virginica']


In [20]:
print('data 의 type:',type(iris_data.data))
print('data 의 shape:',len(iris_data.data))
print(iris_data['data'])

data 의 type: <class 'numpy.ndarray'>
data 의 shape: 150
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 

In [22]:
print('target 의 type:',type(iris_data.target))
print('target 의 shape:',len(iris_data.target))
print(iris_data.target)

target 의 type: <class 'numpy.ndarray'>
target 의 shape: 150
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
