<a href="https://colab.research.google.com/github/choi-yh/Pyhon_ML_Guide/blob/master/02%EC%9E%A5/Chapter_2_%EC%82%AC%EC%9D%B4%ED%82%B7%EB%9F%B0%EC%9C%BC%EB%A1%9C_%EC%8B%9C%EC%9E%91%ED%95%98%EB%8A%94_%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 01. 사이킷런 소개와 특징

* 가장 파이썬스러운 API 제공
* 오랜 기간 실전 환경에서 검증되고 매우 많은 환경에서 사용되는 라이브러리

In [1]:
import sklearn

print(sklearn.__version__)

0.22.2.post1


## 02. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

* **붓꽃 데이터 세트**: 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 feature를 기반으로 꽃의 품종 예측
* Classification / Supervised Learning

---

* 0: Setosa
* 1: Versicolor
* 2: Virginica

---

* 분류 프로세스 정리
    1. **데이터 세트 분리**: 데이터를 학습 데이터와 테스트 데이터로 분리
    2. **모델 학습**: 학습 데이터를 기반으로 ML 알고리즘을 적요해 모델을 학습
    3. **예측 수행**: 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측
    4. **평가**: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

# 붓꽃 데이터 세트 로딩
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 feature만으로 된 데이터를 numpy로 가진다.
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블 (결정 값) 데이터를 numpy로 가진다.
iris_label = iris.target
print('iris target 값: ',iris_label)
print('iris target 명: ', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target 값:  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명:  ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [8]:
# 학습용 데이터, 테스트용 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=0.2, random_state=13)

In [10]:
# 의사 결정 트리를 이용해 학습 및 예측

# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=13)

# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=13, splitter='best')

In [11]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
pred = dt_clf.predict(X_test)

In [12]:
# 정확도를 평가 지표로 사용
from sklearn.metrics import accuracy_score
print("예측 정확도: {:.4f}".format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


## 03. 사이킷런의 기반 프레임워크 익히기

### Estimator 이해 및 fit(), predict() 메서드

* fit() 메서드: ML 모델 학습
* predict() 메서드: 학습된 모델 예측

---

* Estimator 클래스
    * Classifier: 분류 알고리즘
    * Regressor: 회귀 알고리즘
    * *cross_val_score()* 같은 evaluation 함수, *GridSearchCV*와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 Estimator를 인자로 받는다.  
    => 인자로 받은 Estimator에 대해서 cross_val_score(), GridSearchCV.fit() 함수 내에서 Estimator의 fit()과 predict()를 호출해서 평가하거나 하이퍼 파라미터 튜닝 수행

---

* 비지도 학습
    * 차원 축소, 클러스터링, 피처 추출(Feature Extraction) 에서도 fit()과 transform() 적용
    * 여기서의 **fit()**은 학습이 아니라 **입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업**
    * fit()을 통해 사전 구조를 맞추고 transform()으로 실제 작업을 수행한다.
    * fit_transform() 도 제공하지만 사용할 때 주의가 필요하다.

### 사이킷런의 주요 모듈

|**분류**|**모듈 명**|**설명**|
|--------|-----------|--------|
| 예제 데이터 | sklearn.datasets | 사이킷런에 내장되어 예제로 제공하는 데이터 세트|
| 피처 처리 | sklearn.preprocessing | 데이터 전처리에 필요한 다양한 가공 기능 제공 |
|| sklearn.feature_selection | 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공 |
|| sklearn.feature_extraction | 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용됨.|
||||
| 피처 처리 & 차원 축소 | sklearn.decomposition | 차원 축소와 관련한 알고리즘을 지원하는 모듈. PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능 수행 |
| 데이터 분리. 검증 & 파라미터 튜닝 | sklearn.model_selection | 교차 검증을 위한 학습용/테스트용 분리. Grid Search로 최적 파라미터 추출 등의 API 제공 |
| 평가 | sklearn.metrics | 분류, 회귀, 클러스터링, Pairwise에 대한 다양한 성능 측정 방법 제공 |
||||
| ML 알고리즘 | sklearn.ensemble | 앙상블 알고리즘 제공 (RF, AdaBoost, GBT,...) |
|| sklearn.linear_model | 선형회귀, Ridge, Lasso 및 로지스틱 회귀 등, SGD 관련 알고리즘도 제공 |
|| sklearn.naive_bayes | 나이브 베이즈 알고리즘 제공. 가우시안 NB, 다항 분포 NB 등 |
|| sklearn.neighbors | 최근접 이웃 알고리즘 제공. K-NN 등 |
|| sklearn.svm | 서포트 벡터 머신 알고리즘 제공 |
|| sklearn.tree | 의사 결정 트리 알고리즘 제공 |
|| sklearn.cluster | 비지도 클러스터링 알고리즘 제공 (K-means, 계층형, DBSCAN 등) |
||||
| 유틸리티 | sklearn.pipeline | 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

### 내장된 예제 데이터 세트

* 분류나 회귀 연습용 예제 데이터

| **API 명** | **설명** |
|------------|----------|
| dataset.load_boston() | *회귀*, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트 |
| dataset.load_breas_cancer() | *분류*, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트 |
| datasets.load_diabets() | *회귀*, 당뇨 데이터 세트 |
| datasets.load_digits() | *분류*, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트 |
| dataset.load_iris() | *분류*, 붓꽃에 대한 피처를 가진 데이터 세트 |


* 분류나 회귀를 위한 연습용 예제 데이터 구성
    * data: feature의 데이터 세트
    * target: 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트
    * target_name: 개별 레이블 이름
    * feature_names: feature의 이름
    * DESCR: 데이터 세트에 대한 설명과 각 feature의 설명

---

* fetch 계열 명령

    * 데이터의 크기가 커서 인터넷에서 내려받아 scikit_learn_data 서브 디렉터리에 저장한 뒤 불러들이는 데이터
    * fetch_covtype(): 회귀 분석용 토지 조사 자료
    * fetch_20newsgroups(): 뉴스 그룹 텍스트 자료
    * fetch_olivetti_faces(): 얼굴 이미지 자료
    * fetch_lfw_people(): 얼굴 이미지 자료
    * fetch_lfw_pairs(): 얼굴 이미지 자료
    * fetch_rcv1(): 로이터 뉴스 말뭉치
    * fetch_mldata(): ML 웹사이트에서 다운로드

---

* 분류와 클러스터링을 위한 표본 데이터 생성기

| **API 명** | **설명** |
|------------|----------|
| datasets.make_classifications() | 분류를 위한 데이터 세트를 만듭니다.  |
|                                 |특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 줍니다. |
| datasets.make_blobs() | 클러스터링을 위한 데이터 세트를 무작위로 생성해 줍니다. |
|                       | 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 줍니다. |





In [13]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [15]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들: ', keys)

붓꽃 데이터 세트의 키들:  dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [20]:
print(' feature_names 의 type: ', type(iris_data.feature_names))
print(' feature_names의 shape: ', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names 의 type: ', type(iris_data.target_names))
print(' target_names 의 shape: ', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data 의 type: ', type(iris_data.data))
print(' data 의 shape: ', iris_data.data.shape)
print(iris_data['data'])

print('\n target 의  type: ', type(iris_data.target))
print(' target 의 shape: ', iris_data.target.shape)
print(iris_data.target)

 feature_names 의 type:  <class 'list'>
 feature_names의 shape:  4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names 의 type:  <class 'numpy.ndarray'>
 target_names 의 shape:  3
['setosa' 'versicolor' 'virginica']

 data 의 type:  <class 'numpy.ndarray'>
 data 의 shape:  (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.

## 04. Model Selection 모듈 소개