## 사이킷런 기반 프레임워크
### Estimator
- `Classifier`
    - DecisionTreeClassifier
    - RandomForestClassifier
    - GrandientBoostClassifier
    - GaussianNB
    - SVC
    
- `Regressor`
    - LinearRegression
    - Ridge
    - Lasso
    - RandomForestRegressor
    - GradientBoostingRegressor

### 사이킷런 주요 모듈(일부)
#### 예제데이터
- `sklearn.datasets` : 라이브러리 내장 데이터 세트

#### 데이터 분리, 검증, 파라미터 튜닝
- `sklearn.model_selection` : 교차 검증을 위한 Train/Test분리, Grid Search로 최적 파라미터 추출 등의 API 제공

#### 피처처리
- `sklearn.preprocessing` : 데이터 전처리에 필요한 다양한 가공 기능 제공
    - 인코딩, 정규화 등등
- `sklearn.feature_selection` : 알고리즘에 큰 영향을 미치는 피쳐 선택 기능 제공
- `sklearn.feature_extraction` : 텍스트 데이터 또는 이미지 데이터에서 벡터와된 피쳐를 추출하는 기능 제공
    - 텍스트(.text) : count vectorizer 또는 tf-idf vectorizer 등의 기능 제공
    - 이미지(.image) : extract_patches_2d 또는 img_to_graph 등의 기능 제공
    
#### 차원축소
- `sklearn.decomposition` : 차원축소와 관련된 알고리즘 지원
    - PCA, NMF, Truncated SVD 등을 통해 차원 축소 기능 제공

#### 모델평가
- `sklearn.metrics` : 분류, 회귀, 군집화, Pairwise 등에 대한 다양한 성능지표 제공
    - ACC, Precision, Recall, ROC-AUC, RMSE 등을 제공

#### ML 알고리즘
- `sklearn.ensemble` : 앙상블 알고리즘 제공
    - RandomForest, Adaboost, GBM 등 제공
- `sklearn.linear_model` : 회귀 관련 알고리즘 제공
    - LinearRegression, Ridge, Lasso, Logistic Regression, SGD 등 제공
- `sklearn.naive_bayes` : 나이브 베이즈 알고리즘 제공
    - Gaussian NB, 다항분포 NB 등 제공
- `sklearn.neighbors` : 최근접 이웃 알고리즘 제공
- `sklearn.svm` : SVM 알고리즘 제공
- `sklearn.tree` : 의사 결정 나무 알고리즘 제공
- `sklearn.cluster` : 군집화 알고리즘 제공
    - K-means, Hierchical, DBSCAN 등 제공

#### Utility
- `sklearn.pipeline` : 피처 처리 등의 변환과 ML 알고리즘 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

### 사이킷런 내장 예제 데이터

### 내장 예제 데이터
**[회귀] load_boston(*[, return_X_y])**
- Load and return the boston house-prices dataset (regression).

**[분류] load_iris(*[, return_X_y, as_frame])**
- Load and return the iris dataset (classification).

**[회귀] load_diabetes(*[, return_X_y, as_frame])**
- Load and return the diabetes dataset (regression).

**[분류] load_digits(*[, n_class, return_X_y, as_frame])**
- Load and return the digits dataset (classification).

**[분류] load_wine(*[, return_X_y, as_frame])**
- Load and return the wine dataset (classification).

**[분류] load_breast_cancer(*[, return_X_y, as_frame])**
- Load and return the breast cancer wisconsin dataset (classification).

In [2]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


### 내장형식

키는 보통 data, target, target_name, feature_names, DESCR로 구성돼 있습니다. 
개별 키가 가리키는 의미는 다음과 같습니다.
* data : 피처의 데이터 세트를 가리킵니다.
* target : 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트입니다..
* target_names : 개별 레이블의 이름을 나타냅니다.
* feature_names : 피처의 이름을 나타냅니다.
* DESCR : 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다.

In [3]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [5]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)


 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [6]:
print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)


 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']


In [7]:
print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])


 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  

In [8]:
print(' target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)


 target 의 type: <class 'numpy.ndarray'>
 target 의 shape: (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
