## Scikit-Learn

머신 러닝 교육 및 실무를 위한 파이썬 패키지

### 00. Setting

In [1]:
import sklearn

### 01. 종류

#### 1. 구성요소

* 벤치마크용 샘플 데이터 세트
* 데이터 전처리(preprocessing) 기능
* 지도 학습(Supervised learning) 모형
* 비지도 학습(Unsupervised learning) 모형
* 모형 평가 및 선택

자세한 내용은 다음 웹사이트를 참조
* http://scikit-learn.org

---

#### 2. 지도 학습(Supervised learning) 모형

* http://scikit-learn.org/stable/supervised_learning.html

* Generalized Linear Models
 * Ordinary Least Squares
 * Ridge/Lasso/Elastic Net Regression
 * Logistic regression
 * Polynomial regression
 * Perceptron
* Linear and Quadratic Discriminant Analysis
* Support Vector Machines
* Stochastic Gradient Descent
* Nearest Neighbor Algorithms
* Gaussian Processes
* Naive Bayes
* Decision Trees
* Ensemble methods
 * Random Forests
 * AdaBoost

---

#### 3. 비지도 학습(Unsupervised learning) 모형

* http://scikit-learn.org/stable/unsupervised_learning.html
* Gaussian mixture models
* Manifold learning
* Clustering
 * K-means
 * DBSCAN
* Biclustering
* Decomposing
 * Principal component analysis (PCA)
 * Factor Analysis
 * Independent component analysis (ICA)
 * Latent Dirichlet Allocation (LDA)
* Covariance estimation
* Novelty and Outlier Detection
* Density Estimation

---

#### 4. 서브 패키지

* 자료 제공: 
 * `sklearn.datasets`: 샘플 데이터 세트 제공


* 자료 전처리: 
 * `sklearn.preprocessing`: imputation, encoding 등 단순 전처리
 * `sklearn.feature_extraction`: Feature Extraction


* 모형:
 * `sklearn.base`: Base classes and utility functions
 * `sklearn.pipeline`: Pipeline
 * `sklearn.linear_model`: Generalized Linear Models
 * `sklearn.naive_bayes`: Naive Bayes
 * `sklearn.discriminant_analysis`: Discriminant Analysis
 * `sklearn.neighbors`: Nearest Neighbors
 * `sklearn.mixture`: Gaussian Mixture Models
 * `sklearn.svm`: Support Vector Machines
 * `sklearn.tree`: Decision Trees
 * `sklearn.ensemble`: Ensemble Methods
 * `sklearn.cluster`: Clustering


* 모형 평가: 
 * `sklearn.metrics`: Metrics
 * `sklearn.cross_validation`: Cross Validation
 * `sklearn.grid_search`: Grid Search

---

### 02. Sample data

- 예제 데이터 세트는 데이터 크기가 작은 것부터 큰 것까지 다양함
- 작은 예제 데이터는 패키지 안에 포함하여 배포
- 크기가 큰 것들은 첫번째로 데이터를 불러들일때 인터넷에서 다운로드받아 저장해 놓았다가 불러옴

#### 1) 예제 데이터 세트를 불러오는 명령

* Load 계열 명령: 저장된 dataset import
* Fetch 계열 명령: 인터넷에서 캐쉬로 download 후 import
* Make 계열 명령: 가상 dataset을 생성

#### 2) Load 계열 명령

load 계열의 명령들은 패키지에 처음부터 저장되어 다운로드 없이 바로 사용 가능
 
* `load_boston()`: 회귀 분석용 보스턴 집값 
* `load_diabetes()`: 회귀 분석용 당뇨병 자료
* `load_linnerud()`: 회귀 분석용 linnerud 자료
* `load_iris()`: classification용 iris 자료
* `load_digits()`: classification용 숫자 필기 이미지 자료
* `load_sample_image()`: 압축용 이미지

#### 3) Fetch 계열 명령 (인터넷 연결 필수)

- 데이터의 크기가 커서 패키지에 처음부터 저장되어 있지 않고 인터넷에서 다운로드 받음
- 홈 디렉토리 아래의 scikit_learn_data 라는 서브 디렉토리에 저장 후 불러들임


* `fetch_covtype()` : 회귀분석용 토지 조사 자료
* `fetch_20newsgroups()`  : 뉴스 그룹 텍스트 자료
* `fetch_olivetti_faces()` : 얼굴 이미지 자료
* `fetch_lfw_people()` : 얼굴 이미지 자료
* `fetch_lfw_pairs()` : 얼굴 이미지 자료
* `fetch_rcv1()` : 로이터 뉴스 corpus
* `fetch_mldata()` : ML 웹사이트에서 다운로드

#### 4) Make 계열 명령

가상 데이터를 생성하는 역할


* `make_regression()`: 회귀 분석용 가상 데이터 생성 
* `make_classification()`: 분류용 가상 데이터 생성 
* `make_blobs()`: 클러스터링용 가상 데이터 생성, blobs를 이용해 classification가능

#### 5) 데이터 세트 형식

scikit-learn의 대부분의 샘플 데이터는 `Bunch` 라는 클래스 객체로 생성. 이 클래스 객체는 다음과 같은 속성을 가짐

 * `data`: (필수) 독립 변수 `ndarray` 배열 (X, N X M Feature)
 * `target`: (필수) 종속 변수 `ndarray` 배열 (Y)
 * `feature_names`: (옵션) 독립 변수 이름 리스트
 * `target_names`: (옵션) 종속 변수 이름 리스트
 * `DESCR`: (옵션) 자료에 대한 설명