#### Scikit-Learn 패키지 소개

scikit-learn 패키지는 머신 러닝 교육 및 실무를 위한 파이썬 패키지로 다음과 같은 구성 요소들을 갖추고 있다.
    - 벤치마크용 샘플 데이터 세트
    - 데이터 전처리 (preprocessing) 기능
    - 지도 학습 (Supervised Learning) 모형
    - 비지도 학습 (Unsupervised learning) 모형
    - 모형 평가 및 선택

#### Scikit-learn 패키지에서 제공하는 머신러닝 모형
scikit-learn 패키지의 장점은 다양한 머신 러닝 모형 즉, 알고리즘을 하나의 패키지에서 모두 제공하고 있다는 점이다. 다음은 scikit-learn 패키지에서 제공하는 머신러닝 모형의 목록이다. 이 목록은 대표적인 것들만을 나열한 것이며 지속적으로 모형들이 추가되고 있다.

#### 지도 학습 (Supervised Learning) 모형
- http://scikit-learn.org/stable/supervised_learning.html
- Generalized Linear Models
    - Ordinary least Squares
    - Ridge/Lasso/Elastic Net Regression
    - Logistic regression
    - Polynomial regression
    - Perceptron
- Linear and Quadratic Discriminant Analysis
- Support Vector Machines
- Stochastic Gradient Descent
- Nearest Neighbor Algorithms
- Gaussian Processes
- Naive Bayes
- Decision Trees
- Ensemble methods
    - Random Forests
    - AdaBoost

#### 비지도 학습 (Unsupervised Learning) 모형
    - http://scikit-learn.org/stable/unsupervised_learning.html
    - Gaussian mixture models
    - Manifold learning
    - Clustering
        - K-means
        - DBSCAN
    - Biclustering
    - Decomposing
        - Principal component analysis (PCA)
        - Factor Analysis
        - Independent component analysis (ICA)
        - Latent Dirichlet Allocation (LDA)
    - Covariance estimation
    - Novelty and Outlier Detection
    - Density Estimation

#### Scikit-Learn의 서브 패키지
scikit-learn은 서브 패키지 단위로 별도의 기능을 제공하고 있다. 대표적인 서브 패키지와 기능을 나열하면 다음과 같다.
    - 자료제공:
        - sklearn.datasets: 샘플 데이터 세트 제공
    - 자료 전처리:
        - sklearn.preprocessing: imputation, encoding 등 단순 전처리
        - sklearn.feature_extraction: Feature Extraction
    - 모형:
        - sklearn.base: Base classes and utility functions
        - sklearn.pipeline: Pipellin
        - sklearn.linear_model: Generalized Linear Models
        - sklearn.naive_bayes: Naive Bayes
        - sklearn.discriminant_analysis: discriminant Anlysis
        - sklearn.neightbors: Nearest Neighbors
        - sklearn.mixture: Gaussian Mixture Models
        - sklear.svm: Support Vector Machines
        - sklearn.tree: Decision Trees
        - sklearn.ensemble: Ensemble Methods
        - sklearn.cluster: Clustering
    - 모형 평가: 
        - sklearn.metrics: Metrics
        - sklearn.cross_validation: Cross Validation
        - sklearn.grid_search: Grid Search

#### Scikit-Learn의 샘플 데이터
sklearn.datasets 서브패키지는 모형 실습을 위한 예제 데이터 셋트를 제공한다.
예제 데이터 셋트를 불러오는 명령어들은 크게 다음과 같은 세가지 계열의 명령으로 나눌 수 있다.
    - load 계열 명령: 저장된 dataset import
    - fetch 계열 명령: 인터넷에서 캐쉬로 download 후 import
    - make 계열 명령; 가상 dataset을 생성

#### Load 계열 명령
예제 데이터 셋트는 데이터 크기가 작은 것 부터 큰 것까지 다양하다. scikit-learn 패키지는 작은 예제 데이터는 패키지 안에 포함하여 배포하고 크기가 큰 것들은 첫번째로 데이터를 불러들일때 인터넷에서 다운로드받아 저장해 놓았다가 불러온다.
load 계열의 명령들은 패키지에 처음부터 저장되어 다운로드 없이 바로 쓸 수 있는 것들이다.
    - load_bost(): 회귀 분석용 보스턴 집값
    - load_diabetes(): 회귀 분석용 당뇨병 자료
    - load_linnerud(): 회귀 분석용 linnerud 자료
    - load_iris(): classification용 iris 자료
    - load_digits(): classification용 숫자 필기 이미지 자료
    - load_sample_image(): 압축용 이미지

#### Fetch 계열 명령
fetch 계열의 명령들은 데이터의 크기가 커서 패키지에 처음부터 저장되어 있지 않고 인터넷에서 다운로드 받아 홈 디렉토리 아래의 scikit_learn-data라는 서브 디렉토리에 저장 후 추후 불러들이는 데이터들이다 따라서 최초 사용시에 인터넷에 연결되어 있지 않으면 사용할 수 없다.
    - fetch_covtype(): 회귀분석용 토지 조사 자료
    - fetch_20newsgroups(): 뉴스 그룹 텍스트 자료
    - fetch_olivetti_faces(): 얼굴 이미지 자료
    - fetch_lfw_people(): 얼굴 이미지 자료
    - fetch_lfw_pairs(): 얼굴 이미지 자료
    - fetch_rc1(): 로이터 뉴스 corpus
    - fetch_mldata(): ML 웹사이트에서 다운로드

#### Make 계열 명령
경우에 따라서는 모형을 시험하기 위해 원하는 특성을 가진 가상의 데이터가 필요할 수 있다. make계열 명령은 이러한 가상 데이터를 생성하는 역할을 한다.
    - make_regression(): 회귀 분석용 가상 데이터 생성
    - make_classification(): 분류용 가상 ㅔㄷ이터 생성
    - make_blobs(): 클러스터링용 가상 데이터 생성

#### Data sets의 형식
scikit-learn의 대부분의 샘플 데이터는 Bunch라는 클래스 객체로 생성된다. 이 클래스 객체는 다음과 같은 속성을 가진다.
    - data: (필수) 독립 변수 ndarray 배열
    - target: (필수) 종속 변수 ndarray 배열
    - feature_names: (옵션) 독립 변수 이름 리스트
    - target_names: (옵션) 종속 변수 이름 리스트
    - DESCR: (옵션) 자료에 대한 설명