# Chapter3. A Tour of Machine Learning <u>Classifiers</u> Using Scikit-learn

Chapter2에서는 Perceptrons와 Adaptive linear neurons을 이용해 간단한 <u>Classification problem</u>을 다뤄보았다. 

Chapter3에서는 <u>Classification problem</u>을 풀 수 있는     
보다 현대적인 방법론들(logistic regression, SVM, K-nearest neighbors, ...)에 대해 간단하게 다뤄보고     
이런 방법들을 Python의 Machine Learning library인 Scikit-learn을 이용해 구현해볼 것이다.

### Choosing a <u>classification algorithm</u>

그것이 Regression problem이든 Classification problem이든 하나의 문제를 푸는 다양한 방법론이 존재한다. 앞서 Chapter2에서 같은 문제를 Perceptrons 혹은 Adaptive linear neurons를 이용해 풀 수 있었다. 이밖에도 다양한 방법론이 존재한다.

다양한 방법론이 있다면 그냥 가장 좋은 것을 사용하면 되지 않은가? 라고 생각할 수도 있다.

하지만 각 방법론마다 데이터에 대한 다른 조건을 가정하고 있고,     
문제를 풀어가는 방식이 조금식 다르기 때문에     
어떤 데이터에는 좋은 방법이 다른 데이터에는 좋지 않을수도 있는 것이다.   
(여기서 다른 데이터라는 것은 변수(feature)의 수가 다르거나 sample수가 다르거나 noise가 다르거나, 변수간의 관계가 다르거나 다양한 상황이 있을 있다.)

따라서 데이터에 따라 좋은 방법을 잘 골라 쓰는 것이 중요하고,      
해당 데이터에 잘 들어 맞는 방법을 고르는 것도 하나의 테크닉이라고 할 수 있다.


### First steps with scikit-learn

다양한 방법론을 소개하면서 이들을 scikit-learn을 이용해 구현해 볼텐데,    

우선 Iris flower 데이터를 Chapter2에서 다뤘던 Perceptrons와 Adaline을 scikit-learn으로 구현해보자.

In [3]:
from sklearn import datasets
import numpy as np
iris = datasets.load_iris()
X = iris.data[:, [2, 3]]
y = iris.target


> 먼저 feature matrix $\mathbf{X}$와 target vector $\mathbf{y}$에 로드 한다.

In [5]:
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

> 데이터 $[\mathbf{X}:\mathbf{y}]$를 (random하게) training data와 test data로 7:3의 비율로 random하게 나눈다.      

> training data$[\mathbf{X}_{train}:\mathbf{y}_{train}]$는 모형을 학습시키는데 사용되고,         
test data$[\mathbf{X}_{test}:\mathbf{y}_{test}]$는 모형의 성능을 평가하는데 사용된다.          

In [7]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

> 최적의 성능을 위해서는 각 feature들을 **feature scaling**을 하며 다양한 기법 중 **standardization**(표준화)의 경우 아래와 같이 각 변수에서 평균($\mu$)을 빼고 표준편차($\sigma$)로 나눠 정규분포 $N(0, 1)$로 변환한다.
$$x^{'}_j = \frac{x_j - \mu_j}{\sigma_j}$$
> 위에서 sc.fit은 training data의 평균과 표준편차를 구하는 과정이고      
sc.transform을 통해 실제 각 변수마다 표준화된 값이 계산된다.

### Modeling class probabilities via <u>logistic regression</u>

###### <u>Logistic regression</u> intuition and conditional probabilities

###### Learning the weights of the logistic cost function

.

###### Training a logistic regression model with scikit-learn

###### Tackling overfitting via regularization

.

.

.

.

### Maximum margin classification with <u>support vector machines</u>

###### Maximum margin intuition

###### Dealing with the nonlinearly separable case using slack variables

###### Alternative implementation in scikit-learn

.

.

.

.

.

.

.

### Solving nonlinear problems using <u>kernel SVM</u>

###### Using the kernel trick to find separating hyperplanes in higher dimensional space

.

.

.

.

### <u>Decision tree learning</u>

###### Maximizing information gain - getting the most bang for the buck

###### Building a decision tree

###### Combining weak to strong learners via random forests

.

.

.

.

### K-nearest neighbors - a lazy learning algorithm

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.