## Scikit-learn을 이용한 Classification
### 1. K-NN(k-nearest neighbors)
* 장점 : 작은 데이터셋일 경우, 기본 모델로서 좋고 설명하기 쉬움.
* 매개변수 : n_neighbors(커지면 모델이 단순해지고 작아지면 모델이 복잡해짐)

In [1]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)

### 2. 선형 모델(logistic model)
* 장점 : 첫 번째로 시도할 알고리즘, 대용량 데이터 셋 가능. 고차원 데이터에 가능
* 매개변수 : C가 작을수록 모델이 단순해짐(로그 스케일)

In [3]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(C=1)

In [4]:
from sklearn.svm import LinearSVC
svc = LinearSVC(C=1)

### 3. 결정 트리(Decision Tree)
* 장점 : 매우 빠르고 데이터 스케일 조정이 필요 없다. 시각화하기 좋고 설명하기 쉽다.
* 매개변수 : max_depth = 1~5(깊을수록 과대적합)

In [5]:
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(max_depth=4, random_state=0)

### 4. 랜덤 포레스트(Random Forest)
* 장점 : 결정트리 하나보다 좋은 성능을 내고 안정적이다. 
* 단점 : 고차원 희소 데이터에는 안 맞다.
* 매개변수
  * n_jobs : 사용할 코어의 수(-1이면 전체 사용)
  * random_state : 고정 요망
  * n_estimators : 클수록 좋음.(aksgdms xmflfmf vudrbsgkseksms Emt)
  * max_features : 각 트리가 얼마나 무작위일지 결정(디뽈트 추천)

In [6]:
from sklearn.ensemble import RandomForestClassifier
forest = RandomForestClassifier(n_estimators=100, random_state=2)

  from numpy.core.umath_tests import inner1d


### 5. 그래디언트 부스팅 회귀 트리(Gradient Boosting Classifier)
* 장점 : 랜덤 포레스트보다 조금 더 성능이 좋다. 매개변수 튜닝이 필요하다.
* 매개변수
  * n_estimators : 크면 모델이 복잡하고 과대적합될 가능성이 있다.
  * learning_rate : 이전 트리의 오차를 보정하는 정도이다.

In [8]:
from sklearn.ensemble import GradientBoostingClassifier
gbrt = GradientBoostingClassifier(random_state=0)

### 6. 커널 서포트 벡터 머신(Kernelized support vector machines)
* 장점 : 중간 규모 데이터셋에 잘 맞는다. 매개변수에 민감하다.
* 매개변수
  * gamma : 작은 값이 더 복잡한 모델을 만든다.
  * C : 작은 값이 단순한 모델을 만든다.

In [9]:
from sklearn.svm import SVC
svm = SVC(kernel='rbf', C=10, gamma=0.1)

### 7. 다층 퍼셉트론(Multilayer perceptrons, MLP)
* 장점 : 대용량 데이터셋에서 복잡한 모델을 만들 수 있다. 매개변수 선택과 데이터 스케일에 민감하며 큰 모델은 학습이 오래 걸린다.
* 매개변수
  * solver='lbfgs' : 최적화 알고리즘
  * random_state
  * hidden_layer_sizes=[100] : 기본적으로 100개(줄이면 복잡도가 낮아짐)
  * activiation="tanh" : 초평면을 부드럽게 만들어줌
  * alpha : 모델의 복잡도 제어

In [11]:
from sklearn.neural_network import MLPClassifier
# 필요하면 activiation, alpha 추가
mlp = MLPClassifier(solver='lbfgs', random_state=0, hidden_layer_sizes=[100])