## 모델 정리

### KNN
<pre>
작은 데이터 셋일 경우, 기본 모델로서 좋고 설명하기 쉽다.
</pre>

### 선형모델(linear model)
<pre>
첫 번째로 시도할 알고리즘. 대용량 데이터셋 가능. 고차원 데이터에 가능
</pre>

### 나이브 베이즈(Naive Bayes)
<pre>
분류만 가능. 선형 모델보다 훨씬 빠름. 대용량 데이터셋과 고차원 데이터에 가능. 
선형 모델보다 덜 정확함.
</pre>

### 결정 트리(decision tree)
<pre>
매우 빠름. 데이터 스케일 조정이 필요 없다. 시각화하기 좋고 설명하기 쉽다.
</pre>

### 랜덤 포레스트(random forest)
<pre>
결정 트리 하나보다 거의 항상 좋은 성능을 냄. 매우 안정적이고 강력함. 데이터 스케일
조정 필요 없음. 고차원 희소 데이터에는 잘 안 맞음.
</pre>

### 그래디언트 부스팅 결정 트리(gradient boosting decision tree)
<pre>
랜덤 포레스트보다 조금 더 성능이 좋다. 랜덤 포레스트보다 학습은 느리나 
예측은 빠르고, 메모리를 조금 사용. 랜덤 포레스트보다 매개 변수 튜닝이 많이 필요함.
</pre>

### 서포트 벡터 머신
<pre>
비슷한 의미의 특성으로 이뤄진 중간 규모 데이터셋에 잘 맞는다.
데이터 스케일 조정 필요. 매개변수에 민감.
</pre>

### 신경망(Neural Net)
<pre>
특별히 대용량 데이터셋에서 매우 복잡한 모델을 만들 수 있다. 매개 변수 선택과 데이터 스케일에 민감. 큰 모델은 학습이 오래 걸림.
</pre>

### 모델 접근
<pre>
새로운 데이터 셋으로 작업할 때는 선형모델이나 나이브 베이즈 또는 최근접 이웃 분류기
같은 <b>간단한 모델로 시작</b>해서 성능이 얼마나 나오는지 가늠해 보는 것이 좋다.

<b>데이터를 충분히 이해한 뒤</b>에 랜덤 포레스트나 그래디언트 부스팅 결정 트리, SVM, 신경망 같은 복잡한 모델을 만들 수 있는 알고리즘을 고려한다.
</pre>

## 교차검증

In [18]:
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

In [27]:
iris = datasets.load_iris()
clf = KNeighborsClassifier(n_neighbors=3)
scores = cross_val_score(clf, iris.data, iris.target, cv=3)
scores

array([ 0.98039216,  0.96078431,  1.        ])

In [29]:
## 실습 1
## IRIS 데이터 셋을 이용하여 k-fold 교차 검증을 수행해 보자. 평균값이 가장 높은 값을 얼마인가?
for cvk in range(2,10):
    clf = KNeighborsClassifier(n_neighbors=3)
    scores = cross_val_score(clf, iris.data, iris.target, cv=cvk).mean()
    print(scores)

0.94
0.980392156863
0.959935897436
0.966666666667
0.966049382716
0.966836734694
0.96626984127
0.974074074074


## 보스턴 데이터 셋 이용한 회귀 모델 만들기

In [34]:
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures
from sklearn.model_selection import train_test_split

def load_extended_boston():
    boston = load_boston()  # 데이터 셋 불러오기
    X = boston.data         # 입력 데이터 
    y = boston.target       # 목표 데이터 
    
    X = MinMaxScaler().fit_transform(boston.data)  # 입력 데이터 정규화
    # PolynomialFeatures 적용전
    print(X.shape, y.shape)
    X = PolynomialFeatures(degree=2, include_bias=False).fit_transform(X)
    return X, y

### 데이터 셋 나누기 & 모델 학습

In [35]:
X, y = load_extended_boston()
print(X.shape, y.shape)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
lr = LinearRegression().fit(X_train, y_train)

(506, 13) (506,)
(506, 104) (506,)


### 훈련 데이터 세트 점수, 테스트 데이터 세트 점수
<pre>
for문을 이용하여 가장 적합한 훈련/테스트 데이터 셋의 비율과 random_state를 찾아보자.
</pre>

In [36]:
print("훈련 데이터 세트 점수 : {:.2f}".format(lr.score(X_train, y_train)))
print("테스트 데이터 세트 점수 : {:.2f}".format(lr.score(X_test, y_test)))

훈련 데이터 세트 점수 : 0.94
테스트 데이터 세트 점수 : 0.79


In [39]:
for i in range(1,10):
    rate = i / 10
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=rate, random_state=42)
    lr = LinearRegression().fit(X_train, y_train)
    print("test size 비율 : {:1}".format(rate))
    print("훈련 데이터 세트 점수 : {:.2f}".format(lr.score(X_train, y_train)))
    print("테스트 데이터 세트 점수 : {:.2f}".format(lr.score(X_test, y_test)))

test size 비율 : 0.1
훈련 데이터 세트 점수 : 0.93
테스트 데이터 세트 점수 : 0.86
test size 비율 : 0.2
훈련 데이터 세트 점수 : 0.94
테스트 데이터 세트 점수 : 0.81
test size 비율 : 0.3
훈련 데이터 세트 점수 : 0.95
테스트 데이터 세트 점수 : 0.67
test size 비율 : 0.4
훈련 데이터 세트 점수 : 0.95
테스트 데이터 세트 점수 : 0.72
test size 비율 : 0.5
훈련 데이터 세트 점수 : 0.96
테스트 데이터 세트 점수 : 0.72
test size 비율 : 0.6
훈련 데이터 세트 점수 : 0.97
테스트 데이터 세트 점수 : 0.25
test size 비율 : 0.7
훈련 데이터 세트 점수 : 0.98
테스트 데이터 세트 점수 : -1.22
test size 비율 : 0.8
훈련 데이터 세트 점수 : 1.00
테스트 데이터 세트 점수 : -17.11
test size 비율 : 0.9
훈련 데이터 세트 점수 : 1.00
테스트 데이터 세트 점수 : -0.62
