### 지도학습 분류
* iris dataset(붓꽃데이터)를 사용하여 품종을 예측하기
* 종속변수(레이블) 있는 데이터 이므로 지도학습
* 붓꽃 데이터의 종속변수(레이블)은 품종(setosa, vesicolor, virginica)
* 붓꽃 데이터의 독립변수 4개의 특성(feature)가 있다
 - 꽃받침의 길이와 폭 (sepal_length, sepal_width)
 - 꽃잎의 길이와 폭(petal_length, petal_width)

### 1. Iris 데이터 Load

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()

In [23]:
df = pd.DataFrame(iris.data, columns=iris.feature_names)
print(df.head())
df2 = pd.DataFrame(iris.target)
print(df2.head())
print(iris.target_names)

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2
   0
0  0
1  0
2  0
3  0
4  0
['setosa' 'versicolor' 'virginica']


### 2. 훈련데이터와 테스트데이터 나누기
* 훈련데이터는 머신러닝 모델을 만들때(학습할때) 사용하고
* 테스트데이터(검증데이터)는 모델이 얼마나 잘 동작하는 측정할 때 사용한다
* 150건 데이터를 75%는 훈련데이터로, 25%는 검증데이터로 나눈다
  - scikit-learn에서 제공하는 train_test_split() 함수를 사용한다
  - 검증데이터 수치를 바꾸고 싶으면 test_size=0.25(default)를 변경한다
* 훈련, 검증 데이터 모두 독립변수와 종속변수로 나누어야 한다
  - 독립변수는 입력데이터 이므로 X 로 표시하고
  - 종속변수는 출력데이터 이므로 y 로 표시한다
  - 훈련데이터 독립변수는 X_train, 종속변수는 y_train
  - 테스트데이터 독립변수는 X_test, 종속변수는 y_test  

In [14]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target)

### 3. 학습방법 선택
* k-최근접이웃 알고리즘 선택
 - k-nearest neighbors 가장 가까운 거리의 이웃 데이터를 보고 판단
 - 사이킷런에서 제공하는 KNeighborsClassifier 클래스를 사용
 - 학습할때는 fit(X_train, y_train) 함수 
 - 예측할때는 prediction = predict(X_test)
 - prediction 과 y_test 를 비교해서 예측점수를 계산한다

In [20]:
from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()
kn.fit(X_train, y_train)

print("train score :", kn.score(X_train, y_train))
print("test score :", kn.score(X_test, y_test))

train score : 0.9821428571428571
test score : 0.9473684210526315


In [21]:
prediction = kn.predict(X_test)
score = 0
for idx in range(len(y_test)):
  if y_test[idx] == prediction[idx]:
    score = score + 1
score = score/len(y_test)
print("test score :", score)

test score : 0.9473684210526315
