# Iris

---

## 붓꽃 분류

- 지도학습
- 꽃잎(petal)과 꽃받침(sepal)의 폭과 길이 값만 보고 붓꽃의 종류를 분류하는 문제
- 붓 꽃의 종류(품종): setosa, versicolor, virginica

---

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline 

# Pandas option
#pd.set_option('max_rows', 30)
#pd.set_option('max_columns', 15)

# 시각화 스타일 설정
# plt.style.use('fivethirtyeight') 
# sns.set_style('whitegrid')

#import warnings
#warnings.filterwarnings('ignore')

from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12, 8
#rcParams['axes.grid'] = True

In [None]:
# Machine Learning Library

from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import train_test_split

# accuracy measure
from sklearn import metrics

# Load Iris data set
from sklearn.datasets import load_iris

### Load data set

In [None]:
ds_iris = load_iris()
ds_iris

In [None]:
type(ds_iris)

In [None]:
ds_iris.keys()

### Iris data set

- DESCR(description): 데이터셋에 대한 설명
- data
  - data: 꽃잎, 꽃받침의 너비 및 길이 데이터
  - feature_names: 데이터의 이름
- target
  - target: 품종 데이터( 0, 1, 2 )
  - target_names: 품종의 이름


In [None]:
print(ds_iris['DESCR'])

In [None]:
ds_iris['target']

In [None]:
ds_iris['data']

In [None]:
ds_iris['target_names']

In [None]:
ds_iris['feature_names']

In [None]:
ds_iris['data'].shape

In [None]:
ds_iris['target'].shape

### 데이터 분포

In [None]:
df_iris = pd.DataFrame(ds_iris['data'], columns=ds_iris.feature_names)

pd.plotting.scatter_matrix(df_iris, c=ds_iris['target'], figsize=(8, 8), marker='o',
                           hist_kwds={'bins': 20}, s=60, alpha=.8)
plt.show()

### 머신러닝: 품종 예측

#### 데이터 분리: 학습데이터 + 테스트 데이터

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    ds_iris['data'], ds_iris['target'], random_state=123)

In [None]:
print('X_train shape:', X_train.shape)
print('y_train shape:', y_train.shape)

In [None]:
print('X_test shape:', X_test.shape)
print('y_test shape:', y_test.shape)

#### k-NN(k-최근접 이웃 알고리즘)

In [None]:
# 모델 생성
knn = KNeighborsClassifier(n_neighbors=3)

In [None]:
# 모델 학습
knn.fit(X_train, y_train)

In [None]:
# 결과 예측
prediction = knn.predict(X_test)
prediction

In [None]:
# 정확도 확인
metrics.accuracy_score(prediction, y_test)

#np.mean(prediction == y_test)

#knn.score(X_test, y_test)

In [None]:
# Score - precision, recall, f1-score
print(metrics.classification_report(y_test, prediction))

In [None]:
# Confusion Matrix
pd.crosstab(prediction, y_test, margins=True)

#### 새로운 데이터 품종 예측

In [None]:
# 데이터 생성
X_new = np.array([[5, 2.9, 1, 0.2], [4,2,3,4], [3,5,4,1]])
X_new

In [None]:
# 품종 예측(0, 1, 2)
pred = knn.predict(X_new)
pred

In [None]:
# 품종 이름 출력
ds_iris['target_names'][pred]

### Summary

 - 데이터 준비(훈련데이터, 테스트데이터 나누기)
 - 모델 생성
 - 학습 (fit)
 - 결과검증( 예측, 정확도 확인)

In [None]:
# 데이터 준비
X_train, X_test, y_train, y_test = train_test_split(
    ds_iris['data'], ds_iris['target'], random_state=123)

# 모델 생성
knn = KNeighborsClassifier(n_neighbors=3)

# 모델 학습
knn.fit(X_train, y_train)

# 정확도 확인
knn.score(X_test, y_test)


In [None]:
# end of file