# 붓꽃(Iris) 데이터 분류 

## 1. 라이브러리 설정하기

In [None]:
import tensorflow as tf
from tensorflow import keras

from tensorflow.keras import Sequential 
from tensorflow.keras.layers import Dense, Softmax
#from tensorflow.keras import optimizers

In [None]:
%matplotlib inline

## 2. 데이터 가져오기 

In [None]:
import pandas as pd

df = pd.read_csv('./input/Iris.csv')
df.shape

In [None]:
df.head(2)

** 라벨을 위해 Species의 텍스트는 범주형 혹은 숫자로 인코딩 해야한다

## 3. 데이터 가시화 

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(14,6))
sns.scatterplot(data=df, x = 'SepalLengthCm', 
    y = 'SepalWidthCm', hue='Species', style='Species')
plt.figure(figsize=(14,6))
sns.scatterplot(data=df, x = 'PetalLengthCm', 
    y = 'PetalWidthCm', hue='Species', style='Species')

In [None]:
df.drop('Id',axis=1,inplace=True)

## 4 머신러닝을 위한 입력 데이터 만들자

### 1) 입력 X와 출력 y의 값을 정하기

In [None]:
df['Species'].unique()

df['Species'] = df['Species'].str[5:]
df.head()

In [None]:
feature_cols = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']
target_col = 'Species'
X = df[feature_cols]
y = df[target_col]

### 출력용 라벨을 머신러닝용을 다루자

- 타켓의 텍스트를 숫자로 바꾸자 

In [None]:
class_dic = {'setosa':0, 'versicolor':1, 'virginica':2}
y_ohc = y.apply(lambda z: class_dic[z])

# 머신러닝 모델을 만들자

- 데이터의 범위를 [0,1] 사이로 스케일 
- 사이킷런의 MinMaxScaler()

### 데이터를 훈련과 테스트로 나누자 
- (실전) 데이터를 validation을 포함해서 나눌수 있다.
- (해보기) 전체 데이터를 train : validation : test = 0.6: 0.2: 0.2 로 나누어라

In [None]:
import sklearn

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_ohc, test_size=0.2,random_state=20)

X_train.shape

In [None]:
model = keras.Sequential([
    keras.layers.Dense(3, activation = 'softmax', input_shape=[4])])

model.compile(loss='SparseCategoricalCrossentropy', optimizer='adam', metrics=['accuracy'])
model.summary()

In [None]:
history = model.fit(X_train, y_train, epochs = 300, batch_size = 64, verbose=2)            

In [None]:
model.evaluate(X_test, y_test)

In [None]:
import numpy as np
acc_dnn = history.history['accuracy'][np.argmin(history.history['loss'])]
print('The accuracy of the Deep Learning is:', acc_dnn)

In [None]:
import yiDL_util as myplot
myplot.plot_history(history)