# 06.다중분류문제

# 아이리스 품종 예측
<img src="https://thegoodpython.com/assets/images/iris-species.png">

### 아이리스 데이터
- dataset/iris.csv

### 데이터 설명
* 샘플 수: 150
* 속성 수: 4
    - 컬럼 1: (sepal length) 꽃받침 길이
    - 컬럼 2: (sepal width) 꽃받침 너비
    - 컬럼 3: (petal length) 꽃잎 길이
    - 컬럼 4: (petal width) 꽃잎 너비
* 클래스: iris-setosa, iris-versicolor, iris-virginica

### 클래스가 3개

#### 필요 패키지 추가 설치
```
conda install scikit-learn
```

### 상관 그래프 

In [None]:
from keras.models import Sequential
from keras.layers.core import Dense
from keras.utils import np_utils
from sklearn.preprocessing import LabelEncoder

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy
import tensorflow as tf

In [None]:
# seed 값 설정
seed = 0
numpy.random.seed(seed)
tf.set_random_seed(seed)

# 데이터 입력
df = pd.read_csv('./dataset/iris.csv', names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "species"])

# 그래프로 확인
sns.pairplot(df, hue='species', palette='husl');
plt.show()

### 데이터프레임에서 데이터만 추출한 후 X와 Y로 분리

In [None]:
df.values

In [None]:
# 데이터 분류
dataset = df.values
X = dataset[:,0:4].astype(float)
Y_obj = dataset[:,4]

In [None]:
X.dtype

### 클래스의 레이블이 숫자가 아니고 문자이므로 손실 함수를 정의할 수 없음
즉, 오차를 구할 수 없음


따라서, 문자 레이블을 숫자로 변환해야 함
```
from sklearn.preprocessing import LabelEncoder
```

### 클래스가 2개가 아니고 3개이므로 레이블을 원 핫 인코딩으로 표현해야 함
```
from keras.utils import np_utils
np_utils.to_categorical()
```

In [None]:
# 문자열을 숫자로 변환
e = LabelEncoder()
e.fit(Y_obj)
Y = e.transform(Y_obj)
Y_encoded = np_utils.to_categorical(Y)

In [None]:
Y

In [None]:
Y_encoded

### 출력층의 활성화 함수로 소프트맥스(softmax) 함수 사용
#### 소프트맥스 함수
* 입력을 총합이 항상 1인 형태로 변환
* 이 출력이 교차 엔트로피를 통과하면 원 핫 인코딩 형태로 표현됨


### 실젯값도 원 핫 인코딩, 예측값도 원 핫 인코딩으로 표현되므로 오차를 구할 수 있게 되고 학습할 수 있게 됨

In [None]:
# 모델의 설정
model = Sequential()
model.add(Dense(16,  input_dim=4, activation='relu'))
model.add(Dense(3, activation='softmax'))

# 모델 컴파일
model.compile(loss='categorical_crossentropy',
            optimizer='adam',
            metrics=['accuracy'])

# 모델 실행
model.fit(X, Y_encoded, epochs=50, batch_size=1)

# 결과 출력
print("\n Accuracy: %.4f" % (model.evaluate(X, Y_encoded)[1]))