# 1. 세 번째 딥러닝 - 아이리스 품종 분류

In [1]:
# 라이브러리
import tensorflow as tf
import pandas as pd

In [2]:
# 1. 데이터 준비
경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv'
아이리스 = pd.read_csv(경로)
아이리스.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## 1.1. 원핫인코딩(One-Hot Encoding)
* 원핫인코딩: 범주형 데이터를 0과 1의 데이터로 바꿔주는 과정
  * 딥러닝 모델을 사용하기 위하여 모든 범주형 변수를 원핫인코딩 처리해야 함

In [3]:
# 원핫인코딩
인코딩 = pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_setosa,품종_versicolor,품종_virginica
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [4]:
인코딩.columns

Index(['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭', '품종_setosa', '품종_versicolor',
       '품종_virginica'],
      dtype='object')

In [5]:
# 독립변수, 종속변수
독립 = 인코딩[['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭']]
종속 = 인코딩[['품종_setosa', '품종_versicolor', '품종_virginica']]
print(독립.shape, 종속.shape)

(150, 4) (150, 3)


## 1.2. Softmax 와 Crossentropy

### 1.2.1. Softmax
* 분류 예측은 어떻게 표현? 0% ~ 100% 의 확률값으로 표현
* 분류 모델이 추측한 결과를 확률로 표현하기 위한 도구: Sigmoid, Softmax
  * 여기서는 Softmax 를 사용할 것임

* Activation 함수
  * 분류모델: Softmax
    * y = f(w<sub>1</sub>x<sub>1</sub> + w<sub>2</sub>x<sub>2</sub> + w<sub>3</sub>x<sub>3</sub> + w<sub>4</sub>x<sub>4</sub> + b)
  * 회귀모델: Identity 함수 (y = x)
    * 입력을 그대로 출력으로 만듦
  * 역할: 퍼셉트론 출력이 어떤 형태로 나가야 하는지 조절  

* Crossentropy?
  * Loss 가 0에 가까울수록 예측이 정확해짐
  * 학습이 제대로 이뤄지도록 하려면 문제 유형에 알맞게 소스를 지정해주어야 함
  * 문제에 따라 Loss 를 다르게 사용해야 함을 아는 것이 중요
  * Crossentropy 는 분류에서 사용하는 Loss
    * 회귀에서는 MSE 를 사용

* 분류 문제는 Loss 보다 사람이 보기에 더 좋은 평가 지표가 존재
  * 정확도(accuracy)!
  * 컴파일 부분에서 `metrics='accuracy'` 를 통해 설정 가능
    * 1: 100% / 0: 0%
* 분류 문제는 회귀 문제보다 어려움: 확률 개념 때문

In [6]:
# 2. 모델 구조 만들기
X = tf.keras.layers.Input(shape=[4])
Y = tf.keras.layers.Dense(3, activation='softmax')(X)
model = tf.keras.models.Model(X, Y)
model.compile(loss='categorical_crossentropy', metrics='accuracy')

In [7]:
# 3. 데이터를 이용하여 모델 학습(FIT)
model.fit(독립, 종속, epochs=1000, verbose=0)
model.fit(독립, 종속, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x1cea27865e0>

In [8]:
# 4. 모델 사용하기
# 모델을 이용하여 추측한 결과 5개
model.predict(독립[:5])

array([[9.9925596e-01, 7.4397074e-04, 2.7489900e-08],
       [9.9684083e-01, 3.1588650e-03, 3.5952755e-07],
       [9.9855143e-01, 1.4484751e-03, 1.1087250e-07],
       [9.9622595e-01, 3.7735377e-03, 4.5424574e-07],
       [9.9940860e-01, 5.9143378e-04, 1.8818925e-08]], dtype=float32)

In [9]:
# 실제 5개
종속[:5]

Unnamed: 0,품종_setosa,품종_versicolor,품종_virginica
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0


In [10]:
# 마지막 5개 데이터
model.predict(독립[-5:])

array([[2.7211814e-07, 6.7581102e-02, 9.3241864e-01],
       [7.3589018e-07, 1.2405442e-01, 8.7594479e-01],
       [1.8272926e-06, 1.8972312e-01, 8.1027508e-01],
       [4.7258865e-07, 9.3150474e-02, 9.0684909e-01],
       [5.9338549e-06, 3.0491334e-01, 6.9508070e-01]], dtype=float32)

In [11]:
# 실제 마지막 5개
종속[-5:]

Unnamed: 0,품종_setosa,품종_versicolor,품종_virginica
145,0,0,1
146,0,0,1
147,0,0,1
148,0,0,1
149,0,0,1


In [12]:
# weights(가중치) & bias(편향) 출력
model.get_weights()

[array([[ 0.9596522 ,  0.53056645, -0.0086952 ],
        [ 3.1325188 ,  0.4073806 , -1.6269261 ],
        [-3.959046  , -0.73699564,  0.23999731],
        [-4.637538  , -1.4444212 ,  2.8239045 ]], dtype=float32),
 array([ 1.750685 ,  1.1247475, -1.432338 ], dtype=float32)]