**종속 변수 데이터 종류에 따른 문제 유형**
- ```양적 데이터```일 경우, ```회귀 문제```
  - ex) 온도(20, 21, 22)와 판매량(40, 42, 44)의 상관관계
- ```범주형 데이터```일경우, ```분류 문제```
  - ex) 공부시간(20, 21, 22)에 따른 시험결과 (합격, 불합격)의 상관관계
  - 하지만 범주형 데이터는 숫자로 표현되지 않으므로, 수식에 사용할 수 있는 형태로 바꿔주는 과정을 거쳐야 함.

**원핫 인코딩(onehot-encoding)**
- 범주형 데이터를 숫자 형태로 변환시켜주는 것.
- 딥러닝 모델을 사용하기 위해서는 모든 범주형 변수를 원핫 인코딩 해주어야 함.
- ```pd.get_dummies()```는 데이터 내 범주형 변수들만 골라서 원핫 인코딩된 결과를 만들어 줌.
- 따라서, Iris dataset에서 종속변수의 개수가 3개가 된다!!<br>
(setosa인지 확인하는거 하나, virginica인지 확인하는거 하나, veriscolor인지 
확인하는거 하나)

**Softmax 함수**
- 출력 확률의 범위를 0과 1 사이로 제한시켜 줌.
- 확률, 비율로 예측을 진행하기 위해 Softmax를 사용하는 것이 목적.
- Sigmoid 함수와 차이점 비교

Sigmoid Function | Softmax Function
--- | ---
Multi-classification | Binary-classification
확률의 총합 = 1 | 확률의 총합 1이 아님
출력층에서 사용 | 활성화 함수로 사용할 수 있음

**Loss의 지정 방식**
- 문제에 따라 loss를 다르게 사용해야 한다는 것이 중요
  - 회귀 문제 : mse
  - 분류 문제 : crossentropy
- 정확도 옵션은 ```metrics = 'accuracy'``` 로 확인 가능

**아이리스 품종 분류**

In [2]:
# 라이브러리 사용

import tensorflow as tf
import pandas as pd

In [3]:
# 1. 과거의 데이터를 준비합니다.

파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv'
아이리스 = pd.read_csv(파일경로)
아이리스.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
# 원핫인코딩

인코딩 = pd.get_dummies(아이리스)  # 범주형 변수들만 골라서 원핫 인코딩 진행
인코딩.head()                      # 밑에 표에서 결과 확인 가능

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_setosa,품종_versicolor,품종_virginica
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [5]:
# 독립변수와 종속변수 분리

print(인코딩.columns)  # 독립변수와 종속변수 구분하기 위해 확인
독립 = 인코딩[['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭']]
종속 = 인코딩[['품종_setosa', '품종_versicolor',
       '품종_virginica']]
print(독립.shape, 종속.shape)

Index(['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭', '품종_setosa', '품종_versicolor',
       '품종_virginica'],
      dtype='object')
(150, 4) (150, 3)


In [8]:
# 2. 모델의 구조를 만듭니다.

X = tf.keras.layers.Input(shape=[4])
# 범주형 데이터를 학습시키기 위해서는 수치형으로 변형이 필요
Y = tf.keras.layers.Dense(3, activation = 'softmax')(X)
models = tf.keras.models.Model(X, Y)
models.compile(loss = 'categorical_crossentropy', metrics = 'accuracy')

In [12]:
# 3. 데이터로 모델을 학습(fit)합니다.

models.fit(독립, 종속, epochs = 10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7faa20ccf748>

In [13]:
# 4. 모델을 이용합니다.

models.predict(독립[0:5])
# 첫 번째 칼럼의 확률이 제일 높기에, setosa 품종임을 예측할 수 있음

array([[0.9667564 , 0.0255352 , 0.00770831],
       [0.93953043, 0.04799141, 0.01247815],
       [0.9526348 , 0.03642053, 0.01094459],
       [0.9273992 , 0.055306  , 0.01729468],
       [0.9684151 , 0.02377808, 0.00780682]], dtype=float32)

In [14]:
print(종속[0:5])

   품종_setosa  품종_versicolor  품종_virginica
0          1              0             0
1          1              0             0
2          1              0             0
3          1              0             0
4          1              0             0


In [15]:
# 학습한 가중치 출력

models.get_weights()

[array([[ 0.40789664, -0.01280083, -0.39948815],
        [ 0.71874136, -0.43204084,  0.02120172],
        [-1.7183572 , -0.28111604, -0.04881116],
        [-1.7728368 , -0.07712914,  0.77488077]], dtype=float32),
 array([ 0.4536526 ,  0.64177954, -0.66585195], dtype=float32)]