In [2]:
import tensorflow as tf
import pandas as pd

## 1. 데이터 준비

In [3]:
파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv'
아이리스 = pd.read_csv(파일경로)
아이리스.head()

# 레모네이드, 보스턴 데이터는 종속변수가 판매량, 집값과 같은 수치형 변수 -> 회귀 
# 아이리스 데이터 종속변수는 품종으로 범주형 변수 -> 분류 

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


#### 회귀와 분류를 나누는 기준은 종속변수의 데이터 타입
- 종속변수가 양적: 회귀
- 종속변수가 범주형: 분류

## 원핫인코딩
- 퍼셉트론 수식의 종속변수 y는 범주형 데이터를 사용할 수 없음
- 범주형 데이터를 수치형 데이터로 변환
  - 범주들을 3개의 칼럼으로 만듬
  - 0 또는 1의 수치형 데이터로 변경됨 => 원핫인코딩

In [4]:
인코딩 = pd.get_dummies(아이리스)  # 데이터의 범주형 변수들만 적용됨
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_setosa,품종_versicolor,품종_virginica
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


## 독립변수, 종속변수 분리

In [5]:
독립 = 인코딩[['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭']]      # 입력층 4개
종속 = 인코딩[['품종_setosa', '품종_versicolor', '품종_virginica']]  # 출력층 3개
print(독립.shape, 종속.shape)

(150, 4) (150, 3)


## 2. 모델 생성

In [6]:
X = tf.keras.layers.Input(shape=[4])                   # 입력층 4개
Y = tf.keras.layers.Dense(3, activation='softmax')(X)  # 출력층 3개
model = tf.keras.models.Model(X, Y)                    # 모델 생성
model.compile(loss='categorical_crossentropy', metrics='accuracy')
                                                                   

#### 활성화 함수(Activation)
- 회귀모델: 입력을 출력으로 만드는 Identity 함수가 있어 불필요 함
- 분류모델: softmax, sigmoid
 - y3 = softmax(w1x1 + w2x2 + w3x3 + b) 하면 0 ~ 1사이 값으로 표현해 줌  

#### loss: 모델의 결과와 실제 정답과 차이가 있는지 알아보기 위함
- loss가 0이면 모든 정답을 맞춘 모델이며 loss를 최소화시키는 것이 학습의 목표 => 분류와 회귀에 맞게 사용해야 함
   - 회귀의 loss: mse
   - 분류의 loss: categorical_crossentropy
- 분류에서는 loss를 사람이 보기 편하게 정확도를 제공함
   - metrics='accuracy'

## 3. 모델 학습

In [7]:
model.fit(독립, 종속, epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7f38a094bcc0>

## 4. 모델 예측

In [8]:
# 맨 처음 데이터 5개
print(model.predict(독립[:5]))
print(종속[:5]) 

[[0.38161734 0.34117597 0.2772067 ]
 [0.35634053 0.29089245 0.35276705]
 [0.38069668 0.326597   0.29270628]
 [0.37407845 0.35011616 0.27580538]
 [0.38953224 0.36535886 0.24510886]]
   품종_setosa  품종_versicolor  품종_virginica
0          1              0             0
1          1              0             0
2          1              0             0
3          1              0             0
4          1              0             0


In [9]:
# 맨 마지막 데이터 5개
print(model.predict(독립[-5:]))
print(종속[-5:])

[[0.19612269 0.22360021 0.58027714]
 [0.19311894 0.23316918 0.5737118 ]
 [0.21975519 0.3033323  0.47691253]
 [0.24909185 0.38549057 0.3654176 ]
 [0.24723333 0.40874738 0.3440193 ]]
     품종_setosa  품종_versicolor  품종_virginica
145          0              0             1
146          0              0             1
147          0              0             1
148          0              0             1
149          0              0             1


## 가중치 출력

In [11]:
print(model.get_weights())

[array([[-0.8790319 , -1.0916798 , -0.2956451 ],
       [ 0.2504373 ,  0.5173215 , -0.6020702 ],
       [ 0.03574235,  0.4982365 , -0.30850476],
       [-0.3913176 , -0.88687015,  0.2529141 ]], dtype=float32), array([ 0.17772312, -0.33226866,  0.21967109], dtype=float32)]


#### 첫번째 열: 세토사의 꽃잎길이, 꽃잎폭, 꽃받침길이, 꽃받침 폭을 예측하는 수식