In [59]:
import tensorflow as tf     # 텐서플로우 모델을불러옴
import numpy as np

from tensorflow.keras.models import Sequential      # 층을 구성하겠다.
from tensorflow.keras.layers import Dense       # 층에 대한 노드 갯수를 지정
from tensorflow.keras.optimizers import SGD     # 최적화함수에 대하여 설정
from tensorflow.keras.losses import mse         # 로스 지정

In [51]:
tf.random.set_seed(777)     # 시드를 설정

# 데이터준비
data = np.array([[0, 0], [1, 0], [0, 1], [1, 1]])
label = np.array([[0], [1], [1], [1]])

np.shape(data)

(4, 2)

## 인공신경망 모델
- 배치사이즈: 오차계산하고 w, b값 갱신할 데이터 단위임
- 현재 4개의 x값이 있으며 배치를 1로 하면 1번째데이터/4개의 모든데이터중, 2/4, 3/4, 4/4임
- 배치를 3으로하면 1(1,2,3데이터)/4,  2(4번째데이터)/4임
- 배치 사이즈는 사용자가 정의하지 않아도 됨(optimizer에서 배치를 자동으로 결정함)
- epochs: 전체데이터를 몇번더 돌릴건지 (epochs할때마다 가중치가 갱신됨)

## Dense 1개

In [78]:
# 모델 구성하기: Dense 1개
model = Sequential()        # tensorflow.keras.models.Sequential()
model.add(Dense(1, input_shape = (2, ), activation = 'linear'))     # 활성화 함수 WX+b
# input_shape 갯수를 정확히 입력해야함

# 모델 준비하기
model.compile(optimizer = SGD(), loss=mse, metrics=['acc'])     # List 형태로 평가지료를 전달합니다.

# 학습시키기
model.fit(data, label, epochs=2, batch_size=1)

Epoch 1/2
Epoch 2/2


<keras.callbacks.History at 0x7f6b06403fd0>

In [79]:
model.summary()
# Param의 갯수는 노드에서 나가는 선의 갯수
# input의 x값이 2개임으로 w1, w2, b 3개의 노드가 있어 Param갯수가 3임

# Param공식 input갯수 * dense수 + b
# Param: 노드(값을가지고 있음)에서 나가는 선의 갯수
# 현재는 노드가 x1, x2, 1(바이어스항)
# 여기에 계산되는 가중치가 Param의 갯수 -> w1, w2, b
# w는 같은 배열에 넣고 b는 한개의 항으로 제공

Model: "sequential_16"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_17 (Dense)             (None, 1)                 3         
Total params: 3
Trainable params: 3
Non-trainable params: 0
_________________________________________________________________


In [80]:
paramValue=model.get_weights()  # Param갯수만큼 출력됨. [w1, w2], [b]
print(paramValue)

[array([[-0.8387567],
       [-1.0032946]], dtype=float32), array([0.26871508], dtype=float32)]


In [81]:
# 직접 예측값 계산해보기
x1=data[:,0] ; x2=data[:,1]
w1=paramValue[0][0] ; w2=paramValue[0][1]; b=paramValue[1]
y_pred=x1*w1+x2*w2+b
y_pred

array([ 0.26871508, -0.5700416 , -0.7345795 , -1.57333618])

In [72]:
# 모델 가중치 확인하기
# x1과 x2의 자료를 갖고있으니까 x1의 w1, x2의 w2, b한개
# [w1, w3], b
data[:,0]

we=model.get_weights()     # 모델 가중치 확인하기
w1=we[0][0]    # x1의 w1
w2=we[0][1]    # x2의 w2
b=we[1]    # b

y_pred=data[:,0]*w1+data[:,1]*w2+b
y_pred

array([0.74254316, 0.34471753, 0.40732965, 0.00950402])

In [82]:
# 텐서제공 예측값 계산하기
# evaluate(): 평가를 진행
model.evaluate(data, label)

# predict(): 예측값을 계산
preds = model.predict(data)
for a, b in zip(preds, label):
    print(f"예측값 {a} - 정답 {b}")

예측값 [0.26871508] - 정답 [0]
예측값 [-0.5700416] - 정답 [1]
예측값 [-0.7345795] - 정답 [1]
예측값 [-1.5733361] - 정답 [1]


## Dense 2개

In [83]:
# 모델 구성하기: Dense 2개
model = Sequential()        # tensorflow.keras.models.Sequential()
model.add(Dense(2, input_shape = (2, ), activation = 'linear'))     # 활성화 함수 WX+b
# input_shape 갯수를 정확히 입력해야함

# 모델 준비하기
model.compile(optimizer = SGD(), loss=mse, metrics=['acc'])     # List 형태로 평가지료를 전달합니다.

# 학습시키기
model.fit(data, label, epochs=2, batch_size=1)

model.summary()
# Param의 갯수는 노드에서 나가는 선의 갯수
# input의 x값이 2개임으로 w1, w2, b 3개의 노드가 있어 Param갯수가 3임
# 이러한 3개의 파람을 갖는 세트가 2개있음.(Dense=2) 총 6개임

Epoch 1/2
Epoch 2/2
Model: "sequential_17"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_18 (Dense)             (None, 2)                 6         
Total params: 6
Trainable params: 6
Non-trainable params: 0
_________________________________________________________________


In [84]:
paramValue=model.get_weights()  # Param갯수만큼 출력됨.   [[w1,w2],[w1,w2]],[b,b]  ==> [[Dense1의 w1,w2],[Dense2의 w1,w2]],[Dense1의b,Dense2의b]
print(paramValue)

[array([[-0.8282555 , -0.5131165 ],
       [-0.7138059 ,  0.01110243]], dtype=float32), array([0.1220188 , 0.08006375], dtype=float32)]


In [85]:
Dense_1_w=paramValue[0][0] 
Dense_2_w=paramValue[0][1]
Dense_1_b=paramValue[1][0]
Dense_2_b=paramValue[1][1]

y_pred_1=x1*Dense_1_w[0] * x2 *Dense_1_w[1] + Dense_1_b
y_pred_2=x1*Dense_2_w[0] * x2 *Dense_2_w[1] + Dense_2_b

print(y_pred_1,y_pred_2)  # 강의할때는 y_pred_1이 아니라 y_pred로 해서 결과가 다르게 나온것임

[0.1220188  0.1220188  0.1220188  0.54701033] [0.08006375 0.08006375 0.08006375 0.07213877]


In [86]:
## 텐서제공 예측값 계산하기

# predict(): 예측을 진행합니다.
preds = model.predict(data)
for a, b in zip(preds, label):
    print(f"예측값 {a} - 정답 {b}")

예측값 [0.1220188  0.08006375] - 정답 [0]
예측값 [-0.70623666 -0.43305272] - 정답 [1]
예측값 [-0.5917871   0.09116618] - 정답 [1]
예측값 [-1.4200425  -0.42195028] - 정답 [1]


## 활성화 함수
 - Dense층의 결과를 계산하는 공식
 - 중간 Dense는 다음 Dense에 넘어가기에 적합한 값을 의미(Relu라는 함수를 사용)
 - 최종 Dense는 원하는 y값을 의미
  - y값은 무한대의 숫자인 선형회귀이거나->결과는 무한대의 숫자중 1개 (활성화함수 기재안함)
  - 0또는 1값중 한개인 이항분류이거나->결과1은 0또는1의한개의비트(활성화함수 시그모이드), 결과2는[1,0[0,1]의 두개의 비트로 표현하는 원핫인코딩(활성화함수 소프트맥스)
  - 여러개의 다항분류이거나->무조건 분류갯수만큼 원핫인코딩(활성화함수 소프트맥스)

- 현재 linear 함수를 사용했기 때문에 wx+b값이 되면서 결과값이 무한대의 숫자값중 한개가 나옴
- linear를 sigmoid함수를 사용하면 0또는1의 사이값만 출력됨


## 
활성화함수 (dense층의 결과를 계산하는 공식)


중간Dense는 다음Dense에 넘어가기에 적합한 값을 의미 (Relu 라는 함수를 사용)

최종Dense는 원하는 y값을 의미
  y값은 무한대의 숫자인 선형회귀 이거나, 결과는 무한대의 숫자중 1개  (활성화함수 기재안함)
        0또는1값중 한개인 이항분류이거나
                                        결과1은 0또는1의 한개의 비트  (활성화함수 시그모이드)
                                        결과2는 0값을[1,0] 1값을[0,1]의 두개의 비트로 표현하는 원핫인코딩(활성화함수 소프트맥스)
        
        여러개의 다항분류이거나  무조건 분류갯수만큼 원핫인코딩 (활성화함수 softmax)
            예) 개,고양이,사자,사슴  4개의분류가 있으면 개는1, 고양이는2, 사자는3,사슴은4
                개는[1,0,0,0]   고양이는[0,1,0,0,]  사자는 [0,0,1,0]  사슴은 [0,0,0,1]

## 활성화함수 linear함수

In [87]:
data = np.array([[5, 20], [3, 0], [8, 1], [1, 1]])  # 입력데이터셋의 형태는 신경망의 input값에 사용됨. 입력의 갯수와 신경망의 input의갯수가 다르면 error
label = np.array([[0], [1], [1], [1]]) 

model = Sequential() 
model.add(Dense(1, input_shape = (2,), activation = 'linear')) 
#model.add(Dense(1, input_shape = (2,))) # activation을 사용하지 않아도 선형식이 됨. 단 w,b의 랜덤값이 다르게 나옴

model.compile(optimizer = SGD(), loss = mse, metrics = ['acc']) 
model.fit(data, label, epochs = 2,batch_size=1,verbose=0) # verbose=0 실행화면 안나옴

<keras.callbacks.History at 0x7f6afe96eb90>

In [88]:
# linear 함수이기때문에 무한대의 숫자값이 나옴
preds = model.predict(data)
for a, b in zip(preds, label):
    print(f"예측값 {a} - 정답 {b}")

예측값 [881.87164] - 정답 [0]
예측값 [-39.71502] - 정답 [1]
예측값 [-56.95084] - 정답 [1]
예측값 [33.499382] - 정답 [1]


In [89]:
paramValue=model.get_weights()  # Param갯수만큼 출력됨.   [[w1,w2],[w1,w2]],[b,b]  ==> [[Dense1의 w1,w2],[Dense2의 w1,w2]],[Dense1의b,Dense2의b]

# 직접 예측값 계산해보기
x1=data[:,0] ; x2=data[:,1]
w1=paramValue[0][0] ; w2=paramValue[0][1]; b=paramValue[1]
y_pred=x1*w1+x2*w2+b
y_pred

array([881.87164241, -39.71501797, -56.9508397 ,  33.49938136])

## 활성화 함수 0과 1값 사이만 나오게 하는 sigmoid

In [90]:
data = np.array([[5, 20], [3, 0], [8, 1], [1, 1]])  # 입력데이터셋의 형태는 신경망의 input값에 사용됨. 입력의 갯수와 신경망의 input의갯수가 다르면 error
label = np.array([[0], [1], [1], [1]]) 

model = Sequential() 
model.add(Dense(1, input_shape = (2,), activation = 'sigmoid')) 
#model.add(Dense(1, input_shape = (2,))) # activation을 사용하지 않아도 선형식이 됨. 단 w,b의 랜덤값이 다르게 나옴

model.compile(optimizer = SGD(), loss = mse, metrics = ['acc']) 
model.fit(data, label, epochs = 2,batch_size=1,verbose=0) # verbose=0 실행화면 안나옴

<keras.callbacks.History at 0x7f6b067d1450>

In [91]:
# sigmoid 함수이기때문에 0또는1 사이의 숫자값이 나옴
preds = model.predict(data)
for a, b in zip(preds, label):
    print(f"예측값 {a} - 정답 {b}")

예측값 [1.] - 정답 [0]
예측값 [0.97987187] - 정답 [1]
예측값 [0.9999893] - 정답 [1]
예측값 [0.9153701] - 정답 [1]


## 활성화함수 softmax함수

In [92]:
data = np.array([[5, 20], [3, 0], [8, 1], [1, 1]])  # 입력데이터셋의 형태는 신경망의 input값에 사용됨. 입력의 갯수와 신경망의 input의갯수가 다르면 error
label = np.array([[0], [1], [1], [1]]) 

label_onehot = tf.keras.utils.to_categorical(label,num_classes=2) 
print(label_onehot)

[[1. 0.]
 [0. 1.]
 [0. 1.]
 [0. 1.]]


In [93]:
model = Sequential() 
model.add(Dense(2, input_shape = (2,), activation = 'softmax')) 

model.compile(optimizer = SGD(), loss = mse, metrics = ['acc']) 
model.fit(data, label_onehot, epochs = 2,batch_size=1,verbose=0) # verbose=0 실행화면 안나옴

<keras.callbacks.History at 0x7f6b066a9490>

In [94]:
# sigmoid 함수이기때문에 0또는1 사이의 숫자값이 나옴
preds = model.predict(data)
for a, b in zip(preds, label_onehot):
    print(f"예측값 {a} - 정답 {b}")

예측값 [1.0000000e+00 4.9823775e-08] - 정답 [1. 0.]
예측값 [0.3558003  0.64419967] - 정답 [0. 1.]
예측값 [0.34413174 0.65586823] - 정답 [0. 1.]
예측값 [0.66190684 0.3380932 ] - 정답 [0. 1.]


# 정리
- 인공신경망은 사용자가 x값의 input갯수와, 출력y값의 갯수
y값의 활성화함수를 신경써야함. 
- model.add 에 dense를 구성하는 노드갯수를 설정하여 Param갯수를 정할수 있음
- 최종 y값에 따라 활성화함수를 다르게 지정하여야함.
- 활성화함수는 오차계산법도 다르게 지정하여야함.
- 일반적으로
    - 선형회귀는 mse, mae 
    - 시그모이드는 binary_crossentropy 
    - 소프트맥스는 categorical_crossentropy 
       - 단 onehot인코딩 안한상태에서 원핫인코딩하면서 오차 계산해주는 식 사용가능 SparseCategoricalCrossentropy



- model.add가 많을수록 수많은 weight가 생성됨.
- weight가 많으면 많을수록 훈련데이터에 잘 맞추어서 overffing(훈련만 잘맞고,검증은 잘 안맞음) 될수 있음.
- 이 오버피팅을 없애는방법중 하나로 dense중간층에 dropout(비율)을 사용하기도함