# Summary

### Linear & Logistic Regression

- Logistic Regression에서 sigmoid를 쓰는 이유
  - 0 or 1을 구분하기 위한 Activation Function이 sigmoid 이기 때문

### Train/Test/Validation data

  - Train 세트 : 훈련을 위해 사용되는 데이터
  - Test 세트 : 모델이 얼마나 잘 작동하는지 확인
  - Validation 세트 : 다양한 모델 중 어떤 모델이 좋은 성능 나타내는지 확인

### Overfitting

- 측정에 의한 데이터는 노이즈가 있을 수 있고 그 노이즈까지 학습해버리는 것을 과적합이라고한다.

- 적당한 loss에서 끊어 줄 필요가 있고, validation set이 필요한 이유

- validation loss에서 갑자기 상승하는 구간을 통해 적당한 epoch를 설정가능

- 참고 
  - https://untitledtblog.tistory.com/m/68 -> 과적합
  - https://ko.wikipedia.org/wiki/%EA%B3%BC%EC%A0%81%ED%95%A9 -> 로지스틱에서 과적합


### Fully Connected Layer

  - 모든 뉴런이 연결된 레이어
    - 항상 모든 뉴런이 연결될 필요가 없음, 뉴런이 모두 연결될 때 w값이 너무 많아져서 리소스가 불필요하게 늘어남

### Activation Function

 - 비선형성을 위해서 Activation Function이 필요

 - softmax
  - 이분법이 아니라 여러가지 output을 가질 수 있을 때, 확률로 만들어주는 activation function

### Normalization/Standardization/Regularization

- Normalization (정규화)
  - Data를 0과 1사이의 값으로 재조정
  - Input 간의 값 차이가 크면 학습이 잘 안됨
	  - 데이터크기가 100배 크면 Error도 100배 큼

- Standardization (표준화)

  - 평균을 0으로 하고 표준편차를 1로 만듭니다
  - 참고
    - https://m.blog.naver.com/mrp/221672080759

- Regularization (정칙화)

  - overfitting을 막아주는 방법
  - 참고
    - https://m.blog.naver.com/laonple/220527647084



In [None]:
import tensorflow
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt

def onehot_to_class(prediction):
  idx = prediction.argmax(axis = 0)

  if idx == 0:
    return str(0)
  if idx == 1:
    return str(1)
  if idx == 2:
    return str(2)
  else :
    return 'error'



# input
X_train = [[0,0],[0,1],[1,0],[1,1]]
X_train = np.array(X_train)

# output
Y_train=[[0],[1],[1],[2]] # 숫자로 분류할 때
# Y_train=[[1,0,0],[0,1,0],[0,1,0],[0,0,1]]

Y_train = (tensorflow.keras.utils.to_categorical(Y_train))

print(Y_train)

model = keras.models.Sequential([
    keras.layers.Dense(units=4, activation='relu', input_shape=[2]),
    keras.layers.Dense(units=2, activation='sigmoid'), 
    keras.layers.Dense(units=3, activation='softmax'), # 출력이 여러가지
])

# units = 해당 layer의 Neuron의 갯수

opt = keras.optimizers.Adam(learning_rate=0.1)

# model.compile(loss='sparse_categorical_crossentropy', optimizer=opt, metrics=['accuracy']) # 숫자로 분류할 때
model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['accuracy']) # one-hot encoding

hist = model.fit(X_train, Y_train, batch_size=4, epochs=100, shuffle=True, verbose = 0)

print(model.weights)
print("0,0 -> ", onehot_to_class(model.predict([[0,0]])[0]))
print("0,1 -> ", onehot_to_class(model.predict([[0,1]])[0]))
print("1,0 -> ",onehot_to_class(model.predict([[1,0]])[0]))
print("1,1 -> ", onehot_to_class(model.predict([[1,1]])[0]))

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
[<tf.Variable 'dense_9/kernel:0' shape=(2, 4) dtype=float32, numpy=
array([[ 2.4334505 ,  2.821953  , -0.3167658 ,  2.3563223 ],
       [-2.4430728 ,  1.5909126 , -0.33014655,  2.6804435 ]],
      dtype=float32)>, <tf.Variable 'dense_9/bias:0' shape=(4,) dtype=float32, numpy=array([-0.03113105, -1.2180376 ,  0.        , -0.604933  ], dtype=float32)>, <tf.Variable 'dense_10/kernel:0' shape=(4, 2) dtype=float32, numpy=
array([[ 2.2533977 ,  2.8736522 ],
       [-2.1630995 ,  3.5727046 ],
       [-0.50213766,  0.50738454],
       [-0.6580256 ,  3.4105844 ]], dtype=float32)>, <tf.Variable 'dense_10/bias:0' shape=(2,) dtype=float32, numpy=array([ 4.9933333, -3.347811 ], dtype=float32)>, <tf.Variable 'dense_11/kernel:0' shape=(2, 3) dtype=float32, numpy=
array([[ 4.117405 ,  2.3446457, -6.8036594],
       [-5.7943754,  3.1819534,  4.1658   ]], dtype=float32)>, <tf.Variable 'dense_11/bias:0' shape=(3,) dtype=float32, numpy=array([ 0.91015154, -

In [None]:
temp_list = np.array([0 , 10, 3, 5, 7])
print(temp_list.argmax(axis=0)) # max 값이 들어있는 index 출력
print(temp_list.argmin(axis=0)) # min 값이 들어있는 index 출력

1
0


In [None]:
(X_train, Y_train), (X_test,Y_test) = keras.datasets.mnist.load_data()