# Intro

> Basic Mathematics for Artificial Intelligence : Part 1


### Deep Learning
- Unsupervised Learning : 군집을 이룰 때 새로운 데이터를 분류하는 것이 목표
    + ML 강의에서 진행
- Supervised Learning : 결정된 값을 맞추는것이 목표
    - 21세기에 데이터는 곧 돈이다. 
    - 모델을 학습시키기 위해서는 데이터가 많이 필요한데, 데이터 확보단계에 문제가 생김
- Reinforcement Learning : AlphaGo
    - 개발이 어렵고, 모든 상황을 고려 및 제어해야만 한다.



### 도구
- Numpy & Pandas
    - Numpy : 행렬 연산
    - Pandas : 데이터 정제

- Tensorflow? : 신경망을 쉽게 만드는 도구
    - 코드가 짧고, 직관적이다


[Tensorflow Guide for beginners](https://www.tensorflow.org/overview)

In [1]:
# import tensorflow as tf
# mnist = tf.keras.datasets.mnist

# (x_train, y_train),(x_test, y_test) = mnist.load_data()
# x_train, x_test = x_train / 255.0, x_test / 255.0

# model = tf.keras.models.Sequential([
#   tf.keras.layers.Flatten(input_shape=(28, 28)),
#   tf.keras.layers.Dense(128, activation='relu'),
#   tf.keras.layers.Dropout(0.2),
#   tf.keras.layers.Dense(10, activation='softmax')
# ])

# model.compile(optimizer='adam',
#               loss='sparse_categorical_crossentropy',
#               metrics=['accuracy'])

# model.fit(x_train, y_train, epochs=5)
# model.evaluate(x_test, y_test)

Output
```
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
11493376/11490434 [==============================] - 0s 0us/step
Epoch 1/5
1875/1875 [==============================] - 2s 1ms/step - loss: 0.2875 - accuracy: 0.9177
Epoch 2/5
1875/1875 [==============================] - 2s 1ms/step - loss: 0.1404 - accuracy: 0.9580
Epoch 3/5
1875/1875 [==============================] - 2s 1ms/step - loss: 0.1048 - accuracy: 0.9681
Epoch 4/5
1875/1875 [==============================] - 2s 914us/step - loss: 0.0874 - accuracy: 0.9724
Epoch 5/5
1875/1875 [==============================] - 2s 974us/step - loss: 0.0752 - accuracy: 0.9767
313/313 [==============================] - 0s 734us/step - loss: 0.0697 - accuracy: 0.9773
[0.06970807164907455, 0.9772999882698059]
```

결과값 [0.06970807164907455, 0.9772999882698059] 에서 
- 0.06970807164907455 : 손실함수 값
- 0.9772999882698059 : 정확도

### 인공지능에서 문제를 푸는 방식
1. 회귀 : 값을 예측
2. 이진 분류 : 0 또는 1로 분류
3. 다중 분류 : 여러 독립변수를 고려하여 예측



### 역전파 backpropogation
$\hat{y} = \theta_{0} + \theta_{1} x$
- $\theta$ : 미지수, 신경망에서는 bias를 말한다.
- $\theta_{1}$ : weight, 가중치
- 초기에는 모두 무작위값인데, 왜 무작위 값인가? : 처음이기 때문. 무작위값을 줄 수 밖에 없으나 이후 역전파와 학습 과정을 통해 해당 값을 갱신한다.

- 신경망의 동작 결과를 확인하기 위해서는 $y$값과 $\hat{y}$을 비교해야한다. 이 때 사용하는 것이 MSE
- MSE : 
    1. 실제 값에서 예측한 값을 빼고, 제곱한다. $(y^{i} - f_{\theta}(x^{i}))^2$
        - 제곱하는 이유
            1. 값을 키워 비교를 수월하게 만든다.
            2. 음수를 피하기 위해
    2. 1의 결과를 평균낸다. $\frac{1}{N}\sum_{i=1}{n}$
    3. 그 결과가 낮을수록 좋다.

- 단순히 "텐서플로우를 이용해" 역전파를 구현하는것만이 아닌, 기저의 원리를 이해하는 것을 목표로 삼는다.

## $\hat{y} = \theta_{0} + \theta_{1}x$

In [2]:
import numpy as np

In [3]:
# 0.455 -> 0.365 -> 0.095
# 0.35 -> 0.265 -> 0.09
input_x =[[0.455, 0.365, 0.095], [0.35, 0.265, 0.09]]

# 실제값
input_y = [[15], [7]]

input_cnt = 3
output_cnt = 1      # 2개가 아님!

Q: $\theta_{1}$은 몇개가 필요한가?  
A: input_x의 각 값에 맞춰주기 위해 3개가 필요하다.

In [4]:
theta_1 = np.random.normal(0, 1, [input_cnt, output_cnt]) # average : 0, std : 1, number : 3 row * 1 col
print(theta_1)

[[ 0.049647  ]
 [-0.80579911]
 [ 0.66688116]]


MSE = 0.455 * 1.44 +0.354 * 0.172 + 0.095 * -0.574

Q: $\theta_{0}$의 개수는?  
A: 예측해야 하는 결과값의 개수, 즉 1개

In [5]:
theta_0 = np.random.normal(0, 1, [output_cnt])
print(theta_0)

[-0.36048918]


$\hat{y}$의 값?

In [6]:
# 행렬 연산을 빠르게 수행시키는 연산
y_hat_total = np.matmul(input_x, theta_1) + theta_0     # matmul : 행렬곱
print(y_hat_total)  # 총 개수 1

[[-0.56866277]
 [-0.49663019]]


In [7]:
print("예측 값")
print(f'y hat total[0] : {y_hat_total[0]}')
print(f'y hat total[1] : {y_hat_total[1]}')

예측 값
y hat total[0] : [-0.56866277]
y hat total[1] : [-0.49663019]


In [8]:
print(f"실제 y값 : {input_y}")

실제 y값 : [[15], [7]]


실제 y값과 예측값의 편차가 큰 이유 : 예측값은 무작위한 값이기 때문

MSE : 손실함수


In [9]:
# 첫번째 예측값
a = (y_hat_total[0] - input_y[0]) ** 2
# 두번째 예측값
b = (y_hat_total[1] - input_y[1]) ** 2

# 평균을 내기 위한 n
n = len(input_x)

# MSE
MSE = (a+b)/n
print(f'MSE : {MSE}')

MSE : [149.29136229]


목표는 MSE를 낮추는 것이므로 제어가능한 값 중 영향을 크게 미치는 요인을 변화시킨다.

-> 이 때 제어하는 방법 : 역전파, 학습

## 신경망 구축

### XOR Problem (1960년대 AI연구 지체의 원인이 되었던 문제)

$\hat{y} = \theta_{0} + \theta_{1}x$ 해당 함수로는 직선만 표현할 수 있으므로 XOR 문제를 풀 수 없다.
- 신경망을 깊게 쌓으면 해결 가능 (tensorflow)

계층? : dense라는 함수로 표현, 계층 자체를 표현할 때에는 layer라고 말한다.

In [10]:
# tf model for XOR problem
import tensorflow as tf
import numpy as np 

신경망을 구축하는 순서
1. 입력값과 출력값 정의
2. 신경망 모델 만들기
3. 최적화 구현하기
4. 학습 수행하기

In [11]:
# 1. 입력값과 출력값 정의
x = np.array([[1,1], [1,0], [0,1], [0,0]])
y = np.array([[0], [1], [1], [0]])

In [12]:
# 2. 신경망 모델 만들기
# keras? : tensorflow가 keras의 기능을 전부 흡수하며 version 2로 업그레이드
# Dense? : 밀집, 결합된 정도. 대문자로 시작함에 유의
# 한 층의 모든 유닛들이 다른 모든 층의 유닛들과 연결된 상황을 완전 연결 계층이라고 말한다.
# Dense(unit개수, 활성화함수, 입력 데이터 크기)
# input_shape에서 한가지 값만 표현할 때 : (1, ) 처럼 `,`를 찍어야 한다. 튜플 단위 값을 표현하기 위한 방법이므로 유의

model = tf.keras.Sequential([
    tf.keras.layers.Dense(units=2, activation='elu', input_shape = (2,)),    # 2번째 layer
    tf.keras.layers.Dense(units=5, activation='elu'),       # 3번째 layer 부터는 input_shape 생략하고 unit값을 변경해야 한다.
    tf.keras.layers.Dense(units=7, activation='elu'),        # 3번째 layer 부터는 input_shape 생략하고 unit값을 변경해야 한다.
    tf.keras.layers.Dense(units=1, activation='sigmoid')
])

In [13]:
# 3. 최적화 : optimizer을 무엇으로 설정할 것인가?
# optimizer : 학습률(==lr, default : 0.001)을 설정해야 한다.

# model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001, loss='MSE'))   
# tf 안의 keras 안의 optimizers 안의 Adam을 최적화 모델로 사용하겠다.

model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), loss='mse')  # loss는 compile의 parameter다.

In [16]:
# 4. 학습 : .fit(독립변수, 종속변수, 반복 횟수)
# 학습 횟수는 적절하게 ex) 1000

history = model.fit(x, y, epochs=1000)

Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
Epoch 22/1000
Epoch 23/1000
Epoch 24/1000
Epoch 25/1000
Epoch 26/1000
Epoch 27/1000
Epoch 28/1000
Epoch 29/1000
Epoch 30/1000
Epoch 31/1000
Epoch 32/1000
Epoch 33/1000
Epoch 34/1000
Epoch 35/1000
Epoch 36/1000
Epoch 37/1000
Epoch 38/1000
Epoch 39/1000
Epoch 40/1000
Epoch 41/1000
Epoch 42/1000
Epoch 43/1000
Epoch 44/1000
Epoch 45/1000
Epoch 46/1000
Epoch 47/1000
Epoch 48/1000
Epoch 49/1000
Epoch 50/1000
Epoch 51/1000
Epoch 52/1000
Epoch 53/1000
Epoch 54/1000
Epoch 55/1000
Epoch 56/1000
Epoch 57/1000
Epoch 58/1000
Epoch 59/1000
Epoch 60/1000
Epoch 61/1000
Epoch 62/1000
Epoch 63/1000
Epoch 64/1000
Epoch 65/1000
Epoch 66/1000
Epoch 67/1000
Epoch 68/1000
Epoch 69/1000
Epoch 70/1000
Epoch 71/1000
Epoch 72/1000
E

In [17]:
# 5. 예측
# loss가 줄어들고, predict의 값이 실제 y값인 1 또는 0에 가까워진다.
print(model.predict(x))

[[0.01604798]
 [0.97887754]
 [0.9790369 ]
 [0.02103564]]
