# **Lecture 1: Machine Learning**

> **Machine Learning** - 기계학습  
&rarr; 컴퓨터가 배워서 학습하는 것

> **Supervised Learning** -  지도 학습  
    - Training Data Set을 이용함
    - Label이 있어서 T or F 판단가능  
    ex)
>   >- **Regression** &rarr; final exam score based on time spent  
>   >- **Binary Classification** &rarr;  pass or fail  
>   >- **Multi Label- Classification** &rarr; Grades (A, B, C, D, or F)  

> **Unsupervised Learning** - 비지도 학습  
     - Un- Label data를 이용하여 직접 스스로 학습  
     ex) Grouping, Clustering

> **Trainging Data Set**
- Train을 시키기 위한 Data 집합
- (X, Y)로 나와 있으며 X를 **feature**, Y를 **value**라고 한다
   

# **Lecture 2: Simple Linear Regression**

> **Regression**  
- 평균에 되돌아가려는 통계학적 용어

> **Linear Regression** - 선형회귀  <br><br>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/1920px-Linear_regression.svg.png" width="550" height="300">  <br><br>
- $Y = ax + b$ 형태  
- 데이터가 여러 개 있을 때, 가장 근접하게 나타 낼 수 있는 1차 함수를 나타내는 것  
- 가장 가깝게 근사하는 과정을 '**fiiting** 한다'라고 한다.

> **Hypothesis**  - 가설  
- $H(x) = Wx + b$  
- $W$를 wieght(가중치), $b$를 bias(편향)이라 정의한다  

> **Cost Function** - 비용 함수<br><br>
<img src="https://leechanhyuk.github.io/assets/image/cost_function/mae_graph.png" width="550" height="300"><br><br>
- $Error = H(x) - Y$  
- Error가 가장 작은 값이 fitting이 잘 되었다고 한다  
- 한계점 : Error 중에는 + 와 - 가 있어서 제대로 정의할 수 없다
- $$ cost(W)=\frac { 1 }{ m } \sum _{i=1}^{m}{ { (H({ x }^{ i })-y^{ i } })^{ 2 } }  $$  
- 따라서 Error 제곱의 평균을 Cost로 다시 정의하여 사용한다  
- Linear Regression는 Error를 **Minimize** 하는 직선을 찾는 과정이다

# **LAB 02: Simple Linear Regression 를 TensorFlow 로 구현하기**

- **tf.reduce_mean( )**  
&rarr; 평균을 tensor object로 반환  
- **tf.square( )**  
&rarr; 제곱근 값을 tensor object로 반환

In [None]:
v = [1., 2., 3., 4.]
tf.reduce_mean(v) # 2.
tf.square(3) # 9

- **tf.Variable( )**  
&rarr; 값이 변경 가능한 변수를 정의(공간만 할당)   
&rarr; 중간 계산 과정에서 재할당이 계속 이루어진다  
&rarr; **.assign( )**을 통해 값 할당 가능  
cf) **tf.Constant( )** &rarr; 값 변경 불가  

- **tf.placeholder(** dtype, shape=Nonem name=None **)**    
&rarr; 선언과 동시에 초기화 시키는 것이 아니고 선언한 후 값을 전달한다  
&rarr; placeholder에 Tensor를 맵핑 시키는 것으로 사용  
&rarr; tensorflow1에서만 사용 가능하다

In [None]:
v = tf.Variable([1,2])
print(v)                #[1, 2]
v.assign([3,4])
print(v)                #[3, 4]

#p_holder = tf.placeholder(tf.float32)

- **Tensorflow**  
&rarr; 강의에서 Tensorflow1을 이용한 코드를 강의하므로 Tensorflow2로 고쳐서 진행하였다.
- **Numpy**  
&rarr; Tensorflow와 데이터 가공을 위한 numpy 모듈을 import 한다.

In [None]:
#Tenosorflow1을 사용하는 코드
#import tensorflow.compat.v1 as tf
#tf.disable_v2_behavior()

#Tensorflow2를 사용하는 코드
import tensorflow as tf
import numpy

- **Full Code of Lecture**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
tf.executing_eagerly()

x_data = np.array(list(range(1,6)))
y_data = np.array(list(range(1,6)))
plt.plot(x_data, y_data, 'bo')

W = tf.Variable(2.9)    #Weight
b = tf.Variable(0.5)    #Bias

learning_rate = 0.01

for i in range(101):
    with tf.GradientTape() as tape:
        hypothesis = W * x_data + b
        cost = tf.reduce_mean(tf.square(hypothesis - y_data))
    W_grad, b_grad = tape.gradient(cost, [W,b])
    W.assign_sub(learning_rate * W_grad)
    b.assign_sub(learning_rate * b_grad)
    if i % 10 == 0:
        print("{:5}|{:10.4f}|{:10.4}|{:10.6f}".format(i, W.numpy(), b.numpy(), cost))
        plt.plot(x_data, W.numpy() * x_data + b.numpy())

plt.axis([0, max(x_data) + 1, 0, max(y_data) + 1])
plt.show()

#**Lecture 03: Linear Regression, How to minimize cost**

> **Hypothesis & Cost**  
- $H(x) = Wx + b$  
- $ cost(W)=\frac { 1 }{ m } \sum _{i=1}^{m}{ { (W{ x }_{ i }-y_{ i } })^{ 2 } }$  

> **Simplified Hypothesis & Cost**  
- $H(x) = Wx$
- $ cost(W)=\frac { 1 }{ m } \sum _{i=1}^{m}{ { (W{ x }_{ i }-y_{ i } })^{ 2 } }  $  

> **How to minimize the cost?**  
&rarr; cost가 가장 작게 되는 $W$를 찾는 것이다  

> **Gradient Descent Algorithm**<br><br>
<img src="https://editor.analyticsvidhya.com/uploads/631731_P7z2BKhd0R-9uyn9ThDasA.png" width="550" height="300"><br><br>
- Initial Value에서 $W$와 $b$값을 cost가 최소가 될 때까지 업데이트 하여 최소점(Minimum)에 도달할때까지 시행한다  
- Cost를 최소화 하는 Algorithm  

> **Formal Definition**  
- $ cost(W, b)=\frac { 1 }{ 2m } \sum _{i=1}^{m}{ { (H({ x }_{ i })-y_{ i } })^{ 2 } }  $  <br><br>
&rarr; $m$으로 나누나 $2m$으로 나누나 cost에 영향을 주지 않는다  <br><br>
- $H({x}^{i})$를 simplified 된 $W{x}^{i}$로 사용한다<br><br>
- $cost(W, b)=\frac { 1 }{ 2m } \sum _{i=1}^{m}{ { (H({ x }_{ i })-y_{ i } })^{ 2 } } $  <br><br>
- $W = W - \alpha\frac{\partial}{\partial W}(\frac { 1 }{ 2m } \sum _{i=1}^{m}{ { (H({ x }_{ i })-y_{ i } })^{ 2 } } )$<br><br>
- $W = W - \alpha\frac { 1 }{ 2m }\sum _{i=1}^{m}{ 2{ (H({ x }_{ i })-y_{ i } }) }x_{i}$ <br><br>
- $W = W - \alpha\frac { 1 }{ m } \sum _{i=1}^{m}{ { (H({ x }_{ i })-y_{ i } }) }x_{i}$<br><br>
&rarr; 항상 그 자리의 $x_{i}$ 값에 Gradient를 곱해서 그 다음 $W$로 이동한다


# **Lab 03: Linear Regression and How to minimize cost 를 TensorFlow 로 구현하기**

- **Cost Function in Pure Python**  
&rarr; numpy 모듈을 활용해서 함수를 직접 만든다

In [None]:
import numpy as np

X = np.array([1, 2, 3])
Y = np.array([1, 2, 3])

#Cost Function
def cost_func(W, X, Y):
    c = 0
    for i in range(len(X)):
        c += (W * X[i] - Y [i] ) ** 2
    return c/ len(X)

for feed_W in np.linspace(-3, 5, num=15):
    curr_cost  = cost_func(feed_W, X, Y)
    print("{:6.3f} | {:10.5f}".format(feed_W, curr_cost))

# **Cost Function in Tensorflow**  


- 제곱의 평균을 **tf.reduce_mean( )**과 **tf.square( )**을 사용한다

In [None]:
X = np.array([1, 2, 3])
Y = np.array([1, 2, 3])
def cost_func(W, X, Y):
    hypothesis = X * W
    return tf.reduce_mean(tf.square(hypothesis - Y))

W_values = np.linspace(-3, 5, num=15)
cost_values = []
for feed_W in W_values:
    curr_cost = cost_func(feed_W, X, Y)
    cost_values.append(curr_cost)
    print("{:6.3f} | {:10.5f}".format(feed_W, curr_cost))

# **Gradient Descent**  

- gradient 를 **tf.reduce_mean(tf.multiply(tf.multiply(W, X) - Y, X))** 로 표현한다

In [None]:
tf.random.set_seed(0) # for reproducibility

x_data = [1., 2., 3., 4.]
y_data = [1., 3., 5., 7.]
W = tf.Variable(tf.random.normal([1], -100., 100.))
for step in range(300):
    hypothesis = W * X
    cost = tf.reduce_mean(tf.square(hypothesis - Y))
    alpha = 0.01
    gradient = tf.reduce_mean(tf.multiply(tf.multiply(W, X) - Y, X))
    descent = W - tf.multiply(alpha, gradient)
    W.assign(descent)

    if step % 10 == 0:
        print('{:5} | {:10.4f} | {:10.6f}'.format(step, cost.numpy(), W.numpy()[0]))

# **Lecture 04: Multi Variable Linear Regression**

> **More than 2 variables**  
- $x_{1}, x_{2}, x_{3}, \cdots$  
- ex)  
$(x_{1}, x_{2}, x_{3})$  
$H(x_{1}, x_{2}, x_{3}) = w_{1}x_{1} + w_{2}x_{2} + w_{3}x_{3} + b$  
$ cost(W, b)=\frac { 1 }{ m } \sum _{i=1}^{m}{ { (H({ x }_{ 1 }, x_{2}, x_{3})-y_{ i } })^{ 2 } }$

> **Matrix**  
$H_{n}(x) = w_{1}x_{1} + w_{2}x_{2} \cdots w_{n}x_{n} =  \left[\begin{matrix} x_{1} & x_{2} & \cdots & x_{n} \end{matrix}\right] \left[\begin{matrix}w_{1}\\ w_{2}\\ \cdots \\ w_{n} \end{matrix}\right] $  
$H(X) = XW$<br><br>
&rarr; 이때 $X$는 $x$ 값들의 집합, $W$는 weight의 집합이다  

>**$WX$ VS $XW$**  
- Theory  
&rarr; $H(x) = Wx + b$  
&rarr; $h_{\Theta}(x) = \theta_{1}x+\theta_{0}$<br><br>
-Tensorflow  
&rarr; $H(X) = XW$

# **Lab 04: Multi-variable Linear Regression 를 TensorFlow 로 구현하기**

- **Hypothesis Multi-Variable**   
&rarr; 앞서 사용한 list를 그대로 사용한 코드

In [None]:
# data and label
x1 = [ 73., 93., 89., 96., 73.]
x2 = [ 80., 88., 91., 98., 66.]
x3 = [ 75., 93., 90., 100., 70.]
Y = [152., 185., 180., 196., 142.]

# random weights
w1 = tf.Variable(tf.random.normal([1]))
w2 = tf.Variable(tf.random.normal([1]))
w3 = tf.Variable(tf.random.normal([1]))
b  = tf.Variable(tf.random.normal([1]))
learning_rate = 0.000001

for i in range(1000+1):
    # tf.GradientTape() to record the gradient of the cost function
    with tf.GradientTape() as tape:
        hypothesis = w1 * x1 + w2 * x2 + w3 * x3 + b
        cost = tf.reduce_mean(tf.square(hypothesis - Y))
    # calculates the gradients of the cost
    w1_grad, w2_grad, w3_grad, b_grad = tape.gradient(cost, [w1, w2, w3, b])

    # update w1,w2,w3 and b
    w1.assign_sub(learning_rate * w1_grad)
    w2.assign_sub(learning_rate * w2_grad)
    w3.assign_sub(learning_rate * w3_grad)
    b.assign_sub(learning_rate * b_grad)

    if i % 50 == 0:
        print("{:5} | {:12.4f}".format(i, cost.numpy()))

- **Using Matrix**  
&rarr; data를 numpy를 이용해 정리한다
```
data = np.array([
    # X1, X2, X3, y
    [ 73., 80., 75., 152. ],
    [ 93., 88., 93., 185. ],
    [ 89., 91., 90., 180. ],
    [ 96., 98., 100., 196. ],
    [ 73., 66., 70., 142. ]
], dtype=np.float32)
```
- **$H(X) = XW$**  
&rarr; Simplified Hypothesis 이용  
```  
# initialize W
W = tf.Variable(tf.random_normal([3, 1]))
# hypothesis, prediction function
tf.matmul(X, W) + b
# updates parameters (W and b)
W.assign_sub(learning_rate * W_grad)
```



In [None]:
data = np.array([
    # X1, X2, X3, y
    [ 73., 80., 75., 152. ],
    [ 93., 88., 93., 185. ],
    [ 89., 91., 90., 180. ],
    [ 96., 98., 100., 196. ],
    [ 73., 66., 70., 142. ]
], dtype=np.float32)

# slice data
X = data[:, :-1]
y = data[:, [-1]]

In [None]:
W = tf.Variable(tf.random.normal([3, 1]))
b = tf.Variable(tf.random.normal([1]))

learning_rate = 0.000001

# hypothesis, prediction function
def predict(X):
    return tf.matmul(X, W) + b

n_epochs = 2000
for i in range(n_epochs+1):
    # record the gradient of the cost function
    with tf.GradientTape() as tape:
        cost = tf.reduce_mean((tf.square(predict(X) - y)))

    # calculates the gradients of the loss
    W_grad, b_grad = tape.gradient(cost, [W, b])

    # updates parameters (W and b)
    W.assign_sub(learning_rate * W_grad)
    b.assign_sub(learning_rate * b_grad)

    if i % 100 == 0:
        print("{:5} | {:10.4f}".format(i, cost.numpy()))


#**Lecture 05: Logistic Regression**

>**Classification - Binary Classification**  
- T or F로 나타낼 수 있는 분류 (0:True, 1: False)
- 행렬로 표현된다 [1, 0, 1, 0, 0, 0]  

>**Linear VS Logistic**  
>>**Linear**  
- continuous  
- measured  
-time, weight, height  

>>**Logistic**  
- discrete  
- counted  
- shoes size, the number of house  

>**Hypothesis representation**<br><br>
<img src="https://saedsayad.com/images/LogReg_1.png" width="550" height="300"><br><br>
- 0과 1을 잘 분리할 수 있는 직선을 찾는 것이다<br><br>
- $h_{\theta} = g(\theta^{T}X)$<br><br>
- $ X (Variable)=> \theta^{T} (Linear) => g(\theta^{T}X) (Logistic) => 0.5> (Decision Boundary)$$

>**Sigmoid Fucntion**<br><br>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/640px-Logistic-curve.svg.png" width="550" height="300"><br><br>
$g(z) = \frac{1}{1+e^{-z}}$  
$z \to 0 \Rightarrow g(z) \to 0$  
$z \to \infty \Rightarrow g(z) \to 1$  
>**Decision Boundary**  
- $g(z)$에서  
$W\theta^{T}$ > 0 에선 0  
$W\theta^{T}$ < 1 에선 1  
$\theta^{T}$ 를 결정 짓는 값  

> **Cost Function**<br><br>
<img src="https://ml-cheatsheet.readthedocs.io/en/latest/_images/ng_cost_function_logistic.png" width="550" height="330"><br><br>
> **Optimization**  


# **Lab 05 Logistic Classification(Regression) - Eager Execution**

- **Tensorflow 버전 2.X 로 확인**

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import tensorflow as tf

tf.random.set_seed(777)  # for reproducibility
print(tf.__version__)

- **Data 가공**

In [None]:
x_train = [[1., 2.],
          [2., 3.],
          [3., 1.],
          [4., 3.],
          [5., 3.],
          [6., 2.]]
y_train = [[0.],
          [0.],
          [0.],
          [1.],
          [1.],
          [1.]]

x_test = [[5.,2.]]
y_test = [[1.]]


x1 = [x[0] for x in x_train]
x2 = [x[1] for x in x_train]

colors = [int(y[0] % 3) for y in y_train]
plt.scatter(x1,x2, c=colors , marker='^')
plt.scatter(x_test[0][0],x_test[0][1], c="red")

plt.xlabel("x1")
plt.ylabel("x2")
plt.show()

- **tensor에 data를 담는다**  
- **Wieght와 bias initialize**

In [None]:
dataset = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(len(x_train))#.repeat()
W = tf.Variable(tf.zeros([2,1]), name='weight')
b = tf.Variable(tf.zeros([1]), name='bias')




- **Logistic Regression**  
&rarr; sigmoid로 정의

In [None]:
def logistic_regression(features):
    hypothesis  = tf.divide(1., 1. + tf.exp(tf.matmul(features, W) + b))
    return hypothesis

- **Cost Function**  
$
\begin{align}
cost(h(x),y) & = −y log(h(x))−(1−y)log(1−h(x))
\end{align}
$

In [None]:
def loss_fn(hypothesis, features, labels):
    cost = -tf.reduce_mean(labels * tf.math.log(logistic_regression(features)) + (1 - labels) * tf.math.log(1 - hypothesis))
    return cost

optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

- **Accuracy**  
&rarr; 추론한 값은 0.5를 기준(Sigmoid 그래프 참조)로 0과 1의 값을 리턴합니다.  
&rarr; Sigmoid 함수를 통해 예측값이 0.5보다 크면 1을 반환하고 0.5보다 작으면 0으로 반환합니다.  
&rarr; 가설을 통해 실재 값과 비교한 정확도를 측정합니다

In [None]:
def accuracy_fn(hypothesis, labels):
    predicted = tf.cast(hypothesis > 0.5, dtype=tf.float32)
    accuracy = tf.reduce_mean(tf.cast(tf.equal(predicted, labels), dtype=tf.int32))
    return accuracy

- **Gradient 계산하기**

In [None]:
def grad(features, labels):
    with tf.GradientTape() as tape:
        loss_value = loss_fn(logistic_regression(features),features,labels)
    return tape.gradient(loss_value, [W,b])

- **학습을 실행합니다**  
&rarr; 위의 Data를 Cost함수를 통해 학습시킨 후 모델을 생성합니다.   
&rarr; 새로운 Data를 통한 검증 수행 [5,2]의 Data로 테스트 수행 (그래프상 1이 나와야 정상입니다)  
&rarr; Epoch은 몇번 실행할 것인지 말하는 것이다

In [None]:
EPOCHS = 1001

for step in range(EPOCHS):
    for features, labels  in iter(dataset):
        grads = grad(features, labels)
        optimizer.apply_gradients(grads_and_vars=zip(grads,[W,b]))
        if step % 100 == 0:
            print("Iter: {}, Loss: {:.4f}".format(step, loss_fn(logistic_regression(features),features,labels)))
test_acc = accuracy_fn(logistic_regression(x_test),y_test)
print("Testset Accuracy: {:.4f}".format(test_acc))