# Lecture 07. Neural networks


# Non-Linear Classification Problem
When we want to use machine learning to build a car image classifier, we need a training dataset with true labels, a car or not a car. After learning process, we get a good classifier. When we test it with a new image, the classifier will answer whether this new image is a car or not.
![](../../img/lec07_01.png)

Before moving on, we need to know how a computer ‘sees’ a picture. Like the picture in the right, a computer always ‘sees’ an image as a bunch of pixels with intensity values. For example, the picture shows the position of a pixel (red point) and its intensity value is 69.

![](../../img/lec07_02.png)

Now, let’s see the learning process. First, take two pixels as features.

![](../../img/lec07_03.png)

Second, define a **non-linear logistic regression** as a hypothesis ***H***. Our goal is to find a good ***H*** which can distinguish positive data and negative data well.

![](../../img/lec07_04.png)

Last, learn all parameters of ***H***. Compare this with linear logistic regression, the non-linear form is more complex since it is with lots of polynomial terms.

However, when a number of feature is large, the above solution is not a good choice to learn complex non-linear hypothesis. Suppose we have a 50x50 pixels image and all pixels are features, hence, a non-linear hypothesis must have more than 2500 features since ***H*** has extra quadratic or the cubic features. The computation cost would be very expensive in order to find all parameters $\theta$ (or $W$ as previously) of these features per the training data.

Therefore, we need a better way — Neural Network, which is a very powerful and widely used model to learn a complex non-linear hypothesis for many applications.



## Neural Network (NN)

In this section, we are going to talking about how to represent hypothesis when using neural networks.

Originally, Neural Network is an algorithm inspired by human brain that tries to mimic a human brain. Like human brain’s neurons, NN has a lots of interconnected nodes (a.k.a neurons) which are organized in layers.

### Simplest Neural Network

This simplest NN model only contains a neuron. **We can treat a neuron (node) as a logistic unit with *Sigmoid (logistic) Activation Function****,* which can output a computation value based on sigmoid activation function.

* The terminology of parameters $\theta$ in ** NN ** is called ***weights***
* Depending on the problems, you can decide whether to use the bias units or not.

![](../../img/lec07_05.png)

### Neural Network (NN)

* Layer 1 is called **Input Layer** that inputs features.
* Last Layer is called **Output Layer** that outputs the final value computed by hypothesis ***H***.
* The layer between Input Layer and Output Layer is called **Hidden Layer**, which is a block we group neurons together.

![](../../img/lec07_06.png)

#### Note

A neuron (node) is actually a logistic unit with Sigmoid (logistic) Activation Function(i.e simple logistic regression). If you are familiar with Linear Algebra, you can think of a hidden layer as a linear combination of previous layer’s nodes. **Therefore, the core idea of NN is to solve complex non-linear classification problem by using many sequences of simple logistic regression.**

In order to get a clear picture about what this neural network is doing, let’s go through the computational steps and visualize them.

**First**, we visualize the transition process of matrix $\theta$, which is a controlling function mapping from layer *j* to *j+1.*

![](../../img/lec07_07.png)
![](../../img/lec07_08.png)

**Second**, we visualize each computation process of neurons. Note that the output value of each neurons is calculated by its sigmoid activation function.

![](../../img/lec07_09.png)
![](../../img/lec07_10.png)
![](../../img/lec07_11.png)
![](../../img/lec07_12.png)



### Other Neural Network Architectures

Other Neural Network Architectures can be designed by extending hidden layers. The number of neurons per layer will be based on the problems.
![](../../img/lec07_13.png)

### Applications and Examples

Based on above concept, we are going to design some NN to show that how an NN model can be applied to non-linear classification problems.

#### Examples1 — AND

We can design a simple NN with single neuron for solving AND problem.  Given -30, 20 and 20 as weights, the *Sigmoid Activation Function* ***H*** of this neuron (node) can be specified. When we predict data using this ***H,*** we can get a perfect result.

![](../../img/lec07_14.png)
![](../../img/lec07_15.png)


#### Examples2 — OR

The concept of OR operation is similar to AND, but we change the weight of the bias unit as -10.

![](../../img/lec07_16.png)
![](../../img/lec07_17.png)

#### Examples3 — Negation
![](../../img/lec07_18.png)

#### Examples4 — NAND
![](../../img/lec07_19.png)

#### Examples5 — XOR

Clearly, this is a non-linear classification problem, we can solve it by using a non-linear logistic regression ***H*** that we discussed in the beginning.
![](../../img/lec07_20.png)
![](../../img/lec07_21.png)

However, when the number of features and data is large, The ***H*** will be too complex to understand and the computation cost is expensive. 

**Instead, we use NN structure to make model *H* more clear and simple.** Here, we ****** apply NN to XOR Problem based on AND, NAND and OR.
![](../../img/lec07_22_.png)



## Multi-Class Classification Problem

In this case, we can add nodes in the Output Layer, each node can predict one class, the concept of this is similar to one-vs-all mechanism.

![](../../img/lec07_23.png)


## Forward Propagation

The steps are described as below:

* Firstly, we need a weighting matrix $\theta$ (or denoted W) for each hidden layer. We can derive them randomly or per prior-knowledge.
* Start from Input Layer X (or denoted $a^1$).
* Do Forward Propagation throughout the Output Layer and get the final value.
* Use the final value for prediction.

![](../../img/lec07_24.png)


### More Details

Let’s take binary classification problem as example and visualize the detail of Forward Propagation. First of all, we need a completed NN architecture, that is, all weighting matrices **W** are known already.

Input Layer: 4 units, Output Layer: 1 units, Hidden Layer : 6 units.

![](../../img/lec07_25.png)
![](../../img/lec07_26.png)

**Forward Propagation (1)— From Input Layer to Output Layer**

![](../../img/lec07_27.png)
![](../../img/lec07_28.png)

**Forward Propagation(2) — From Hidden Layer to Output Layer**

![](../../img/lec07_29.png)

In the end, we can get the final value from Output Layer, and use it for prediction.

* If final value ≥ 0.5, we predict the label y=1.
* If not, then we predict the label y=0.

![](../../img/lec07_30.png)

### **Multi-Classification Problem**

In multi-classification problem, there are more than one unit in the Output Layer. Each unit represents **how certain the data belongs to a category.** In this situation, we can apply the one-vs-all strategy to decide the prediction result. Note that the Forward Propagation is same as binary classification problem.

![](../../img/lec07_31.png)



## Loss Function

Loss Function is also called Cost Function, but this name is used more commonly in NN.

The goal of Loss Function is to measure the error that the model made. Here, we give a generated formula about loss function. Note that a node of NN is a logistic unit with Sigmoid (logistic) Activation Function.

![](../../img/lec07_32.png)

## Backward Propagation

This procedure is for **minimizing Loss Function**, just like the technique — gradient descent we used in previous note.

The way we used here is similar to Gradient Descent and there are two steps:

1. Compute the partial derivative of $J(\theta)$ or $J(W)$
2. Update each element of weighting matrix **$\theta$**.

![](../../img/lec07_33.png)

## Understanding with an Intuitive Way

Let’s visualize the procedure by using the result of partial derivative of $J(\theta)$

Let’s start from another example, assuming weighting matrices **$\theta$** (or denoted **$W$**) has been initialized. Our goal is to minimize the **$J(\theta)$** and then update the weighting matrices **$\theta$**.

Note — We can use random method for initializing the weighting matrices Θ if we have no prior knowledge of the problem.

![](../../img/lec07_34.png)

After Calculus calculation, we can get the result of partial derivative of **$J(\theta)$**

![](../../img/lec07_35.png)
![](../../img/lec07_36.png)


Let’s dig into the meaning of **$\delta$**-   

* **$\delta^3$** is the error of layer 3, the Output Layer in this example.
* **$\delta^2$** is the error of layer 2, the Hidden Layer in this example.
* **$\delta^1$** is not exist since layer 1 is the Input Layer.

![](../../img/lec07_37.png)
![](../../img/lec07_38.png)

With the result of partial derivative of $J(\theta)$, now you can update the weighting matrix Θ.

![](../../img/lec07_39.png)



## More Details about Partial Derivative of $J(\theta)$

In this section, we want to give some hints about the derivations of the formulation above.



![](../../img/lec07_40.png)

For convenience’s sake, we use the same example above and suppose there is only one data. Hence, the loss function $J(\theta)$ is simpler than the general form.
![](../../img/lec07_41.png)

In order to do the backward propagation, we need to do the forward
propagation first.

![](../../img/lec07_42.png)

Then we can do Partial Derivative of J(Θ). Here, we show the Partial
Derivative of two elements of W¹ and W² respectively. If you are
interested, you can solve it with hints.

![](../../img/lec07_43.png)

![](../../img/lec07_44.png)

Finally, you can prove the formula of partial derivative of J(Θ) if you follow the procedure above. Don’t worry about it, if you are not familiar with Calculus, we have given you enough concepts in the section of ***Understanding with an Intuitive Way.***

## How to implement NN in practice?

<a href="https://medium.com/@qempsil0914/implement-neural-network-without-using-deep-learning-libraries-step-by-step-tutorial-python3-e2aa4e5766d1" class="bb cn kh ki kj kk">Here is the reference for exercise</a>,
we implement NN without using deep learning library. We hope the
tutorial can help you understand the architecture of NN and the Forward
and Backward Propagation procedure more clearly.



In [1]:
# -*- coding: utf-8 -*-
import numpy as np


def activation(x):
    return 1 / (1 + np.exp(-x))


def sigma_derivative(x):
    return x * (1 - x)


# X - это матрица, где столбцы это признаки,
# а строки это объекты выборки.
X = np.array([[0, 0, 1],
              [0.3, 1, 0],
              [1, 0.3, 1],
              [0.6, 0.2, 0],
              [0.6, 0.2, 1]])

# X = np.array([[0, 0, 1],
#               [0.3, 1, 0],
#               [1, 0.3, 0],
#               [0.6, 0.2, 1],
#               [0.6, 0.2, 1]])

# X - это матрица, где столбцы это признаки
# (в данном случае один целевой признак),
# а строки это объекты выборки.
y = np.array([[0],
              [1],
              [1],
              [0],
              [0]])

np.random.seed(4)

# Нотация слоев - L1, L2, L3.
# В каждом слое есть n1, n2, n3 нейронов.
# Строки в матрицах индексируются как i, столбцы как j.

# W_1_2 - это матрица весов между первым и вторым слоем.
# Строки определяют левый нейрон (т.е. нейрон первого слоя) и соответственно количество строк равно n1.
# Столбцы определяют правый нейрон (т.е. нейрон второго слоя) и соответственно количество столбцов равно n2.
# На пересечении i-ой строки и j-го столбца получаем ячейку с конкретным весом, который
# связывает i-ый левый нейрон (слоя L1) и j-ый правый нейрон (слоя L2)
W_1_2 = 2 * np.random.random((3, 5)) - 1

# W_2_3 - это матрица весов между вторым и третьим слоем. Все остальное как в W_1_2
W_2_3 = 2 * np.random.random((5, 1)) - 1

speed = 1.1

for j in range(100000):
    # lo, l1, l2 - матрицы определенного слоя сети. Каждая строка матрицы это реакция на
    # i-ый объект входа. Каждая колонка матрицы это реакиця j-го нейрона соответствующего слоя на разные входные образы.
    # На пересечении i-ой строки и j-го столбца получаем ячейку с конкретной реакцией j-го нейрона на конкретный вход.


    # Первый слой нейронов полностю принимает значения входа Х (т.е. все реакции единичные).
    l1 = X

    # Второй слой нейронов расчитывается как функция активации по каждому элементу матрицы U
    # По сути l2 это матрица 4 на 4, где в каждой ячейке результат актиации нейрона второго слоя для всех 4-ех входных образов
    # Детально:
    # матрица U = np.dot(l0, W_0_1) является результатом
    # матричного произведения выходов нейронов предыдущего слоя на веса между 1 и 2 слоем.
    # Строки матрицы U отвечают за конкретный входной образ (объект).
    # Столбцы матрицы U отвечают за нейроны правого слоя (L2).
    # На пересечении i-ой строки и j-го столбца получаем ячейку с конкретной взвешенной суммой
    # для i-го входного образа и j-го нейрона слоя (l2). Иными словами для каждого нейрона слоя L2 и для каждого входа
    # считается U = W1X1 + W2X2 + W3X3 (поскольку входной нейрон содержит 3 нейрона).
    l2 = activation(np.dot(l1, W_1_2))

    # тоже самое проделываем для Третьего слоя
    # По сути l3 это матрица 4 на 1, где в каждой ячейке результат актиации нейрона третьего слоя (а он один)
    #  для всех 4-ех входных образов
    l3 = activation(np.dot(l2, W_2_3))

    # расчитывает ошибку на выходе
    l3_error = y - l3

    # расчитывает модуль средней ошибки
    if (j % 10000) == 0:
        print("Error:" + str(np.mean(np.abs(l3_error))))

    # sigma - есть локальный градиент ошибки

    # l3_sigma расчитывается как ошибка выхода всей сети на производную функции активации всех нейронов L3.
    # На пересечении i-ой строки и j-го столбца получаем ячейку с конкретной сигмой
    # для i-го входного образа и j-го нейрона слоя (l3). Иными словами для каждого нейрона слоя L3
    # и для каждого входа расчитывается производная по функции активации умноженная на ошибку.
    # То есть l3_sigma будет матрица 4 на 1 (поскольку в L3 только один нейрон).
    l3_sigma = l3_error * sigma_derivative(l3)

    # Ошибка L2 слоя оценивается через взвешенную сигму слоя L3 по весам между L2 и L3
    # Поскольку l3_sigma это матрица 4 на 1 и матрица W_2_3 4 на 1, то последнюю матрицу
    # надо Транспонировать, чтобы выполнить правило умножения матриц и взвесить элементы l3_sigma
    # по элементам W_2_3.
    # Тогда итоговая матрица l2_error будет 4 на 4, где на пересечении i-ой строки и j-го столбца
    # будет ячейка с конкретной ошибкой j-го нейрона слоя L2 для i-ого входного образа.
    l2_error = l3_sigma.dot(W_2_3.T)

    # l2_sigma расчитывается как ошибка слоя L2 на производную функции активации всех нейронов L2.
    # На пересечении i-ой строки и j-го столбца получаем ячейку с конкретной сигмой
    # для i-го входного образа и j-го нейрона слоя (L2). Иными словами для каждого нейрона слоя L2
    # и для каждого входа расчитывается производная по функции активации умноженная на ошибку.
    # То есть l2_sigma будет матрица 4 на 4 (поскольку в L2 четыре нейрона).
    l2_sigma = l2_error * sigma_derivative(l2)

    # обновляем веса

    # l2 это матрица 4 на 4, где в каждой ячейке результат актиации нейрона второго слоя для
    # всех 4-ех входных образов (по строкам).
    # А l3_sigma это матрица 4 на 1, где в каждой строке локальный градиент ошибки для 4-ех входных образов.
    # Чтобы взвесить столбец матрицы l2 по локальному градиенту (l3_sigma) нужно транспонировать матрицу l2, чтобы
    # результат активации каждого нейрона в слое L2 по каждому входному образу вытянулся в строку.
    # Тогда соответствующая строка умножится на столбик l3_sigma.
    # Заметьте, что транспонирование l3_sigma не даст результата, так как тогда в каждом столбце
    # l3_sigma будет по одному значению, а в каждой строке l2 по 4 значения, а значит перемножение матриц не пройдет.
    W_2_3 += speed * l2.T.dot(l3_sigma)

    # аналогично W_2_3
    W_1_2 += speed * l1.T.dot(l2_sigma)



# Прямое распространение для тестовых данных
X_test = np.array([[0, 0, 0],
                   [0.6, 0.8, 1],
                   [0.6, 0.6, 1],
                   [1, 1, 0],
                   [0.1, 0.1, 0],
                   [0.2, 0.2, 1]])

# Y_test должен получиться [0, 1, 1, 1, 0, 0]

l1 = X_test
l2 = activation(np.dot(l1, W_1_2))
l3 = activation(np.dot(l2, W_2_3))
print(l3)


Error:0.4692677031181711
Error:0.007389464275819224
Error:0.0049285194301067325
Error:0.00392037855516743
Error:0.0033414788210913435
Error:0.002955589718519708
Error:0.0026754446457782103
Error:0.0024604603544171283
Error:0.002288910989589701
Error:0.0021479944518608463
[[1.67085900e-05]
 [9.86968263e-01]
 [7.75451681e-01]
 [2.71376581e-01]
 [1.55096932e-03]
 [2.06919456e-05]]


Links: https://medium.com/@qempsil0914/courseras-machine-learning-notes-week5-neural-network-lost-function-forward-and-backward-8b293401e4dc