In [2]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.ticker import NullFormatter
import pandas as pd
import numpy as np
import matplotlib.ticker as ticker
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
import seaborn as sns

Artificial Neural Networks - Forward Propagation
================================================

Intoducción
-----------

En este laboratorio, estaremos creando redes neurales desde cero, analizaremos su performance y el uso de formward propagation. Nota: Todas las librerias relacionadas a Deep Learning, ya cuentan con las funciones y procedimientos para la creación de las redes neurales, por tanto, en la practica no sera necesario realizar las redes neurales desde cero. El enfoque de este laboratorio es ayudarte a comprender el comportamiento de las redes neurales.

Artificial Neural Networks - Forward Propagation
------------------------------------------------

Resumen

De la ultima clase, podemos recapitular como es que las redes neurales funcionan y la importancia de tener una función de propagación. Aqui esta una red neural que contiene dos inputs, contine una "hidden layer" con dos nodos y su respectiva salida.

![Neural Network Example](http://cocl.us/neural_network_example)

Comencemos por inicializar aleatoriamente los pesos y los sesgos en la red. Tenemos 6 pesos y 3 sesgos, uno para cada nodo en la capa oculta y para cada nodo en la capa de salida.

In [3]:
np.random.seed(12)
weights = np.around(np.random.uniform(size=6), decimals=2) # initialize the weights
biases = np.around(np.random.uniform(size=3), decimals=2) # initialize the biases

Veamos el resultado generado

In [4]:
print(weights)
print(biases)

[0.15 0.74 0.26 0.53 0.01 0.92]
[0.9  0.03 0.96]


Ahora que tenemos los pesos y los sesgos definidos para la red, calculemos la salida para una entrada dada, $x_1$ and $x_2$.

In [5]:
x_1 = 0.5
x_2 = 0.85

print('x1 is {} and x2 is {}'.format(x_1, x_2))

x1 is 0.5 and x2 is 0.85


Comencemos calculando la suma ponderada de las entradas  $z_{1, 1}$, para el primer nodo de la capa oculta.

In [7]:
z_11 = x_1 * weights[0] + x_2 * weights[1] + biases[0]

print('El peso de la suma de los inputs para el primer nodo de la capa oculta es: {}'.format(z_11))

El peso de la suma de los inputs para el primer nodo de la capa oculta es: 1.604


Ahora, completa la suma de los pesos de los imputs  $z_{1, 2}$, para el segundo nodo de la capa oculta. Asigna el valor a z_12

In [8]:
z_12 = x_1 * weights[2] + x_2 * weights[3] + biases [1]

Imprime la suma de los pesos para z_12.  R[1.0625]

In [9]:
print('El peso de la suma de los inputs para el segundo nodo de la capa oculta es: {}'.format(z_12))

El peso de la suma de los inputs para el segundo nodo de la capa oculta es: 0.6105


Ahora, asumiendo una función de activación sigmoid, calculemos la activación del primer nodo

In [14]:
a_11 = 1.0 / (1.0 + np.exp(-z_11))

print('La activación del primero nodo a_11 es:  {}'.format(a_11))

La activación del primero nodo a_11 es:  0.8325766980765932


Calcula también la activación del segundo nodo. $a_{1, 2}$, para la capa oculta y asignalo a a_12. 

In [12]:
a_12 = 1.0/ (1.0 + np.exp(-z_12))

Imprime el valor de la función de activacion para el segundo nodo. R[0.7432]

In [15]:
print('La activación del segundo nodo a_12 es:  {}'.format(a_12))

La activación del segundo nodo a_12 es:  0.648054850401614


Ahora estas activaciones servirán como entradas a la capa de salida. Entonces, calculemos la suma ponderada de estas entradas al nodo en la capa de salida. Asigna el valor a z_2.

In [16]:
z_2 = a_11 * weights[4] + a_12 * weights[5] + biases[2]

Imprime la suma de los pesos del nodo de salida. R[1.0025]

In [17]:
print('La suma de las entradas en el nodo en la capa de salida es {}'.format(z_2))

La suma de las entradas en el nodo en la capa de salida es 1.5645362293502507


Finally, let's compute the output of the network as the activation of the node in the output layer. Assign the value to a_2.

In [18]:
a_2 = 1.0 / (1.0 + np.exp(-z_2))

Imprime la activación del nodo en la capa de salida que es equivalente a la predicción realizada por la red. R[0.7315]

In [20]:
print('La suma para el nodo de salida es:  {}'.format(a_2))

La suma para el nodo de salida es:  0.827003309039


Obviamente, las redes neuronales para problemas reales se componen de muchas capas ocultas y muchos más nodos en cada capa. Por lo tanto, no podemos continuar haciendo predicciones utilizando este enfoque tan ineficiente de calcular la suma ponderada en cada nodo y la activación de cada nodo manualmente.

Para codificar una forma automática de hacer predicciones, generalicemos nuestra red. Una red general tomaría $n$ entradas, tendría muchas capas ocultas, cada capa oculta tendría $m$ nodos y tendría una capa de salida. 

![red](http://cocl.us/general_neural_network)


### Inicialización de la red

Definamos la estructura de la red

In [21]:
n = 2 # inputs
num_hidden_layers = 2 # hidden layers
m = [2, 2] # nodes in each hidden layer
num_nodes_output = 1 # nodes in the output layer

Ahora que definimos la estructura de la red, sigamos adelante e iniciemos los pesos y los sesgos en la red a números aleatorios. Para poder inicializar los pesos y los sesgos a números aleatorios, necesitaremos importar la libreria Numpy.

In [23]:

import numpy as np 
num_nodes_previous = n 
network = {} # empty network
# loop through each layer and randomly initialize the weights and biases

for layer in range(num_hidden_layers + 1):     
    if layer == num_hidden_layers:     # if output layer 
        layer_name = 'output'
        num_nodes = num_nodes_output
    else:                              # not output layer
        layer_name = 'layer_{}'.format(layer + 1)
        num_nodes = m[layer]
    
    # initialize weights and biases
    network[layer_name] = {}
    for node in range(num_nodes):
        node_name = 'node_{}'.format(node+1)
        network[layer_name][node_name] = {
            'weights': np.around(np.random.uniform(size=num_nodes_previous), decimals=2),
            'bias': np.around(np.random.uniform(size=1), decimals=2),
        }
    
    num_nodes_previous = num_nodes
    
print(network) 

{'layer_1': {'node_1': {'weights': array([0.14, 0.28]), 'bias': array([0.61])}, 'node_2': {'weights': array([0.94, 0.85]), 'bias': array([0.])}}, 'layer_2': {'node_1': {'weights': array([0.52, 0.55]), 'bias': array([0.49])}, 'node_2': {'weights': array([0.77, 0.16]), 'bias': array([0.76])}}, 'output': {'node_1': {'weights': array([0.02, 0.14]), 'bias': array([0.12])}}}


¡Ahora con el código anterior, podemos inicializar los pesos y los sesgos pertenecientes a cualquier red de cualquier número de capas ocultas y número de nodos en cada capa. Trabajemos en una función para que podamos ejecutar repetidamente todo este código siempre que queramos construir una red neuronal.

In [24]:
def initialize_network(num_inputs, num_hidden_layers, num_nodes_hidden, num_nodes_output):
    num_nodes_previous = num_inputs 
    network = {}
    for layer in range(num_hidden_layers + 1):
        
        if layer == num_hidden_layers:
            layer_name = 'output' # output layer 
            num_nodes = num_nodes_output
        else:
            layer_name = 'layer_{}'.format(layer + 1) # layer a number
            num_nodes = num_nodes_hidden[layer] 
        
        # initialize weights and bias 
        network[layer_name] = {}
        for node in range(num_nodes):
            node_name = 'node_{}'.format(node+1)
            network[layer_name][node_name] = {
                'weights': np.around(np.random.uniform(size=num_nodes_previous), decimals=2),
                'bias': np.around(np.random.uniform(size=1), decimals=2),
            }
    
        num_nodes_previous = num_nodes
    return network # return the network

Usa la función anterior, initialize_network, para crear una red con las siguientes caracteristicas:

1. 5 inputs
2. 3 hidden layers
3. 3 nodos en la primera capa, 2 nodos en la segunda capa y 3 nodos en la tercera capa. 
4. 1 output layer

Almacena la red en la variable small_network.

In [25]:
inputs = 5
hidden_layers = 3
nodes_hidden = [3, 2, 3]
nodes_output = 1
small_network = initialize_network(inputs, hidden_layers, nodes_hidden, nodes_output)
print(small_network)

{'layer_1': {'node_1': {'weights': array([0.31, 0.67, 0.47, 0.82, 0.29]), 'bias': array([0.73])}, 'node_2': {'weights': array([0.7 , 0.33, 0.33, 0.98, 0.62]), 'bias': array([0.95])}, 'node_3': {'weights': array([0.77, 0.83, 0.41, 0.45, 0.4 ]), 'bias': array([1.])}}, 'layer_2': {'node_1': {'weights': array([0.18, 0.96, 0.42]), 'bias': array([0.42])}, 'node_2': {'weights': array([0.46, 0.37, 0.47]), 'bias': array([0.04])}}, 'layer_3': {'node_1': {'weights': array([0.08, 0.73]), 'bias': array([0.64])}, 'node_2': {'weights': array([0.03, 0.3 ]), 'bias': array([0.22])}, 'node_3': {'weights': array([0.06, 0.52]), 'bias': array([0.42])}}, 'output': {'node_1': {'weights': array([0.05, 0.57, 0.8 ]), 'bias': array([0.11])}}}


### Calcular la suma pondera

La suma ponderada en cada nodo se calcula como el producto escalar de las entradas y los pesos más el sesgo. 

In [26]:
def compute_weighted_sum(inputs, weights, bias):
    return np.sum(inputs * weights) + bias

Generemos 5 entradas que podamos alimentar small_network.

In [27]:
from random import seed
import numpy as np

np.random.seed(12)
inputs = np.around(np.random.uniform(size=5), decimals=2)

print('The inputs to the network are {}'.format(inputs))

The inputs to the network are [0.15 0.74 0.26 0.53 0.01]


Usa la función compute_weighted_sum para obtener las sumas ponderadas para el primer nodo de la primera capa oculta R[1.518]

In [29]:
weighted_sum = compute_weighted_sum(inputs, small_network['layer_1']['node_1']['weights'], small_network['layer_1']['node_1']['bias'])

print('La suma en el primer nodo de la capa oculta es {}'.format(weighted_sum[0]))

La suma en el primer nodo de la capa oculta es 1.8319999999999999


### Activación del nodo

Recuerda que la salida de cada nodo es simplemente una transformación no lineal de la suma ponderada. Usamos funciones de activación para este mapeo. Usemos la función Sigmoid como función de activación.



In [31]:
def node_activation(weighted_sum):
    return 1.0 / (1.0 + np.exp(-1 * weighted_sum))

Usa la función node_activation para obtener la salida del primer nodo en la primer capa oculta. R[1.518]

In [32]:
node_activation(weighted_sum[0])

0.861999811394382

### Forward Propagation

La construcción de una red neuronal que puede realizar predicciones es juntar todo. Entonces,  hagamos una función que aplique las funciones compute_weighted_sum y node_activation a cada nodo en la red y propague los datos hasta la capa de salida y genere una predicción para cada nodo en la capa de salida.

Pseudo-codigo

1. Empezar con capa de inputs
2. Calcular la suma ponderada en los nodos de la capa actual.
3. Calcular la salida de los nodos de la capa actual.
4. Generar la salida de la capa actual para que sea la entrada a la siguiente capa.
5. Siguiente capa de la red.
6. Repita los pasos 2 a 4 hasta que calculemos la salida de la capa de salida.


In [33]:
def forward_propagate(network, inputs):
    
    layer_inputs = list(inputs) 
    for layer in network:
        
        layer_data = network[layer]
        
        layer_outputs = [] 
        for layer_node in layer_data:
        
            node_data = layer_data[layer_node]
            node_output = node_activation(compute_weighted_sum(layer_inputs, node_data['weights'], node_data['bias']))
            layer_outputs.append(np.around(node_output[0], decimals=4))
            
        if layer != 'output':
            print('The outputs of the nodes in hidden layer number {} is {}'.format(layer.split('_')[1], layer_outputs))
    
        layer_inputs = layer_outputs 
        
    network_predictions = layer_outputs
    return network_predictions

Utiliza forward_propagate para la red small_network

In [34]:
forward_propagate(small_network, inputs)

The outputs of the nodes in hidden layer number 1 is [0.862, 0.8711, 0.8888]
The outputs of the nodes in hidden layer number 2 is [0.8563, 0.7643]
The outputs of the nodes in hidden layer number 3 is [0.7801, 0.6166, 0.7045]


[0.7435]