# Artificial Neural Networks



Vamos a construir una red neuronal desde 0 para que realice predicciones usando la "forward propagation". Aunque de normal ya haya librerías que las construyan, creo que implementarla desde 0 nos dará una idea de como funcionan en profundidad.

### Objetivos
* Contruir una red neural
* Calcular la suma de los pesos en cada nodo.
* Calcular la función de activación de los nodos.
* Usar la "Forward Propagation" para propagar los datos. 



### Visión general



En la imagen tenemos una red neuronal que coge dos inputs, tiene un "hidden layer" con dos nodos y un "output layer" con un nodo. 


<img src="http://cocl.us/neural_network_example" alt="Neural Network Example" width="600px">



Vamos a empezar inicializando valores aleatorios para las bias y los pesos en la red. Tenemos 6 pesos y 3 bias. 


In [1]:
import numpy as np

In [2]:
#Inicializamos las bias y los weights

weights = np.around(np.random.uniform(size=6), decimals=2) 
biases = np.around(np.random.uniform(size=3), decimals=2) 

Mostramos por pantalla los valores: 


In [3]:
print(weights)
print(biases)

[0.51 0.37 0.01 0.93 0.99 0.13]
[0.98 0.31 0.92]



Una vez definidos los valores, vamos a calcular un output para un input dado:

In [10]:
x_1 = 0.5 # input 1
x_2 = 0.85 # input 2

print(f"x1 es {x_1} y x2 es {x_2}")

x1 es 0.5 y x2 es 0.85



Vamos a empezar calculando la suma (con los peso) de los inputs,  z_{1, 1}, del primer nodo del "hidden layer".


In [11]:
z_11 = x_1 * weights[0] + x_2 * weights[1] + biases[0]

print(f"La suma ponderada z_11 es: {z_11}")

La suma ponderada z_11 es: 1.5495


Hacemos lo mismo para el otro nodo del "hidden layer":


In [13]:
z_12 = x_1 * weights[2] + x_2 * weights[3] + biases[1]

print(f"La suma ponderada z_12 es: {z_12}")

La suma ponderada z_12 es: 1.1055



Después, asumiendo una función de activación del tipo sigmoidea, calculamos la activación para el priemer nodo (a_11) del hidden layer.


In [16]:
a_11 = 1.0 / (1.0 + np.exp(-z_11))

print(f"El valor de activación a_11 es: {a_11:.4f}")

El valor de activación a_11 es: 0.8248


Calculamos la activación para el segundo nodo (a_12):


In [22]:
a_12 = 1.0 / (1.0 + np.exp(-z_12))

print(f"El valor de activación a_11 es: {a_11:.4f}")

El valor de activación a_11 es: 0.8248



Ahora, esos valores de activación servirán como inputs del output layer. De este modo, calculamos la suma ponderada de estos inputs en el nodo del output (z_2):

In [23]:
z_2 = a_11 * weights[4] + a_12 * weights[5] + biases[2]

print(f"La suma ponderada de z_2: {z_2:.4f}")



La suma ponderada de z_2: 1.8343



Finalmente, calculamos el output de la red como la activación en el nodo del output (a_2):

In [25]:
a_2 = 1.0 / (1.0 + np.exp(-z_2))

print(f"El valor de activación a_2 es: {a_2:.4f}")



El valor de activación a_2 es: 0.8623


In [None]:
print('The output of the network for x1 = 0.5 and x2 = 0.85 is {}'.format(np.around(a_2, decimals=4)))

<hr>


Obviamente, las redes neuronales para problemas reales se componen de muchas capas ocultas y muchos más nodos en cada capa. Por lo tanto, no podemos seguir haciendo predicciones utilizando este enfoque muy ineficiente de calcular la suma ponderada en cada nodo y la activación de cada nodo manualmente. 


Con el fin de codificar una forma automática de hacer predicciones, vamos a generalizar nuestra red. Una red general tomaría n inputs, tendría muchos "hidden layers", cada capa oculta tendría m nodos y tendría una capa de salida. Aunque la red está mostrando solo una capa oculta, vamos a codificar la red para tener muchas capas ocultas. Del mismo modo, aunque la red muestra una capa de salida con un nodo, vamos a codificar la red para tener más de un nodo en la capa de salida.


<img src="http://cocl.us/general_neural_network" alt="Neural Network General" width="600px">


<a id='item12'></a>


## Construir una red neuronal


Empecemos definiendo la estructura de la red: 


In [27]:
n = 2 # número de inputs
num_hidden_layers = 2 # número de hidden layers
m = [2, 2] # número de nodos en cada hidden layer
num_nodes_output = 1 # número de nodos en la capa de salida

Una vez definida la estructura de la red, vamos a inicializar los pesos y las bias de la red como número aleatorios (como hemos hecho antes).

In [28]:


num_nodes_previous = n # número de nodos en la capa previa

network = {} # inicializar la red como un diccionario vacío

# bucle sobre cada capa para inicializar aleatoriamente los pesos y las bias asociadas a cada nodo.
for layer in range(num_hidden_layers + 1): 
    
    # determinar el nombre de la capa
    if layer == num_hidden_layers:
        layer_name = 'output'
        num_nodes = num_nodes_output
    else:
        layer_name = 'layer_{}'.format(layer + 1)
        num_nodes = m[layer]
    
    #inicializar pesos y bias asociadas con cada nodo en la capa actual
    network[layer_name] = {}
    for node in range(num_nodes):
        node_name = 'node_{}'.format(node+1)
        network[layer_name][node_name] = {
            'weights': np.around(np.random.uniform(size=num_nodes_previous), decimals=2),
            'bias': np.around(np.random.uniform(size=1), decimals=2),
        }
    
    num_nodes_previous = num_nodes
    
print(network) # mostrar red

{'layer_1': {'node_1': {'weights': array([0.98, 0.03]), 'bias': array([0.77])}, 'node_2': {'weights': array([0.65, 0.27]), 'bias': array([0.58])}}, 'layer_2': {'node_1': {'weights': array([0.29, 0.68]), 'bias': array([0.7])}, 'node_2': {'weights': array([0.01, 0.6 ]), 'bias': array([0.19])}}, 'output': {'node_1': {'weights': array([0.85, 0.79]), 'bias': array([0.84])}}}


Ahora con el código anterior, somos capaces de inicializar los pesos y las bias pertenecientes a cualquier red de cualquier número de capas ocultas y número de nodos en cada capa. Pero pongamos este código en una función para que podamos ejecutar repetitivamente todo este código siempre que queramos construir una red neuronal:


In [34]:
def initialize_network(num_inputs, num_hidden_layers, num_nodes_hidden, num_nodes_output):
    
    num_nodes_previous = num_inputs # número de nodos en la capa previa

    network = {} # inicializar la red como un diccionario vacío

    # bucle sobre cada capa para inicializar aleatoriamente los pesos y las bias asociadas a cada nodo.
    for layer in range(num_hidden_layers + 1): 
    
    # determinar el nombre de la capa
        if layer == num_hidden_layers:
            layer_name = 'output'
            num_nodes = num_nodes_output
        else:
            layer_name = 'layer_{}'.format(layer + 1)
            num_nodes = num_nodes_hidden[layer]
    
        #inicializar pesos y bias asociadas con cada nodo en la capa actual
        network[layer_name] = {}
        for node in range(num_nodes):
            node_name = 'node_{}'.format(node+1)
            network[layer_name][node_name] = {
                'weights': np.around(np.random.uniform(size=num_nodes_previous), decimals=2),
                'bias': np.around(np.random.uniform(size=1), decimals=2),
            }
    
        num_nodes_previous = num_nodes
    
    return network # mostrar red

#### Usar la función para crear una red neuronal que: 

1. coja 5 inputs
2. tenga tres "hidden layers"
3. con 3 nodos en el primero, 2 en el segundo y 3 en el tercero
4. tenga un nodo en la capa de salida

La red se llame: **small_network**.


In [36]:
small_network = initialize_network(5, 3, [3, 2, 3], 1)
print(small_network)

{'layer_1': {'node_1': {'weights': array([0.68, 0.66, 0.93, 0.17, 0.7 ]), 'bias': array([0.05])}, 'node_2': {'weights': array([0.07, 0.31, 0.54, 0.79, 0.04]), 'bias': array([0.71])}, 'node_3': {'weights': array([0.89, 0.5 , 0.8 , 0.81, 0.59]), 'bias': array([0.62])}}, 'layer_2': {'node_1': {'weights': array([0.35, 0.46, 0.37]), 'bias': array([0.59])}, 'node_2': {'weights': array([0.44, 0.25, 0.11]), 'bias': array([0.9])}}, 'layer_3': {'node_1': {'weights': array([0.55, 0.42]), 'bias': array([0.85])}, 'node_2': {'weights': array([0.28, 0.1 ]), 'bias': array([0.9])}, 'node_3': {'weights': array([0.97, 0.19]), 'bias': array([0.8])}}, 'output': {'node_1': {'weights': array([0.  , 0.6 , 0.76]), 'bias': array([0.68])}}}


<a id='item13'></a>


### Calcular la suma ponderada en cada nodo


La suma ponderada en cada nodo se calcula como el producto (dot product) de las entradas y los pesos más el sesgo. Así que vamos a crear una función llamada *compute_weighted_sum* que realice esta operación: 


In [37]:
def compute_weighted_sum(inputs, weights, bias):
    return np.sum(inputs * weights) + bias


Vamos a generar 5 inputs de para rellenar la small_network: 


In [38]:
np.random.seed(12)
inputs = np.around(np.random.uniform(size=5), decimals=2)

print(f"The inputs para la red son {inputs}")

The inputs para la red son [0.15 0.74 0.26 0.53 0.01]



#### Usar la función *compute_weighted_sum* para calcular la suma ponderada del primer nodo del primer hidden layer


In [41]:
#Obtener pesos y bias del nodo 1 de la capa 1
node_weights = small_network['layer_1']['node_1']['weights']
node_bias = small_network['layer_1']['node_1']['bias']

#Usar la función
weighted_sum = compute_weighted_sum(inputs, node_weights, node_bias)
print(f"La suma ponderada del primer nodo del primer hidden layer es {weighted_sum[0]:.4f}")




La suma ponderada del primer nodo del primer hidden layer es 0.9793


<a id='item14'></a>


### Calcular la activación de cada nodo


Recordamos que la salida de cada nodo es simplemente una transformación no lineal de la suma ponderada. Utilizamos después las funciones de activación para este mapeo. Vamos a utilizar la función sigmoidea como la función de activación. Así que vamos a definir una función que toma una suma ponderada como entrada y devuelve la transformación no lineal de la entrada utilizando la función sigmoidea.


In [43]:
def node_activation(weighted_sum):
    return 1.0 / (1.0 + np.exp(-1 * weighted_sum))


Usamos esa función para calcular el output del primer nodo de el primer hidden layer.


In [46]:
node_output = node_activation(weighted_sum[0])
print(f"El output del primer nodo del primer hidden layer es {node_output:.4f}")

#--- otra forma ---
node_output  = node_activation(compute_weighted_sum(inputs, node_weights, node_bias))
print(f"El output del primer nodo del primer hidden layer es {node_output[0]:.4f}")



El output del primer nodo del primer hidden layer es 0.7270
El output del primer nodo del primer hidden layer es 0.7270


## Forward Propagation


La pieza final de la construcción de una red neuronal que puede realizar predicciones es poner todo junto. Así que vamos a crear una función que aplica las funciones *compute_weighted_sum* y *node_activation* a cada nodo de la red y propaga los datos hasta la capa de salida y produce una predicción para cada nodo en la capa de salida.


La forma en que vamos a lograr esto es a través del siguiente procedimiento:

1. Comienza con la capa de entrada como entrada a la primera capa oculta.
2. Calcular la suma ponderada en los nodos de la capa actual.
3. Calcular la salida de los nodos de la capa actual.
4. Establezca la salida de la capa actual como entrada a la siguiente capa.
5. Pasar a la siguiente capa en la red.
6. Repite los pasos 2 - 5 hasta que computemos la salida de la capa de salida.


In [47]:
def forward_propagate(network, inputs):
    
    layer_inputs = list(inputs) # start with the input layer as the input to the first hidden layer
    
    for layer in network:
        
        layer_data = network[layer]
        
        layer_outputs = [] 
        for layer_node in layer_data:
        
            node_data = layer_data[layer_node]
        
            # compute the weighted sum and the output of each node at the same time 
            node_output = node_activation(compute_weighted_sum(layer_inputs, node_data['weights'], node_data['bias']))
            layer_outputs.append(np.around(node_output[0], decimals=4))
            
        if layer != 'output':
            print('The outputs of the nodes in hidden layer number {} is {}'.format(layer.split('_')[1], layer_outputs))
    
        layer_inputs = layer_outputs # set the output of this layer to be the input to next layer

    network_predictions = layer_outputs
    return network_predictions


#### Usar la función *forward_propagate* para caclular la predición para nuestra small network


In [49]:
predictions = forward_propagate(small_network, inputs)
print(f"La predicción para nuestra red neuronal dado el input es: {predictions[0]}")




The outputs of the nodes in hidden layer number 1 is [np.float64(0.727), np.float64(0.819), np.float64(0.854)]
The outputs of the nodes in hidden layer number 2 is [np.float64(0.8231), np.float64(0.8203)]
The outputs of the nodes in hidden layer number 3 is [np.float64(0.8385), np.float64(0.7707), np.float64(0.8525)]
La predicción para nuestra red neuronal dado el input es: 0.857


Así construimos el código para definir una red neuronal. Podemos especificar el número de entradas que una red neuronal puede tomar, el número de capas ocultas, así como el número de nodos en cada capa oculta y el número de nodos en la capa de salida. En resumen general, seguiría estos siguientes pasos principales: 



Creamos la función que define la estructura de la red neuronal y concretamos sus pesos y bias:


In [50]:
my_network = initialize_network(5, 3, [2, 3, 2], 3)

Y luego, para unos inputs dados: 


In [51]:
inputs = np.around(np.random.uniform(size=5), decimals=2)

calculamos las predicciones de la red.


In [53]:
predictions = forward_propagate(my_network, inputs)
print(f"Los valores de predicción para los inputs dados son: {predictions}")

The outputs of the nodes in hidden layer number 1 is [np.float64(0.8857), np.float64(0.8889)]
The outputs of the nodes in hidden layer number 2 is [np.float64(0.7822), np.float64(0.6965), np.float64(0.7411)]
The outputs of the nodes in hidden layer number 3 is [np.float64(0.868), np.float64(0.881)]
Los valores de predicción para los inputs dados son: [np.float64(0.8952), np.float64(0.8222), np.float64(0.8035)]
