<a href="https://colab.research.google.com/github/LuisPeMoraRod/AI-Laboratories/blob/ejercicio_3/Lab12_NeuralNetworkBackward.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lab - Red Neuronal Backward

*   Mauricio Calderón
*   Luis Pedro Morales


### Ejercicio 3

Programe la red neuronal de la figura del punto 1 sin utilizar métodos ya preexistentes, es decir, programe todo el algoritmo desde cero (sólo el backward). Reutilice el código del forward del laboratorio anterior. Debe usar operaciones con matrices y un mínimo de fors. Prográmelo de forma que sea parametrizable (iteraciones=10000, Alpha=0.5) y pueda hacer el cálculo para cualquier red. Puede modificar la cantidad de iteraciones para determinar si el algoritmo converge.



*   Desarrollo del algoritmo según el detalle del punto 2
*   Despliegue los valores obtenidos para el primer backward
*   Despliegue los pesos óptimos después de modificar la cantidad de iteraciones y el
parámetro alpha. Indique en cuál iteración el algoritmo converge.



In [2]:
from math import exp
import numpy as np

# Initialize a network using class example as reference
def initialize_network():
    network = list()
    # 2 neurons in hidden layer
    bias1 = 0.35
    hidden_layer = [{'weights':[0.15, 0.25, bias1]}, {'weights':[0.2, 0.3, bias1]}]
    network.append(hidden_layer)

    # 2 neurons output layer
    bias2 = 0.6
    output_layer = [{'weights':[0.4, 0.5, bias2]}, {'weights':[0.45, 0.55, bias2]}]
    network.append(output_layer)
    return network

# Calculate neuron activation for an input
def activate(weights, inputs):
	activation = weights[-1]
	for i in range(len(weights)-1):
		activation += weights[i] * inputs[i]
	return activation

# Transfer neuron activation
def transfer(activation):
	return 1.0 / (1.0 + exp(-activation))

# Forward propagate input to a network output
def forward_propagate(network, row):
	inputs = row
	for layer in network:
		new_inputs = []
		for neuron in layer:
			activation = activate(neuron['weights'], inputs)
			neuron['output'] = transfer(activation)
			new_inputs.append(neuron['output'])
		inputs = new_inputs
	return inputs

# Calculate the derivative of an neuron output
def transfer_derivative(output):
	return output * (1.0 - output)

# Backpropagate error and store in neurons
def backward_propagate_error(network, expected):
	for i in reversed(range(len(network))):
		layer = network[i]
		errors = list()
		if i != len(network)-1:
			for j in range(len(layer)):
				error = 0.0
				for neuron in network[i + 1]:
					error += (neuron['weights'][j] * neuron['delta'])
				errors.append(error)
		else:
			for j in range(len(layer)):
				neuron = layer[j]
				errors.append(neuron['output'] - expected[j])
		for j in range(len(layer)):
			neuron = layer[j]
			neuron['delta'] = errors[j] * transfer_derivative(neuron['output'])

# Update network weights with error
def update_weights(network, row, l_rate):
	for i in range(len(network)):
		inputs = row[:-1]
		if i != 0:
			inputs = [neuron['output'] for neuron in network[i - 1]]
		for neuron in network[i]:
			for j in range(len(inputs)):
				neuron['weights'][j] -= l_rate * neuron['delta'] * inputs[j]
			neuron['weights'][-1] -= l_rate * neuron['delta']

# Train a network for a fixed number of epochs
def train_network(network, train, expected, l_rate, n_epoch, tol):
    outputs = list()
    for _ in range(n_epoch):
        sum_error = 0
        for row in train:
            outputs_i = forward_propagate(network, row)
            outputs.append(outputs_i)
            sum_error += sum([0.5*(expected[i]-outputs_i[i])**2 for i in range(len(expected))])
            backward_propagate_error(network, expected)
            update_weights(network, row, l_rate)
        if (abs(sum_error) < tol):
            break
    return outputs

# Test training backprop algorithm
dataset = [[0.05, 0.1]]
expected = [0.01, 0.99]
network = initialize_network()

alpha = 0.5
max_iters = 10000
tol = 1e-5
outputs = train_network(network, dataset, expected, alpha, max_iters, tol)

hidden_layer = network[0]
output_layer = network[1]

h1 = hidden_layer[0]
h2 = hidden_layer[1]
o1 = output_layer[0]
o2 = output_layer[1]

w1 = h1['weights'][0]
w2 = h1['weights'][1]
w3 = h2['weights'][0]
w4 = h2['weights'][1]
w5 = o1['weights'][0]
w6 = o1['weights'][1]
w7 = o2['weights'][0]
w8 = o2['weights'][1]

first_o1 = outputs[0][0]
first_o2 = outputs[0][1]
last_o1 = outputs[-1][0]
last_o2 = outputs[-1][1]

print(f'First iteration: \n\t output1 = {first_o1}, output2 = {first_o2}')
print(f'Last iteration (n = {len(outputs)-1}): \n\t output1 = {last_o1}, output2 = {last_o2}')

print(f'\nHidden layer: \n\tw1 = {w1}, w2 = {w2} \n\tw3 = {w3}, w4 = {w4}')
print(f'Output layer: \n\tw5 = {w5}, w6 = {w6} \n\tw7 = {w7}, w8 = {w8}')

First iteration: 
	 output1 = 0.7569319154399385, output2 = 0.7677178798069613
Last iteration (n = 6047): 
	 output1 = 0.013201450341820496, output2 = 0.9868786195879152

Hidden layer: 
	w1 = 0.18090462464969917, w2 = 0.25 
	w3 = 0.22936101373817488, w4 = 0.3
Output layer: 
	w5 = -1.4276542042895422, w6 = -1.318473602965025 
	w7 = 1.4495238306748184, w8 = 1.5431112511817486


### Ejercicio 4

Saque conclusiones de los ejercicios realizados que incluya cambios en la cantidad de
iteraciones, cambios en el Alpha, otros que considere importantes

# Conclusiones

Para evaluar la influencia del parámetro alpha o tasa de aprendizaje sobre el algoritmo de retropropagación, se ejecutó el método de entrenamiento con diferentes valores de alpha: 0.1 - 0.3 - 0.5 - 0.7 - 0.9. También se incrementó el número de iteraciones máxima a 20000 iteraciones, para ampliar el límite antes de alcanzar la convergencia y favorecer el análisis.

A partir de los resultados anteriores se puede demostrar la relación directa de la tasa de aprendizaje  con la velocidad de aprendizaje del algoritmo. En este caso en particular, los menores valores de alpha provocaron que se necesitaran un mayor número de iteraciones para alcanzar la convergencia; al punto tal, que para un alpha de 0.1, ni siquiera se alcanzó la convergencia antes de las 20000 iteraciones. Así, conforme se fue aumentando el alpha fueron dismiuyendo el número de iteraciones para cada convergencia, siendo el alpha de 0.9 la que registró menor cantidad de iteraciones (3360).

La tasa de aprendizaje controla la magnitud de las actualizaciones aplicadas a los pesos y sesgos de la red durante el proceso de entrenamiento. Y esto determina qué tan rápido o lento aprende la red a partir de los datos de entrenamiento.

Una tasa de aprendizaje más alta puede llevar a una convergencia más rápida inicialmente, ya que los pesos y sesgos se actualizan de manera más significativa en cada iteración. Ahora bien, se debe tener cuidado con no excederse con este valor, ya que si la tasa de aprendizaje es demasiado alta, las actualizaciones pueden volverse demasiado grandes, lo que hace que el algoritmo sobrepase la solución óptima y no logre converger.

Otro factor que se puede ver afectado por la tasa de aprendizaje es la estabilidad de la convergencia. Una tasa de aprendizaje más baja puede hacer que la convergencia del algoritmo sea más estable y menos propensa a divergir. Actualizaciones más pequeñas aseguran que los pesos y sesgos se acerquen gradualmente a los valores óptimos, pero esto también puede resultar en una convergencia más lenta.

In [3]:
alpha = 0.1
max_iters = 20000
network = initialize_network()
outputs = train_network(network, dataset, expected, alpha, max_iters, tol)
last_o1 = outputs[-1][0]
last_o2 = outputs[-1][1]
print(f'Last iteration (n = {len(outputs)-1}): \n\t output1 = {last_o1}, output2 = {last_o2}\n')

alpha = 0.3
network = initialize_network()
outputs = train_network(network, dataset, expected, alpha, max_iters, tol)
last_o1 = outputs[-1][0]
last_o2 = outputs[-1][1]
print(f'Last iteration (n = {len(outputs)-1}): \n\t output1 = {last_o1}, output2 = {last_o2}\n')

alpha = 0.5
network = initialize_network()
outputs = train_network(network, dataset, expected, alpha, max_iters, tol)
last_o1 = outputs[-1][0]
last_o2 = outputs[-1][1]
print(f'Last iteration (n = {len(outputs)-1}): \n\t output1 = {last_o1}, output2 = {last_o2}\n')

alpha = 0.7
network = initialize_network()
outputs = train_network(network, dataset, expected, alpha, max_iters, tol)
last_o1 = outputs[-1][0]
last_o2 = outputs[-1][1]
print(f'Last iteration (n = {len(outputs)-1}): \n\t output1 = {last_o1}, output2 = {last_o2}\n')

alpha = 0.9
network = initialize_network()
outputs = train_network(network, dataset, expected, alpha, max_iters, tol)
last_o1 = outputs[-1][0]
last_o2 = outputs[-1][1]
print(f'Last iteration (n = {len(outputs)-1}): \n\t output1 = {last_o1}, output2 = {last_o2}\n')

Last iteration (n = 19999): 
	 output1 = 0.015079672573649132, output2 = 0.9850426918792227

Last iteration (n = 10077): 
	 output1 = 0.013201689419076547, output2 = 0.9868783549927713

Last iteration (n = 6047): 
	 output1 = 0.013201450341820496, output2 = 0.9868786195879152

Last iteration (n = 4319): 
	 output1 = 0.013201990764072769, output2 = 0.9868781216002792

Last iteration (n = 3360): 
	 output1 = 0.013201381974170708, output2 = 0.9868787487911304



In [4]:
%%shell
jupyter nbconvert --to html /content/Lab12_NeuralNetworkBackward.ipynb

[NbConvertApp] Converting notebook /content/Lab12_NeuralNetworkBackward.ipynb to html
[NbConvertApp] Writing 613071 bytes to /content/Lab12_NeuralNetworkBackward.html


