# Redes Neuronales
Es un modelo matematico inspirado en el comportamiento teórico de neuronas biologicas.
Consiste en un conjunto de unidades llamadas neuronas artificiales y conectadas entre sí para transmitir su información.
Esta información atraviesa la red neuronal, en donde la neurona somete la informacion a diversas operaciones y así la red neuronal produce un valor de salida.
![imagen.png](attachment:imagen.png)
Las conexiones entre capas de neuronas se llaman parametros o pesos, y se deben ajustar para que la red neuronal entregue una salida correcta para una entrada dada.

## Perceptrón
La primera red neuronal que se propuso, se llamó perceptrón y se propuso en la decada de los 50 por Frank Rosenberg.
![imagen.png](attachment:imagen.png)

El *perceptrón* es una red neuronal compuesta por *una sola neurona* y en donde la operación que se calcula, es el producto punto entre el vector de entrada y el vector de pesos.

Aparte de esta operación, se le añade $W_b$, su razón de ser se debe para añadir a la red el vector NULL y se le llama *coeficiente de sesgo*.

### Funciones de activación
Despues de la operación, que es una transformación lineal, se le añadió a la salida de cada neurona una *funcion de activacion* no lineal y derivable, para que la red pueda resolver problemas no lineales.

![imagen.png](attachment:imagen.png)
En este caso, la funcion de activacion, dado un cierto umbral $t$ va a producir una salida entre $0$ y $1$

Existen varias funciones de activación, entre ellas:
- ReLU
- Sigmoide

## Perceptrón Multicapa (MLP)
Para que la red puediera resolver problemas más complejos, se le añadió un mayor número de neuronas y de capas, y así se paso a llamar Perceptrón Multicapa.

![imagen.png](attachment:imagen.png)

A la primera capa se le llama capa de entrada, a la última capa de salida, y a las interiores capas ocultas.

Finalmente una red, es una transformación entre dos espacios vectoriales.
A la forma del operador, se le llama arquitectura de la red neuronal.

Al principio, al darle informacion a la red neuronal, calculará cualquier cosa, y se debe a que no ha sido entrenada. A este proceso se le llama entrenamiento de la red neuronal.

## Entrenamiento de la red neuronal
Este proceso se realiza cuantificando, qué tan lejos esta nuestra salida y/o predicción, de la salida esperada para una cierta entrada.

A esta medida se le conoce como función de perdida, y la idea del entrenamiento de la red es minimizar ésta perdida mediante un proceso de optimización que utiliza los siguientes algoritmos:
- Back propagation
- Descenso del gradiente estocástico (SGD)

### Backpropagation
Es un algoritmo que calcula cuanto contribuye cada peso, al error o la función de perdida, dado pesos en capas anteriores y así se pueden actualizar correctamente.

Esto permite calcular correctamente las derivadas parciales respecto a cada peso y asi obtener el gradiente de la función de perdida.

Con el gradiente, se puede aplicar el descenso de gradiente estocástico.

### Descenso de gradiente estocástico (SGD) 
El descenso del gradiente le permite a la red buscar la dirección donde se encuentra el mínimo de la función de perdida, ya sea, global o local, y así moverse hacia el mínimo. 

Aquí entran parámetros importantes como el learning rate, que es el tamaño del paso, cada ves que el descenso del gradiente se mueve hacia el mínimo de la función de perdida

Por último, SGD es la versión estocástica del descenso del gradiente, y lo que se hace es, en ves de considerar el gradiente en todos los puntos de la función de perdida, se elige un solo punto al azar, dado un *batch* de puntos y se calcula siempre la perdida o el proceso de optimización en base a ese punto elegido.

# Red neuronal de ejemplo
Programemos una red neuronal, como ejemplo:

In [6]:
import numpy as np

example_input = [1, .2, .1, .05, .2]
example_weights = [.2, .12, .4, .6, .9]

In [7]:
input_vector = np.array(example_input)
weights = np.array(example_weights)

In [8]:
bias_weight = .2

In [9]:
activation_level = np.dot(input_vector, weights) + (bias_weight*1)
print(activation_level)

0.6740000000000002


In [10]:
threshold = 0.5
if activation_level >= threshold:
    perceptron_output = 1
else:
    perceptron_output = 0
print(perceptron_output)    

1


In [11]:
# Entrenamiento de red
# que pasa si la salida correcta era 0?
expected_output = 0
new_weights = []
for i,x in enumerate(example_input):
    new_weights.append(weights[i] + (expected_output - perceptron_output)*x)

In [12]:
weights = np.array(new_weights)

In [18]:
print(example_weights)

[0.2, 0.12, 0.4, 0.6, 0.9]


In [17]:
print(weights)

[-0.8  -0.08  0.3   0.55  0.7 ]


In [19]:
activation_level = np.dot(input_vector, weights) + (bias_weight*1)
print(activation_level)

-0.41850000000000004


In [20]:
threshold = 0.5
if activation_level >= threshold:
    perceptron_output = 1
else:
    perceptron_output = 0
print(perceptron_output)  

0


# Operador OR
Ahora, entrenaremos a un perceptron a realizar el operador OR

In [24]:
X = [[0, 0], # False, False
     [0, 1], # False, True
     [1, 0], # True, False
     [1, 1]] # True, True

In [25]:
y = [0, # False
     1, # True
     1, # True
     1] # True

In [26]:
activation_threshold = 0.5

In [39]:
from random import random
import numpy as np

W = np.random.random(2)/1000
W

array([0.00083125, 0.00065976])

In [40]:
# Necesitamos peso de sesgo, ya que tenemos el vector nulo
W_b = np.random.random()/1000
W_b

0.0006288625339407298

In [41]:
# Ahora veremos como predice este perceptron, dado los pesos random
for idx, sample in enumerate(X):
    input_vector = np.array(sample)
    activation_level = np.dot(input_vector, W) + (W_b * 1)
    if activation_level > activation_threshold:
        perceptron_output = 1
    else:
        perceptron_output = 0
    print('Predicted {}'.format(perceptron_output))
    print('Expected: {}'.format(y[idx]))
    print('--------------')

Predicted 0
Expected: 0
--------------
Predicted 0
Expected: 1
--------------
Predicted 0
Expected: 1
--------------
Predicted 0
Expected: 1
--------------


In [42]:
for iteration_num in range(5):
    correct_answers = 0
    for idx, sample in enumerate(X):
        input_vector = np.array(sample)
        weights = np.array(W)
        activation_level = np.dot(input_vector, weights) + W_b * 1
        if activation_level > activation_threshold:
            perceptron_output = 1
        else:
            perceptron_output = 0
        if perceptron_output == y[idx]:
            correct_answers += 1
        new_weights = []
        for i,x in enumerate(sample):
            new_weights.append(weights[i]+ (y[idx] - perceptron_output)*x)
        W_b = W_b + y[idx] - perceptron_output
        W = np.array(new_weights)
    print(f'{correct_answers} respuesas correctas de 4. Iteracion {iteration_num}')


3 respuesas correctas de 4. Iteracion 0
2 respuesas correctas de 4. Iteracion 1
3 respuesas correctas de 4. Iteracion 2
4 respuesas correctas de 4. Iteracion 3
4 respuesas correctas de 4. Iteracion 4
