# Redes Neuronales

<center>
    
<img src='images/Neuron.svg' width=60%\>
</center>

[Fuente Wikipedia](https://commons.wikimedia.org/w/index.php?title=File:Neuron.svg&oldid=343028396)

Una red neuronal es una estructura compuesta por **nodos** o **unidades** que se encuentran interconectados. La potencia de la interconexión entre los nodos se evalúa por medio un valor de **peso**. Si la suma ponderada de todas las conexiones al **nodo** o **neurona** es mayor que un **valor umbral**, decimos que la neurona se **activa**. La función matemática aplicada a la suma ponderada se denomina **función de activación**. 

Se denomina **Modelo de Perceptrón** a una red neuronal con una sola salida.

In [None]:
import mglearn
mglearn.plots.plot_logistic_regression_graph()

Sea $\mathbf{X}$ el espacio de entrada que contiene $N$ muestras de datos. Cada muestra está descrita por $d$ características o **features**. Sea $\mathcal{Y} = \{-1, +1\}$ el espacio de salida binario. El perceptrón queda definido por:


    
$h(\mathbf{x}) = sign \left( \sum_{i=1}^{d} \left( w_ix_i \right) + b \right)$

Donde **sign** es la función signo

Sea $\mathbf{w} = \{w_{0},w_{1}, w_{2}, \dots, w_{d} \}^T$ el vector de pesos; en donde $w_{0}=b$ y sea $\mathbf{x} = \{x_{0},x_{1}, x_{2}, \dots, x_{d} \}^T $ con $w_{0}=1$, entonces la expresión para el Perceptron se puede reescribir:

$h(\mathbf{x}) = sign \left(  \mathbf{w}^T \mathbf{x} \right)$

## Algoritmo de aprendizaje del perceptrón
Para realizar el entrenamiento es preciso que las muestras de datos y etiquetas (o valores) sean randomizados. Luega en cada iteración se corregirá los valores del vector $\mathbf{w}$, mediante la siguiente expresión:

$\mathbf{w}(t+1)=\mathbf{w}(t)+\alpha y(t)\mathbf{x}(t)$

## El Perceptron  y la compuerta AND
La compuerta **and** consta de 4 ejemplos. Cada uno con 2 características $d=2$. 


| muestra | x1 | x2 | y  |
|---------|----|----|----|
| 1       | -1 | -1 | -1 |
| 2       | -1 |  1 | -1 |
| 3       |  1 | -1 | -1 |
| 4       |  1 | 1  |  1 |



In [None]:
import numpy as np
X = np.array([[-1, -1], [-1, 1], [1, -1], [1, 1]])
Y = np.array([-1, -1, -1, 1])
print('X es:\n{}'.format(X))
print('Y es:\n{}'.format(Y))

In [None]:
from sklearn.linear_model import Perceptron
percept_and = Perceptron(verbose=1, shuffle=True)
percept_and.fit(X, Y)
print('Rendimiento del entrenamiento: {}'.format(percept_and.score(X,Y)))

In [None]:
y_pred = percept_and.predict(X)
y_pred

## Ejercicio:
1. Verifique que la Compuerta **XOR** No tiene solución con un Perceptron
2. Verifique que la Computerta **OR** Tiene solución con un Perceptrón
3. Escriba un programa en Python que ejecute el algoritmo de aprendizaje del Perceptrón

## Redes Neuronales Multicapa con Alimentación hacia adelante (Feed Forward)
Al añadir capas ocultas a una estructra de redes neuronales se amplía el espacio de hipótesis. Una red sencilla con una capa oculta con 3 perceptrones es la indicada en la siguiente figura. Observe la estructura de izquiera a derecha formada por:

* Capa de entrada
* Capa oculta
* Capa de Salida

Note que la capa de salida puede tener más nodos.


In [None]:
mglearn.plots.plot_single_hidden_layer_graph()


La complejidad del problema puede requerir incrementar el número de capas ocultas. Para entrenar este tipo de redes se necesita el algoritmo de **back propagation** o retropropagación del error, ya que al tener varias neuronas en una capa oculta se dispone de un vector de hipótesis cuyos valores correctos no se conocen previamente. 

In [None]:
mglearn.plots.plot_two_hidden_layer_graph()

## Ejercicio:
Utilice una red neuronal multicapa para clasificar los datos del dataset moons, con:
* Algoritmo de descenso de gradiente estocástico,
* 50 neuronas en la capa oculta,
* Función de activación relu, luego con sigmoid
* Pruebe con algoritmo lbfgs y sgd 

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.25, random_state=3)
# print(X[0:5,:])
print(y)
print(len(X))

Realicemos un plot de los datos

In [None]:
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
cm_bright = ListedColormap(['#FF0000', '#0000FF'])
plt.figure()
plt.scatter(X[:,0],X[:,1], c=y, cmap=cm_bright)
plt.show()

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=42) #, stratify=y
red = MLPClassifier(hidden_layer_sizes=(50,), 
                    solver='lbfgs', 
#                     learning_rate_init=0.0001, 
#                     activation='relu', 
                    random_state=0, 
                    verbose=True, 
                    max_iter=1000)
history = red.fit(X_train, y_train)

print(len(X_train))

In [None]:
X_test

La precisión sobre el dataset de entrenamiento es:

In [None]:
acc = red.score(X_train, y_train)
acc

La precisión sobre el dataset de prueba es:

In [None]:
acc_test = red.score(X_test, y_test)
acc_test

In [None]:
import mglearn
mglearn.plots.plot_2d_separator(red, X_train, fill=True, alpha=.3)
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1")
plt.show()

## Ejercicio
Resuelva el problema del perceptron con 2 neuronas en la capa oculta. Considere utilizar una función de activación apropiada

In [None]:
X = np.array([[-1, -1], [-1, 1], [1, -1], [1, 1]])
Y = np.array([[-1], [1], [1],[-1] ])

Pruebe el código utiliznado:
1. SGD
2. lbfgs

In [None]:
red_xor = MLPClassifier(hidden_layer_sizes=(2,2),
                        activation='tanh',
                        solver='lbfgs',
                        max_iter=1500, verbose=1)
#lbfgs / lbfgs

Entrenando la red:

In [None]:
red_xor.fit(X, Y)

In [None]:
red_xor.score(X, Y)

In [None]:
y_pred = red_xor.predict(X)
y_pred

In [None]:
y_grafico = [-1, 1, 1, -1]

In [None]:
plt.figure()
plt.scatter(X[:,0],X[:,1], c=y_grafico, cmap=cm_bright)
plt.show()

In [None]:
mglearn.plots.plot_2d_separator(red_xor, X, fill=True, alpha=.3)
mglearn.discrete_scatter(X[:, 0], X[:, 1], y_grafico) 
plt.xlabel("Feature 0") 
plt.ylabel("Feature 1")
plt.show()

## Ejercicios adicionales
Resuelva con una arquitectura de red neuronal feed forward multicapa el dataset iris

## Red Neuronal como Regresión
Considere una función $y = x^2-2x+3$. Para el intervalo de $[-5, 5]$ Obtenga 1000 puntos. Puede hacer que la red neuronal reproduzca esta función en el Intervalo propuesto?

Que pasa si incrementa el dataset a 2000 muestras?

In [None]:
import numpy as np
x = np.linspace(-5,5, num=2000)
# x = np.arange(10)
y = x*x-2*x+3


In [None]:
x

In [None]:
x = x.reshape(-1,1)

In [None]:
y = y.reshape(-1,1)

In [None]:
plt.figure()
plt.plot(x,y)
plt.show()

In [None]:
from sklearn.neural_network import MLPRegressor
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=42)
red_funcion = MLPRegressor(hidden_layer_sizes=(500,), solver='adam', activation='relu', verbose=1)
red_funcion.fit(x, y)

In [None]:
red_funcion.score(x_test,y_test)

In [None]:
x_test = np.linspace(-5,5,500)
y_real = x_test*x_test-2*x_test+3
x_test = x_test.reshape(-1,1)
# x_test
y_pred = red_funcion.predict(x_test)

# y_pred

In [None]:
plt.figure()
plt.plot(x_test, y_real, color='blue')
plt.plot(x_test, y_pred, color='red')
plt.show()

¿Qué sucede si deseo calcular para un valor fuera del rango como por ejemplo $x=5.5$?

In [None]:
x_num = 16.
y_num = x_num*x_num-2*x_num+3
y_num

In [None]:
x_num = np.asarray(x_num)
x_num = x_num.reshape(-1,1)
y_num_pred = red_funcion.predict(x_num)
y_num_pred

## Resolviendo el problema de clasificación del iris dataset
Considere el problema de clasificar las flores iris según la longitud y ancho del sépalo y el pétolo. Resuelva este problema utilizando Redes Neuronales Multicapa

In [None]:
from sklearn.datasets import load_iris

iris_dataset = load_iris()
print(iris_dataset.keys())

Los primeros 5 datos del dataset son $\mathbf{\mathcal{X}}:$

In [None]:
iris_dataset['data'][0:5,:]


Las etiquetas para las **muestras** o **samples** anteriores son:

In [None]:
iris_dataset['target'][0:5]

Paso los datos del iris dataset a una variable $\mathbf{\mathcal{X}}$

In [None]:
X = iris_dataset['data']
Y = iris_dataset['target']

Codificando las clases como **ONE HOT**

In [None]:
from keras.utils import np_utils
Y_one_hot = np_utils.to_categorical(Y)
Y_one_hot

Escalando los valores de $\mathbf{\mathcal{X}}$. Sin embargo primero pruebe el entrenamiento sin escalar los datos.

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
funcion_escalado = scaler.fit(X)
X_escalado = X
# X_escalado = funcion_escalado.transform(X)
print('La media {}'.format(scaler.mean_))
print('Escalado de X, se muestra primeras 5 filas \n{}'.format(X_escalado[0:5,:]))
print('min {}'.format(X_escalado.min()))
print('max {}'.format(X_escalado.max()))
# StandardScaler?

Dividiendo el dataset en train y test. Los datos se deben aleatorizar

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X_escalado, Y_one_hot, test_size=0.2, random_state=2)
X_train[0:5,:]

In [None]:
Y_train[0:5]


Creando un Modelo de Redes Neuronales Artificiales

In [None]:
red_iris = MLPClassifier(hidden_layer_sizes=(3,),
                        activation='tanh',
                        solver='sgd',
                        momentum=0.95,
                        max_iter=1500, verbose=1)


In [None]:
Ajuste de Modelo

In [None]:
red_iris.fit(X_train, Y_train)

Evaluando el desempeño de entrenamiento de la Red Iris

In [None]:
red_iris.score(X_train, Y_train)

Evaluando el desempeño de la Red Iris en el dataset de Prueba

In [None]:
red_iris.score(X_test, Y_test)

Dibujando la función de pérdida

In [None]:
import matplotlib.pyplot as plt
cost_function = red_iris.loss_curve_
plt.figure()
plt.plot(cost_function)
plt.show()


