## Red neuronal de tres capas con regularización

Los datos utilizados para ejercicio se pueden descargar de:
https://www.kaggle.com/datasets/hojjatk/mnist-dataset

Descarga los cuatro archivos.

Los archivos descomprimidos deberán de colocarse en la carpeta /mnist/

In [None]:
import numpy as np
import importlib
import math

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import json, matplotlib
s = json.load( open("styles/bmh_matplotlibrc.json") )
matplotlib.rcParams.update(s)
from IPython.core.pylabtools import figsize
figsize(11, 5)
colores = ["#348ABD", "#A60628","#06A628"]

In [None]:
from ipywidgets import interact, interact_manual, interactive, fixed
import ipywidgets as widgets
from IPython.display import display

In [None]:
#from perceptron import RedMulticapa, makeX, makeY, logistica, derLogistica

# Datos

Los datos a utilizar son imágenes de dígitos.  En su formato original, se leen dos vectores:
* Los datos de **entrada** vienen en un vector 3D.
  * Cada renglón corresponde a un ejemplar de entrenamiento.
  * En cada renglón hay una matriz 2D con las intensidades de los pixels.
* Las etiquetas (dígito correcto que representan) vienen en un vector de una dimensión.

In [None]:
from mnist.read import read, printFull

filesDir = './mnist/'
trainingSetFile = filesDir + 'train-images-idx3-ubyte'
trainingSetLabelsFile = filesDir + 'train-labels-idx1-ubyte'
testSetFile = filesDir + 't10k-images-idx3-ubyte'
testSetLabelsFile = filesDir + 't10k-labels-idx1-ubyte'

###     /\ |__   __||  ____|| \ | | / ____||_   _|/ __ \ | \ | |
###    /  \   | |   | |__   |  \| || |       | | | |  | ||  \| |
###   / /\ \  | |   |  __|  | . ` || |       | | | |  | || . ` |
###  / ____ \ | |   | |____ | |\  || |____  _| |_| |__| || |\  |
### /_/    \_\|_|   |______||_| \_| \_____||_____|\____/ |_| \_|
### EN LAS SIQUIENTES DOS LINEAS SE LIMITA EL TAMAÑO DE LOS DATOS DE ENTRENAMIENTO,EN CASO
### DE INCREMENTAR LA CANTIDAD EL CALCULO TOMA DRASTICAMENTE MAS TIEMPO EN EL CASO DE APROXIMACION DEL GRADIENTE,SE INCLUYE
### IMPRESION DEL PROGRESO DEL METODO



trainData = read(fileName=trainingSetFile).astype(np.float64)
trainDataLabels = read(fileName=trainingSetLabelsFile).astype(np.float64)

testData = read(fileName=testSetFile).astype(np.float64)
testDataLabels = read(fileName=testSetLabelsFile).astype(np.float64)

In [None]:
import mnist.plot
from mnist.plot import muestraImagen

In [None]:
#Normalizamos los datos para que estén entre 0 y 1

trainData=trainData/255
testData=testData/255

In [None]:
## Función para ver como son los datos de MNIST

@interact(
    indice = (0, len(trainData) - 1)
)
def muestraImagenEntrenamiento(indice):
    muestraImagen(trainData, trainDataLabels, indice)

Para poder trabajar con la red neuronal, necesitaremos transformar esas entradas, de modo que los valores de las intensidades de los pixeles se encuentren en un solo renglón.  Las entradas a la red neuronal, deberán ser de la forma:
\begin{align}
  X &= \begin{bmatrix}
       x_1^{(1)} ... x_n^{(1)}  \\
       x_1^{(2)} ... x_n^{(2)}  \\
       ...\\
       x_1^{(m)} ... x_n^{(m)}
      \end{bmatrix}
\end{align}
También necesitaremos que las etiquetas formen una matriz donde la única columna distinta de cero, sea la correspondiente al dígito correcto:
\begin{align}
  Y &= \begin{bmatrix}
       0, ..., y_{label_0} = 1 , ... ,0 \\
       ... \\
       0, ..., y_{label_n} = 1 , ... ,0 \\
      \end{bmatrix}
\end{align}


In [None]:
## Define las matrices X y Y, como se muestra arriba
## A partir de trainData y trainDataLabels
## TIP: usar reshape
def makeX(datosEntrenamiento):
    pass

def makeY(etiquetasEntrenamiento):
    pass

In [None]:
X = makeX(trainData)
print("X shape=",X.shape)
Y = makeY(trainDataLabels)
print("Y shape=",Y.shape)

In [None]:
## Repite lo mismo con los datos de validación
XTest = makeX(testData)
YTest = makeY(testDataLabels)

## Red con tres capas
La red neuronal que se utilizará es una red neuronal de tres capas:
* Entrada
* Oculta
* Salida
La forma genérica de la red se ilustra a continuación.  Sólo que la red de este ejercicio tendrá más neuronas en cada capa.
<img src="figuras/Red3Capas.png"/>

Para este ejercicio el número de neuronas será:
* 784 + 1 (28x28 pixeles más la unidad de sesgo)
* 25 + 1 unidades en la capa oculta
* 10 neuronas de salida (una por cada dígito)
Por lo tanto, las dimensiones de las matrices de pesos son:
* $\Theta^{(0)} \rightarrow (25 \times 785)$
* $\Theta^{(1)} \rightarrow (10 \times 26)$

## Regularización
Se buscará mantener los pesos pequeños para evitar los debordes y el sobreajuste a los datos
de entrenamiento.  Para ello, la función $J$, además de medir el error en la predicción, será
incrementada cuando los pesos incrementen su magnitud.
\begin{align}
  J(\Theta) =& - \frac{1}{m} \left[ \sum_{i=1}^m \sum_{k=1}^K   y_k^{(i)} \log(h_\Theta(x^{(i)}))_k  +
            (1 - y_k^{(i)}) \log(1 - h_\Theta(x^{(i)}))_k   \right]    + \\
            & \frac{\lambda}{2m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_L} \sum_{j=1}^{s_{l+1}} (\theta_{ji}^{(l)})^2
\end{align}
De este modo, al calcular el gradiente se hace la siguiente modificación:
\begin{align}
 \nabla^{(l)} =& \frac{1}{m}\Delta^{(l)} \\
 \nabla^{(l)}[:,1:] =& \nabla^{(l)}[:,1:] + \frac{\lambda}{m} \Theta^{(l)}[:,1:]
\end{align}

In [None]:
# Esta red tiene
print(25*785 + 10*26, ' conexiones.')

In [None]:
def logistica(val):
    return 1/(1+np.exp(-val))

def derLogistica(val):
    return logistica(val) * (1 - logistica(val))

In [None]:
## Programa una clase RedNeuronal con la arquitectura anterior y que tome en cuenta la regularización.
## Puedes usar como base la red definida en la práctica anterior.
## Debe tener:
## - como *atributos* las matrices de pesos Theta_0 y Theta_1
## - un *constructor* que reciba como parámetro opcional otra red y copie sus pesos,
##   si no recibe nada los inicializa aleatoriamente.
## - método para asignar valores aleatorios a estas matrices
## - método para devolver todos los pesos en una sola matriz columna.
## - metodo para reconstruir matrices del tamaño de las matrices de pesos, a partir del vector.
## Define una función de entrenamiento para la red.

# Cuando agregues el término de la regularización, recuerda hacer los cambios
# únicamente sobre las componentes que no corresponden al bias.
# Puedes utilizar notación como:
# M[:,1:] = f(M[:,1:])
# donde f(x) es una función cualquiera que depende de x.

class RedMulticapa:
    def __init__(self,otra=None):
    
    def pesos_a_vector(self):
        
        pass
    
    def reconstruct_matrices(matriz):
        pass


In [None]:
## Programa el método *feedforward(self, X, vector=None)*
## Cuando reciba vector, usará estos pesos, en lugar de los propios.
##
def feed_forward(self,X,vector=None):
    pass
setattr(RedMulticapa,'feed_forward',feed_forward)

In [None]:
importlib.reload(mnist.plot)

from mnist.plot import muestraActividad

In [None]:
RedA = RedMulticapa()
RedA.feed_forward(XTest)

In [None]:
# Esto sólo es ilustrativo, por eso usamos el conjunto de prueba,
# que es más pequeño

@interact(index = (0, len(XTest) - 1))
def muestraActividad0(index):
    muestraActividad(RedA, index)

In [None]:
## Programa un método para calcular el error.
## Usar la entropía cruzada.
## Recuerda dar la opción de enviar un vector de pesos modificados.
def calc_error(self,xtest,ytest,pesos,lambdaR):
    pass
    
    
setattr(RedMulticapa,'calc_error',calc_error)

In [None]:
RedB = RedMulticapa(RedA)
RedB.calc_error(XTest, YTest, RedB.pesos_a_vector())#, lambdaR = 0.0)

In [None]:
## Programa el método *aproximaGradiente(self, X, Y, lambdaR = 0.0)*
## Esta función perturbará los pesos uno a uno, por una cantidad
## epsilon = 0.0004 y devolverá un vector con el gradiente.
def approx_gradient(self, X, Y):
    pass

setattr(RedMulticapa,'approx_gradient',approx_gradient)
aprox = RedB.approx_gradient(X[0:1,:], YTest[0:1,:])

In [None]:
## Programa el algoritmo de propagación hacia atrás
## de modo que reciba X, Y y lambda=0.0
## Guardará como atributos los valores calculados
## para el error y los gradientes de las matrices de pesos
def back_propagate(self,x,y,lambdaR=0.0):
    pass

setattr(RedMulticapa,'back_propagate',back_propagate)

In [None]:
## Agrega ahora el método para realizar descenso por el gradiente
def gradient_descent(self,X,Y,alfa,ciclos,lambdaR=0.0):
    pass
setattr(RedMulticapa,'gradient_descent',gradient_descent)

In [None]:
# Tendrás que correr el entrenamiento varias veces para que el sistema funcione.
# Toma en cuenta que X es una matriz bastante grande, por lo que será un poco tardado.
# Observa que aparecerán advertencias de que el cálculo de la exponencial en la
# función de evaluación está desbordando.
# No olvides revisar tus metádatos, prueba entrenamiento con diferentes lambdaR. 

@interact_manual()
def entrenaRedC():
    RedB.gradient_descent(X, Y, alfa=0.1, ciclos = 10, lambdaR=1.0)

In [None]:
# Si ya funciona bien tu entrenamiento, corre algunos ciclos más para reducir el error
# más significativamente.

@interact(index = (0, len(X) - 1))
def muestraActividad0(index):
    muestraActividad(RedB, index)

## Matriz de confusión
Calcula los valores de la matriz de confusión para evaluar el desempeño de tu red después de haberla entrenado.

<table>
<thead>
<tr><th colspan="2"></th><th colspan="2">Clase predicha</th></tr>
<tr><th colspan="2"></th><th>1</th><th>0</th></tr>
</thead>
<tr><th rowspan="2">Clase correcta</th><th>1</th><td>TP</td><td>FN</td></tr>
<tr><th>0</th><td>FP</td><td>TN</td></tr>
</table>

Donde:
* **TP**: Verdaderos positvos, valores que se evaluaron como verdaderos y eran verdaderos.
* **FP**: Falsos posivos, valores que se evaluaron como verdaderos pero eran errados. 
* **FN**: Falsos negativos, valores evaluados como falsos pero debian ser verdaderos.
* **TN**: Verdaderos negativos, valores evaluados como falsos y eran falsos.

En nuestro ejercicio debemos ver en los valores resultantes, para cada ejemplar tenemos 10 elementos de salida, 
si en el vector de salida se activa la posición correspondiente a la etiqueta. Por ejemplo, si la salida es de la forma $[0,1,0,0,0,0,0,0,0,0]$ y la etiqueta es un 1 entonces tienes un verdadero positivo por el 1 y 9 verdaderos negativos por todos los que no se activaron.

In [None]:
## Inserta aquí el código para calcular la matriz de confusión
def matrizDeConfusion(self,Y):
    pass

setattr(RedMulticapa,'confusion',matrizDeConfusion)

In [None]:
RedB.matrizDeConfusion(Y)

In [None]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read() #or edit path to custom.css
    return HTML(styles)
css_styling()