<table><tbody><tr><th><p><img alt="Emblema" src="https://cdn6.aptoide.com/imgs/6/f/4/6f4821daa840da8fe971445350759fe5_icon.png" style="width:150px;"></p></th><th><p><strong>Inteligencia Artificial</strong></p><p><strong>Grado en Ingeniería Informática en Sistemas de Información – Curso 2024/2025</strong></p><p><strong>ENSEÑANZAS PRÁCTICAS Y DE DESARROLLO</strong></p><h1>EPD 4: Machine Learning - Redes Neuronales</h1></th></tr></tbody></table>

____

## Objetivos
- Implementación en Python de un algoritmo de Redes Neuronales para la construcción de un modelo de clasificación.

___

## Bibliografía Básica
- Machine Learning. Tom Mitchell. MacGraw-Hill, 1997

___

Implementar redes neuronales para reconocimiento de dígitos escritos a mano, del 0 hasta el 9.

Dispones de 5000 ejemplos de dígitos escritos a mano en $ex4data1.mat$. La extensión. mat indica que contiene datos salvados en formato matriz Octave/Matlab nativo en vez de en formato texto. Después de cargar los datos tendrás en memoria las matrices con las dimensiones y los valores correctos.

![image.png](attachment:fddc0fcd-7e9a-4c1f-9226-f07eaa82bcd6.png)

Cada ejemplo de entrenamiento es una matriz de píxeles de 20x20 que constituye un dígito en una escala de grises. Un píxel se representa por un número decimal que indica la intensidad de gris en una posición determinada. Por tanto, la dimensión de X será de 5000x400, donde cada fila es un ejemplo de entrenamiento de una imagen con un dígito escrito a mano. El vector y contiene las etiquetas del conjunto de entrenamiento, de manera que los dígitos del 1 al 9 están etiquetados con su propio dígito, mientras que el 0 se etiqueta con el 10. En la figura puedes ver una muestra de los datos.

Utiliza este notebook para ir incorporando el código y las llamadas a las funciones que se piden en los siguientes ejercicios. Ya están escritas las instrucciones para cargar los datos de entrenamiento y también para recuperar los parámetros theta de una red ya entrenada (ex4weights.mat), comprobar las dimensiones de las distintas matrices. Se usarán 25 neuronas en la capa oculta.

In [1]:
#Librerías necesarias

import math as mt
import numpy as np
import scipy.io as sio
import scipy.optimize as opt
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
# Parametrización que se utilizará en este ejercicio

input_layer_size = 400 # 20x20 entrada de las imágenes
hidden_layer_size = 25 # 25 unidades ocultas
num_labels = 10 # 10 etiquetas, desde 1 a 10 (el valor "0" se ha asignado a la etiqueta 10)

In [3]:
# Carga de datos

data = sio.loadmat("ex4data1.mat") # tipo dict
X = data['X']
y = data['y']
m = X.shape[0]

print(m)
print(type(X), type(y))
display(X)
display(y)

5000
<class 'numpy.ndarray'> <class 'numpy.ndarray'>


array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

array([[10],
       [10],
       [10],
       ...,
       [ 9],
       [ 9],
       [ 9]], dtype=uint8)

In [4]:
# Cargar los pesos de la red

weights = sio.loadmat("ex4weights.mat")
theta1 = weights['Theta1']
theta2 = weights['Theta2']

nn_params_ini = np.hstack((theta1.ravel(order='F'), theta2.ravel(order='F'))) # Unroll
print("Shapes: \n\tX: ", X.shape, "\n\ty: ", y.shape, "\n\ttheta1: ", theta1.shape, "\n\ttheta2: ", theta2.shape, "\n\tparams_ini: ", nn_params_ini.shape)

Shapes: 
	X:  (5000, 400) 
	y:  (5000, 1) 
	theta1:  (25, 401) 
	theta2:  (10, 26) 
	params_ini:  (10285,)


## Ejercicios
#### EJ01. 
Implementa la función de coste para una red neuronal nnCostFunctionSinReg. En este ejercicio sólo se pide el coste según:

![image.png](attachment:2e2ccb8e-c291-4c7e-9121-a9eb804c2b4a.png)

es decir, sin regularizar. La llamada a esta función utilizando los parámetros suministrados Theta1 y Theta2 debe devolver un coste de 0.28763.

##### Solución:

In [5]:
# Funciones
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def nnCostFunctionSinReg(nn_params_ini, input_layer_size, hidden_layer_size, num_labels, X, y):
    
    theta1 = np.reshape(a = nn_params_ini[:hidden_layer_size*(input_layer_size+1)],
                       newshape = (hidden_layer_size, input_layer_size+1),
                       order="F")
    theta2 = np.reshape(a = nn_params_ini[hidden_layer_size*(input_layer_size+1):],
                       newshape = (num_labels, hidden_layer_size+1), order="F")

    m = len(y)
    suma = 0
    y_d = pd.get_dummies(y.flatten())

    for i in range(X.shape[0]):
        a1, a2, h = forward(theta1, theta2, X, i)
        temp1 = y_d.iloc[i] * np.log(h)
        temp2 = (1 - y_d.iloc[i]) * np.log(1-h)
        temp3 = np.sum(temp1+temp2, axis=0)
        suma = suma + temp3

    J = suma/-m
    return J

def forward(theta1, theta2, X, i):
    a1 = np.hstack((1, X[i])) # ones = np.ones(1) + a1 PARA METER EL BIAS
    a2 = sigmoid(np.dot(theta1, a1)) # activacion de la primera capa
    a2 = np.hstack((1,a2)) # Bias de la otra capa
    a3 = sigmoid(np.dot(theta2, a2)) # activacion 
    return a1, a2, a3

In [6]:
# To the neural network, you should first start by implementing the
# feedforward part of the neural network that returns the cost only. You
# should complete the code in nnCostFunction.m to return cost. After
# implementing the feedforward to compute the cost, you can verify that
# your implementation is correct by verifying that you get the same cost
# as us for the fixed debugging parameters.
#
# We suggest implementing the feedforward cost *without* regularization
# first so that it will be easier for you to debug. Later, you
# will get to implement the regularized cost.
#

J = nnCostFunctionSinReg(nn_params_ini, input_layer_size, hidden_layer_size, num_labels, X, y)

print("Coste de los parámetros (cargado desde ex4weights) (Debería ser 0.287629): ", J)

Coste de los parámetros (cargado desde ex4weights) (Debería ser 0.287629):  0.2876291651613188


#### EJ02.
Implementa la función nnGradFunctionSinReg para que devuelva el gradiente sin regularización. Se debe realizar una llamada a la función checkNNGradients para comprobar si la implementación ha sido correcta. Esta función compara los gradientes calculados usando back-propagation y usando una aproximación numérica. Las diferencias deberían ser inferiores a 1e-9.

##### Solución:

In [7]:
# Estas funciones se utilizan para comprobar que se ha implementado bien el backpropagation

def computeNumericalGradient(theta, input_layer_size, hidden_layer_size, num_labels,X, y):
    mygrad = np.zeros(theta.size)
    perturb = np.zeros(theta.size)
    myeps = 0.0001
    for i in range(np.size(theta)):
        # Set perturbation vector
        perturb[i] = myeps
        cost_high = nnCostFunctionSinReg(theta + perturb, input_layer_size, hidden_layer_size, num_labels,X, y)
        cost_low = nnCostFunctionSinReg(theta - perturb, input_layer_size, hidden_layer_size, num_labels,X, y)
        # Compute Numerical Gradient
        mygrad[i] = (cost_high - cost_low) / float(2 * myeps)
        perturb[i] = 0
    return mygrad

def debugInitializeWeights(fan_out, fan_in):
    # Set W to zeros
    W = np.zeros((fan_out,1+fan_in))
    # Initialize W using "sin", this ensures that W is always of the same values and will be useful for debugging
    b = np.zeros(W.size)
    for i in np.array(range(1,W.size+1)):
        b[i-1] = mt.sin(i)
    W = np.reshape(b,W.shape,order='F') / 10
    return W

def checkNNGradients(lambda_param):
    input_layer_size = 3
    hidden_layer_size = 5
    num_labels = 3
    m = 5
    #We generate some 'random' test data
    Theta1 = debugInitializeWeights(hidden_layer_size, input_layer_size)
    Theta2 = debugInitializeWeights(num_labels, hidden_layer_size)
    #Reusing debugInitializeWeights to generate X
    X = debugInitializeWeights(m,input_layer_size-1)
    y = np.zeros(m)
    for i in range(m):
        y[i] = (1 + mt.fmod(i+1,num_labels))
    #y = y.T
    # Unroll parameters
    nn_params = np.hstack((Theta1.ravel(order='F'), Theta2.ravel(order='F')))
    # Calculo gradiente por back-propagation
    nn_backprop_params = nnGradFunctionSinReg(nn_params, input_layer_size, hidden_layer_size, num_labels, X, y)
    # Calculo gradiente mediante aproximación numérica
    mygrad = computeNumericalGradient(nn_params, input_layer_size, hidden_layer_size, num_labels,X, y)
    # Visually examine the two gradient computations.  The two columns
    # you get should be very similar.
    df = pd.DataFrame(mygrad,nn_backprop_params)
    print(df)

    # Evaluate the norm of the difference between two solutions.
    # If you have a correct implementation, and assuming you used EPSILON = 0.0001
    # in computeNumericalGradient.py, then diff below should be less than 1e-9
    diff = np.linalg.norm((mygrad-nn_backprop_params))/np.linalg.norm((mygrad+nn_backprop_params))

    print('If your backpropagation implementation is correct, then the differences will be small (less than 1e-9):' , diff)

In [8]:
# BackPropagation
def nnGradFunctionSinReg(nn_params, input_layer_size, hidden_layer_size, num_labels, X, y):
    initial_theta1 = np.reshape(nn_params[:hidden_layer_size*(input_layer_size+1)],
                               newshape=(hidden_layer_size, input_layer_size+1), order='F')
    initial_theta2 = np.reshape(nn_params[hidden_layer_size*(input_layer_size+1):],
                               newshape=(num_labels, hidden_layer_size+1), order='F')
    y_d = pd.get_dummies(y.flatten())
    delta1 = np.zeros(initial_theta1.shape)
    delta2 = np.zeros(initial_theta2.shape)
    m = len(y)
    for i in range(m):
        a1, a2, h = forward(initial_theta1, initial_theta2, X, i)
        temp = y_d.iloc[i]
        # backward
        d3 =  h - temp
        d2 = np.multiply(initial_theta2.T @ d3, np.multiply(a2, (1-a2)))
        delta1 = delta1 + np.reshape(d2[1:,], newshape=(hidden_layer_size, 1)) @ np.reshape(a1, newshape=(1, input_layer_size+1))
        delta2 = delta2 + np.reshape(d3.to_numpy(), newshape=(num_labels,1)) @ np.reshape(a2, newshape=(1, hidden_layer_size+1))

    delta1/=m
    delta2/=m
    print("Delta 1:", delta1)
    print("Delta 2:", delta2)
    return np.hstack((delta1.ravel(order='F'), delta2.ravel(order='F')))

In [9]:
# You should proceed to implement the
# backpropagation algorithm for the neural network. You should add to the
# code you've written in nnCostFunction.m to return the partial
# derivatives of the parameters.
#
# Check gradients by running checkNNGradients
lambda_param = 0
checkNNGradients(lambda_param)

Delta 1: [[-9.27825236e-03 -3.04978914e-06 -1.75060082e-04 -9.62660620e-05]
 [ 8.89911960e-03  1.42869443e-05  2.33146357e-04  1.17982666e-04]
 [-8.36010762e-03 -2.59383100e-05 -2.87468729e-04 -1.37149706e-04]
 [ 7.62813551e-03  3.69883234e-05  3.35320347e-04  1.53247082e-04]
 [-6.74798370e-03 -4.68759769e-05 -3.76215587e-04 -1.66560294e-04]]
Delta 2: [[0.31454497 0.16409082 0.16456793 0.15833933 0.15112753 0.14956833]
 [0.11105659 0.05757365 0.05778674 0.05592353 0.0536967  0.05315421]
 [0.0974007  0.05045759 0.05075302 0.04916208 0.04714562 0.04655972]]
                  0
-0.009278 -0.009278
 0.008899  0.008899
-0.008360 -0.008360
 0.007628  0.007628
-0.006748 -0.006748
-0.000003 -0.000003
 0.000014  0.000014
-0.000026 -0.000026
 0.000037  0.000037
-0.000047 -0.000047
-0.000175 -0.000175
 0.000233  0.000233
-0.000287 -0.000287
 0.000335  0.000335
-0.000376 -0.000376
-0.000096 -0.000096
 0.000118  0.000118
-0.000137 -0.000137
 0.000153  0.000153
-0.000167 -0.000167
 0.314545  0.31454

#### EJ03.
Como se ha visto en EB, en el entrenamiento de una red neuronal es importante inicializar aleatoriamente los parámetros theta. Implementa la función randInitializeWeights(hidden_layer_size, num_labels) con un
épsilon de 0.12.

##### Solución:

In [16]:
# HAY QUE IMPLEMENTARLO

def randInitializeWeights(L_in, L_out):
    # Note that W should be set to a matrix of size(L_out, 1 + L_in) as
    # the column wor of W handles the "bias" terms.
    # You need to return the following variables correctly
    #W = np.zeros((L_out, 1+L_in))
    ## ====================== YOUR CODE HERE ======================
    # Instructions: Initialize W randomly so that we break the symmetry while
    #               training the neural network.
    #
    # Note: The first row of W corresponds to the parameters for the bias units
    epsilon = 0.12
    W = np.random.rand(L_out, L_in+1) *2* epsilon - epsilon
    return W
    

In [17]:
initial_theta1 = randInitializeWeights(input_layer_size, hidden_layer_size)
initial_theta2 = randInitializeWeights(hidden_layer_size, num_labels)

nn_initial_params = np.hstack((initial_theta1.ravel(order='F'), initial_theta2.ravel(order='F')))

#### EJ04.
En este punto, ya tienes implementado todo lo necesario para entrenar la red neuronal. Para obtener un buen conjunto de
parámetros, utiliza la optimización de la librería scipy, vista en otras ocasiones. Estos optimizadores avanzados son capaces de
entrenar a nuestras funciones de costo eficientemente, siempre y cuando les proporcionemos los cálculos del gradiente.

##### Solución:

In [18]:
# After you have completed the assignment, change the MaxIter to a larger
# value to see how more training helps.
maxiter = 10
nn_params = opt.fmin_cg(maxiter=maxiter, f = nnCostFunctionSinReg, x0 = nn_initial_params, fprime= nnGradFunctionSinReg, args= (input_layer_size, hidden_layer_size, num_labels, X, y.flatten()))

Delta 1: [[ 2.75865624e-02  0.00000000e+00  0.00000000e+00 ...  3.30294130e-08
  -5.31356250e-09  0.00000000e+00]
 [ 3.96701070e-02  0.00000000e+00  0.00000000e+00 ...  2.43575769e-07
  -2.09594972e-08  0.00000000e+00]
 [-4.33686469e-03  0.00000000e+00  0.00000000e+00 ... -6.32758059e-08
   2.77647713e-09  0.00000000e+00]
 ...
 [-1.19842278e-02  0.00000000e+00  0.00000000e+00 ... -7.12079460e-08
   4.15546536e-09  0.00000000e+00]
 [-4.95089848e-02  0.00000000e+00  0.00000000e+00 ... -2.74384385e-07
   2.74147755e-08  0.00000000e+00]
 [-5.01704985e-03  0.00000000e+00  0.00000000e+00 ... -5.72246066e-08
   6.23584355e-09  0.00000000e+00]]
Delta 2: [[0.3902024  0.15549666 0.21063338 0.20579909 0.19510405 0.17776241
  0.20393537 0.23538887 0.17713326 0.19779875 0.18097401 0.24155508
  0.2078959  0.18323967 0.15119674 0.19752403 0.21518354 0.20478646
  0.16054432 0.1470077  0.15860665 0.19918185 0.21152805 0.19754775
  0.18705935 0.2041601 ]
 [0.45143347 0.17723465 0.23820511 0.24479544 0.2

  res = _minimize_cg(f, x0, args, fprime, callback=callback, c1=c1, c2=c2,


#### EJ05.
Después de haber entrenado la red neuronal, utilízala para predecir las etiquetas. Implementa la función predict para
predecir las etiquetas del conjunto de entrenamiento, de manera que devuelva un vector que contenga valores entre 1 y el número
de etiquetas posibles.

Se aconseja el uso de la función argmax de la librería numpy para devolver el índice del elemento máximo.

Muestra la exactitud obtenida calculando el porcentaje de ejemplos clasificados correctamente. Si la implementación es correcta,
debería indicar una exactitud de 94,9%, aunque podría variar sobre un 1% debido a la inicialización aleatoria.

##### Solución:

In [19]:
# PREDICT Predict the label of an input given a trained neural network
def predict(theta1, theta2, X):
    # Vectorizada
    m = len(X)
    ones = np.ones((m,1))
    a1 = np.hstack((ones, X))
    a2 = sigmoid(np.dot(a1, theta1.T))
    a2 = np.hstack((ones, a2))
    h = sigmoid(np.dot(a2, theta2.T))
    pred_vec = np.argmax(h, axis=1)+1
    # Iterativa
    arr_h = []
    for i in range(X.shape[0]):
        a1, a2, aux = forward(theta1, theta2, X, i)
        arr_h.append(aux)
    pred_iter = np.argmax(arr_h, axis=1)+1
    return pred_iter, pred_vec

In [20]:
# After training the neural network, we would like to use it to predict
# the labels. You will now implement the "predict" function to use the
# neural network to predict the labels of the training set. This lets
# you compute the training set accuracy.
pred_iter, pred_vec = predict(theta1, theta2, X)

print("Accuracy con pred_vec: ", np.mean(pred_vec == y.flatten()) * 100)
print("Accuracy con pred_iter: ", np.mean(pred_iter == y.flatten()) * 100)

Accuracy con pred_vec:  97.52
Accuracy con pred_iter:  97.52


## Problemas

#### PROBLEMA 01.
mplementa la función de coste con regularización. Utilizando los parámetros Theta1 y Theta2 cargados inicialmente, y
con lambda igual a 1, debe devolver un coste de 0.383770.

##### Solución:

#### PROBLEMA 02.
Implementa una función que divida en dos partes los conjuntos de datos X e y de ex4data1.mat, una parte que sea el
conjunto de entrenamiento y otro de test, contiendo el primero el 70% de los ejemplos elegidos aleatoriamente, mientras que el
segundo contendrá el resto. Se aconseja que los subconjuntos sean estratificados, es decir, que se haga la partición 70-30 por cada
etiqueta de la clase del conjunto. Al finalizar deberías tener Xtrain, Xtest, ytrain e ytest.

A continuación, comprobar los resultados entrenando la red neuronal con los nuevos conjuntos de entrenamiento y haciendo la
predicción sobre los conjuntos de test. Al igual que en el EJ5, predecir de nuevo con los mismos conjuntos de entrenamiento y
comparar con los resultados obtenidos

##### Solución:

#### PROBLEMA 03.
Implementa una clasificación multiclase “One-vs-all” con clasificadores de regresión logística regularizada, un clasificador por
cada clase. Completa el código en oneVsAll.m para entrenar un clasificador por cada clase, de manera que devuelva una matriz
donde cada fila corresponda con los parámetros theta para una clase. Utilizar el conjunto de entrenamiento obtenido en el paso
anterior y realiza la predicción con el conjunto de test. Finalmente, compara los resultados obtenidos con los resultados del
problema anterior.

##### Solución:

#### PROBLEMA 04.
Implementa una clasificación multiclase “One-vs-rest” (también llamada “One-vs-all”) con el método de regresión logística de la
librería sklearn donde se implementa un clasificador por cada clase. Para ello debe indicar al constructor el parámetro
multi_class='ovr'. Realiza la predicción con el conjunto de test y compara los resultados obtenidos con los resultados del problema
anterior.

##### Solución: