# Práctica 8. Reconocimiento con redes neuronales

En esta práctica trabajaremos con redes neuronales y la base de datos MNIST (Modified National Institute of Standards and Technology database). Esta base de datos está compuesta de 60.000 ejemplos de entrenamiento de dígitos escritos a mano, y 10.000 ejemplos para test. Las imágenes utilizadas están redimensionadas, en escala de grises y centradas en cuadrados de 28x28 pixeles. En la siguiente imagen podemos ver un ejemplo de un digito almacenado en la base de datos.
![MNIST](./ejemploMNIST.PNG)

Una red neuronal está compuesta de neuronas artificiales que están basadas en las biológicas.
![Neurona Biológica](./redneuronalbiologica.PNG)

La neuronal artificial se modela de la siguiente forma:
![Neurona artificial 1](./neuronalartificial1.png)
![Neurona artificial 2](./neuronalartificial2.PNG)
Como puede verse, en esta red neuronal hay una serie de parámetros que hay que determinar, principalmente:
* Los pesos (los w).
* Y la función de transferencia.

Con una neurona, podemos hacer una separación lineal del espacio tal y como se ven la siguiente figura:
![Clasificación](./clasificaciónneurona.png)

Para una tarea de aprendizaje normalmente no se trabaja con una sola neurona, sino que se utiliza una red neuronal similar a la que se puede ver en la siguiente figura:
![Clasificación](./Colored_neural_network.png)

La organización más común de una red neuronal es con múltiples capas, en donde las neuronas de una capa están conectadas únicamente con las neuronas de la capa anterior y con las neuronas de la capa siguiente. La primera capa de neuronas son las neuronas que reciben los datos de entrada y esta capa se denomina la capa de entrada. Las neuronas que están en la última capa son la capa de salida, y es donde nos encontramos el resultado de la red neuronal. Entre estas dos capas nos podemos encontrar cero o más capas ocultas de neuronas.

El aprendizaje en una red neuronal consiste en ir ajustando los pesos de la red para ir mejorando la precisión de la red neuronal. Este entrenamiento se realiza observando los errores cometido por la red neuronal con el conjunto de entrenamiento. El algoritmo más habitual para el ajuste de estos pesos es el Backpropagation.

En este entrenamiento es importante que determinemos los siguientes parámetros:
* Ratio de aprendizaje: la ratio de aprendizaje determina el tamaño de los cambios que se realizarán en los pesos para suavizar los errores de la red neuronal. Un tamaño alto, disminuirá el tiempo de entrenamiento necesario, pero reducirá la precisión final. Un tamaño bajo, aumentará el tiempo de entrenamiento y mejorará la precisión final alcanzada.
* epochs: número de veces con el que se entrena con todo el conjunto de entrenamiento. Por ejemplo, epoch = 10 indicaría que se utilizaría 10 veces el conjunto de entrenamiento para entrenar los pesos de la red neuronal

Para estudiar la bondad de la clasificación realiza por la red neuronal nos vamos a fijar en tres parámetros:
* Precisión con el conjunto de entrenamiento.
* Precisión con el conjunto de test.
* Matriz de confusión: esta matriz nos indica los errores cometidos. Las filas serían la clase real del ejemplo, mientras que en las columnas tendríamos la clase asignada en la clasificación (ver siguiente figura).
![Clasificación](./matrizconfusion.png)

## Cuestionario

1. Vamos a realizar un estudio de cuales son los parámetros óptimos para la clasificación de los dígitos de la base de datos MNIST. Como hemos comentado anteriormente por un lado tenemos la configuración de la red neuronal, y por otro lado, tenemos los parámetros relacionados con el proceso de aprendizaje. Nuestro objetivo será jugar con dichos valores hasta encontrar una configuración óptima. 

Para realizar las distintas experimentaciones modificaremos tanto los parámetros que definen la estructura de la red neuronal (número de neuronas en la capa oculta), como los parámetros del aprendizaje (epochs (5, 10, 30) y ratio de aprendizaje (0.01, 0.02, 0.05) construyendo una tabla similar a la siguiente por cada estructura de red neuronal distinta (empezaremos con 4 neuronas en la capa oculta, hasta 28, yendo de 4 en 4). A continuación, vemos las tablas que tienen que obtenerse cuando el número de neuronas en la capa oculta son 4:

**Número de neuronas en la capa oculta = 4:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |   |   |   |
| **10** |   |   |   |
| **30** |   |   |   |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |   |   |   |
| **10** |   |   |   |
| **30** |   |   |   |

Una vez encontrada esa configuración optima, es decir aquella configuración con el mejor valor de acierto sobre el conjunto de test, obtendremos su matriz de confusión (ver tabla siguiente) y analizaremos los resultados.

|  | 0 | 1  | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|---|
| **0** |   |   |   |   |   |   |   |   |   |   |
| **1** |   |   |   |   |   |   |   |   |   |   |
| **2** |   |   |   |   |   |   |   |   |   |   |
| **3** |   |   |   |   |   |   |   |   |   |   |
| **4** |   |   |   |   |   |   |   |   |   |   |
| **5** |   |   |   |   |   |   |   |   |   |   |
| **6** |   |   |   |   |   |   |   |   |   |   |
| **7** |   |   |   |   |   |   |   |   |   |   |
| **8** |   |   |   |   |   |   |   |   |   |   |
| **9** |   |   |   |   |   |   |   |   |   |   |

En ese análisis, **entre otras cuestiones** debería responder a las siguientes preguntas: ¿Qué porcentaje de acierto me da un valor más fiable, el de entrenamiento o el test? ¿Existe algún dígito que presenta una dificultad mayor a la hora de reconocerlo?

Para probar las distintas configuraciones modificaré las siguientes líneas de código:
```python
epochs = 10

ANN = NeuralNetwork(network_structure=[image_pixels, 20, 10],
                               learning_rate=0.01,
                               bias=None)
```

En estas líneas se establecen por un lado los epochs (=10), la estructura de la red neuronal (20 neuronas en la capa oculta), y la ratio de aprendizaje (learning_rate=0.01).


In [None]:
import pickle
import numpy as np


from scipy.special import expit as activation_function
from scipy.stats import truncnorm

def truncated_normal(mean=0, sd=1, low=0, upp=10):
    return truncnorm((low - mean) / sd,
                     (upp - mean) / sd, 
                     loc=mean, 
                     scale=sd)


class NeuralNetwork:
        
    
    def __init__(self, 
                 network_structure, # ie. [input_nodes, hidden1_nodes, ... , hidden_n_nodes, output_nodes]
                 learning_rate,
                 bias=None
                ):  

        self.structure = network_structure
        self.learning_rate = learning_rate 
        self.bias = bias
        self.create_weight_matrices()

    
    
    def create_weight_matrices(self):
        X = truncated_normal(mean=2, sd=1, low=-0.5, upp=0.5)
        
        bias_node = 1 if self.bias else 0
        self.weights_matrices = []    
        layer_index = 1
        no_of_layers = len(self.structure)
        while layer_index < no_of_layers:
            nodes_in = self.structure[layer_index-1]
            nodes_out = self.structure[layer_index]
            n = (nodes_in + bias_node) * nodes_out
            rad = 1 / np.sqrt(nodes_in)
            X = truncated_normal(mean=2, sd=1, low=-rad, upp=rad)
            wm = X.rvs(n).reshape((nodes_out, nodes_in + bias_node))
            self.weights_matrices.append(wm)
            layer_index += 1

        
        
    def train_single(self, input_vector, target_vector):
        # input_vector and target_vector can be tuple, list or ndarray
                                       
        no_of_layers = len(self.structure)        
        input_vector = np.array(input_vector, ndmin=2).T

        layer_index = 0
        # The output/input vectors of the various layers:
        res_vectors = [input_vector]          
        while layer_index < no_of_layers - 1:
            in_vector = res_vectors[-1]
            if self.bias:
                # adding bias node to the end of the 'input'_vector
                in_vector = np.concatenate( (in_vector, 
                                             [[self.bias]]) )
                res_vectors[-1] = in_vector
            x = np.dot(self.weights_matrices[layer_index], in_vector)
            out_vector = activation_function(x)
            res_vectors.append(out_vector)   
            layer_index += 1
        
        layer_index = no_of_layers - 1
        target_vector = np.array(target_vector, ndmin=2).T
         # The input vectors to the various layers
        output_errors = target_vector - out_vector  
        while layer_index > 0:
            out_vector = res_vectors[layer_index]
            in_vector = res_vectors[layer_index-1]

            if self.bias and not layer_index==(no_of_layers-1):
                out_vector = out_vector[:-1,:].copy()

            tmp = output_errors * out_vector * (1.0 - out_vector)     
            tmp = np.dot(tmp, in_vector.T)
            
            #if self.bias:
            #    tmp = tmp[:-1,:] 
                
            self.weights_matrices[layer_index-1] += self.learning_rate * tmp
            
            output_errors = np.dot(self.weights_matrices[layer_index-1].T, 
                                   output_errors)
            if self.bias:
                output_errors = output_errors[:-1,:]
            layer_index -= 1
            

       

    def train(self, data_array, 
              labels_one_hot_array,
              epochs=1,
              intermediate_results=False):
        intermediate_weights = []
        for epoch in range(epochs):  
            for i in range(len(data_array)):
                self.train_single(data_array[i], labels_one_hot_array[i])
            if intermediate_results:
                intermediate_weights.append((self.wih.copy(), 
                                             self.who.copy()))
        return intermediate_weights      
        

               
    
    def run(self, input_vector):
        # input_vector can be tuple, list or ndarray

        no_of_layers = len(self.structure)
        if self.bias:
            # adding bias node to the end of the inpuy_vector
            input_vector = np.concatenate( (input_vector, [self.bias]) )
        in_vector = np.array(input_vector, ndmin=2).T

        layer_index = 1
        # The input vectors to the various layers
        while layer_index < no_of_layers:
            x = np.dot(self.weights_matrices[layer_index-1], 
                       in_vector)
            out_vector = activation_function(x)
            
            # input vector for next layer
            in_vector = out_vector
            if self.bias:
                in_vector = np.concatenate( (in_vector, 
                                             [[self.bias]]) )            
            
            layer_index += 1
  
    
        return out_vector
    
    def confusion_matrix(self, data_array, labels):
        cm = np.zeros((10, 10), int)
        for i in range(len(data_array)):
            res = self.run(data_array[i])
            res_max = res.argmax()
            target = labels[i][0]
            cm[res_max, int(target)] += 1
        return cm
    
    def evaluate(self, data, labels):
        corrects, wrongs = 0, 0
        for i in range(len(data)):
            res = self.run(data[i])
            res_max = res.argmax()
            if res_max == labels[i]:
                corrects += 1
            else:
                wrongs += 1
        return corrects, wrongs


with open("data/pickled_mnist.pkl", "br") as fh:
    data = pickle.load(fh)

train_imgs = data[0]
test_imgs = data[1]
train_labels = data[2]
test_labels = data[3]

lr = np.arange(10)

train_labels_one_hot = (lr==train_labels).astype(float)
test_labels_one_hot = (lr==test_labels).astype(float)


image_size = 28 # width and length
no_of_different_labels = 10 #  i.e. 0, 1, 2, 3, ..., 9
image_pixels = image_size * image_size

# Inicializamos los valores a ejecutar (modificacion para varias ejecuciones)

capas_ocultas = [4,8,12,16,20,24,28] 
epochs_list = [5,10,30] 
learning_rate = [0.01,0.02,0.05] 
   
for i in range(len(capas_ocultas)):
    for j in range(len(epochs_list)):
            for k in range(len(learning_rate)):
                
                ANN = NeuralNetwork(network_structure=[image_pixels, capas_ocultas[i], 10],
                               learning_rate=learning_rate[k],
                               bias=None)
                print(f"-----------EJECUCION------ capas {capas_ocultas[i]} ,epochs {epochs_list[j]} y learning_rate {learning_rate[k]} ")
                ANN.train(train_imgs, train_labels_one_hot, epochs=epochs_list[j])


                corrects, wrongs = ANN.evaluate(train_imgs, train_labels)
                print("Porcentaje de acierto en entrenamiento: ", corrects / ( corrects + wrongs))
                corrects, wrongs = ANN.evaluate(test_imgs, test_labels)
                print("Porcentaje de acierto en test:", corrects / ( corrects + wrongs))

                cm = ANN.confusion_matrix(train_imgs, train_labels)
                print(cm)

## Análisis de resultados

**Número de neuronas en la capa oculta = 4:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |  0.4339 | 0.5490166666666667  | 0.4804  |
| **10** |  0.39315 | 0.32493333333333335  |  0.4836666666666667 |
| **30** | 0.21428333333333333  |  0.4861333333333333 | 0.3903333333333333  |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** | 0.4311  | 0.548  |  0.4792 |
| **10** | 0.3883  |  0.3221 | 0.4759  |
| **30** | 0.2138  | 0.4827  | 0.3853  |

**Número de neuronas en la capa oculta = 8:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |  0.845 | 0.8776833333333334  | 0.8672166666666666  |
| **10** | 0.8922333333333333  | 0.8718  | 0.8772833333333333  |
| **30** | 0.8757666666666667  | 0.8814  |  0.88335 |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** | 0.8432  | 0.8731  |  0.8687 |
| **10** | 0.887  | 0.8645  | 0.8807  |
| **30** |  0.8712 | 0.8766  |  0.8667 |

**Número de neuronas en la capa oculta = 12:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** | 0.8998166666666667  | 0.8744333333333333  |  0.8880166666666667 |
| **10** | 0.8998333333333334  | 0.8943  | 0.91695  |
| **30** | 0.9133833333333333  | 0.9178  | 0.9229666666666667  |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |  0.898 | 0.8763  | 0.8817  |
| **10** | 0.8952  |  0.8959 |  0.9096 |
| **30** |  0.9049 | 0.9066  |  0.905 |

**Número de neuronas en la capa oculta = 16:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** | 0.9061  | 0.9172  | 0.91475  |
| **10** | 0.90945  | 0.9164666666666667  |  0.92855 |
| **30** |  0.9305166666666667 |  0.9359666666666666 |  0.9323333333333333 |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** | 0.9032  | 0.9123  | 0.9125  |
| **10** |  0.9048 | 0.909  |  0.9212 |
| **30** | 0.9211  |  0.9185 |  0.9172 |

**Número de neuronas en la capa oculta = 20:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** | 0.9208333333333333  |  0.9276833333333333 | 0.9182833333333333  |
| **10** |  0.9304666666666667 |  0.9374 | 0.9391833333333334  |
| **30** |  0.9469333333333333 | 0.9423833333333334  | 0.9463833333333334  |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** | 0.9193  | 0.9243  |  0.917 |
| **10** | 0.9231  |  0.9307 |  0.9326 |
| **30** |  0.9332 |  0.9313 | 0.9305  |

**Número de neuronas en la capa oculta = 24:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |  0.92765 | 0.9322666666666667  |  0.9385666666666667 |
| **10** |  0.9363 | 0.9463  |  0.9394166666666667 |
| **30** |  0.9521333333333334 | 0.9502166666666667  | 0.9504166666666667  |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |  0.927 | 0.9289  | 0.9286  |
| **10** |  0.9292 |  0.9377 |  0.9329 |
| **30** | 0.9381  | 0.9358  | 0.936  |

**Número de neuronas en la capa oculta = 28:**

Porcentaje de acierto en entrenamiento:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |  0.9307833333333333 | 0.9464833333333333  |  0.94725 |
| **10** | 0.9426333333333333  | 0.94245  | 0.9510166666666666  |
| **30** | 0.9491  |  0.9640833333333333 |  0.95805 |

Porcentaje de acierto en test:

|   | 0.01 | 0.02 | 0.05 |
|---|---|---|---|
| **5** |  0.9286 | 0.9439  | 0.9397  |
| **10** | 0.9356  | 0.9371  |  0.9435 |
| **30** |  0.9372 | 0.9485  |  0.9404 |




## Configuración óptima

La mejor configuración es **28 neuronas en la capa oculta, 30 epochs y 0.02 de ratio de aprendizaje**

|  | 0 | 1  | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|---|
| **0** | 5845  |  1  | 39 |  31  | 18 |  26  | 55 |  12 |  36 |  24|
| **1** | 0 |6636 |  18  | 12 |  11  |  9  |  9 |  19  | 57  |  9 |
| **2** |   9  | 24| 5704  | 69  | 16|   17 |   7  | 35  | 29  |  3 |
| **3** | 3  | 13  | 13 |5758 |   1 |  68  |  0  | 10 |  44 |  58 |
| **4** |   6  |  5 |  51   | 5 |5594 |  13  | 14 |  39  | 11 |  69 |
| **5** | 12 |  17 |  21 | 111 |   6 | 5201 |  47 |   7  | 64 |  18 |
| **6** | 18 |   3  | 22 |   9 |  32 |  42 |5770  |  2 |  16  |  6 |
| **7** | 0  | 13 |  25  | 50  | 14 |  3 |   1 | 6083  |  7  | 40 |
| **8** | 25  | 19 |  54   |58  |  7 |  21  | 12  | 11 |5557  | 25 |
| **9** |   5  | 11 |  11 |  28  |143  | 21  |  3  | 47  | 30| 5697 |

MEDIA DE ACIERTOS: **5784.5**

MEDIA DE FALLOS: **23.944444444444443**

**¿Por qué es la configuración óptima?**

Esta configuracíon es la óptima para este conjunto de datos ya que a más neuronas mejores resultados y a más entrenamientos (epochs) en general mejor.

Con el ratio pasa algo curioso ya que aunque debería de mejorar cuando se reduce, algo que si que ocurre en general cuando pasamos de 0.05 a 0.02, cuando lo reducimos a 0.01 obtiene peores resultados que con 0.02 o incluso 0.05.



**¿Qué porcentaje de acierto me da un valor más fiable, el de entrenamiento o el test?**

El de test ya que el de entrenamiento esta sesgado, debido a que al usar esos datos al entrenar los reconocera de forma más sencilla.

**¿Existe algún dígito que presenta una dificultad mayor a la hora de reconocerlo?**

El 5 es el menos reconocido (5201 veces) aunque no parece destacable, siendo mas destacable el 1 siendo el más reconocido (6636) y estando más alejado respecto a la media.
Tiene el segundo valor más erroneo (111) con el 5 reconociendo el 3.

El valor más erroneo es (143) con el 9 reconociendo el 4.

Si nos fijamos a inversa el 4 con el 9 (69) o el 3 con el 5 (68) nos fijamos en que también destacan frente a la media.

In [9]:
# Programa para hacer la media de fallos / aciertos

m = [[5845   , 1  , 39  , 31 ,  18 , 26  , 55  , 12   ,36   ,24],
 [   0 ,6636 ,  18  , 12  , 11  ,  9 ,   9 ,  19 ,  57 ,  9],
 [   9  , 24 ,5704  , 69  , 16 ,  17  ,  7 ,  35  , 29  ,  3],
 [   3   ,13  , 13, 5758  ,  1  , 68 ,   0  , 10 ,  44 ,  58],
 [   6    ,5 ,  51  ,  5 ,5594  , 13 ,  14  , 39  , 11 ,  69],
 [  12   ,17 ,  21,  111  ,  6, 5201 ,  47 ,   7  , 64 ,  18],
 [  18   , 3  , 22  ,  9 ,  32 ,  42, 5770  ,  2  , 16   , 6],
 [   0  , 13 ,  25,   50  , 14 ,   3  ,  1, 6083 ,   7 ,  40],
 [  25  , 19  , 54  , 58  ,  7  , 21 ,  12 ,  11 ,5557  , 25],
 [   5  , 11 ,  11  , 28  ,143  , 21   , 3 ,  47 ,  30, 5697] ]

l = len(m[0])
mediaAciertos = 0
mediaFallos = 0

for i in range(l):
    for j in range(l):
        if (i == j):
            mediaAciertos += m[i][j]
        else:
            mediaFallos += m[i][j]
            
print(f"MEDIA DE ACIERTOS: {mediaAciertos/l}") 
print (f"MEDIA DE FALLOS: {mediaFallos/(l*(l-1))}") 

MEDIA DE ACIERTOS: 5784.5
MEDIA DE FALLOS: 23.944444444444443
