# **Salomon Uran Parra C.C. 1015068767**

## **Laboratorio Ultimo - Aprendizaje Estadistico**

Objetivo: Implementar un red neuronal LeNet5 empleando keras e implementar una red neuronal  VGG.  

### **1. Importar las librerias:**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from tensorflow import keras
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Flatten, BatchNormalization
from tensorflow.keras.layers import Conv2D, MaxPooling2D
from tensorflow.keras.losses import sparse_categorical_crossentropy
from tensorflow.keras.optimizers import Adam

### **2. Cargar los datos de entrenamiento y test**
```python
(X_train,y_train),(X_test,y_test)=keras.datasets.mnist.load_data()
```

In [None]:
(X_train,y_train),(X_test,y_test)=keras.datasets.mnist.load_data()

### **3. Normalizar los datos.**

In [None]:
#se normalizan los datos a un rango entre 0 y 1
X_train = X_train / 255.0
X_test = X_test / 255.0

### **4. Realizar una visualización de 20 imagenes aproximadamente, puede emplear el comando imshow con cmap= binary**

```python
  ax.imshow(X_train[i],cmap='binary')
```

El siguiente codigo permite visualizar una muestra de 20 imagenes del dataset de entrenamiento.

In [None]:
fig, ax = plt.subplots(4,5, figsize=(10,8))
fig.tight_layout()
for i, axi in enumerate(ax.flatten()):
  if i < len(X_train):
    axi.imshow(X_train[i], cmap='binary')
    axi.axis('off')
plt.show()

### **5. Implementar en keras, la red Letnet5, la arquitectura de la red es la siguiente:**

![img](https://github.com/hernansalinas/Curso_aprendizaje_estadistico/blob/main/Sesiones/convolution_img/LeNet5.png?raw=true)


In [None]:
#primero veamos las dimensiones de una muestra del dataset}
X_train[0].shape



En la siguiente celda se define una red neuronal convolucional con arquitectura LeNet-5, de la siguiente forma. El input inicial seran muestras 28x28x1 (una imagen). Primero se les aplicam 6 filtros 5x5 (ver imagen) con funcion ReLu, luego un avgpool con pool_size de 2x2 y con un stride (o paso) de 2. Al output de este avgpool, se le aplica nuevamente filtros (esta vez seran 16 5x5 con ReLu) y el mismo avgpool, para luego usar un flatten y entrar el resultado a un fully-connected NN. Esta NN tendra 2 capas ocultas de 120 y 84 neuronas con funcion ReLu y una salida de 10 neuronas con SoftMax.

In [None]:
keras.backend.clear_session()

model = keras.models.Sequential([
    keras.layers.Conv2D(filters=6, kernel_size=(5, 5), activation='relu', input_shape=(28, 28, 1)),
    keras.layers.AveragePooling2D(pool_size=(2, 2), strides=2),
    keras.layers.Conv2D(filters=16, kernel_size=(5, 5), activation='relu'),
    keras.layers.AveragePooling2D(pool_size=(2, 2), strides=2),
    keras.layers.Flatten(),
    keras.layers.Dense(units=120, activation='relu'),
    keras.layers.Dense(units=84, activation='relu'),
    keras.layers.Dense(units=10, activation='softmax')
])

### **6. Revisa el modelo que acabaste de construir.**
```python
model.summary()
```

In [None]:
model.summary()

### **7. Vamos a utlizar un optimizador de Adams,  El optimizador de Adam (Adaptive Moment Estimation) combina las ventajas de los algoritmos RMSProp y Momentum para mejorar el proceso de aprendizaje de un modelo. Al igual que Momentum, Adam utiliza una estimación del momento y de la magnitud de los gradientes  para actualizar los parámetros del modelo en cada iteración. Sin embargo, en lugar de utilizar una tasa de aprendizaje constante para todos los parámetros, Adam adapta la tasa de aprendizaje de cada parámetro individualmente en función de su estimación del momento y de la magnitud del gradiente. Esto permite que el modelo se ajuste de manera más eficiente y efectiva a los datos de entrenamiento, lo que puede llevar a una mayor precisión de la predicción en comparación con otros métodos de optimización.**

In [None]:
#vamos a usar el optimizador adam junto con una funcion de perdida sparse_categorical_crossentropy, que sirve para clasificar multiples clases dentro de las imagenes
model.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics=['accuracy'])

### **8. Realiza el fit del modelo, emplea GPU, para ello cambia la configuración de collaboratory para que tu modelo se ejecute un poco mas rápido.**

In [None]:
history = model.fit(X_train,y_train,epochs=10,validation_split=0.3)

### **9. Realiza la predicción:**
```python
q=model.predict(X_test)
```

In [None]:
q = model.predict(X_test)

### **10. Muestra los valores de q y determina que numero se esta prediciendo.**

In [None]:
plt.imshow(X_test[0], cmap='binary')
print("Probabilidades predichas para la primera imagen:")
print(q[0])
predicted_number = np.argmax(q[0])
print(f"El numero predicho corresponde al indice de la mayor probabilidad: {predicted_number}")

### **11. Puede graficar la convergencia del modelo con los siguiente código**
```python
import matplotlib.pyplot as plt
# Graficar la curva de loss
plt.plot (history.history ['loss'], label='loss')
plt.plot (history.history ['val_loss'], label='val_loss')
plt.title ('Curva de loss')
plt.xlabel ('Época')
plt.ylabel ('Loss')
plt.legend ()
plt.show ()
# Graficar la curva de accuracy
plt.plot (history.history ['accuracy'], label='accuracy')
plt.plot (history.history ['val_accuracy'], label='val_accuracy')
plt.title ('Curva de accuracy')
plt.xlabel ('Época')
plt.ylabel ('Accuracy')
plt.legend ()
plt.show ()
```

In [None]:
plt.plot (history.history ['loss'], label='loss')
plt.plot (history.history ['val_loss'], label='val_loss')
plt.title ('Curva de loss')
plt.xlabel ('Época')
plt.ylabel ('Loss')
plt.legend ()
plt.show ()


plt.plot (history.history ['accuracy'], label='accuracy')
plt.plot (history.history ['val_accuracy'], label='val_accuracy')
plt.title ('Curva de accuracy')
plt.xlabel ('Época')
plt.ylabel ('Accuracy')
plt.legend ()
plt.show ()

Podemos ver que el modelo se desempeña muy bien tanto en el set de entrenamiento como de test, lo que significa que ademas de aprender bien los datos de entrenamiento, fue capaz de generalizarlo bien a datos por fuera de estos.

### **12. Una forma alterna de implementar el modelo puede ser dada de la siguiente forma:**



```python
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Flatten
from tensorflow.keras.layers import Conv2D, MaxPooling2D
from tensorflow.keras.losses import sparse_categorical_crossentropy
from tensorflow.keras.optimizers import Adam

X_train = X_train.reshape(60000,28,28,1)
X_test = X_test.reshape(10000,28,28,1)
input_shape = (28,28,1)
model = Sequential()
model.add(Conv2D(6, kernel_size=(5, 5), activation='relu', input_shape=input_shape))
model.add(MaxPooling2D(pool_size=(2, 2), strides=2))
#model.add(Dropout(0.25))
model.add(Conv2D(16, kernel_size=(5, 5), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2), strides=2))
#model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(256, activation='relu'))
model.add(Dense(84, activation='relu'))
model.add(Dense(10, activation='softmax'))

```

### **13. Emplea la arquitectura anterior para el dataset cifar100,  empleando BatchNormalization y dropout.**

Empleando la arquitectura mostrada en el punto 12, junto con bathnormalization y dropouts (pequeños), se va a entrar la red usando el dataset cifar100, el cual contiene imagenes de las siguientes superclases:

aquatic mammals
fish
flowers
food containers
fruit and vegetables  
household electrical devices  
household furniture
insects         
large carnivores         
large man-made outdoor things   
large natural outdoor scenes     
large omnivores and herbivores      
medium-sized mammals         
non-insect invertebrates        
people         
reptiles       
small mammals         
trees           
vehicles 1          
vehicles 2

Dentro de estas 20 superclases hay un total de 100 clases distintas de objetos (animales, personas, etc) y la idea es que la red logre clasificar correctamente los elementos sin presentar overfitting. Para ello se usala el batchnormalization y el dropout con el siguiente codigo analogo a los anteriormente usados para el dataset de los digitos.

In [None]:
(train_image, train_label) , (test_image, test_label) = keras.datasets.cifar100.load_data()

train_image = train_image / 255.0
test_image = test_image / 255.0

plt.imshow(train_image[0])
plt.axis('off')
plt.show()

input_shape = (32, 32, 3) #las imagenes de cifar100 son 32x32 en RGB

model = Sequential()
model.add(Conv2D(6, kernel_size=(5, 5), activation='relu', input_shape=input_shape))
model.add(BatchNormalization()) #normaliza los outputs de las funciones de activacion
model.add(MaxPooling2D(pool_size=(2, 2), strides=2))
model.add(Dropout(0.05)) #reduce overfitting
model.add(Conv2D(16, kernel_size=(5, 5), activation='relu'))
model.add(BatchNormalization())
model.add(MaxPooling2D(pool_size=(2, 2), strides=2))
model.add(Dropout(0.05))

model.add(Flatten())

model.add(Dense(256, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.05))

model.add(Dense(84, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.05))

model.add(Dense(100, activation='softmax')) #salida de las 100 clases de cifar100

### **14. Emplea el siguiente compilador:**

El optimizador de NAdam (Nesterov-accelerated Adaptive Moment Estimation) es una variante de Adam que incorpora el método de Nesterov, que consiste en utilizar una predicción de la posición futura de los parámetros para calcular el gradiente, en lugar de la posición actual. Esto hace que el algoritmo sea más sensible a los cambios de dirección del gradiente y evite oscilaciones innecesarias. NAdam también modifica la forma de calcular el momento y la magnitud del gradiente, usando una media móvil exponencial sesgada hacia cero en lugar de una media móvil exponencial simple.


```python
model.compile(optimizer='nadam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
```

El número de épocas que se necesita para entrenar una red neuronal depende de varios factores, como el tamaño de los datos, la complejidad del modelo, la función de pérdida, el algoritmo de optimización, la tasa de aprendizaje, etc. No hay una regla fija para elegir el número de épocas, pero se puede usar el criterio de parada temprana, que consiste en monitorear el error de validación y detener el entrenamiento cuando este empiece a aumentar, lo que indica un sobreajuste del modelo.



### **15. Emplea early_stooping y realiza el fit**



```python
early_stopping = keras.callbacks.EarlyStopping(patience=5, restore_best_weights=True)
```

El parámetro patience=5 indica el número de épocas sin mejora después de las cuales se detendrá el entrenamiento. El parámetro restore_best_weights=True indica que se restaurarán los pesos del modelo desde la época con el mejor valor de la métrica monitoreada. Esto puede ayudar a evitar el sobreajuste y mejorar el rendimiento del modelo



```python
history = model.fit(train_image, train_label, epochs=30, validation_split=0.2 , batch_size=64, callbacks=[early_stopping])
```

Empleando el compilador del punto 14 y el early_stopping, se entrenara la arquitectura del punto 13 en el dataset cifar100. Nuevamente se usa una funcion sparse_categorical_crossentropy como perdida, se entrenara un total de 30 epocas o hasta que el early_stopping detenga el entrenamiento.

In [None]:
model.compile(optimizer='nadam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
early_stopping = keras.callbacks.EarlyStopping(patience=10, restore_best_weights=True)
history = model.fit(train_image, train_label, epochs=30, validation_split=0.2 , batch_size=64, callbacks=[early_stopping])

Podemos ver que a la red le cuesta no solo aprender los datos de entrenamiento (pues son demasiadas clases en una red no tan compleja) sino que le cuesta mucho mas generalizar lo aprendido. Los porcentajes de precision tanto en el entrenamiento como test deberian poder mejorarse explorando nuevas topologias de la red junto con el cambio de los porcentajes en el dropout y la ubicacion de los batchnormalization dentro de la red.