In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from keras.datasets import mnist
from keras import layers,models
from keras.utils import to_categorical

In [2]:
(train_data,train_labels),(test_data,test_labels) = mnist.load_data()
x_train = train_data.reshape((60000,28*28))
x_train = x_train.astype('float32')/255
x_test = test_data.reshape((10000,28*28))
x_test = x_test.astype('float32')/255
y_train = to_categorical(train_labels)
y_test = to_categorical(test_labels)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


# Clase models.Sequential

representa un modelo secuencial, el cual se compone de una pila lineal de capas. Se usa cuando las capas se organizan de manera secuencial, es decir, una después de otra, sin conexiones más complejas como en modelos con múltiples entradas o salidas.

In [3]:
model = models.Sequential()


# 📌 Dense(units, activation, input_shape)

La capa `Dense` es una capa completamente conectada (*fully connected*), donde cada neurona de la capa está conectada con todas las neuronas de la capa anterior.

## PARAMETROS DE DENSE

## 1️⃣ `units` → Número de neuronas  

### 📌 Descripción  
Este parámetro define cuántas neuronas tendrá la capa. Más neuronas pueden capturar patrones más complejos, pero también pueden hacer que el modelo sea más costoso computacionalmente y propenso al sobreajuste.

## 🔥 `activation` → Función de activación  

### 📌 Descripción  
Determina cómo se procesará la salida de cada neurona. Las activaciones añaden no linealidad para que la red aprenda relaciones complejas.

### 📌 Ejemplo  
```python
Dense(64, activation="relu")```

### 📌 Funciones de activación más usadas  

| **Activación** | **Descripción** | **Uso común** |
|--------------|---------------|-------------|
| `relu`      | `max(0, x)`, elimina valores negativos | Capas ocultas en redes profundas |
| `sigmoid`   | Convierte valores en rango (0,1) | Clasificación binaria |
| `softmax`   | Convierte valores en probabilidades sumando 1 | Clasificación multiclase |
| `tanh`      | Rango (-1,1), más centrado que `sigmoid` | Modelos recurrentes (RNN, LSTM) |

## 🏗️ `input_shape` → Forma de la entrada  

### 📌 Descripción  
Este parámetro solo se usa en la primera capa para definir el tamaño de los datos de entrada.

### 📌 Ejemplo  
Si tenemos 10 características en nuestros datos:


In [None]:
model = models.Sequential()
model.add(layers.Dense(512,activation='relu',input_shape=(28*28,)))
model.add(layers.Dense(10,activation='softmax'))

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


## ⚙️ `model.compile()` → Configuración del modelo  

La función `model.compile()` se usa para configurar el modelo antes del entrenamiento, definiendo el optimizador, la función de pérdida y las métricas de evaluación.

### 📌 Parámetros  

- **`optimizer="adam"`** → Algoritmo de optimización que ajusta los pesos del modelo para minimizar el error.  
  - `adam` (*Adaptive Moment Estimation*) es uno de los optimizadores más utilizados porque combina las ventajas de `SGD` con momentums y adaptabilidad en la tasa de aprendizaje.

- **`loss="mse"`** → Función de pérdida que mide el error del modelo durante el entrenamiento.  
  - `mse` (*Mean Squared Error*) es comúnmente usada en problemas de regresión, calculando la media de los errores al cuadrado entre predicciones y valores reales.

- **`metrics=["mae"]`** → Lista de métricas para evaluar el rendimiento del modelo.  
  - `mae` (*Mean Absolute Error*) mide el error absoluto promedio entre predicciones y valores reales, útil en problemas de regresión.

### 📌 Ejemplo de uso  


In [None]:
model.compile(optimizer='rmsprop',loss='categorical_crossentropy',metrics=['accuracy'])

# 🚀 Optimizadores en Deep Learning  

Los optimizadores ajustan los pesos del modelo para minimizar la función de pérdida y mejorar el rendimiento. A continuación, se presentan algunos de los más utilizados:

## 📌 Optimizadores más usados  

## 📌 Comparación de Optimizadores

| Optimizador | Ventajas | Desventajas | Uso común |
|------------|----------|------------|-----------|
| **SGD** | Simple y eficiente | Puede quedar atrapado en mínimos locales | Modelos pequeños |
| **Adam** | Convergencia rápida | Puede ser inestable | Generalmente recomendado |
| **RMSprop** | Buen manejo de gradientes | No siempre converge | Series temporales, RNNs |
| **Adagrad** | Aprende bien en datos dispersos | Tasa de aprendizaje decrece mucho | NLP, datos escasos |
| **Adadelta** | No requiere tasa de aprendizaje inicial | Costoso computacionalmente | Datos ruidosos |
| **Adamax** | Funciona con grandes datasets | Menos usado que Adam | Redes profundas con ruido |
| **Nadam** | Convergencia rápida | Más costoso computacionalmente | Visión por computadora, NLP |

## 📌 Funciones de Pérdida y Métricas en Optimizadores

## 🔹 Otras opciones para `loss`
| Función de Pérdida | Descripción | Uso común |
|--------------------|------------|-----------|
| **MSE** (Mean Squared Error) | Promedio de errores al cuadrado | Regresión |
| **MAE** (Mean Absolute Error) | Promedio de errores absolutos | Regresión |
| **Huber** | Similar a `mse`, pero menos sensible a outliers | Regresión robusta |
| **Binary Crossentropy** | Evalúa la diferencia entre probabilidades binarias | Clasificación binaria |
| **Categorical Crossentropy** | Para clases exclusivas (one-hot encoding) | Clasificación multiclase |
| **Sparse Categorical Crossentropy** | Para etiquetas enteras en vez de one-hot | Clasificación multiclase |

---

## 🔹 Otras opciones para `metrics`
| Métrica | Descripción | Uso común |
|---------|------------|-----------|
| **MAE** | Error absoluto medio | Regresión |
| **MSE** | Error cuadrático medio | Regresión |
| **MSLE** (Mean Squared Logarithmic Error) | Similar a `mse`, pero con valores logarítmicos | Regresión con valores grandes |
| **AUC** (Área bajo la curva ROC) | Evalúa la capacidad de clasificación | Clasificación binaria |
| **Accuracy** | Precisión de clasificación | Clasificación binaria o multiclase |


# ENTRENAMIENTO DEL MODELO

In [None]:
model.fit(x_train,y_train,epochs=5,batch_size=128)

Epoch 1/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 9ms/step - accuracy: 0.8717 - loss: 0.4473
Epoch 2/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 9ms/step - accuracy: 0.9670 - loss: 0.1124
Epoch 3/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 11ms/step - accuracy: 0.9808 - loss: 0.0696
Epoch 4/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 10ms/step - accuracy: 0.9856 - loss: 0.0512
Epoch 5/5
[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 9ms/step - accuracy: 0.9891 - loss: 0.0380


<keras.src.callbacks.history.History at 0x7a82c6af5350>

* epochs=5 → El modelo entrenará sobre los mismos datos 5 veces.
* batch_size=128 → Cada actualización de pesos se hará después de procesar 128 muestras.