# Clasificaci√≥n de MNIST con un Perceptr√≥n Multicapa (MLP)

## Perceptr√≥n Multicapa (MLP)

Un **Perceptr√≥n Multicapa (MLP)** es una red neuronal artificial compuesta por varias capas de neuronas. Es uno de los modelos m√°s b√°sicos y cl√°sicos de redes neuronales, utilizado para tareas de clasificaci√≥n y regresi√≥n.

###  Estructura del MLP:

1. **Capa de entrada (Input layer):**
   - Recibe los datos de entrada.
   - En el caso del dataset MNIST, cada imagen tiene tama√±o 28x28 p√≠xeles, que se convierte en un vector de 784 elementos.
   - Cada elemento representa un p√≠xel con un valor entre 0 y 1 (despu√©s de normalizar).

2. **Capas ocultas (Hidden layers):**
   - Compuestas por neuronas densamente conectadas (fully connected).
   - Usan funciones de activaci√≥n no lineales (como ReLU).
   - Permiten aprender representaciones internas complejas.

3. **Capa de salida (Output layer):**
   - Tiene 10 neuronas, una por cada clase (d√≠gitos del 0 al 9).
   - Utiliza activaci√≥n **softmax** para generar una distribuci√≥n de probabilidad.


## Dataset MNIST?

El dataset MNIST contiene:
- 60,000 im√°genes de entrenamiento y 10,000 de prueba.
- Cada imagen es de 28x28 p√≠xeles en escala de grises.
- Las etiquetas son d√≠gitos del 0 al 9.



## Entrenamiento de un MLP

El entrenamiento sigue un ciclo de pasos iterativos para ajustar los pesos de la red y minimizar el error en las predicciones.

### 1. **Propagaci√≥n hacia adelante (Forward pass)**

Se calculan las salidas de cada capa de la red usando los pesos actuales:

$$
\text{z}^{(1)} = W^{(1)}x + b^{(1)} \quad \text{‚Üí entrada a la capa oculta}
$$

$$
\text{a}^{(1)} = \text{ReLU}(\text{z}^{(1)}) \quad \text{‚Üí salida de la capa oculta}
$$

$$
\text{z}^{(2)} = W^{(2)}a^{(1)} + b^{(2)} \quad \text{‚Üí entrada a la capa de salida}
$$

$$
\hat{y} = \text{softmax}(z^{(2)}) \quad \text{‚Üí probabilidades para cada clase}
$$

### 2. **C√°lculo de la p√©rdida (Loss function)**

Se compara la predicci√≥n del modelo con la etiqueta real mediante una funci√≥n de p√©rdida. En clasificaci√≥n multiclase, se usa la **entrop√≠a cruzada (cross-entropy)**:

$$
\mathcal{L} = -\sum_{i=1}^{10} y_i \log(\hat{y}_i)
$$

Donde:
- $ y_i $ es la etiqueta real (en one-hot encoding).
- $ \hat{y}_i $ es la probabilidad predicha para la clase $i $.

### 3. **Retropropagaci√≥n y ajuste de pesos (Backpropagation + Gradient Descent)**

Despu√©s de calcular la p√©rdida, necesitamos ajustar los pesos para reducir el error. Esto se hace en varios pasos:

#### a) Error en la capa de salida

El error que tiene la red en la salida es la diferencia entre la predicci√≥n y la etiqueta real:

$$
\delta^{(2)} = \hat{y} - y
$$

Aqu√≠:
- $\delta^{(2)}$ es el vector de errores para la capa de salida.
- $\hat{y}$ es la salida predicha para cada clase.
- $y$ es la etiqueta verdadera.

#### b) Error en la capa oculta

Este error se propaga hacia atr√°s para saber cu√°nto influy√≥ cada neurona oculta en el error final:

$$
\delta^{(1)} = (W^{(2)})^T \delta^{(2)} \circ \text{ReLU}'(z^{(1)})
$$

Donde:
- $(W^{(2)})^T$ es la matriz de pesos de la capa de salida transpuesta.
- $\circ$ indica multiplicaci√≥n elemento a elemento.
- $\text{ReLU}'(z^{(1)})$ es la derivada de ReLU, que vale 1 si $z^{(1)} > 0$, y 0 si no.

#### c) C√°lculo de gradientes para pesos y sesgos

Con los errores calculados, ahora determinamos cu√°nto cambiar cada peso y sesgo para mejorar la predicci√≥n.

- Gradiente para pesos de la capa de salida:

$$
\frac{\partial \mathcal{L}}{\partial W^{(2)}} = \delta^{(2)} (a^{(1)})^T
$$

- Gradiente para sesgos de la capa de salida:

$$
\frac{\partial \mathcal{L}}{\partial b^{(2)}} = \delta^{(2)}
$$

- Gradiente para pesos de la capa oculta:

$$
\frac{\partial \mathcal{L}}{\partial W^{(1)}} = \delta^{(1)} (x)^T
$$

- Gradiente para sesgos de la capa oculta:

$$
\frac{\partial \mathcal{L}}{\partial b^{(1)}} = \delta^{(1)}
$$

#### d) Actualizaci√≥n de pesos y sesgos

Finalmente, ajustamos los pesos y sesgos usando la tasa de aprendizaje $\eta$:

$$
W^{(l)} := W^{(l)} - \eta \frac{\partial \mathcal{L}}{\partial W^{(l)}}
$$

$$
b^{(l)} := b^{(l)} - \eta \frac{\partial \mathcal{L}}{\partial b^{(l)}}
$$

con $l = 1, 2$ indicando la capa (oculta o salida).cto a ese peso.


###  Entrenamiento por lotes y √©pocas

- El conjunto de datos se divide en lotes (batches).
- Cada lote se usa para actualizar los pesos una vez.
- Una **√©poca** es un recorrido completo por todo el conjunto de entrenamiento.
- El modelo mejora iterativamente al ver m√°s datos.



###  ¬øQu√© aprende el modelo?

- Comienza con pesos aleatorios.
- A trav√©s del entrenamiento, ajusta los pesos para minimizar el error.
- Aprende a asociar patrones visuales (p√≠xeles) con etiquetas (n√∫meros).
- El objetivo es **generalizar bien** para predecir correctamente im√°genes no vistas.


Este proceso permite que un MLP aprenda a clasificar im√°genes de d√≠gitos escritos a mano con alta precisi√≥n.


In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.datasets import mnist
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np

# Cargar datos MNIST
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Normalizar p√≠xeles
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0

#  Learning rate
learning_rate_opt = 0.01
optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate_opt)

#  Modelo MLP con 124 neuronas (√≥ptimo)
model = Sequential([
    Flatten(input_shape=(28, 28)),
    Dense(128, activation='relu'),
    Dense(10, activation='softmax')
])

# Compilar con optimizador modificado
model.compile(
    optimizer=optimizer,  # <-- Optimizer con tasa de aprendizaje √≥ptima
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

# Entrenar modelo
history = model.fit(
    x_train, y_train,
    epochs=10,
    batch_size=64,
    validation_split=0.2,
    verbose=2
)

# Graficar p√©rdida
plt.plot(history.history['loss'], label='P√©rdida entrenamiento')
plt.plot(history.history['val_loss'], label='P√©rdida validaci√≥n')
plt.xlabel('√âpoca')
plt.ylabel('P√©rdida')
plt.legend()
plt.title('Convergencia de la funci√≥n de p√©rdida')
plt.show()

# Evaluar en test
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=0)
print(f"Test accuracy: {test_acc:.4f}")

# Predicciones
y_pred_probs = model.predict(x_test)
y_pred = np.argmax(y_pred_probs, axis=1)

# Reporte sklearn
print("\nReporte de clasificaci√≥n (precision, recall, f1-score):")
print(classification_report(y_test, y_pred))

# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusi√≥n:")
print(cm)


# Dise√±o de Experimentos para un Perceptr√≥n Multicapa (MLP)

## 1. Define el objetivo del experimento

- Optimizar la arquitectura (n√∫mero de capas, neuronas).
- Optimizar hiperpar√°metros de entrenamiento (learning rate, batch size, regularizaci√≥n).
- Comparar funciones de activaci√≥n o tipos de optimizadores.

## 2. Tipos de factores

- **Continuos:** learning rate, momentum, dropout rate, n√∫mero de neuronas (discreto con muchos niveles).
- **Discretos:** n√∫mero de capas, funciones de activaci√≥n, optimizadores.
- **Categ√≥ricos:** tipos de regularizaci√≥n, funciones de activaci√≥n, optimizador.

## 3. Dise√±os experimentales comunes para MLP

| M√©todo                        | Descripci√≥n                                               | Ventajas                                | Limitaciones                         |
|-------------------------------|-----------------------------------------------------------|----------------------------------------|-------------------------------------|
| **B√∫squeda en malla (Grid Search)**        | Probar combinaciones en rejilla regular.                 | F√°cil de implementar, sistem√°tico.    | Costoso, explora pobremente el espacio. |
| **B√∫squeda aleatoria (Random Search)**     | Probar puntos aleatorios en el espacio.                   | M√°s eficiente que grid, f√°cil.         | No garantiza cobertura completa.   |
| **Optimizaci√≥n bayesiana**                  | Modela la funci√≥n objetivo con un modelo probabil√≠stico. | Muy eficiente, menos ejecuciones.      | M√°s compleja, requiere librer√≠as.   |
| **Dise√±o de Superficie de Respuesta (RSM)**| Usa dise√±os factoriales y centrales para ajustar modelo. | Balance entre exploraci√≥n y modelado.  | Requiere funci√≥n respuesta suave, pocos factores. |
| **Dise√±o factorial fraccional**             | Explora combinaciones seleccionadas para reducir pruebas.| Reduce experimentos, explora interacciones principales. | Menos exhaustivo, puede perder interacciones. |
| **Algoritmos heur√≠sticos**             | Son una combinaci√≥n entre exploraci√≥n y explotaci√≥n del espacio.| Puede explorar mas parte del espacio. | En ocasiones puede ser costoso computacionalmente. |

## 4. Recomendaciones pr√°cticas

- Para pocos factores continuos: **RSM con dise√±o Central Compuesto (CCD)** para entender efectos e interacciones.
- Para muchos hiperpar√°metros o combinaciones: **b√∫squeda aleatoria o bayesiana**.
- Usar siempre conjunto de validaci√≥n para medir desempe√±o.
- Realizar r√©plicas en condiciones centrales para estimar variabilidad.

## 5. Variables recomendadas a experimentar en un MLP

- Learning rate (continuo)
- N√∫mero de neuronas por capa (discreto)
- N√∫mero de capas (discreto)
- Batch size (discreto)
- Regularizaci√≥n (L2 lambda, dropout rate)
- Funci√≥n de activaci√≥n (ReLU, tanh, sigmoid)

## 6. Ejemplo √≥ptimo para un MLP simple

- Para optimizar learning rate, neuronas y batch size: **Dise√±o RSM** es ideal.
- Para probar arquitecturas y optimizadores: combinar dise√±o factorial fraccional (variables categ√≥ricas) y RSM o b√∫squeda aleatoria (variables continuas).



## Resumen: ¬øCu√°l es la mejor forma?

- **Pocos factores num√©ricos:** Dise√±o Central Compuesto (CCD) con RSM.
- **Muchos hiperpar√°metros:** Optimizaci√≥n bayesiana o b√∫squeda aleatoria.
- **Experimentos r√°pidos:** Grid search con validaci√≥n cruzada.


# Dise√±o Central Compuesto (CCD) y M√©todo de Superficie de Respuesta (RSM)

## Introducci√≥n al M√©todo de Superficie de Respuesta (RSM)

El M√©todo de Superficie de Respuesta (Response Surface Methodology, RSM) es un conjunto de t√©cnicas estad√≠sticas para modelar y analizar problemas en los cuales una o m√°s variables de respuesta $y$ dependen de varias variables independientes o factores $x_1, x_2, ..., x_k$.

El objetivo principal del RSM es:

- Encontrar las condiciones √≥ptimas de los factores que maximicen o minimicen la respuesta.
- Modelar la relaci√≥n entre las variables de entrada y la respuesta mediante funciones matem√°ticas simples, generalmente polinomios de segundo grado (cuadr√°ticos).


##  Dise√±o Central Compuesto (CCD)

El Dise√±o Central Compuesto (Central Composite Design, CCD) es uno de los dise√±os experimentales m√°s usados para ajustar modelos de superficie de respuesta de segundo orden (cuadr√°ticos). Es ideal cuando se tienen pocos factores num√©ricos y se desea explorar no solo los efectos lineales sino tambi√©n los efectos cuadr√°ticos y las interacciones entre factores.

### Componentes del CCD:

- **Puntos factoriales:** Combinaciones de los niveles altos (+1) y bajos (-1) para cada factor, formando un dise√±o factorial completo ($2^k$ puntos para $k$ factores).
- **Puntos axiales (puntos estrella):** Extienden el rango de exploraci√≥n fuera del dise√±o factorial con niveles a distancia $\pm \alpha$ en cada factor, manteniendo los dem√°s en nivel central (0). Estos puntos permiten estimar efectos cuadr√°ticos.
- **Puntos centrales:** Uno o m√°s puntos en el centro del dise√±o (nivel 0 para todos los factores) que ayudan a estimar la variabilidad experimental y la curvatura.

### Par√°metro $\alpha$:

El valor de $\alpha$ define la distancia de los puntos axiales al centro y puede elegirse para mantener propiedades estad√≠sticas espec√≠ficas, como la rotabilidad (igual precisi√≥n en todas las direcciones).



## Codificaci√≥n de factores

Para facilitar el an√°lisis, los niveles de los factores se codifican de forma estandarizada:

$$
x_i = \frac{\text{valor real} - \text{valor central}}{\text{semi-rango}}
$$
donde:

- $x_i$ es el nivel codificado del factor $i$, t√≠picamente en el rango $[-1, +1]$ para los puntos factoriales.
- El valor central es el punto medio del rango real del factor.
- El semi-rango es la mitad del rango real.

Esta codificaci√≥n permite comparar efectos de diferentes factores en una escala com√∫n.



##  Ajuste del modelo de superficie de respuesta

Con los datos obtenidos del experimento CCD, se ajusta un modelo polinomial cuadr√°tico de la forma:

$$
y = \beta_0 + \sum_{i=1}^k \beta_i x_i + \sum_{i=1}^k \beta_{ii} x_i^2 + \sum_{i<j} \beta_{ij} x_i x_j + \varepsilon
$$

donde:

- $y$ es la variable respuesta (p. ej., precisi√≥n del modelo MLP).
- $\beta_0$ es la ordenada al origen.
- $\beta_i$, $\beta_{ii}$, y $\beta_{ij}$ son los coeficientes que representan los efectos lineales, cuadr√°ticos e interacci√≥n, respectivamente.
- $\varepsilon$ es el t√©rmino de error experimental.

Este modelo permite:

- Identificar los efectos significativos de cada factor y sus interacciones.
- Visualizar la superficie de respuesta.
- Encontrar los valores √≥ptimos de los factores que maximizan o minimizan $y$.


##  Aplicaci√≥n pr√°ctica en MLP

En el contexto de un Perceptr√≥n Multicapa (MLP):

- Los factores pueden ser hiperpar√°metros como tasa de aprendizaje, n√∫mero de neuronas, n√∫mero de capas, etc.
- La respuesta puede ser la precisi√≥n, error de validaci√≥n o cualquier m√©trica de desempe√±o.
- Utilizando CCD y RSM, podemos dise√±ar un conjunto reducido pero eficiente de experimentos para explorar c√≥mo los hiperpar√°metros afectan el desempe√±o del MLP y encontrar configuraciones √≥ptimas sin realizar b√∫squedas exhaustivas.




# Optimizaci√≥n de un Perceptr√≥n Multicapa (MLP) con Superficie de Respuesta (RSM) y Dise√±o Central Compuesto (CCD)

##  Objetivo

Optimizar el rendimiento de un Perceptr√≥n Multicapa (MLP) ajustando dos hiperpar√°metros clave:

- **Tasa de aprendizaje** (`learning_rate`)
- **N√∫mero de neuronas ocultas** (`units`)

Usamos el **M√©todo de Superficie de Respuesta (RSM)** con un **Dise√±o Central Compuesto (CCD)** para construir un modelo cuadr√°tico que relacione estos hiperpar√°metros con el desempe√±o del MLP (precisi√≥n de validaci√≥n).


##  Paso 1: Selecci√≥n de factores y niveles

Seleccionamos dos factores, cada uno con 5 niveles: codificados como $- \alpha, -1, 0, +1, +\alpha$, donde $\alpha = \sqrt{2} \approx 1.414$ (valor com√∫n para dos factores).

###  Factores y niveles reales

| Factor              | $-\alpha$  | $-1$      | $0$       | $+1$      | $+\alpha$  |
|---------------------|------------|-----------|-----------|-----------|------------|
| Learning rate       | 0.00001    | 0.0001    | 0.001     | 0.01      | 0.1        |
| Neuronas ocultas    | 32         | 64        | 128       | 256       | 512        |

###  Puntos del dise√±o CCD

El dise√±o CCD incluye:

- **4 puntos factoriales**: combinaciones de niveles $-1$ y $+1$
- **4 puntos axiales**: niveles extremos $- \alpha$ y $+ \alpha$ con los dem√°s factores en 0
- **5 r√©plicas del punto central**: todos los factores en nivel 0

Esto da un total de **13 experimentos**.

| Punto | $x_1$ (codificado) | $x_2$ (codificado) | learning\_rate | units |
|-------|--------------------|--------------------|----------------|--------|
| F1    | -1                 | -1                 | 0.0001         | 64     |
| F2    | +1                 | -1                 | 0.01           | 64     |
| F3    | -1                 | +1                 | 0.0001         | 256    |
| F4    | +1                 | +1                 | 0.01           | 256    |
| A1    | -1.414             | 0                  | 0.00004        | 128    |
| A2    | +1.414             | 0                  | 0.0252         | 128    |
| A3    | 0                  | -1.414             | 0.001          | 45     |
| A4    | 0                  | +1.414             | 0.001          | 362    |
| C1    | 0                  | 0                  | 0.001          | 128    |
| C2    | 0                  | 0                  | 0.001          | 128    |
| C3    | 0                  | 0                  | 0.001          | 128    |
| C4    | 0                  | 0                  | 0.001          | 128    |
| C5    | 0                  | 0                  | 0.001          | 128    |

##  Paso 2: Modelo cuadr√°tico de respuesta

Usamos un modelo cuadr√°tico de segundo orden:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{11} x_1^2 + \beta_{22} x_2^2 + \beta_{12} x_1 x_2 + \varepsilon
$$

Donde:

- $y$ es la precisi√≥n de validaci√≥n del MLP
- $x_1$: nivel codificado del `learning_rate`
- $x_2$: nivel codificado del n√∫mero de `units`
- $\beta$ son los coeficientes a estimar
- $\varepsilon$ es el error aleatorio

Este modelo permite capturar efectos lineales, cuadr√°ticos y de interacci√≥n entre los hiperpar√°metros.


## Paso 3: Ejecuci√≥n del experimento

1. **Construir la matriz de dise√±o CCD** con los niveles codificados ($x_1$, $x_2$).
2. **Convertir los niveles codificados** a valores reales de hiperpar√°metros.
3. **Entrenar el MLP** con cada combinaci√≥n y registrar la precisi√≥n de validaci√≥n.
4. **Ajustar el modelo cuadr√°tico** usando regresi√≥n lineal (con `statsmodels` o `sklearn.linear_model.LinearRegression`).
5. **Analizar los resultados**:
   - Significancia de los t√©rminos (lineales, cuadr√°ticos, interacci√≥n)
   - Superficie de respuesta (mapa 3D o contornos)
   - Hiperpar√°metros √≥ptimos


## Ventajas del enfoque

- Eficiencia: Menos combinaciones que una b√∫squeda en malla (grid search).
- Modelo explicativo y predictivo del desempe√±o del MLP.
- Posibilidad de visualizar e interpretar la superficie de respuesta.
- Permite evaluar **efectos individuales y combinados** de los hiperpar√°metros.


In [1]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.datasets import mnist
from tensorflow.keras.optimizers import Adam
import numpy as np
import pandas as pd

# Cargar y normalizar los datos MNIST
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
x_train = x_train.astype('float32') / 255.0
x_test  = x_test.astype('float32') / 255.0

# Dividir entrenamiento en entrenamiento + validaci√≥n
from sklearn.model_selection import train_test_split
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2, random_state=42)

# -----------------------------
# Funci√≥n de entrenamiento
# -----------------------------
def train_model(learning_rate, units):
    model = Sequential([
        Flatten(input_shape=(28, 28)),
        Dense(units, activation='relu'),
        Dense(10, activation='softmax')
    ])

    optimizer = Adam(learning_rate=learning_rate)
    model.compile(
        optimizer=optimizer,
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )

    history = model.fit(
        x_train, y_train,
        epochs=10,
        batch_size=64,
        validation_data=(x_val, y_val),
        verbose=0
    )

    # Devolver √∫ltima precisi√≥n de validaci√≥n
    return history.history['val_accuracy'][-1]

# -----------------------------
# Tabla del dise√±o CCD
# -----------------------------
design = pd.DataFrame([
    [-1, -1], [1, -1], [-1, 1], [1, 1],     # factorial
    [-1.414, 0], [1.414, 0], [0, -1.414], [0, 1.414],  # axial
    [0, 0], [0, 0], [0, 0], [0, 0], [0, 0]  # centro (5 rep)
], columns=["x1", "x2"])

# Conversi√≥n a hiperpar√°metros reales
def coded_to_real(x1, x2):
    # learning_rate en escala log10
    learning_rate = 0.001 * (10 ** x1)
    units = int(round(128 * (2 ** x2)))
    return learning_rate, units

# -----------------------------
# Entrenamiento en cada punto
# -----------------------------
results = []

for i, row in design.iterrows():
    x1, x2 = row["x1"], row["x2"]
    lr, u = coded_to_real(x1, x2)

    print(f"Ejecutando experimento {i+1}: lr={lr:.5f}, units={u}")
    acc = train_model(lr, u)

    results.append({
        "x1": x1,
        "x2": x2,
        "learning_rate": lr,
        "units": u,
        "val_accuracy": acc
    })

# Convertir a DataFrame
results_df = pd.DataFrame(results)
print(results_df)


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[37m[0m [1m1s[0m 0us/step
Ejecutando experimento 1: lr=0.00010, units=64


  super().__init__(**kwargs)


Ejecutando experimento 2: lr=0.01000, units=64
Ejecutando experimento 3: lr=0.00010, units=256
Ejecutando experimento 4: lr=0.01000, units=256
Ejecutando experimento 5: lr=0.00004, units=128
Ejecutando experimento 6: lr=0.02594, units=128
Ejecutando experimento 7: lr=0.00100, units=48
Ejecutando experimento 8: lr=0.00100, units=341
Ejecutando experimento 9: lr=0.00100, units=128
Ejecutando experimento 10: lr=0.00100, units=128
Ejecutando experimento 11: lr=0.00100, units=128
Ejecutando experimento 12: lr=0.00100, units=128
Ejecutando experimento 13: lr=0.00100, units=128
       x1     x2  learning_rate  units  val_accuracy
0  -1.000 -1.000       0.000100     64      0.940417
1   1.000 -1.000       0.010000     64      0.966667
2  -1.000  1.000       0.000100    256      0.960917
3   1.000  1.000       0.010000    256      0.967417
4  -1.414  0.000       0.000039    128      0.929833
5   1.414  0.000       0.025942    128      0.943750
6   0.000 -1.414       0.001000     48      0.96675

## Paso 4: Ajuste del modelo cuadr√°tico de segundo orden
Una vez entrenado el perceptr√≥n para cada combinaci√≥n de hiperpar√°metros del dise√±o CCD y registrada la precisi√≥n de validaci√≥n, queremos ajustar un **modelo de segundo orden** que relacione los factores con la respuesta.

El modelo que queremos ajustar es:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{11} x_1^2 + \beta_{22} x_2^2 + \beta_{12} x_1 x_2 + \varepsilon
$$

donde:

- $y$ es la **precisi√≥n de validaci√≥n**.
- $x_1$ es el **nivel codificado del learning rate**.
- $x_2$ es el **nivel codificado del n√∫mero de unidades**.
- Los $\beta$ son los coeficientes que se estimar√°n.
- $\varepsilon$ es el error aleatorio (ruido experimental).

- **$\beta_0$**: intercepto (respuesta en el punto central).
- **$\beta_1$ y $\beta_2$**: efectos lineales de los factores.
- **$\beta_{11}$ y $\beta_{22}$**: efectos cuadr√°ticos (curvatura) de cada factor.
- **$\beta_{12}$**: interacci√≥n entre factores (c√≥mo cambia el efecto de un factor cuando el otro tambi√©n cambia).


###  Procedimiento :

1. **Codificaci√≥n de niveles**:
   - Convertimos cada combinaci√≥n real de hiperpar√°metros (learning rate, unidades) a sus niveles codificados: $x_1, x_2$.
   - Esto se hace con la f√≥rmula:

   $$
   x_i = \frac{z_i - z_{i,0}}{\Delta z_i}
   $$

   donde $z_i$ es el valor real del factor, $z_{i,0}$ es el valor central, y $\Delta z_i$ es el paso entre niveles (diferencia entre centro y alto o centro y bajo).

2. **Creaci√≥n de variables del modelo**:
   - A partir de los niveles codificados, construimos las variables del modelo: $x_1$, $x_2$, $x_1^2$, $x_2^2$, y $x_1x_2$.

3. **Ajuste con regresi√≥n**:
   - Usamos el paquete `statsmodels` para ajustar un modelo de regresi√≥n lineal m√∫ltiple con estos t√©rminos como predictores y la precisi√≥n como variable respuesta.

4. **Evaluaci√≥n del modelo**:
   - Obtenemos los coeficientes estimados $\hat{\beta}$.
   - Evaluamos la significancia estad√≠stica (p-valores) y el coeficiente de determinaci√≥n ($R^2$) para ver qu√© tan bien ajusta el modelo.

5. **Uso del modelo**:
   - El modelo se puede usar para:
     - Predecir la precisi√≥n esperada dados nuevos valores de hiperpar√°metros (dentro del rango).
     - Visualizar la **superficie de respuesta**.
     - Encontrar la combinaci√≥n √≥ptima que maximiza la precisi√≥n.



In [1]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from itertools import product
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.datasets import mnist

# 1. Definir niveles reales y codificados
center = {'lr': 0.001, 'units': 128}
step = {'lr': 0.0009, 'units': 64}  # (alto - centro)
alpha = 1.414  # valor axial

# Niveles codificados para CCD
ccd_points = [
    [-1, -1], [-1,  1], [1, -1], [1,  1],  # factorial
    [-alpha, 0], [alpha, 0], [0, -alpha], [0, alpha],  # axiales
    [0, 0], [0, 0], [0, 0]  # 3 repeticiones del centro
]

# Convertimos a hiperpar√°metros reales
def decode_level(lr_lvl, unit_lvl):
    lr_real = center['lr'] + lr_lvl * step['lr']
    units_real = int(center['units'] + unit_lvl * step['units'])
    return lr_real, units_real

real_hyperparams = [decode_level(lr, u) for lr, u in ccd_points]

# 2. Cargar y normalizar MNIST
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.astype('float32') / 255.0
x_val = x_train[-12000:]
y_val = y_train[-12000:]
x_train = x_train[:-12000]
y_train = y_train[:-12000]

# 3. Entrenar modelo para cada combinaci√≥n
accuracies = []
for i, (lr, units) in enumerate(real_hyperparams):
    print(f"üîÅ Iteraci√≥n {i+1}: learning_rate={lr}, units={units}")
    model = Sequential([
        Flatten(input_shape=(28, 28)),
        Dense(units, activation='relu'),
        Dense(10, activation='softmax')
    ])
    model.compile(
        optimizer=tf.keras.optimizers.Adam(learning_rate=lr),
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )
    model.fit(x_train, y_train, epochs=5, batch_size=64, verbose=0)
    loss, acc = model.evaluate(x_val, y_val, verbose=0)
    accuracies.append(acc)

# 4. Construir variables del modelo cuadr√°tico
design_df = pd.DataFrame(ccd_points, columns=['x1', 'x2'])  # niveles codificados
design_df['x1^2'] = design_df['x1'] ** 2
design_df['x2^2'] = design_df['x2'] ** 2
design_df['x1*x2'] = design_df['x1'] * design_df['x2']
design_df['accuracy'] = accuracies

# 5. Ajustar modelo con statsmodels
X = design_df[['x1', 'x2', 'x1^2', 'x2^2', 'x1*x2']]
X = sm.add_constant(X)
y = design_df['accuracy']
model = sm.OLS(y, X).fit()
print(model.summary())

ModuleNotFoundError: No module named 'tensorflow'

### Evaluaci√≥n global del modelo

| M√©trica               | Valor      | Interpretaci√≥n |
|------------------------|------------|----------------|
| **R-squared**          | 0.628      | El modelo explica el **62.8% de la variabilidad** observada en la precisi√≥n. Es aceptable pero no excelente. |
| **Adj. R-squared**     | 0.255      | Al ajustar por el n√∫mero de predictores, la varianza explicada baja a **25.5%**, indicando que algunos t√©rminos podr√≠an **no contribuir significativamente**. |
| **F-statistic**        | 1.685      | La prueba F eval√∫a si el modelo completo es mejor que uno sin predictores. |
| **Prob(F-statistic)**  | 0.291      | No significativo (p > 0.05). **No hay evidencia estad√≠stica de que el modelo en conjunto sea √∫til**. |
| **N¬∞ Observaciones**   | 11         | El tama√±o muestral es peque√±o, lo que puede reducir la precisi√≥n de los coeficientes estimados. |


### Interpretaci√≥n de coeficientes

El modelo ajustado fue:

$$
\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{11} x_1^2 + \beta_{22} x_2^2 + \beta_{12} x_1 x_2
$$

| T√©rmino     | Coef. | p-valor | Interpretaci√≥n |
|-------------|-------|---------|----------------|
| **const**   | 0.971 | 0.001   | Precisi√≥n esperada en el punto central del dise√±o. Muy significativa. |
| **$x_1$** (lineal) | 0.161 | 0.097   | Efecto lineal positivo del learning rate. Aunque no es significativo (p > 0.05), es el m√°s cercano a serlo. |
| **$x_2$** (lineal) | 0.0058 | 0.944  | El n√∫mero de neuronas ocultas **no tiene efecto lineal significativo**. |
| **$x_1^2$** (cuadr√°tico) | -0.165 | 0.138  | Indica curvatura descendente: puede existir un m√°ximo de precisi√≥n para un valor intermedio de $x_1$, pero no es concluyente. |
| **$x_2^2$** (cuadr√°tico) | 0.0475 | 0.634  | No hay evidencia de curvatura respecto al n√∫mero de neuronas ocultas. |
| **$x_1 \cdot x_2$** (interacci√≥n) | -0.0034 | 0.977 | La interacci√≥n entre factores es pr√°cticamente nula. |


### Conclusiones

- **El √∫nico efecto con cierto impacto es el t√©rmino lineal de $x_1$ (learning rate)**, pero no alcanza significancia estad√≠stica.
- **El n√∫mero de neuronas ocultas no parece influir significativamente** en la precisi√≥n del MLP, al menos dentro del rango analizado.
- **No se detecta interacci√≥n significativa** entre ambos factores.
- El modelo puede **beneficiarse de simplificaci√≥n** (eliminando t√©rminos no significativos), o de **mayor cantidad de datos** (m√°s r√©plicas o puntos del dise√±o) para mejorar la confiabilidad.




## Derivaci√≥n del Punto √ìptimo de la Superficie de Respuesta

Queremos encontrar el punto donde la precisi√≥n del MLP es m√°xima, usando el modelo cuadr√°tico ajustado mediante el M√©todo de Superficie de Respuesta (RSM). El modelo ajustado es:

$$
y(x_1, x_2) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{11} x_1^2 + \beta_{22} x_2^2 + \beta_{12} x_1 x_2
$$

### Modelo con coeficientes ajustados

Sustituimos los coeficientes obtenidos del ajuste del modelo (OLS):

$$
y(x_1, x_2) = 0.9714 + 0.1607 x_1 + 0.0058 x_2 - 0.1655 x_1^2 + 0.0475 x_2^2 - 0.0034 x_1 x_2
$$



### Derivadas parciales

Para encontrar el punto √≥ptimo, derivamos parcialmente respecto a $x_1$ y $x_2$, e igualamos a cero:

$$
\frac{\partial y}{\partial x_1} = \beta_1 + 2\beta_{11} x_1 + \beta_{12} x_2 = 0
$$

$$
\frac{\partial y}{\partial x_2} = \beta_2 + 2\beta_{22} x_2 + \beta_{12} x_1 = 0
$$

Sustituimos los valores num√©ricos:

**Ecuaci√≥n 1:**

$$
0.1607 - 2(0.1655) x_1 - 0.0034 x_2 = 0
$$

**Ecuaci√≥n 2:**

$$
0.0058 + 2(0.0475) x_2 - 0.0034 x_1 = 0
$$



### Sistema de ecuaciones lineales

Simplificamos:

1. $-0.331 x_1 - 0.0034 x_2 = -0.1607$  
2. $-0.0034 x_1 + 0.095 x_2 = -0.0058$



### Soluci√≥n del sistema

Resolviendo el sistema se obtiene:

- $x_1^* = 0.486$  
- $x_2^* = -0.044$

Este es el **punto √≥ptimo en coordenadas codificadas**.


###  Conversi√≥n a valores reales

Usamos la f√≥rmula de transformaci√≥n de coordenadas codificadas a reales:

$$
x_{\text{real}} = x_{\text{center}} + x^* \cdot \frac{x_{\text{high}} - x_{\text{low}}}{2}
$$

- Para **learning rate** ($x_1$):  
  $0.001 + 0.486 \cdot \frac{0.01 - 0.0001}{2} \approx 0.0034$

- Para **units** ($x_2$):  
  $128 + (-0.044) \cdot \frac{256 - 64}{2} \approx 124$


In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.datasets import mnist
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np

# Cargar datos MNIST
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Normalizar p√≠xeles
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0

#  Learning rate √≥ptimo
learning_rate_opt = 0.0034
optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate_opt)

#  Modelo MLP con 124 neuronas (√≥ptimo)
model = Sequential([
    Flatten(input_shape=(28, 28)),
    Dense(124, activation='relu'),  # <-- Cambiado de 128 a 124
    Dense(10, activation='softmax')
])

# Compilar con optimizador modificado
model.compile(
    optimizer=optimizer,  # <-- Optimizer con tasa de aprendizaje √≥ptima
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

# Entrenar modelo
history = model.fit(
    x_train, y_train,
    epochs=10,
    batch_size=64,
    validation_split=0.2,
    verbose=2
)

# Graficar p√©rdida
plt.plot(history.history['loss'], label='P√©rdida entrenamiento')
plt.plot(history.history['val_loss'], label='P√©rdida validaci√≥n')
plt.xlabel('√âpoca')
plt.ylabel('P√©rdida')
plt.legend()
plt.title('Convergencia de la funci√≥n de p√©rdida')
plt.show()

# Evaluar en test
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=0)
print(f"Test accuracy: {test_acc:.4f}")

# Predicciones
y_pred_probs = model.predict(x_test)
y_pred = np.argmax(y_pred_probs, axis=1)

# Reporte sklearn
print("\nReporte de clasificaci√≥n (precision, recall, f1-score):")
print(classification_report(y_test, y_pred))

# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusi√≥n:")
print(cm)


  super().__init__(**kwargs)


Epoch 1/10
750/750 - 6s - 7ms/step - accuracy: 0.9268 - loss: 0.2430 - val_accuracy: 0.9560 - val_loss: 0.1526
Epoch 2/10
