## Redes neuronales

Una familia de algoritmos conocida como **redes neuronales** ha experimentado recientemente un renacimiento bajo el nombre de **aprendizaje profundo**. Si bien el aprendizaje profundo ha demostrado un gran potencial en muchas aplicaciones de *machine learning*, sus algoritmos suelen diseñarse con mucho cuidado para casos de uso específicos.

En este contexto, utilizaremos **perceptrones multicapa** para tareas de clasificación y regresión, los cuales pueden servir como punto de partida para métodos de aprendizaje profundo más especializados. Los perceptrones multicapa (*Multilayer Perceptrons*, MLP) también se conocen como **redes neuronales de retroalimentación** o, en algunos casos, simplemente como **redes neuronales**.


### El modelo de redes neuronales

Los **perceptrones multicapa** (*MLP*) pueden verse como una generalización de los modelos lineales, en los que se realizan múltiples etapas de procesamiento antes de tomar una decisión.

Recordemos que la predicción en un regresor lineal se expresa como:

$$
\hat{y} = w[0] \cdot x[0] + w[1] \cdot x[1] + \dots + w[p] \cdot x[p] + b
$$

En otras palabras, $\hat{y}$ es una suma ponderada de las características de entrada, `x[0]` a `x[p]`, multiplicadas por los coeficientes aprendidos, `w[0]` a `w[p]`, más un sesgo `b`.


In [None]:
!pip install graphviz


In [None]:
%run dibuja_grafo_regresion_logistica.py

In [None]:
%matplotlib inline
display(dibuja_grafo_regresion_logistica())

En la imagen, cada nodo de la izquierda representa una **característica de entrada** (`x[0]` a `x[3]`). Las **líneas de conexión** simbolizan los **pesos aprendidos** (`w[0]` a `w[3]`), que ponderan la contribución de cada característica. Finalmente, el nodo de la derecha representa la **salida** (`y`), que se obtiene como una **suma ponderada** de las entradas más un posible término de sesgo (*bias*).

En un perceptrón multicapa (*MLP*), este proceso se extiende mediante **capas ocultas**, donde las unidades ocultas reciben entradas ponderadas, aplican funciones de activación y transmiten sus resultados a la siguiente capa. Este encadenamiento de operaciones permite que la red aprenda representaciones más complejas antes de producir la salida final.



In [None]:
%run dibuja_grafo_unica_capa_oculta.py

In [None]:
dibuja_grafo_unica_capa_oculta()

Este modelo tiene **más coeficientes** (también llamados **pesos**) que un modelo lineal simple: hay un peso para cada conexión entre las **entradas** (`x[0]` a `x[3]`) y cada **neurona de la capa oculta** (`h[0]` a `h[2]`), así como otro conjunto de pesos entre la **capa oculta** y la **salida** (`y`).

Matemáticamente, calcular múltiples **sumas ponderadas** en cada capa sigue siendo un cálculo lineal. Para que este modelo sea realmente **más expresivo** que un modelo lineal, se necesita un elemento adicional: **una función de activación no lineal**. Una vez que se calcula la suma ponderada en cada neurona oculta, se aplica una **función de activación**, que introduce **no linealidad** en la red.

Las funciones de activación más comunes son:
- **Rectified Linear Unit (ReLU)**: Define $\text{ReLU}(z) = \max(0, z)$. **Anula valores negativos** estableciéndolos en cero, lo que mejora la capacidad de la red para aprender relaciones complejas sin saturarse.
- **Tangente hiperbólica (tanh)**: Define $\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}$. **Satura** los valores de entrada, llevándolos a -1 para valores bajos y +1 para valores altos.

El resultado de la **función de activación** en la capa oculta se utiliza posteriormente en la siguiente **suma ponderada**, que finalmente calcula la salida $\hat{y}$.


In [None]:
import matplotlib.pyplot as plt
import numpy as np

linea = np.linspace(-3, 3, 100)
plt.plot(linea, np.tanh(linea), label="tanh")
plt.plot(linea, np.maximum(linea, 0), label="relu")
plt.legend(loc="best")
plt.xlabel("x")
plt.ylabel("relu(x), tanh(x)")


Para la pequeña red neuronal representada, la fórmula completa para calcular $\hat{y}$ en el caso de **regresión** es:

$$
h[0] = \tanh(w[0,0] \cdot x[0] + w[1,0] \cdot x[1] + w[2,0] \cdot x[2] + w[3,0] \cdot x[3] + b_0)
$$

$$
h[1] = \tanh(w[0,1] \cdot x[0] + w[1,1] \cdot x[1] + w[2,1] \cdot x[2] + w[3,1] \cdot x[3] + b_1)
$$

$$
h[2] = \tanh(w[0,2] \cdot x[0] + w[1,2] \cdot x[1] + w[2,2] \cdot x[2] + w[3,2] \cdot x[3] + b_2)
$$

Por lo que:

$$
\hat{y} = v[0] \cdot h[0] + v[1] \cdot h[1] + v[2] \cdot h[2] + b_y
$$

Aquí:
- **`w[i,j]`** representa los pesos entre la entrada `x[i]` y la neurona oculta `h[j]`.
- **`b_j`** es el término de sesgo asociado a la neurona oculta `h[j]`.
- **`v[j]`** representa los pesos entre la capa oculta `h[j]` y la salida $\hat{y}$.
- **`b_y`** es el término de sesgo en la capa de salida.
- **`x[i]`** son las características de entrada.
- **$\hat{y}$** es la salida calculada.
- **`h[j]`** representa los valores intermedios de la capa oculta después de aplicar la activación `tanh`.

Un parámetro importante que debe establecer el usuario es la **cantidad de nodos en la capa oculta**. Este valor puede ser tan pequeño como `10` para conjuntos de datos simples o pequeños, y llegar hasta `10,000` para datos más complejos. Además, es posible agregar **capas ocultas adicionales**, aumentando así la capacidad del modelo para capturar relaciones más complejas en los datos.


In [None]:
%run dibuja_grafo_dos_capa_oculta.py

In [None]:
dibuja_grafo_dos_capa_oculta()

La imagen representa una **red neuronal profunda** con dos capas ocultas. A continuación, se describen sus componentes:

1. **Capa de entrada (verde)**:
   - Contiene **4 neuronas de entrada** (`x[0]`, `x[1]`, `x[2]`, `x[3]`), que representan las características del conjunto de datos de entrada.
   - Cada una de estas neuronas está conectada a todas las neuronas de la primera capa oculta.

2. **Primera capa oculta (naranja, "capa oculta 1")**:
   - Contiene **3 neuronas ocultas** (`h1[0]`, `h1[1]`, `h1[2]`).
   - Cada neurona recibe una **suma ponderada** de todas las entradas y aplica una **función de activación** (como ReLU o tanh).
   - Sus valores activados se transmiten como entrada a la segunda capa oculta.

3. **Segunda capa oculta (amarilla, "capa oculta 2")**:
   - También tiene **3 neuronas ocultas** (`h2[0]`, `h2[1]`, `h2[2]`).
   - Cada neurona recibe información de todas las neuronas de la **primera capa oculta**.
   - También aplica una función de activación y transmite los valores resultantes a la capa de salida.

4. **Capa de salida (azul, "salida")**:
   - Contiene **una única neurona de salida** (`y`).
   - Recibe una suma ponderada de las activaciones de la **segunda capa oculta**.
   - En un caso de regresión, `y` puede representar un valor numérico. En clasificación, podría representar probabilidades para diferentes clases después de aplicar una función como `softmax` o `sigmoide`.

#### **Expresión matemática del cálculo en la red**
Cada neurona en la **primera capa oculta** se calcula como:

$$
h1[j] = \text{Activación} \left( \sum_{i=0}^{3} w1[i,j] \cdot x[i] + b1[j] \right), \quad j = 0,1,2
$$

Cada neurona en la **segunda capa oculta** se calcula como:

$$
h2[k] = \text{Activación} \left( \sum_{j=0}^{2} w2[j,k] \cdot h1[j] + b2[k] \right), \quad k = 0,1,2
$$

Finalmente, la **salida** se obtiene con:

$$
\hat{y} = \sum_{k=0}^{2} v[k] \cdot h2[k] + b_y
$$

Tener grandes redes neuronales formadas por muchas de estas capas de computación es lo que inspiró el término `aprendizaje profundo`.

### Ajustando redes neuronales

Utilicemos las funciones definidas anteriormente, para entender la aplicación de redes neuronales con scikit-learn.

In [None]:
%run dibuja_dispersion_discreta.py

In [None]:
%run dibuja_separador_2d.py

Veamos el funcionamiento del MLP aplicando el `MLPClassifier` al conjunto de datos `two_ moon`.

In [None]:
import matplotlib.pyplot as plt
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=100, noise=0.25, random_state=3)
X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(X, y, stratify=y,random_state=42)

mlp = MLPClassifier(solver='lbfgs', random_state=0).fit(X_entrenamiento, y_entrenamiento)
dibuja_separador_2d(mlp, X_entrenamiento, relleno=True, alfa=.3)

dibuja_dispersion_discreta(X_entrenamiento[:, 0], X_entrenamiento[:, 1], y_entrenamiento)
plt.xlabel("Caracteristica 0")
plt.ylabel("Caracteristica 1")

Este gráfico representa la **frontera de decisión** aprendida por una **red neuronal multicapa (MLPClassifier de Scikit-Learn)** para clasificar dos clases en un problema de clasificación no lineal.

1. **Ejes**:
   - El eje **X** ("Característica 0") y el eje **Y** ("Característica 1") representan las dos características de entrada del dataset.
   
2. **Regiones coloreadas**:
   - La región **azul** representa el área donde la red neuronal predice una clase (círculos azules).
   - La región **roja** representa el área donde la red neuronal predice la otra clase (triángulos naranjas).
   - La **frontera entre las regiones** representa la separación aprendida por la red neuronal.

3. **Puntos de datos**:
   - **Círculos azules**: Representan instancias de la clase 0.
   - **Triángulos naranjas**: Representan instancias de la clase 1.


Se ilustra cómo una **red neuronal multicapa (MLP)** **aprende una frontera de decisión no lineal**:

1. **Modelo utilizado**:
   - Se utilizó un **Perceptrón Multicapa (MLP)** con al menos **una capa oculta** para capturar la relación no lineal entre las características.
   - El algoritmo de optimización usado (`lbfgs`) ajusta los pesos de la red para minimizar el error de clasificación.

2. **Frontera de decisión aprendida**:
   - La línea que separa las regiones **no es lineal**, lo que indica que la red ha aprendido una **transformación no lineal** de los datos.
   - Esto es posible gracias a las **funciones de activación** aplicadas en las **capas ocultas**.

3. **Comparación con modelos lineales**:
   - Un **modelo lineal (como regresión logística o un perceptrón simple)** generaría una frontera recta, lo que podría no ser suficiente para separar correctamente los datos.
   - La MLP puede **aprender representaciones más complejas** de los datos, permitiendo que la frontera de decisión se adapte a la estructura del dataset.

De forma predeterminada, MLP usa 100 nodos ocultos, lo cual es bastante para este pequeño conjunto de datos. Podemos reducir el número (lo que reduce la complejidad del modelo) y obtener un buen resultado.

In [None]:
mlp = MLPClassifier(solver='lbfgs', random_state=0, hidden_layer_sizes=[10]).fit(X_entrenamiento, y_entrenamiento)
dibuja_separador_2d(mlp, X_entrenamiento, relleno=True, alfa=.3)

dibuja_dispersion_discreta(X_entrenamiento[:, 0], X_entrenamiento[:, 1], y_entrenamiento)
plt.xlabel("Caracteristica 0")
plt.ylabel("Caracteristica 1")

Con solo 10 unidades ocultas, la frontera de decisión parece un poco más irregular. La no linealidad predeterminada es relu. Con una sola capa oculta, esto significa que la función de decisión estará formada por 10 segmentos de línea recta. Si queremos una frontera  de decisión más uniforme, podríamos agregar más unidades ocultas, agregando una segunda capa oculta.

In [None]:
# Usando dos capas ocultas, con 10 unidades cada una

mlp = MLPClassifier(solver='lbfgs', random_state=0, hidden_layer_sizes=[10, 10]).fit(X_entrenamiento, y_entrenamiento)
dibuja_separador_2d(mlp, X_entrenamiento, relleno=True, alfa=.3)

dibuja_dispersion_discreta(X_entrenamiento[:, 0], X_entrenamiento[:, 1], y_entrenamiento)
plt.xlabel("Caracteristica 0")
plt.ylabel("Caracteristica 1")

Hagamos lo mismo utilizando la nonlinealidad de `tanh`.

In [None]:
# Usando dos capas ocultas, con 10 unidades cada una

mlp = MLPClassifier(solver='adam', activation='tanh', random_state=0, hidden_layer_sizes=[10, 10],  max_iter=1000)
mlp.fit(X_entrenamiento, y_entrenamiento)

dibuja_separador_2d(mlp, X_entrenamiento, relleno=True, alfa=.3)
dibuja_dispersion_discreta(X_entrenamiento[:, 0], X_entrenamiento[:, 1], y_entrenamiento)
plt.xlabel("Caracteristica 0")
plt.ylabel("Caracteristica 1")

Finalmente, también podemos controlar la complejidad de una red neuronal utilizando una penalización `l2` para reducir los pesos hacia cero, como se hizo  en la regresión ridge y los clasificadores lineales. El parámetro para esto en MLPClassifier es `alpha` (como en los modelos de regresión lineal) y se establece en un valor muy bajo (poca regularización) de forma predeterminada. 

El siguiente gráfico muestra el efecto de diferentes valores de `alpha` en el conjunto de datos `two_moons`, usando dos capas ocultas de `10` o `100` unidades cada una.


In [None]:
fig, axes = plt.subplots(2, 4, figsize=(20, 8))
for axx, n_nodos_ocultos in zip(axes, [10, 100]):
    for ax, alfa in zip(axx, [0.0001, 0.01, 0.1, 1]):
        mlp = MLPClassifier(solver='adam', random_state=0,
                            hidden_layer_sizes=[n_nodos_ocultos, n_nodos_ocultos],alpha=alfa, max_iter=1000)
        mlp.fit(X_entrenamiento, y_entrenamiento)
        dibuja_separador_2d(mlp, X_entrenamiento, relleno=True, alfa=.3, ax=ax)
        dibuja_dispersion_discreta(X_entrenamiento[:, 0], X_entrenamiento[:, 1], y_entrenamiento, ax=ax)
        ax.set_title("n_ocultas=[{}, {}]\nalfa={:.4f}".format( n_nodos_ocultos, n_nodos_ocultos, alfa))


Una propiedad importante de las redes neuronales es que sus **pesos iniciales se establecen aleatoriamente** antes de comenzar el proceso de aprendizaje. Esta inicialización aleatoria **afecta el modelo final**, lo que significa que incluso utilizando exactamente los mismos parámetros, los modelos pueden ser diferentes si se emplean distintas semillas aleatorias.

Si la red neuronal es **grande y su complejidad está bien ajustada**, la variabilidad en la inicialización no debería afectar significativamente la **precisión** del modelo. Sin embargo, en redes más pequeñas, esta variabilidad puede tener un impacto mayor, por lo que es un factor a considerar.

La siguiente figura muestra gráficos de varios modelos, todos entrenados con la **misma configuración de parámetros**, pero con **diferentes inicializaciones aleatorias**:


In [None]:
fig, axes = plt.subplots(2, 4, figsize=(20, 8))
for i, ax in enumerate(axes.ravel()):
    mlp = MLPClassifier(solver='adam', random_state=i, hidden_layer_sizes=[100, 100],max_iter=1000)
    mlp.fit(X_entrenamiento, y_entrenamiento)
    
    dibuja_separador_2d(mlp, X_entrenamiento, relleno=True, alfa=.3, ax=ax)
    dibuja_dispersion_discreta(X_entrenamiento[:, 0], X_entrenamiento[:, 1], y_entrenamiento, ax=ax)

Para obtener una mejor comprensión de las redes neuronales en datos del mundo real, apliquemos MLPClassifier al conjunto de datos `Breast Cancer`. Comenzamos con los parámetros predeterminados:

In [None]:
from sklearn.datasets import load_breast_cancer
#np.set_printoptions(suppress=True)
cancer = load_breast_cancer()

print("Datos de cancer por caracteristica maxima:\n{}".format(cancer.data.max(axis=0)))

In [None]:
X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split( cancer.data, cancer.target, random_state=0)
mlp = MLPClassifier(random_state=42)
mlp.fit(X_entrenamiento, y_entrenamiento)
print("Precision del conjunto de entrenamiento: {:.3f}".format(mlp.score(X_entrenamiento, y_entrenamiento)))
print("Precision del conjunto de pruebas: {:.3f}".format(mlp.score(X_prueba, y_prueba)))

La precisión del MLP es bastante buena, pero no tan buena como los otros modelos. Como en el ejemplo de SVC anterior, es probable que esto se deba al escalado de los datos. Las redes neuronales también esperan que todas las características de entrada varíen de manera similar, e idealmente tengan una media de 0 y una varianza de 1. Debemos cambiar la escala de nuestros datos para que cumplan con estos requisitos.

Nuevamente, hacemos esto a mano aquí, ya que se puede utilizar  `StandardScaler` para hacer esto automáticamente.


In [None]:
# Calculamos la media por caracteristica en el conjunto de entrenamiento
media_conjunto_entrenamiento = X_entrenamiento.mean(axis=0)

# calculamos la desviacion estandar de cada caracteristica en el conjunto de entrenamiento
std_conjunto_entrenamiento = X_entrenamiento.std(axis=0)

# sustraemos la media y escalamos la inversa de la desviacion estandar
# despues mean=0, std =1
X_entrenamiento_escalado = (X_entrenamiento -media_conjunto_entrenamiento)/std_conjunto_entrenamiento

# usamos la misma transformacion sobre el conjunto de prueba
X_prueba_escalado = (X_prueba - media_conjunto_entrenamiento)/std_conjunto_entrenamiento

mlp = MLPClassifier(random_state=0, max_iter=400)
mlp.fit(X_entrenamiento_escalado, y_entrenamiento)

print("Precision del conjunto de entrenamiento: {:.3f}".format(mlp.score(X_entrenamiento_escalado, y_entrenamiento)))
print("Precision del conjunto de pruebas: {:.3f}".format(mlp.score(X_prueba_escalado, y_prueba)))

Los resultados son mucho mejores después de escalar  y ya son bastante competitivos. Sin embargo, recibimos una advertencia del modelo que nos dice que se ha alcanzado el número máximo de iteraciones. Esto es parte del algoritmo de `Adam` para aprender el modelo y nos dice que debemos aumentar el número de iteraciones:

In [None]:
mlp = MLPClassifier(max_iter=1000, random_state=0)
mlp.fit(X_entrenamiento_escalado, y_entrenamiento)

print("Precision del conjunto de entrenamiento: {:.3f}".format(mlp.score(X_entrenamiento_escalado, y_entrenamiento)))
print("Precision del conjunto de pruebas: {:.3f}".format(mlp.score(X_prueba_escalado, y_prueba)))

Aumentar el número de iteraciones solo aumentó el rendimiento del conjunto de entrenamiento, no el rendimiento de generalización. Aún así, el modelo está funcionando bastante bien. Como hay una brecha entre el rendimiento de los conjuntos de  entrenamiento y de  prueba, podemos tratar de disminuir la complejidad del modelo para obtener un mejor rendimiento de generalización. Aquí, optamos por aumentar el parámetro `alpha` (de 0.0001 a 1) para agregar una regularización más fuerte de los pesos:

In [None]:
mlp = MLPClassifier(max_iter=1000,alpha=1, random_state=0)
mlp.fit(X_entrenamiento_escalado, y_entrenamiento)

print("Precision del conjunto de entrenamiento: {:.3f}".format(mlp.score(X_entrenamiento_escalado, y_entrenamiento)))
print("Precision del conjunto de pruebas: {:.3f}".format(mlp.score(X_prueba_escalado, y_prueba)))

Si bien es posible analizar lo que ha aprendido una **red neuronal**, esto suele ser **mucho más complejo** que interpretar un **modelo lineal** o un **modelo basado en árboles de decisión**. Una forma de obtener información sobre lo aprendido por la red es **examinar los pesos del modelo**. Puedes ver un ejemplo de esto en la [galería de ejemplos de scikit-learn](http://scikit-learn.org/stable/auto_examples/neural_networks/plot_mnist_filters.html).

En el caso del conjunto de datos `Breast Cancer`, interpretar estos pesos puede ser un desafío. El siguiente gráfico muestra los pesos aprendidos en las conexiones entre la **capa de entrada** y la **primera capa oculta**. 

- **Las filas** del gráfico representan las **30 características de entrada**.  
- **Las columnas** representan las **100 unidades ocultas**.  
- **Colores claros** indican **valores positivos grandes**, mientras que **colores oscuros** representan **valores negativos**.


In [None]:
plt.figure(figsize=(20, 5))
plt.imshow(mlp.coefs_[0], interpolation='none', cmap='viridis')
plt.yticks(range(30), cancer.feature_names)
plt.xlabel("Columnas en matriz de peso")
plt.ylabel("Caracteristicas de entrada")
plt.colorbar()

A partir de la figura, podemos inferir que las características cuyos **pesos son muy pequeños en todas las unidades ocultas** pueden ser **menos relevantes** para el modelo. En particular, se observa que `mean smoothness` y `mean compactness`, junto con varias características entre `smoothness error` y `fractal dimension error`, tienen **pesos relativamente bajos** en comparación con otras características.

Esto podría indicar que:
1. **Estas características tienen menor impacto en la predicción del modelo**.
2. **No están bien representadas de una manera que la red neuronal pueda aprovechar eficazmente**.

También podríamos analizar los pesos que conectan la **capa oculta con la capa de salida**, aunque su interpretación suele ser **aún más compleja**, ya que reflejan cómo cada unidad oculta contribuye a la decisión final del modelo.



#### **Estimando la complejidad en una red neuronal**

Los parámetros más importantes en una red neuronal son el **número de capas ocultas** y el **número de unidades por capa oculta**. Es recomendable **comenzar con una o dos capas ocultas** y expandirlas si es necesario. La cantidad de **nodos por capa oculta** a menudo es similar a la cantidad de características de entrada, pero rara vez es **mucho mayor** en niveles bajos o intermedios de la red.

Una forma útil de estimar la **complejidad de una red neuronal** es considerar el número total de **pesos o coeficientes aprendidos**. 

Por ejemplo, si se tiene un **conjunto de datos de clasificación binaria** con `100` características y se usa una red con **100 unidades ocultas en una capa**, entonces:

- **Pesos entre la entrada y la primera capa oculta:**  
  $$
  100 \times 100 = 10,000
  $$
- **Pesos entre la capa oculta y la capa de salida:**  
  $$
  100 \times 1 = 100
  $$
- **Total:**  
  $$
  10,100 \text{ pesos}
  $$

Si se **agrega una segunda capa oculta** con `100` unidades ocultas:

- **Pesos entre la primera y segunda capa oculta:**  
  $$
  100 \times 100 = 10,000
  $$
- **Nuevo total:**  
  $$
  20,100 \text{ pesos}
  $$

Si, en cambio, se usa **una sola capa oculta con 1,000 unidades**, entonces:

- **Pesos entre la entrada y la capa oculta:**  
  $$
  100 \times 1,000 = 100,000
  $$
- **Pesos entre la capa oculta y la salida:**  
  $$
  1,000 \times 1 = 1,000
  $$
- **Total:**  
  $$
  101,000 \text{ pesos}
  $$

Si se **agrega una segunda capa oculta con 1,000 unidades**, el número de pesos adicionales será:

- **Pesos entre la primera y segunda capa oculta:**  
  $$
  1,000 \times 1,000 = 1,000,000
  $$
- **Nuevo total:**  
  $$
  1,101,000 \text{ pesos}
  $$

Este último modelo tiene **50 veces más parámetros** que la red con **dos capas ocultas de tamaño 100**, lo que aumenta drásticamente la **capacidad de modelado**, pero también el riesgo de **sobreajuste** y el costo computacional.

Una estrategia común para ajustar los parámetros en una red neuronal es:

1. **Crear una red lo suficientemente grande como para sobreajustar**  
   - Se entrena un modelo grande para asegurarse de que la tarea puede ser **aprendida por la red**.
2. **Reducir la red o aplicar regularización**  
   - Una vez confirmado que la red puede aprender los datos de entrenamiento, se reduce el tamaño de la red o se **aumenta `alpha`** (regularización) para mejorar la **generalización**.

Al entrenar un **MLPClassifier**, se recomienda:

- **Usar `adam`**: Funciona bien en la mayoría de las situaciones, pero es **sensible a la escala de los datos**.  
- **Escalar siempre los datos**: Se recomienda normalizarlos a **media `0` y varianza `1`** (`StandardScaler`).
- **Usar `lbfgs` si se necesita robustez**, aunque puede ser **lento en modelos grandes o con conjuntos de datos grandes**.



### Ejercicios

#### **Ejercicio 1: Explorando el impacto de la inicialización aleatoria en MLP**

**Objetivo:** Evaluar cómo la inicialización aleatoria de los pesos afecta el modelo.

1. **Entrena** un `MLPClassifier` con **una capa oculta de 50 neuronas** y función de activación `tanh` en el dataset `make_moons`.
2. **Usa diferentes semillas aleatorias (`random_state`)**, manteniendo fijos todos los demás hiperparámetros.
3. **Grafica las fronteras de decisión** para al menos 5 inicializaciones diferentes.
4. **Explica** por qué las fronteras de decisión varían a pesar de que los datos y parámetros son los mismos.

*Pista:* ¿La inicialización aleatoria de los pesos es relevante para redes neuronales profundas? ¿Cómo afecta la convergencia del modelo?.

#### **Ejercicio 2: Comparando la regularización con `alpha`**

**Objetivo:** Analizar cómo la regularización afecta la complejidad del modelo y el sobreajuste.

1. Entrena **un mismo modelo** (`MLPClassifier`) con:
   - **Dos capas ocultas** (`hidden_layer_sizes=[50, 50]`)
   - **Función de activación `relu`**
   - **Valores de `alpha` de {0.0001, 0.01, 0.1, 1, 10}**.
2. **Evalúa la precisión en entrenamiento y prueba** para cada valor de `alpha`.
3. **Grafica las fronteras de decisión** y analiza cómo cambia con `alpha`.
4. **Explica** cómo la regularización afecta la complejidad del modelo y el sobreajuste.

*Pista:* ¿Qué ocurre con `alpha` muy pequeño o muy grande? ¿Cómo influye en la suavidad de la frontera de decisión?.


#### **Ejercicio 3: Análisis de la complejidad del modelo**

**Objetivo:** Evaluar el impacto del número de neuronas y capas en el rendimiento.

1. Entrena un `MLPClassifier` con:
   - **Una sola capa oculta** con `10`, `100` y `1000` neuronas.
   - **Dos capas ocultas** con `10,10`, `100,100` y `1000,1000` neuronas.
2. **Mide la cantidad de parámetros (pesos)** en cada configuración.
3. **Evalúa la precisión en entrenamiento y prueba** y observa si hay sobreajuste.
4. **Explica** qué arquitectura es la mejor en términos de rendimiento y complejidad.

*Pista:* ¿Cómo se relaciona la cantidad de parámetros con la posibilidad de sobreajuste? ¿En qué casos un modelo con más capas es beneficioso?.

#### **Ejercicio 4: Interpretación de pesos en la primera capa oculta**

**Objetivo:** Visualizar e interpretar los pesos aprendidos en la primera capa de una red neuronal.

1. **Entrena un `MLPClassifier`** con `hidden_layer_sizes=[100]` en el dataset `Breast Cancer`.
2. **Extrae la matriz de pesos** entre la entrada y la primera capa oculta (`mlp.coefs_[0]`).
3. **Visualiza los pesos** en un `heatmap` (usando `seaborn` o `matplotlib`).
4. **Identifica características con pesos pequeños** y razona sobre su posible baja importancia en la clasificación.

*Pista:* ¿Cómo podrías confirmar si las características con pesos bajos realmente son irrelevantes?


#### **Ejercicio 5: Comparando solvers (`adam` vs `lbfgs`)**
**Objetivo:** Evaluar cómo el solver afecta la convergencia y el tiempo de entrenamiento.

1. Entrena un `MLPClassifier` con:
   - **`solver='adam'`**
   - **`solver='lbfgs'`**
   - **Diferentes valores de `max_iter`** (200, 500, 1000)
2. **Mide el tiempo de entrenamiento** con `time.time()` y la precisión en prueba.
3. **Explica cuál solver converge más rápido** y por qué.

*Pista:* `adam` es más rápido para datos grandes, pero `lbfgs` puede ser más preciso en ciertos casos.


#### **Ejercicio 6: Optimización de hiperparámetros con `GridSearchCV`**

**Objetivo:** Encontrar la mejor arquitectura para `MLPClassifier`.

1. **Usa `GridSearchCV`** para optimizar:
   - `hidden_layer_sizes`: { (50,), (100,), (50,50), (100,100) }
   - `alpha`: {0.0001, 0.01, 0.1}
   - `solver`: {'adam', 'lbfgs'}
2. **Entrena y evalúa en el dataset `make_moons`**.
3. **Encuentra la mejor combinación de hiperparámetros** y justifica los resultados.

*Pista:* `GridSearchCV` evalúa varias combinaciones y selecciona la mejor.


#### **Ejercicio 7: Evaluación de estabilidad en entrenamientos**

**Objetivo:** Analizar cómo la inicialización y optimización afectan los resultados.

1. **Entrena el mismo modelo (`MLPClassifier`) 10 veces** con:
   - `random_state` diferente en cada ejecución.
   - Misma arquitectura y parámetros.
2. **Registra la precisión en entrenamiento y prueba** en cada ejecución.
3. **Calcula la desviación estándar** de las precisiones y razona sobre la estabilidad del entrenamiento.

*Pista:* ¿Qué modelo tiene menor variabilidad en sus resultados?



In [None]:
## Tus respuestas