<a href="https://colab.research.google.com/github/rubuntu/Taller_Introduccion_a_Ciencia_de_Datos_IA_e_Ingenieria_de_Datos/blob/main/sesion_10_introduccion_a_redes_neuronales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìò Sesi√≥n: Del Perceptr√≥n Cl√°sico al Multicapa (MLP) con scikit-learn, PyTorch y TensorFlow

## Objetivos

* Comprender el **Perceptr√≥n cl√°sico** implementado en NumPy.
* Visualizar la **frontera de decisi√≥n** en problemas l√≥gicos simples (AND, OR, XOR).
* Conocer las **funciones de activaci√≥n** de los MLPs.
* Comparar modelos: **Perceptr√≥n simple vs MLP vs Regresi√≥n Log√≠stica**.
* Resolver un caso real (Churn) con un MLP.
* Implementar **MLP en scikit-learn, PyTorch y TensorFlow/Keras**.
* Visualizar diferencias con un **diagrama comparativo**.

---

## 1. Perceptr√≥n

- Referencia: https://es.wikipedia.org/wiki/Perceptr%C3%B3n

![](https://upload.wikimedia.org/wikipedia/commons/thumb/b/b0/Perceptr%C3%B3n_5_unidades.svg/960px-Perceptr%C3%B3n_5_unidades.svg.png)

In [None]:
import numpy as np

class Perceptron:
    def __init__(self, n_inputs, lr=0.1, n_epochs=10):
        self.lr = lr
        self.n_epochs = n_epochs
        self.w = np.zeros(n_inputs)
        self.b = 0.0

    def activation(self, z):
        return np.where(z >= 0, 1, 0)

    def predict(self, X):
        z = np.dot(X, self.w) + self.b
        return self.activation(z)

    def fit(self, X, y):
        for epoch in range(self.n_epochs):
            errors = 0
            for xi, target in zip(X, y):
                y_hat = self.predict(xi)
                update = self.lr * (target - y_hat)
                self.w += update * xi
                self.b += update
                errors += int(update != 0.0)
            print(f"Epoch {epoch+1} - Errores: {errors}")

El c√≥digo implementa un **Perceptr√≥n**, uno de los modelos m√°s simples de **red neuronal** para la clasificaci√≥n. Aunque es una versi√≥n b√°sica, es fundamental para entender c√≥mo funcionan los modelos m√°s complejos de *deep learning*.

---

### **Componentes del Perceptr√≥n**

#### **a. Constructor (`__init__`)**
Esta funci√≥n se ejecuta al crear una nueva instancia de la clase `Perceptron`.
* `n_inputs`: Es el n√∫mero de caracter√≠sticas o *features* en tus datos de entrada. El modelo crea un vector de pesos (`self.w`) del mismo tama√±o, inicializ√°ndolo en cero.
* `lr`: Significa **tasa de aprendizaje** (*learning rate*). Es un hiperpar√°metro crucial que determina qu√© tan grande ser√° el ajuste en los pesos del modelo con cada error. Un valor peque√±o significa que los cambios son graduales, mientras que un valor grande puede causar que el modelo "salte" la soluci√≥n √≥ptima.
* `n_epochs`: Es el n√∫mero de veces que el modelo procesar√° todo el conjunto de datos de entrenamiento. Cada *√©poca* es un ciclo completo de aprendizaje.
* `self.w`: El **vector de pesos** que el modelo aprende. Cada peso se asocia a una caracter√≠stica de entrada y representa su importancia para la predicci√≥n.
* `self.b`: El **sesgo** (*bias*). Es un valor que se a√±ade al resultado, permitiendo que la l√≠nea de decisi√≥n se desplace, lo que ayuda a la red a clasificar datos que no son linealmente separables a trav√©s del origen.

#### **b. Funci√≥n de Activaci√≥n (`activation`)**
* Esta funci√≥n recibe la suma ponderada de las entradas m√°s el sesgo (`z`). En el caso del Perceptr√≥n, se usa una funci√≥n de activaci√≥n simple.
* `np.where(z >= 0, 1, 0)`: Esta es una **funci√≥n escal√≥n** (*step function*). Si el resultado de `z` es mayor o igual a cero, la neurona "se activa" y el resultado es 1. De lo contrario, no se activa y el resultado es 0. Esto permite al modelo hacer una clasificaci√≥n binaria.

#### **c. Predicci√≥n (`predict`)**
* Esta funci√≥n toma un conjunto de datos de entrada (`X`) y calcula la predicci√≥n.
* `z = np.dot(X, self.w) + self.b`: Aqu√≠ se realiza el c√°lculo central del Perceptr√≥n. Se toma el **producto punto** de los datos de entrada (`X`) y el vector de pesos (`self.w`), y se le suma el sesgo (`self.b`). Este c√°lculo representa la entrada neta a la neurona.
* Luego, este valor `z` se pasa a la funci√≥n de activaci√≥n, que devuelve la predicci√≥n final (0 o 1).

#### **d. Entrenamiento (`fit`)**
Este es el coraz√≥n del algoritmo, donde el modelo aprende.
* El bucle `for epoch in range(self.n_epochs):` permite que el modelo se entrene varias veces sobre el mismo conjunto de datos.
* El bucle `for xi, target in zip(X, y):` itera sobre cada ejemplo de entrenamiento (`xi`) y su etiqueta correcta (`target`).
* `y_hat = self.predict(xi)`: El modelo hace una predicci√≥n con los pesos y el sesgo actuales.
* `update = self.lr * (target - y_hat)`: Aqu√≠ se calcula el **ajuste** necesario. El error es la diferencia entre la etiqueta real (`target`) y la predicci√≥n (`y_hat`).
    * Si la predicci√≥n es correcta, `(target - y_hat)` es 0, y no hay actualizaci√≥n.
    * Si la predicci√≥n es incorrecta, `(target - y_hat)` es 1 o -1, y los pesos se ajustan en la direcci√≥n correcta, multiplicados por la tasa de aprendizaje.
* `self.w += update * xi` y `self.b += update`: Los pesos y el sesgo se **actualizan** en base al error. Este es el paso de aprendizaje.
* `errors += int(update != 0.0)`: Se cuenta el n√∫mero de errores en cada √©poca para monitorear el progreso del aprendizaje. El objetivo del entrenamiento es que el n√∫mero de errores se reduzca a cero.

El Perceptr√≥n aprende a clasificar datos de forma **lineal** ajustando sus pesos y sesgo cada vez que comete un error, hasta que todas las clasificaciones sean correctas o se complete el n√∫mero de √©pocas.

### **Gr√°fico üìä de la funci√≥n de activaci√≥n del Perceptr√≥n cl√°sico**:

* Es una **funci√≥n escal√≥n (step function)**.
* Devuelve **0 si $x<0$** y **1 si $x \geq 0$**.
* Representa la decisi√≥n binaria m√°s simple: ‚Äúdispara o no dispara‚Äù.

üëâ A diferencia de funciones suaves como sigmoide o ReLU, esta funci√≥n no tiene derivada √∫til, lo que limita al perceptr√≥n simple en problemas m√°s complejos.



In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Rango de entrada
x = np.linspace(-3, 3, 400)

# Funci√≥n escal√≥n (step), activaci√≥n del Perceptr√≥n cl√°sico
step = np.where(x >= 0, 1, 0)

plt.figure(figsize=(6,4))
plt.plot(x, step, drawstyle="steps-post", color="purple", linewidth=2, label="Step function")
plt.axhline(0, color="gray", linestyle="--")
plt.axhline(1, color="gray", linestyle="--")
plt.axvline(0, color="gray", linestyle="--")
plt.title("Funci√≥n de Activaci√≥n del Perceptr√≥n (Step)")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.legend()
plt.grid(True)
plt.show()


---

## 2. Fronteras de decisi√≥n: AND y OR

In [None]:
import matplotlib.pyplot as plt

def plot_decision_boundary(X, y, model, title):
    xx, yy = np.meshgrid(np.linspace(-0.5,1.5,200),
                         np.linspace(-0.5,1.5,200))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
    plt.scatter(X[:,0], X[:,1], c=y, edgecolor="k", cmap=plt.cm.Paired, s=100)
    plt.title(title)
    plt.show()

# AND
X_and = np.array([[0,0],[0,1],[1,0],[1,1]])
y_and = np.array([0,0,0,1])
p_and = Perceptron(2, lr=0.1, n_epochs=10); p_and.fit(X_and, y_and)
plot_decision_boundary(X_and, y_and, p_and, "Perceptr√≥n - AND")

# OR
X_or = np.array([[0,0],[0,1],[1,0],[1,1]])
y_or = np.array([0,1,1,1])
p_or = Perceptron(2, lr=0.1, n_epochs=10); p_or.fit(X_or, y_or)
plot_decision_boundary(X_or, y_or, p_or, "Perceptr√≥n - OR")

---

## 3. Caso XOR (no separable)

In [None]:
X_xor = np.array([[0,0],[0,1],[1,0],[1,1]])
y_xor = np.array([0,1,1,0])

p_xor = Perceptron(2, lr=0.1, n_epochs=20)
p_xor.fit(X_xor, y_xor)
plot_decision_boundary(X_xor, y_xor, p_xor, "Perceptr√≥n - XOR (fracasa)")

üìå El perceptr√≥n no logra resolver XOR porque el problema no es linealmente separable.

---

El c√≥digo est√° dise√±ado para **visualizar c√≥mo un perceptr√≥n, un tipo de modelo de aprendizaje autom√°tico, clasifica datos** que se corresponden con las operaciones l√≥gicas **AND** y **OR**. El c√≥digo entrena dos perceptrones separados, uno para cada operaci√≥n, y luego utiliza una funci√≥n de visualizaci√≥n (`plot_decision_boundary`) para mostrar su comportamiento.

---

## Explicaci√≥n del C√≥digo

El c√≥digo tiene dos partes principales: la funci√≥n de visualizaci√≥n y la parte del entrenamiento y graficaci√≥n para cada operaci√≥n l√≥gica.

### `plot_decision_boundary(X, y, model, title)`

Esta funci√≥n es la clave para la visualizaci√≥n. Su objetivo es crear un gr√°fico que muestre la **frontera de decisi√≥n** del modelo.

* `xx, yy = np.meshgrid(...)`: Crea una **rejilla** de puntos. Imagina que es como una cuadr√≠cula gigante sobre la que el modelo har√° predicciones. Esto permite mapear la salida del modelo a un √°rea continua en el gr√°fico en lugar de solo los puntos de entrenamiento.
* `Z = model.predict(...)`: El modelo (`p_and` o `p_or`) predice la clase (`0` o `1`) para cada punto de la rejilla. La funci√≥n `np.c_` combina los puntos de la rejilla en pares `[x, y]` para pasarlos al modelo.
* `plt.contourf(...)`: Dibuja los **contornos rellenos**. Utiliza los valores de `Z` para colorear las √°reas de la rejilla. Las √°reas con una clase predicha se colorean de una manera y las √°reas con la otra clase se colorean de otra, creando un √°rea clara de separaci√≥n: la frontera de decisi√≥n.
* `plt.scatter(...)`: Superpone los **puntos de datos de entrenamiento** originales (`X` y `y`) en el gr√°fico. Cada punto se colorea seg√∫n su etiqueta real, lo que te permite ver si el modelo ha clasificado correctamente cada uno de los puntos originales.
* `plt.title(title)`: Asigna un t√≠tulo al gr√°fico.
* `plt.show()`: Muestra el gr√°fico en pantalla.

### Entrenamiento y Gr√°ficos (AND y OR)

Esta parte del c√≥digo es la que usa la funci√≥n de visualizaci√≥n para cada caso.

* **Datos de entrada**:
    * `X_and` y `X_or`: Son los conjuntos de datos de entrada. Cada fila `[x1, x2]` representa una combinaci√≥n de **dos entradas binarias**. Por ejemplo, `[0,0]`, `[0,1]`, etc.
    * `y_and` y `y_or`: Son las **salidas deseadas** (etiquetas) para cada una de las entradas, que corresponden a los resultados de las operaciones l√≥gicas **AND** y **OR**.
* **Entrenamiento del perceptr√≥n**:
    * `p_and = Perceptron(...)`: Se crea un objeto `Perceptron` y se configura con 2 entradas (correspondientes a las dos columnas de `X`), una tasa de aprendizaje (`lr=0.1`) y un n√∫mero de √©pocas (`n_epochs=10`).
    * `p_and.fit(X_and, y_and)`: Entrena el perceptr√≥n con los datos de entrada y las etiquetas del `AND`.
* **Generaci√≥n de gr√°ficos**:
    * `plot_decision_boundary(...)`: Llama a la funci√≥n de visualizaci√≥n, pas√°ndole los datos, el modelo entrenado y el t√≠tulo correspondiente (`"Perceptr√≥n - AND"` o `"Perceptr√≥n - OR"`).

---

## Interpretaci√≥n de los Gr√°ficos de Salida

Ambos gr√°ficos (`AND` y `OR`) te mostrar√°n el mismo tipo de visualizaci√≥n.

### El Gr√°fico del Perceptr√≥n para el **AND**

El perceptr√≥n puede resolver la operaci√≥n **AND**. En el gr√°fico, ver√°s:

* **Puntos**: Cuatro puntos dispersos, que representan las combinaciones de entrada `(0,0)`, `(0,1)`, `(1,0)` y `(1,1)`.
* **Colores de los puntos**: Tres de los puntos `(0,0)`, `(0,1)` y `(1,0)` tendr√°n un color (por ejemplo, azul) que representa la clase `0` (la salida del AND es `0`). El cuarto punto `(1,1)` tendr√° otro color (por ejemplo, naranja) que representa la clase `1` (la salida del AND es `1`).
* **Frontera de decisi√≥n**: Ver√°s una **l√≠nea recta** (o una **regi√≥n coloreada** que cambia de color) que separa claramente los puntos de clase `0` de los puntos de clase `1`. Esta l√≠nea es la frontera de decisi√≥n del perceptr√≥n. El perceptr√≥n ha aprendido a clasificar las entradas bas√°ndose en si est√°n a un lado o al otro de esta l√≠nea. La habilidad del perceptr√≥n para trazar esta l√≠nea de separaci√≥n se debe a que el problema del AND es **linealmente separable**.

### El Gr√°fico del Perceptr√≥n para el **OR**

El perceptr√≥n tambi√©n puede resolver la operaci√≥n **OR**. En el gr√°fico, ver√°s:

* **Puntos**: Los mismos cuatro puntos que en el caso del AND.
* **Colores de los puntos**: En este caso, el punto `(0,0)` tendr√° un color (por ejemplo, azul) que representa la clase `0`. Los otros tres puntos `(0,1)`, `(1,0)` y `(1,1)` tendr√°n el color de la clase `1` (por ejemplo, naranja).
* **Frontera de decisi√≥n**: Similar al gr√°fico del AND, ver√°s una **l√≠nea recta** que separa el punto `(0,0)` de los otros tres puntos. Esto confirma que el problema del OR tambi√©n es **linealmente separable** y, por lo tanto, el perceptr√≥n puede resolverlo de manera efectiva.

En resumen, los gr√°ficos demuestran visualmente que el perceptr√≥n es un **clasificador lineal**. Es capaz de aprender una l√≠nea recta (o un hiperplano en dimensiones superiores) para separar datos que son linealmente separables, como es el caso de las operaciones l√≥gicas **AND** y **OR**. Sin embargo, este mismo c√≥digo demostrar√≠a que el perceptr√≥n no puede resolver problemas como el **XOR**, que no es linealmente separable.

## 4. Perceptr√≥n multicapa - Multilayer perceptron (MLP)

- Referencia: https://es.wikipedia.org/wiki/Perceptr%C3%B3n_multicapa

![](https://upload.wikimedia.org/wikipedia/commons/6/64/RedNeuronalArtificial.png?20160319151219)


## 5. Funciones de activaci√≥n en MLP

* **identity**: $f(x)=x$
* **logistic**: sigmoide
* **tanh**: tangente hiperb√≥lica
* **relu**: rectificada

Estas funciones permiten aprender **fronteras no lineales**.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Rango de entrada
x = np.linspace(-5, 5, 400)

# Funciones de activaci√≥n
identity = x
logistic = 1 / (1 + np.exp(-x))
tanh = np.tanh(x)
relu = np.maximum(0, x)

# Graficar
fig, axs = plt.subplots(2, 2, figsize=(10,8))

axs[0,0].plot(x, identity, label="identity")
axs[0,0].set_title("Identity: f(x)=x")
axs[0,0].axhline(0, color="gray", linestyle="--")
axs[0,0].axvline(0, color="gray", linestyle="--")

axs[0,1].plot(x, logistic, label="sigmoid", color="orange")
axs[0,1].set_title("Logistic (sigmoide)")
axs[0,1].axhline(0.5, color="gray", linestyle="--")

axs[1,0].plot(x, tanh, label="tanh", color="green")
axs[1,0].set_title("Tanh")
axs[1,0].axhline(0, color="gray", linestyle="--")

axs[1,1].plot(x, relu, label="ReLU", color="red")
axs[1,1].set_title("ReLU")
axs[1,1].axhline(0, color="gray", linestyle="--")
axs[1,1].axvline(0, color="gray", linestyle="--")

for ax in axs.flat:
    ax.legend()
    ax.grid(True)

plt.suptitle("Funciones de Activaci√≥n en MLP", fontsize=14, weight="bold")
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.show()


---

## üîπ Ejemplo con dataset MNIST

In [None]:
from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
import warnings

with warnings.catch_warnings():
  warnings.simplefilter("ignore")

  # Descargar MNIST (70k im√°genes 28x28)
  mnist = fetch_openml('mnist_784', version=1, as_frame=False)
  X, y = mnist["data"], mnist["target"].astype(int)


  # Normalizar los datos
  # Escalar los valores de p√≠xeles al rango [0, 1] para un mejor rendimiento del modelo
  X = X / 255.0

  # Dividir los datos en conjuntos de entrenamiento y prueba
  # Usamos el 80% para entrenar y el 20% para probar
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

  # Inicializar y entrenar el clasificador MLP
  # 'hidden_layer_sizes' define la estructura de la red, en este caso 100 neuronas
  # 'max_iter' es el n√∫mero m√°ximo de √©pocas de entrenamiento
  print("Entrenando el clasificador MLP...")
  mlp = MLPClassifier(hidden_layer_sizes=(100,), max_iter=20, random_state=42)
  mlp.fit(X_train, y_train)

  # Hacer predicciones en el conjunto de prueba
  y_pred = mlp.predict(X_test)

  # Evaluar la exactitud del modelo
  accuracy = accuracy_score(y_test, y_pred)
  print(f"Exactitud del modelo MLP: {accuracy:.4f}")

  # Mostrar una imagen y la predicci√≥n del modelo
  idx_test = 0  # Puedes cambiar este √≠ndice para ver otras im√°genes
  plt.imshow(X_test[idx_test].reshape(28,28), cmap="gray")
  plt.title(f"Etiqueta Real: {y_test[idx_test]}, Predicci√≥n del modelo: {y_pred[idx_test]}")
  plt.axis("off")
  plt.show()


-----

## üëâ **Explicaci√≥n**:

### Datos

* `fetch_openml`: descarga el dataset **MNIST** desde OpenML (70,000 im√°genes de d√≠gitos escritos a mano, cada imagen tiene 28x28 = 784 p√≠xeles).
* `X`: contiene las im√°genes en formato **vector de 784 valores**.
* `y`: contiene las etiquetas (0‚Äì9).

### Preprocesamiento de Datos

Antes de alimentar los datos a la red neuronal, es crucial **preprocesarlos** adecuadamente.

  * **Normalizaci√≥n:** Se dividen los valores de los p√≠xeles (que van de 0 a 255) por 255. Esto escala todos los valores al rango `[0, 1]`. Esta normalizaci√≥n es esencial para que los algoritmos basados en gradiente, como el que usa el MLP, converjan m√°s r√°pido y de manera m√°s estable.

### Divisi√≥n de Datos

Para evaluar el rendimiento del modelo de forma realista, se dividen los datos en dos conjuntos:

  * **Entrenamiento (`X_train`, `y_train`):** El modelo aprende de estas im√°genes y sus etiquetas.
  * **Prueba (`X_test`, `y_test`):** El modelo se prueba con estas im√°genes, que nunca ha visto antes, para evaluar su capacidad de generalizaci√≥n. El par√°metro `test_size=0.2` indica que el 20% de los datos se utilizar√° para la prueba.

### Clasificador MLP de scikit-learn

  * **`MLPClassifier`:** Es la clase que implementa el **Perceptron Multicapa**. Es una red neuronal de tipo *feed-forward*.
  * **`hidden_layer_sizes=(100,)`:** Define la arquitectura de la red. En este caso, se crea una capa oculta con 100 neuronas. Puedes experimentar con diferentes tama√±os o a√±adir m√°s capas (ej: `(100, 50, 20)`).
  * **`max_iter=20`:** Establece el n√∫mero m√°ximo de √©pocas (iteraciones completas sobre los datos de entrenamiento) que el modelo realizar√°. Aumentar este valor puede mejorar el rendimiento, pero tambi√©n el tiempo de entrenamiento.
  * **`mlp.fit(X_train, y_train)`:** Este es el paso de entrenamiento. El modelo ajusta sus pesos internos para aprender a mapear las im√°genes (`X_train`) a sus etiquetas correctas (`y_train`).
  * **`mlp.predict(X_test)`:** Una vez entrenado, el modelo predice las etiquetas para las im√°genes en el conjunto de prueba.

### Evaluaci√≥n del Modelo

  * **`accuracy_score`:** Se utiliza para medir la **exactitud** del modelo. Compara las predicciones (`y_pred`) con las etiquetas reales (`y_test`) y devuelve la proporci√≥n de predicciones correctas. La precisi√≥n es una m√©trica com√∫n para evaluar modelos de clasificaci√≥n.

### Visualizaci√≥n
  * **`plt.imshow`:** reacomoda una fila de 784 valores en una matriz 28x28 para visualizar como imagen en escala de grises.

---

## 6. Caso real: Telco Churn (MLP con 1 capa oculta)

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import roc_auc_score, RocCurveDisplay

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00350/default%20of%20credit%20card%20clients.xls"
df = pd.read_excel(url, header=1)
df.rename(columns={"default payment next month": "default"}, inplace=True)

y = df["default"]
X = pd.get_dummies(df.drop(columns=["ID","default"]), drop_first=True)

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3, stratify=y, random_state=42)
scaler = StandardScaler(with_mean=False)
X_train = scaler.fit_transform(X_train); X_test = scaler.transform(X_test)

mlp = MLPClassifier(hidden_layer_sizes=(64,), max_iter=1000, random_state=42)
mlp.fit(X_train, y_train)

RocCurveDisplay.from_estimator(mlp, X_test, y_test)
print("AUC:", roc_auc_score(y_test, mlp.predict_proba(X_test)[:,1]))

## Explicaci√≥n

---

### üì• 6.1. Importar librer√≠as

```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import roc_auc_score, RocCurveDisplay
```

* **pandas** ‚Üí manejo de datos.
* **train\_test\_split** ‚Üí divide dataset en entrenamiento y test.
* **StandardScaler** ‚Üí normaliza variables num√©ricas (importante para MLP).
* **MLPClassifier** ‚Üí red neuronal de scikit-learn.
* **roc\_auc\_score, RocCurveDisplay** ‚Üí m√©tricas y visualizaci√≥n ROC.

---

### üìä 6.2. Cargar dataset UCI

```python
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00350/default%20of%20credit%20card%20clients.xls"
df = pd.read_excel(url, header=1)
df.rename(columns={"default payment next month": "default"}, inplace=True)
```

* Se descarga el **dataset Default of Credit Card Clients** en formato Excel.
* `header=1`: omite la primera fila (tiene descripci√≥n).
* Se renombra la columna objetivo `"default payment next month"` a `"default"` para mayor claridad.

---

### üéØ 6.3. Variables independientes y dependiente

```python
y = df["default"]
X = pd.get_dummies(df.drop(columns=["ID","default"]), drop_first=True)
```

* **y**: columna objetivo ‚Üí `default` (1 = cliente incumple, 0 = no incumple).
* **X**: resto de variables (sociodemogr√°ficas, historial de pagos, etc.).

  * Se eliminan `"ID"` (irrelevante) y `"default"` (ya es target).
  * `get_dummies`: convierte variables categ√≥ricas en variables dummy (one-hot encoding).
  * `drop_first=True`: evita multicolinealidad (elimina una categor√≠a redundante).

---

### ‚úÇÔ∏è 6.4. Divisi√≥n train/test

```python
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42
)
```

* Divide en **70% entrenamiento / 30% test**.
* `stratify=y`: mantiene la misma proporci√≥n de casos de default en ambos conjuntos.
* `random_state=42`: asegura reproducibilidad.

---

### ‚öñÔ∏è 6.5. Escalado de variables

```python
scaler = StandardScaler(with_mean=False)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
```

* El **MLP es sensible a la escala de las variables** ‚Üí normalizamos para que todas tengan media 0 y desviaci√≥n 1.
* `with_mean=False`: se usa porque con dummies (sparse matrix) no conviene centrar en 0.

---

### üß† 6.6. Definir y entrenar MLP

```python
mlp = MLPClassifier(hidden_layer_sizes=(64,), max_iter=1000, random_state=42)
mlp.fit(X_train, y_train)
```

* `MLPClassifier`: crea un perceptr√≥n multicapa.
* `hidden_layer_sizes=(64,)`: 1 capa oculta con 64 neuronas.
* `max_iter=1000`: hasta 1000 iteraciones para converger.
* `.fit`: entrena la red en los datos de entrenamiento.

---

### üìà 6.7. Evaluaci√≥n con curva ROC y AUC

```python
RocCurveDisplay.from_estimator(mlp, X_test, y_test)
print("AUC:", roc_auc_score(y_test, mlp.predict_proba(X_test)[:,1]))
```

* `.predict_proba(X_test)[:,1]`: obtiene la **probabilidad predicha de clase 1 (default)**.
* `roc_auc_score`: calcula el **√Årea Bajo la Curva ROC (AUC)**.

  * AUC = 0.5 ‚Üí azar.
  * AUC cerca de 1 ‚Üí excelente modelo.
* `RocCurveDisplay`: dibuja la **curva ROC** (trade-off entre TPR y FPR).

---

### ‚úÖ Resumen del flujo

1. Descargamos dataset de defaults.
2. Preparamos variables (dummy encoding + escalado).
3. Dividimos en train/test.
4. Entrenamos un **MLP con 64 neuronas ocultas**.
5. Evaluamos con **ROC y AUC** ‚Üí m√©trica est√°ndar en problemas de scoring crediticio.



---

## 7. Comparaci√≥n: Perceptr√≥n vs MLP vs Regresi√≥n Log√≠stica

In [None]:
from sklearn.linear_model import LogisticRegression, Perceptron as SkPerceptron

perc = SkPerceptron(max_iter=1000, random_state=42).fit(X_train, y_train)
logreg = LogisticRegression(max_iter=1000).fit(X_train, y_train)

print("Acc (Perceptr√≥n):", perc.score(X_test,y_test))
print("AUC (LogReg):", roc_auc_score(y_test, logreg.predict_proba(X_test)[:,1]))
print("AUC (MLP):", roc_auc_score(y_test, mlp.predict_proba(X_test)[:,1]))

---

## 8. Resolver XOR con MLP en 3 librer√≠as

### üîπ scikit-learn

In [None]:
# ========== Scikit-learn ==========
import numpy as np
from sklearn.neural_network import MLPClassifier

# Dataset XOR
X = np.array([[0,0],[0,1],[1,0],[1,1]])
y = np.array([0,1,1,0])

mlp_sklearn = MLPClassifier(hidden_layer_sizes=(4,),
                            activation="tanh",
                            max_iter=3000,
                            random_state=42)
mlp_sklearn.fit(X,y)
print("Predicciones XOR (sklearn):", mlp_sklearn.predict(X))


### üìä a. Dataset XOR

```python
X = np.array([[0,0],[0,1],[1,0],[1,1]])
y = np.array([0,1,1,0])
```

* `X`: son las **entradas** (todas las combinaciones posibles de dos bits).

  * (0,0)
  * (0,1)
  * (1,0)
  * (1,1)

* `y`: es la **salida esperada (XOR l√≥gico)**:

  * 0 XOR 0 ‚Üí 0
  * 0 XOR 1 ‚Üí 1
  * 1 XOR 0 ‚Üí 1
  * 1 XOR 1 ‚Üí 0

üìå Este dataset **no es linealmente separable**, por lo que un perceptr√≥n simple (funci√≥n escal√≥n + hiperplano) no puede resolverlo.

---

### üß† b. Definir MLP

```python
mlp = MLPClassifier(hidden_layer_sizes=(4,), activation="tanh", max_iter=3000, random_state=42)
```

* `MLPClassifier`: perceptr√≥n multicapa de scikit-learn.
* `hidden_layer_sizes=(4,)`:

  * Significa **una capa oculta con 4 neuronas**.
  * Esto da al modelo capacidad de representar **fronteras no lineales**.
* `activation="tanh"`:

  * Usamos **tangente hiperb√≥lica** como activaci√≥n.
  * Es no lineal y centrada en 0, muy √∫til para este tipo de problemas.
* `max_iter=3000`:

  * Permitimos hasta 3000 iteraciones para asegurar que el modelo converge.
* `random_state=42`:

  * Semilla fija para reproducibilidad.

---

### ‚ö° c. Entrenar el modelo

```python
mlp.fit(X,y)
```

* El modelo recibe las entradas `X` y etiquetas `y`.
* Internamente realiza:

  1. Forward pass (propaga datos por la red).
  2. Calcula error con **entrop√≠a cruzada**.
  3. Backpropagation (ajusta pesos con gradiente descendente).
  4. Itera hasta minimizar error o llegar a `max_iter`.

---

### üìà d. Predicciones

```python
print("Predicciones XOR (sklearn):", mlp.predict(X))
```

* Se eval√∫a el MLP en las 4 combinaciones de entrada.
* La salida esperada es `[0,1,1,0]`.
* Si la red aprendi√≥ correctamente, imprime algo como:

```
Predicciones XOR (sklearn): [0 1 1 0]
```

‚úÖ Lo importante: el **MLP logra resolver XOR**, demostrando que al a√±adir **capa oculta + activaci√≥n no lineal**, el modelo supera las limitaciones del perceptr√≥n simple.

---

### üîπ PyTorch

In [None]:
# ========== PyTorch ==========
import torch, torch.nn as nn, torch.optim as optim

# Dataset en tensores
X_t = torch.tensor(X, dtype=torch.float32)
y_t = torch.tensor(y, dtype=torch.float32).unsqueeze(1)

# Definici√≥n del modelo
model = nn.Sequential(
    nn.Linear(2,4),
    nn.Tanh(),
    nn.Linear(4,1),
    nn.Sigmoid()
)

loss_fn = nn.BCELoss()
opt = optim.SGD(model.parameters(), lr=0.1)

# Entrenamiento
for epoch in range(2000):
    opt.zero_grad()
    y_pred = model(X_t)
    loss = loss_fn(y_pred, y_t)
    loss.backward()
    opt.step()

print("Predicciones XOR (PyTorch):", model(X_t).detach().round().view(-1).numpy())


Vamos a **explicar este bloque PyTorch paso a paso**. El objetivo es mostrar c√≥mo un **MLP simple** con una capa oculta aprende a resolver el problema **XOR**, que el perceptr√≥n cl√°sico no puede.

---

## üì• a. Importaciones

```python
import torch, torch.nn as nn, torch.optim as optim
```

* **torch** ‚Üí librer√≠a principal de tensores.
* **nn** ‚Üí m√≥dulo de redes neuronales (`Linear`, `Tanh`, `Sigmoid`, etc.).
* **optim** ‚Üí optimizadores (`SGD`, Adam, etc.).

---

## üìä b. Dataset en tensores

```python
X_t = torch.tensor(X, dtype=torch.float32)
y_t = torch.tensor(y, dtype=torch.float32).unsqueeze(1)
```

* `X_t`: entradas (matriz de 4 ejemplos √ó 2 features).
* `y_t`: etiquetas, convertidas en vector columna con `.unsqueeze(1)` para que tenga forma `(4,1)`.

  * Necesario porque la red devuelve una salida de 1 neurona.

---

## üß† c. Definici√≥n del modelo

```python
model = nn.Sequential(
    nn.Linear(2,4),   # capa lineal: 2 -> 4
    nn.Tanh(),        # activaci√≥n no lineal
    nn.Linear(4,1),   # capa lineal: 4 -> 1
    nn.Sigmoid()      # salida probabil√≠stica (0 a 1)
)
```

* Es un **MLP con arquitectura 2 ‚Üí 4 ‚Üí 1**.
* `nn.Sequential`: permite encadenar capas.
* `nn.Linear(2,4)`: transforma los 2 inputs en 4 neuronas ocultas.
* `nn.Tanh()`: introduce no linealidad ‚Üí clave para aprender XOR.
* `nn.Linear(4,1)`: capa de salida (1 neurona).
* `nn.Sigmoid()`: convierte el valor a probabilidad en $[0,1]$.

---

## ‚öñÔ∏è d. Funci√≥n de p√©rdida y optimizador

```python
loss_fn = nn.BCELoss()
opt = optim.SGD(model.parameters(), lr=0.1)
```

* `nn.BCELoss()`: **Binary Cross-Entropy**, mide diferencia entre probabilidades predichas y etiquetas (0/1).
* `optim.SGD`: descenso de gradiente estoc√°stico.
* `model.parameters()`: lista de pesos y bias que ser√°n ajustados.

---

## üîÅ e. Loop de entrenamiento

```python
for epoch in range(2000):
    opt.zero_grad()             # 1. Resetear gradientes previos
    y_pred = model(X_t)         # 2. Forward pass
    loss = loss_fn(y_pred, y_t) # 3. Calcular p√©rdida
    loss.backward()             # 4. Backpropagation (gradientes)
    opt.step()                  # 5. Actualizar pesos
```

* Este loop se repite **2000 √©pocas**.
* En cada iteraci√≥n:

  1. Limpia gradientes acumulados.
  2. Pasa entradas por el modelo.
  3. Calcula la p√©rdida.
  4. Calcula gradientes de la p√©rdida respecto a los pesos.
  5. Ajusta los pesos con SGD.

---

## üìà f. Predicciones finales

```python
print("Predicciones XOR (PyTorch):", model(X_t).detach().round().view(-1).numpy())
```

* `model(X_t)`: calcula probabilidades finales.
* `.detach()`: saca el tensor del grafo de gradientes (solo para evaluaci√≥n).
* `.round()`: redondea probabilidades ‚Üí convierte en 0 o 1.
* `.view(-1)`: convierte a vector 1D.
* `.numpy()`: pasa a array de NumPy.

üëâ El resultado esperado es:

```
Predicciones XOR (PyTorch): [0 1 1 0]
```

---

## ‚úÖ Conclusi√≥n

* El perceptr√≥n simple **no resuelve XOR** porque es lineal.
* Con un **MLP (capa oculta + activaci√≥n no lineal)**, PyTorch aprende la separaci√≥n correctamente.
* Este ejemplo muestra expl√≠citamente los pasos de entrenamiento que scikit-learn oculta en `.fit()`.

---



### üîπ TensorFlow / Keras

In [None]:
# ========== Keras / TensorFlow ==========
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
import warnings

# Dataset XOR
X = np.array([[0,0],[0,1],[1,0],[1,1]])
y = np.array([0,1,1,0])

with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    # Definici√≥n del modelo
    model = Sequential([
        Dense(4, input_dim=2, activation="tanh"),
        Dense(1, activation="sigmoid")
    ])
    # Compilaci√≥n
    model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
    # Entrenamiento
    model.fit(X, y, epochs=2000, verbose=0)

    print("Predicciones XOR (Keras):", (model.predict(X) > 0.5).astype(int).ravel())

Vamos a **explicar este bloque paso a paso**. Es el equivalente en **Keras/TensorFlow** al que ya vimos en scikit-learn y PyTorch, para resolver el problema del **XOR**.

---

### üì• a. Importaciones

```python
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
import warnings
```

* **tensorflow** ‚Üí librer√≠a de deep learning de Google.
* **Sequential** ‚Üí modelo secuencial (capas apiladas una detr√°s de otra).
* **Dense** ‚Üí capa totalmente conectada (fully connected).
* **warnings** ‚Üí solo se usa aqu√≠ para silenciar avisos innecesarios al entrenar.

---

### üß† b. Definici√≥n del modelo

```python
model = Sequential([
    Dense(4, input_dim=2, activation="tanh"),
    Dense(1, activation="sigmoid")
])
```

* **Sequential(\[...])**: el modelo tendr√° capas en orden.
* `Dense(4, input_dim=2, activation="tanh")`:

  * Capa oculta con **4 neuronas**.
  * `input_dim=2` ‚Üí dos variables de entrada (los bits del XOR).
  * `activation="tanh"` ‚Üí funci√≥n de activaci√≥n no lineal (clave para resolver XOR).
* `Dense(1, activation="sigmoid")`:

  * Capa de salida con **1 neurona**.
  * `sigmoid` devuelve probabilidad entre 0 y 1.

üëâ Arquitectura: **2 ‚Üí 4 ‚Üí 1** (igual que en PyTorch y scikit-learn).

---

### ‚öñÔ∏è c. Compilaci√≥n del modelo

```python
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
```

* `loss="binary_crossentropy"` ‚Üí funci√≥n de p√©rdida para clasificaci√≥n binaria.
* `optimizer="adam"` ‚Üí descenso de gradiente estoc√°stico.
* `metrics=["accuracy"]` ‚Üí medir√° la accuracy durante entrenamiento.

---

### üîÅ d. Entrenamiento

```python
model.fit(X, y, epochs=2000, verbose=0)
```

* `X` y `y` ‚Üí dataset XOR.
* `epochs=2000` ‚Üí n√∫mero de iteraciones completas sobre los datos.
* `verbose=0` ‚Üí entrena en silencio (sin logs).

üëâ Internamente, Keras hace: forward ‚Üí p√©rdida ‚Üí backpropagation ‚Üí update de pesos (como en PyTorch, pero escondido).

---

### üìà e. Predicciones

```python
print("Predicciones XOR (Keras):", (model.predict(X) > 0.5).astype(int).ravel())
```

* `model.predict(X)` ‚Üí devuelve probabilidades de clase (entre 0 y 1).
* `> 0.5` ‚Üí umbral: si prob > 0.5 ‚Üí clase 1, si no ‚Üí clase 0.
* `.astype(int)` ‚Üí convierte a enteros (0 o 1).
* `.ravel()` ‚Üí aplana a vector 1D.

üëâ Salida esperada:

```
Predicciones XOR (Keras): [0 1 1 0]
```

---

## ‚úÖ Conclusi√≥n

* El **Perceptr√≥n simple** falla en XOR.
* En **Keras**, bastan 2 capas (`Dense(4,tanh)` y `Dense(1,sigmoid)`) para resolverlo.
* Es equivalente a lo que hicimos en scikit-learn y PyTorch, pero con una **API de alto nivel** que facilita el entrenamiento en GPU/TPU y la integraci√≥n en pipelines de producci√≥n.

---


## 9. üìäComparativo visual: scikit-learn vs PyTorch vs Keras (MLP 2‚Üí4‚Üí1)  

```text
                ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
Input (2 bits)  ‚îÇ              ‚îÇ
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ  Capa oculta ‚îÇ  4 neuronas + tanh
                ‚îÇ   (4,tanh)   ‚îÇ
                ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                       ‚îÇ
                       ‚ñº
               ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
               ‚îÇ   Capa salida ‚îÇ  1 neurona + sigmoide
               ‚îÇ   (1,sigmoid) ‚îÇ
               ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                      ‚îÇ
                      ‚ñº
                  Predicci√≥n (0/1)
```

---

### üîπ scikit-learn

```python
MLPClassifier(hidden_layer_sizes=(4,),
              activation="tanh",
              max_iter=3000)
```

* Arquitectura definida con un solo par√°metro (`hidden_layer_sizes`).
* El `.fit(X,y)` es **caja negra** ‚Üí hace forward, backprop y optimizaci√≥n autom√°ticamente.

---

### üîπ PyTorch

```python
nn.Sequential(
    nn.Linear(2,4),
    nn.Tanh(),
    nn.Linear(4,1),
    nn.Sigmoid()
)
```

* Arquitectura expl√≠cita (capas listadas).
* El entrenamiento requiere **loop manual** con forward ‚Üí loss ‚Üí backward ‚Üí step.
* Mucho control, √∫til para investigaci√≥n y personalizaci√≥n.

---

###üîπ Keras / TensorFlow

```python
Sequential([
    Dense(4, input_dim=2, activation="tanh"),
    Dense(1, activation="sigmoid")
])
```

* Definici√≥n de capas parecida a PyTorch.
* `model.fit(X,y,epochs=2000)` entrena autom√°ticamente (alto nivel).
* Compatible con GPU/TPU y despliegue en producci√≥n.



---

## üîë Diferencias Clave

| Aspecto                 | Scikit-learn (`MLPClassifier`) | PyTorch (`nn.Module`)                  | TensorFlow / Keras (`Sequential` / `Functional`)   |
| ----------------------- | ------------------------------ | -------------------------------------- | -------------------------------------------------- |
| Facilidad de uso        | Muy alto (API simple)          | Medio (hay que definir loop)           | Muy alto (API de alto nivel con `fit`)             |
| Flexibilidad            | Limitada (solo MLPs)           | Total (CNNs, RNNs, Transformers, etc.) | Total (CNNs, RNNs, Transformers, etc.)             |
| Entrenamiento en GPU    | ‚ùå No                           | ‚úÖ S√≠                                   | ‚úÖ S√≠ (nativo en GPU/TPU)                           |
| Rapidez para prototipos | ‚úÖ Muy r√°pido                   | ‚ùå M√°s detallado                        | ‚úÖ Muy r√°pido (con `Sequential` o `fit`)            |
| Nivel de control        | Bajo (caja negra)              | Muy alto (bucle manual posible)        | Intermedio (APIs de alto y bajo nivel disponibles) |
| Comunidad/uso en DL     | Acad√©mico, ML cl√°sico          | Investigaci√≥n y prototipos avanzados   | Producci√≥n y despliegue a gran escala              |

---

üëâ As√≠, se ve claro que:

* **Scikit-learn** ‚Üí ideal para prototipar MLPs en problemas tabulares.
* **PyTorch** ‚Üí usado en investigaci√≥n y prototipado avanzado.
* **TensorFlow/Keras** ‚Üí usado masivamente en producci√≥n y despliegue (GPU/TPU, cloud).



---

## 10. Preguntas de discusi√≥n

1. ¬øQu√© muestra el fracaso del perceptr√≥n en XOR sobre la necesidad de MLPs?
2. ¬øCu√°ndo elegir√≠as scikit-learn vs PyTorch vs TensorFlow?
3. ¬øQu√© funci√≥n de activaci√≥n usar√≠as para un problema real de churn?


### 10.1. El fracaso del perceptr√≥n en XOR

El fracaso del perceptr√≥n en el problema XOR demuestra que un modelo lineal simple no puede resolver problemas que no son linealmente separables. El perceptr√≥n, que es un clasificador lineal, solo puede encontrar un hiperplano (una l√≠nea en 2D) que divide los datos en dos clases. El problema XOR no puede ser resuelto con una sola l√≠nea recta, ya que los puntos de datos de la misma clase (los `(0,0)` y `(1,1)`) no se encuentran en un lado del plano y los de la otra clase (`(0,1)` y `(1,0)`) en el otro. Para resolverlo, se necesita una frontera de decisi√≥n no lineal.

Aqu√≠ es donde entran los **MLPs (Multilayer Perceptrons)**. Al usar m√∫ltiples capas de neuronas (capas ocultas), los MLPs pueden combinar las salidas de las neuronas de la capa anterior de manera no lineal, creando as√≠ fronteras de decisi√≥n mucho m√°s complejas. La capacidad de crear una representaci√≥n no lineal de los datos es la raz√≥n por la que los MLPs pueden resolver el problema XOR.

### 10.2. Elecci√≥n de scikit-learn vs PyTorch vs TensorFlow

La elecci√≥n entre estas bibliotecas depende del objetivo y el nivel de control que necesites.

  * **Scikit-learn** es la mejor opci√≥n para la mayor√≠a de los problemas de **machine learning tradicional**. Es una biblioteca de alto nivel, f√°cil de usar y muy eficiente para tareas como regresi√≥n, clasificaci√≥n, clustering y reducci√≥n de dimensionalidad. Es ideal para prototipos r√°pidos y para modelos que no requieren el poder de las redes neuronales profundas. √ösala cuando necesites un modelo de `Random Forest`, `SVM`, `Regresi√≥n Lineal`, etc.

  * **PyTorch** y **TensorFlow** son frameworks de **deep learning**. Se eligen cuando se necesita construir y entrenar redes neuronales complejas. La principal diferencia entre ellos radica en su filosof√≠a de dise√±o:

      * **PyTorch** es conocido por su **naturaleza m√°s `Pythonic` y su curva de aprendizaje m√°s suave**. Utiliza grafos de computaci√≥n din√°micos, lo que lo hace m√°s flexible y f√°cil de depurar. Es muy popular en el √°mbito de la investigaci√≥n y en proyectos donde la experimentaci√≥n r√°pida es clave.
      * **TensorFlow** (especialmente con su API `Keras`) es un framework robusto y de alto rendimiento. Es conocido por su **fuerte soporte para la producci√≥n y el despliegue a gran escala**. Ofrece una amplia gama de herramientas para monitoreo (`TensorBoard`), optimizaci√≥n y despliegue en diferentes plataformas (`TensorFlow Lite`, `TensorFlow.js`). Es una excelente opci√≥n para proyectos empresariales que requieren escalabilidad.



-----



### 10.3. Funci√≥n de activaci√≥n para un problema de churn

Para un problema de **churn (abandono de clientes)**, que es un problema de clasificaci√≥n binaria (el cliente abandona o no abandona), la funci√≥n de activaci√≥n ideal para la **capa de salida** es la funci√≥n **Sigmoide**.

La funci√≥n Sigmoide comprime cualquier valor real en un rango entre 0 y 1. Esto es perfecto para la clasificaci√≥n binaria, ya que la salida de la neurona se puede interpretar directamente como la **probabilidad de que el cliente abandone**. Por ejemplo, una salida de `0.85` podr√≠a significar que hay un 85% de probabilidad de que el cliente abandone.

Para las **capas ocultas**, las funciones de activaci√≥n m√°s comunes y efectivas son **ReLU (Rectified Linear Unit)** o sus variantes (`Leaky ReLU`). Estas funciones ayudan a mitigar el problema del **gradiente desvaneciente** (vanishing gradient problem), permitiendo que la red aprenda de manera m√°s eficiente en capas profundas. Por lo tanto, una arquitectura com√∫n ser√≠a usar **ReLU** en las capas ocultas y **Sigmoide** en la capa de salida.