<a href="https://colab.research.google.com/github/mespealva/numpy/blob/main/latam_final_2_0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##üìå EXTRACCI√ìN

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('/content/df_limpo.csv')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/content/df_limpo.csv'

In [None]:
# Ver las columnas disponibles
df.columns

In [None]:
#verificar la estructura general
df.info()

##üõ†Ô∏è Preparaci√≥n de los Datos


 ‚úîÔ∏è Remover columnas irrelevantes

En la etapa de eliminaci√≥n de columnas irrelevantes, el objetivo es excluir variables que:

* No tienen valor predictivo (ej.: identificadores √∫nicos).
* Son redundantes con otras.
* Pueden causar fuga de datos (*data leakage*).


In [None]:
df = df.drop(columns=['customerID'])

 ‚úîÔ∏è Agrupaci√≥n de No y No service

‚úÖ **Resumen: Por qu√© agrupamos `"No"` y `"No internet service"`**

üéØ **Objetivo**

Reducir **multicolinealidad** y **simplificar los datos** sin perder relevancia para el modelo predictivo.

---

‚ö†Ô∏è **El problema original**

* Variables como `OnlineSecurity`, `StreamingTV`, etc., ten√≠an **tres categor√≠as**:

  * `"Yes"` ‚Üí cliente usa el servicio
  * `"No"` ‚Üí cliente tiene internet, pero no contrat√≥ el servicio
  * `"No internet service"` ‚Üí cliente **ni siquiera tiene internet**, por lo tanto no puede usar el servicio

* Esto generaba **multicolinealidad perfecta** al transformar estas categor√≠as en *dummies*, lo que:

  * Creaba **correlaci√≥n 1.0** entre variables
  * Generaba **VIF infinito**
  * Compromet√≠a la estabilidad y el rendimiento de los modelos

---

‚úÖ **La soluci√≥n: agrupar `"No internet service"` como `"No"`**

* **Agrupamos** `"No internet service"` como `"No"` para simplificar la variable:

  * Ahora: `"Yes"` = usa el servicio
    `"No"` = no usa el servicio (por cualquier motivo)

* Esto **reduce la dimensionalidad** y **evita multicolinealidad**.

* La informaci√≥n de que el cliente **no tiene internet** sigue estando en la variable `InternetService`.

---

üß† **¬øY el impacto?**

* Perdemos un matiz (por qu√© el cliente no usa el servicio), **pero**:

  * Esto rara vez afecta el rendimiento del modelo
  * Ganamos **m√°s robustez, menos ruido y menos redundancia**


In [None]:
# para crear uno nuevo
df_clean = df.copy()

# === Etapa 1: Agrupar "No internet service" como "No"
cols_to_fix = [
    'internet.OnlineSecurity', 'internet.OnlineBackup', 'internet.DeviceProtection',
    'internet.TechSupport', 'internet.StreamingTV', 'internet.StreamingMovies'
]

for col in cols_to_fix:
    df_clean[col] = df_clean[col].replace('No internet service', 'No')

# === Etapa 2: One-hot encoding (sin dummy trap)
categorical_cols = [
       'Churn', 'customer.gender', 'customer.Partner', 'customer.Dependents',
       'phone.PhoneService', 'phone.MultipleLines', 'internet.InternetService',
       'internet.OnlineSecurity', 'internet.OnlineBackup',
       'internet.DeviceProtection', 'internet.TechSupport',
       'internet.StreamingTV', 'internet.StreamingMovies', 'account.Contract',
       'account.PaperlessBilling', 'account.PaymentMethod'
]

df_encoded = pd.get_dummies(df_clean, columns=categorical_cols, drop_first=True)

# ¬°Listo para usar!
df_encoded

In [None]:
df_encoded.info()

‚úîÔ∏è Verificaci√≥n nuevamente de los valores nulos


In [None]:
df_encoded.isnull().sum()

In [None]:
# Verifica valores nulos en las dos columnas
print(df_encoded[['Total.Day', 'account.Charges.Total']].isnull().sum())

In [None]:
# Elimina filas con valores nulos en las columnas especificadas
df_encoded = df_encoded.dropna(subset=['Total.Day', 'account.Charges.Total'])

**Tratamiento de valores nulos**

Al identificar valores nulos en las columnas `Total.Day` y `account.Charges.Total`, es necesario decidir entre **eliminar** o **rellenar** esas entradas.

* **Eliminar filas**: como el n√∫mero de valores nulos es peque√±o (11 filas en m√°s de 7 mil), podemos eliminar esas filas sin afectar el an√°lisis. Esto evita introducir distorsiones en los resultados.

* **Reemplazar por cero**: esta opci√≥n puede usarse cuando el valor nulo representa ausencia de dato o servicio (por ejemplo, ninguna cobranza), pero puede distorsionar promedios y sumas si no es el caso real.

En este proyecto, optamos por **eliminar las filas con valores nulos** por seguridad y simplicidad, asegurando que los datos usados est√©n completos.


In [None]:
df_encoded.isnull().sum()

‚úîÔ∏è Normalizaci√≥n/Estandarizaci√≥n


üîÑ Normalizaci√≥n de los datos

La normalizaci√≥n es un paso com√∫n en el preprocesamiento de datos, especialmente importante para algoritmos que son **sensibles a la escala de los atributos**, como:

* KNN (K-Nearest Neighbors)
* Redes Neuronales
* Regresi√≥n Log√≠stica
* SVM (Support Vector Machine)

Modelos basados en √°rboles (como Decision Tree, Random Forest y XGBoost) **no requieren normalizaci√≥n**, ya que no dependen de la escala de los datos para construir sus reglas de decisi√≥n.

En este proyecto, aplicaremos la **normalizaci√≥n Min-Max**, que transforma los valores al rango **\[0, 1]**. Esto ayuda a garantizar que todas las variables num√©ricas contribuyan de forma equilibrada al modelo.

```python
from sklearn.preprocessing import MinMaxScaler

# Seleccionando solo columnas num√©ricas (excepto la variable target, si ya est√° separada)
colunas_numericas = dados.select_dtypes(include=['int64', 'float64']).columns

# Inicializando el scaler
scaler = MinMaxScaler()

# Aplicando la normalizaci√≥n
dados[colunas_numericas] = scaler.fit_transform(dados[colunas_numericas])

# Mostrando los datos normalizados
dados.head()
```


## ‚â° Correlaci√≥n entre las variables


In [None]:
corr = df_encoded.corr()

In [None]:
import numpy as np # Import the numpy library

fig, ax = plt.subplots(figsize=(20,16))
ax = sns.heatmap(np.round(corr, 2), vmax=1, vmin=-1, center=0,
            square=True, linewidths=.5, annot=True, cbar_kws={"shrink": .5})
plt.show()

In [None]:
```python
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Definir la variable objetivo
target_var = 'Churn_Yes'

# Definir el umbral m√≠nimo de correlaci√≥n absoluta para selecci√≥n
limiar = 0.2

# Filtrar variables que tengan correlaci√≥n absoluta >= umbral con la variable objetivo
# Esto crea una lista con las variables relevantes
variaveis_relevantes = corr.index[abs(corr[target_var]) >= limiar].tolist()

# Asegurar que la variable objetivo est√© en la lista (si no est√°, a√±adirla)
if target_var not in variaveis_relevantes:
    variaveis_relevantes.append(target_var)

# Crear una matriz de correlaci√≥n solo con las variables seleccionadas
corr_filtrada = corr.loc[variaveis_relevantes, variaveis_relevantes]

# Generar una m√°scara para ocultar el tri√°ngulo superior de la matriz (incluida la diagonal)
mascara = np.triu(np.ones_like(corr_filtrada, dtype=bool))

# Graficar el heatmap con la m√°scara aplicada para mejor visualizaci√≥n
plt.figure(figsize=(12,10))
sns.heatmap(
    corr_filtrada,
    annot=True,
    fmt=".2f",
    cmap='coolwarm',
    center=0,
    square=True,
    linewidths=0.5,
    cbar_kws={"shrink": 0.7},
    mask=mascara
)
plt.title(f'Heatmap de variables con correlaci√≥n >= {limiar} con "{target_var}"')
plt.show()
```


**Explicaci√≥n del uso del umbral y de la m√°scara en el heatmap de correlaci√≥n**

Cuando trabajamos con an√°lisis de correlaci√≥n entre muchas variables, la matriz de correlaci√≥n puede volverse muy grande y dif√≠cil de interpretar visualmente. Por ejemplo, si tenemos 50 variables, la matriz tendr√° 50 x 50 = 2500 valores, lo que genera un gr√°fico confuso y poco informativo.

**Uso del umbral para selecci√≥n de variables relevantes**

Para facilitar el an√°lisis, elegimos un **umbral de correlaci√≥n absoluta** respecto a la variable objetivo (en este caso, `"Evasi√≥n"`).

* Este umbral es un valor m√≠nimo para considerar que la correlaci√≥n es relevante o significativa para nuestro an√°lisis.
* Por ejemplo, un umbral de 0.3 significa que solo vamos a mirar variables cuya correlaci√≥n con `"Evasi√≥n"` sea mayor que 0.3 (positiva o negativa).
* Variables con correlaci√≥n por debajo de ese valor tienden a no tener influencia importante o clara sobre la variable objetivo y, por eso, se descartan para esta visualizaci√≥n.
* Esto ayuda a **reducir el n√∫mero de variables**, haciendo el heatmap m√°s legible y enfocado en las relaciones importantes.

> **Nota:** El valor exacto del umbral puede variar seg√∫n el contexto, pero generalmente valores entre 0.2 y 0.5 son buenos puntos de partida para an√°lisis exploratorios.

**Uso de la m√°scara del tri√°ngulo superior (tri√°ngulo invertido)**

La matriz de correlaci√≥n es **sim√©trica** respecto a la diagonal principal:

* El valor en la posici√≥n `(i, j)` es igual al valor en la posici√≥n `(j, i)`.
* Esto significa que el heatmap muestra informaci√≥n repetida en el tri√°ngulo superior e inferior de la matriz.

Para mejorar la claridad del gr√°fico, aplicamos una **m√°scara para ocultar el tri√°ngulo superior (incluyendo la diagonal)**, dejando visible solo el tri√°ngulo inferior.

Esto trae las siguientes ventajas:

* **Evita redundancia visual**, mostrando cada par de variables una √∫nica vez.
* **Hace el gr√°fico m√°s limpio y f√°cil de interpretar.**
* Ayuda a destacar las correlaciones importantes sin confusi√≥n.

**¬øPor qu√© esta aproximaci√≥n es adecuada para nuestro problema?**

* Nuestro foco es entender qu√© variables tienen mayor correlaci√≥n con la variable objetivo `"Evasi√≥n"`.
* Filtrando por las variables m√°s relevantes, obtenemos un subconjunto manejable.
* Mostrando solo el tri√°ngulo inferior de la matriz filtrada, podemos visualizar claramente esas correlaciones y las interrelaciones entre estas variables, sin contaminaci√≥n visual.
* Esta t√©cnica facilita la comunicaci√≥n de resultados y el direccionamiento de an√°lisis futuros.


---

‚úÖ **An√°lisis del nuevo heatmap de correlaci√≥n**

> Recordando que el gr√°fico muestra **correlaciones ‚â• 0.2** (o ‚â§ -0.2) con la variable objetivo `Churn_Yes`.

---

üîç **Correlaci√≥n con `Churn_Yes` (variable objetivo)**

| Variable                                 | Correlaci√≥n con Churn\_Yes | Interpretaci√≥n                                                                                                               |
| ---------------------------------------- | -------------------------- | ---------------------------------------------------------------------------------------------------------------------------- |
| `internet.InternetService_Fiber optic`   | **+0.31**                  | Clientes con fibra √≥ptica tienen **mayor probabilidad de churn**. Puede estar relacionado al costo o a la competitividad.    |
| `account.PaymentMethod_Electronic check` | **+0.30**                  | Pagos por cheque electr√≥nico est√°n asociados a m√°s churn ‚Äî quiz√°s por perfil de cliente menos fidelizado.                    |
| `account.Contract_Two year`              | **-0.30**                  | Contratos de 2 a√±os reducen el churn (clientes m√°s comprometidos o con beneficios)                                           |
| `customer.tenure`                        | **-0.35**                  | Cuanto mayor el tiempo como cliente, menor la probabilidad de churn ‚Äî esperado                                               |
| `internet.InternetService_No`            | **-0.23**                  | Quienes **no usan internet** tienden a churnar menos ‚Äî posiblemente perfiles m√°s estables (adultos mayores, menos digitales) |


## üîç An√°lisis de Multicolinealidad


2. **Usar an√°lisis del Factor de Inflaci√≥n de la Varianza (VIF):**

* El VIF ayuda a detectar la presencia de multicolinealidad entre variables independientes.
* Generalmente, **VIF > 5** o **VIF > 10** indica que la variable est√° colineal con otras y puede ser eliminada.


‚úÖ **¬øCu√°ndo es v√°lido calcular el VIF?**

Puedes (y debes) calcular el VIF si:

1. **Vas a usar modelos lineales** (ej.: regresi√≥n log√≠stica, regresi√≥n lineal)
2. **Quieres interpretar los coeficientes** con claridad (la multicolinealidad distorsiona signos y magnitudes)
3. **Quieres garantizar estabilidad en el modelo**

---

‚ùå ¬øCu√°ndo puedes saltarte el VIF (o postergarlo)?

* Si vas a usar **modelos no lineales**, como:

  * √Årboles de decisi√≥n
  * Random Forest
  * XGBoost
  * Redes neuronales

* Estos modelos **no son sensibles a la multicolinealidad**.

---

‚úÖ Conclusi√≥n final

| Pregunta                                           | Respuesta                                             |
| -------------------------------------------------- | ----------------------------------------------------- |
| ¬øEl nuevo heatmap muestra multicolinealidad grave? | **No**                                                |
| ¬øNecesito calcular el VIF obligatoriamente?        | **No, pero es recomendable si usas modelos lineales** |
| ¬øVale la pena como verificaci√≥n extra?             | **S√≠, especialmente si el modelo es interpretativo**  |

---

Si vas a seguir con regresi√≥n log√≠stica, por ejemplo, **recomendar√≠a calcular el VIF**.


1. Importar las bibliotecas necesarias


In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

2. Seleccionar las variables independientes


In [None]:
# Aqu√≠, no incluyas la variable objetivo (ej: Churn\_Yes) en el c√°lculo del VIF.
X = df_encoded.drop(columns=['Churn_Yes'])

3. A√±adir constante (intercepto)

In [None]:
X_const = add_constant(X)

4. Calcular el VIF

In [None]:
# Convert boolean columns to integers (0 or 1)
X_const = X_const.astype(float)

# Calcular el VIF
vif_data = pd.DataFrame()
vif_data["feature"] = X_const.columns
vif_data["VIF"] = [variance_inflation_factor(X_const.values, i) for i in range(X_const.shape[1])]

# Mostrar resultado
display(vif_data.sort_values(by='VIF', ascending=False))

‚úÖ **Resumen general del an√°lisis VIF**

| Rango de VIF       | Interpretaci√≥n                |
| ------------------ | ----------------------------- |
| VIF ‚âà 1            | Sin multicolinealidad         |
| 1 < VIF < 5        | Baja (aceptable)              |
| 5 ‚â§ VIF < 10       | Moderada (vigilar)            |
| VIF ‚â• 10           | Alta (¬°atenci√≥n!)             |
| VIF = ‚àû (infinito) | Multicolinealidad perfecta ‚ö†Ô∏è |

---

üîç **Principales alertas en tu resultado**

‚ùóÔ∏è 1. `phone.PhoneService_Yes` y `phone.MultipleLines_No phone service` ‚Üí VIF = `inf`

Estas dos variables **siguen siendo perfectamente colineales entre s√≠** o con otra variable.

üîç Causa probable:

* Ambas provienen de **la misma variable categ√≥rica original** (`PhoneService`), y el encoding gener√≥ **redundancia**.
* Si el cliente **no tiene tel√©fono**, no puede tener m√∫ltiples l√≠neas ‚áí valores 100% ligados.

üìå **Soluci√≥n recomendada:**

* **Elimina una de estas columnas.** Por ejemplo:

  ```python
  df.drop(columns=["phone.PhoneService_Yes"], inplace=True)
  ```
* O rehacer el encoding con `drop_first=True` para simplificar la estructura.

---

‚ùóÔ∏è 2. `account.Charges.Monthly` ‚Üí VIF = **813.86**

* Esto es extremadamente alto.
* Esta variable est√° **altamente correlacionada con `account.Charges.Total` y `Total.Day`**.

üìå **Soluci√≥n:**

* Verifica si `Charges.Monthly`, `Charges.Total` y `Total.Day` contienen **informaci√≥n repetida** (ej.: `Total = Monthly * tenure`).
* Si es as√≠, **elimina una o dos de estas columnas** para evitar redundancia.

---

‚ö†Ô∏è 3. Otros VIFs altos (moderados a severos)

| Variable                          | VIF       | Comentario                                  |
| --------------------------------- | --------- | ------------------------------------------- |
| `InternetService_Fiber optic`     | 137.9     | Altamente colineal con `InternetService_No` |
| `InternetService_No`              | 96.9      | Mismo motivo anterior                       |
| `StreamingTV` / `StreamingMovies` | 22.4‚Äì22.5 | Dependen directamente de tener internet     |
| `Charges.Total`                   | 10.8      | Relacionado con `Monthly` y `tenure`        |

üìå **Soluciones combinadas:**

* Mantener **solo una** de las variables entre `InternetService_Fiber optic`, `InternetService_No` o usar `drop_first=True`.
* Evaluar si es necesario mantener **todas** las variables derivadas de internet (streaming, seguridad, etc.).
* Verificar si `Charges.Total` puede ser **recalculado**, si ya existen `Monthly` y `tenure`.


**VIF REHECHO**

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor
import statsmodels.api as sm

# ====== Etapa 1: Copiar X original para n√£o modificar o original ======
X_filtered = X_const.copy()

# ====== Etapa 2: Remover vari√°veis com multicolinearidade perfeita (VIF = inf) ======
cols_to_drop = [
    "phone.PhoneService_Yes",               # Altamente colinear com "MultipleLines"
    "phone.MultipleLines_No phone service"  # Redundante com aus√™ncia de telefone
]
X_filtered.drop(columns=cols_to_drop, inplace=True)

# ====== Etapa 3: Remover redund√¢ncias fortes entre vari√°veis num√©ricas ======
# Se 'Total.Day' e 'Charges.Total' s√£o derivados de 'Monthly' e 'tenure', mantemos s√≥ um
X_filtered.drop(columns=["Total.Day"], inplace=True)

# ====== Etapa 4: Remover redund√¢ncia entre dummies da mesma vari√°vel categ√≥rica ======
# Se usou get_dummies sem drop_first, voc√™ tem dummies redundantes para InternetService
X_filtered.drop(columns=["internet.InternetService_No"], inplace=True)

# ====== Etapa 5: Garantir que os dados est√£o em float para o VIF funcionar ======
X_filtered = X_filtered.astype(float)

# ====== Etapa 6: Recalcular o VIF ======
vif_data = pd.DataFrame()
vif_data["feature"] = X_filtered.columns
vif_data["VIF"] = [variance_inflation_factor(X_filtered.values, i) for i in range(X_filtered.shape[1])]

# ====== Etapa 7: Exibir os resultados ======
display(vif_data.sort_values(by="VIF", ascending=False))

‚úÖ An√°lisis del nuevo VIF

| Rango de VIF | Interpretaci√≥n                      |
| ------------ | ----------------------------------- |
| VIF ‚âà 1      | Sin multicolinealidad (√≥ptimo)      |
| 1 < VIF ‚â§ 5  | Baja (aceptable)                    |
| 5 < VIF ‚â§ 10 | Moderada (vigilar)                  |
| VIF > 10     | Alta (atenci√≥n o posible exclusi√≥n) |

---

üîç Puntos importantes en tu resultado:

| Variable                  | VIF     | Observaciones                                                                               |
| ------------------------- | ------- | ------------------------------------------------------------------------------------------- |
| `account.Charges.Monthly` | 18.17   | A√∫n con multicolinealidad alta ‚Äî puede estar correlacionada con `Charges.Total` y `tenure`. |
| `account.Charges.Total`   | 10.71   | Justo en el l√≠mite ‚Äî posible redundancia con `Monthly` y `tenure`                           |
| `const`                   | 35.88   | **Normal** para la constante (`const`) ‚Äî se puede ignorar                                   |
| Resto                     | 1.0‚Äì7.5 | Todos con VIF **aceptable u √≥ptimo** ‚úîÔ∏è                                                     |

---

‚úÖ Conclusi√≥n pr√°ctica

* ‚úÖ **La multicolinealidad cr√≠tica fue resuelta** (sin `inf`, sin redundancia perfecta)
* ‚ö†Ô∏è **Solo `Charges.Monthly` y `Charges.Total` siguen colineales entre s√≠** ‚Äî esto ya era esperado

---

üîß ¬øQu√© puedes hacer ahora?

Opci√≥n 1 ‚Äì **Seguir con el modelo como est√°**

Si el modelo es robusto (como √°rbol, XGBoost, etc.) y **no necesitas interpretar los coeficientes**, puedes dejarlo as√≠.

> La multicolinealidad solo afecta modelos **lineales interpretables**.

---

Opci√≥n 2 ‚Äì **Eliminar una de las dos variables (`Monthly` o `Total`)**

Si quieres **reducir el VIF y simplificar**, puedes mantener **solo una** de ellas:

```python
# Ejemplo: mantener solo Charges.Monthly
X_filtered.drop(columns=["account.Charges.Total"], inplace=True)
```

Luego solo recalcula el VIF para confirmar que el problema desaparece.


**VIF 2**

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

# === Eliminar la variable account.Charges.Total ===
X_final = X_filtered.drop(columns=["account.Charges.Total"])

# === Recalcular el VIF ===
vif_data_final = pd.DataFrame()
vif_data_final["feature"] = X_final.columns
vif_data_final["VIF"] = [variance_inflation_factor(X_final.values, i) for i in range(X_final.shape[1])]

# === Mostrar los resultados ordenados ===
display(vif_data_final.sort_values(by="VIF", ascending=False))


## ü§ñ Modelos Predictivos


Importaci√≥n de las bibliotecas

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score

 Separar features y target

In [None]:
X = df_encoded.drop(columns=['Churn_Yes'])
y = df_encoded['Churn_Yes']

Dividir entrenamiento y prueba


In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)


**Normalizar**

* Vamos a entrenar Regresi√≥n Log√≠stica, que se beneficia de la normalizaci√≥n. Por eso, normalizamos los datos para este modelo.

* En cambio, Random Forest no necesita normalizaci√≥n ‚Äî pero como estamos usando los mismos datos para ambos modelos, los normalizamos para mantener consistencia y simplicidad.


In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

**Balancear entrenamiento con SMOTE**

Porque ya verificamos anteriormente que la proporci√≥n de churn estaba desbalanceada.


In [None]:
smote = SMOTE(random_state=42)
X_train_bal, y_train_bal = smote.fit_resample(X_train_scaled, y_train)

**Regresi√≥n Log√≠stica**


In [None]:
```python
# Instanciar y entrenar
lr = LogisticRegression(random_state=42)
lr.fit(X_train_bal, y_train_bal)

# Predicciones
y_pred_lr = lr.predict(X_test_scaled)
y_prob_lr = lr.predict_proba(X_test_scaled)[:, 1]

# Evaluaci√≥n
print("Regresi√≥n Log√≠stica")
print("Exactitud:", accuracy_score(y_test, y_pred_lr))
print("ROC AUC:", roc_auc_score(y_test, y_prob_lr))
print("Matriz de Confusi√≥n:\n", confusion_matrix(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr))
```


**Random Forest**

In [None]:
```python
# Instanciar y entrenar
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train_bal, y_train_bal)

# Predicciones
y_pred_rf = rf.predict(X_test_scaled)
y_prob_rf = rf.predict_proba(X_test_scaled)[:, 1]

# Evaluaci√≥n
print("Random Forest")
print("Exactitud:", accuracy_score(y_test, y_pred_rf))
print("ROC AUC:", roc_auc_score(y_test, y_prob_rf))
print("Matriz de Confusi√≥n:\n", confusion_matrix(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))
```
