<a href="https://colab.research.google.com/github/srJboca/segmentacion/blob/main/4.%20Prediccion%20con%20PCA%20-%202.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tutorial: Modelo de Predicción de Mora con PCA

## Introducción

Este notebook demuestra el proceso de construcción de un modelo de predicción para la variable 'Mora' (incumplimiento de pago). Un aspecto clave de este tutorial es el uso del Análisis de Componentes Principales (PCA) para la reducción de dimensionalidad antes de entrenar un modelo RandomForestClassifier. Además, el notebook ilustra un proceso iterativo de modelado, donde se identifica y corrige un problema común de fuga de datos (data leakage), lo cual es una lección importante en la práctica de la ciencia de datos.

**Pasos del Tutorial:**
1.  Configuración inicial y carga de datos.
2.  Preparación de datos y selección inicial de características.
3.  Primer intento de modelado con PCA, que revelará un problema de fuga de datos.
4.  Segundo intento de modelado, corrigiendo la fuga de datos y aplicando PCA nuevamente.
5.  Estimación de la importancia de las características originales después de la aplicación de PCA.

A través de estos pasos, veremos cómo se puede refinar un modelo y la importancia de una cuidadosa selección y preparación de características.

## 1. Configuración Inicial y Carga de Datos

### 1.1 Importación de Librerías Necesarias
Comenzamos importando las librerías que se utilizarán para la manipulación de datos, visualización, preprocesamiento y modelado.

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

### 1.2 Carga del Dataset
Descargamos y cargamos el dataset `df_analisis.parquet`, que contiene los datos preprocesados de facturación y clientes de un notebook anterior.

In [2]:
!wget -N https://github.com/srJboca/segmentacion/raw/refs/heads/main/archivos/df_analisis.parquet
df_analisis = pd.read_parquet('df_analisis.parquet')

--2025-06-03 03:49:38--  https://github.com/srJboca/segmentacion/raw/refs/heads/main/archivos/df_analisis.parquet
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/srJboca/segmentacion/refs/heads/main/archivos/df_analisis.parquet [following]
--2025-06-03 03:49:38--  https://raw.githubusercontent.com/srJboca/segmentacion/refs/heads/main/archivos/df_analisis.parquet
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.109.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 75105565 (72M) [application/octet-stream]
Saving to: ‘df_analisis.parquet’


Last-modified header missing -- time-stamps turned off.
2025-06-03 03:49:44 (56.4 MB/s) - ‘df_analisis.parquet

## 2. Preparación de Datos para la Predicción

El título original de esta sección era "# Exploración de los datos", pero dado el contenido, se enfoca más en la preparación para la predicción.

In [3]:
# df_analisis = pd.read_parquet('df_analisis.parquet') # Ya cargado arriba
# Visualización inicial para recordar la estructura
print("--- Primeras filas de df_analisis ---")
print(df_analisis.head())
df_analisis.info()

--- Primeras filas de df_analisis ---
                      Numero de factura                    Numero de contrato  \
0  886199bb-77c8-43e2-86a0-a53348fa2706  ba70b7fa-aef4-492a-9d45-13a0c63ce47c   
1  886199bb-77c8-43e2-86a0-a53348fa2706  ba70b7fa-aef4-492a-9d45-13a0c63ce47c   
2  6848b692-4212-4738-a35c-1f8c0d383e3d  ba70b7fa-aef4-492a-9d45-13a0c63ce47c   
3  ad91361e-9b8d-491e-bef9-e690e9b28faf  ba70b7fa-aef4-492a-9d45-13a0c63ce47c   
4  e77f7ac6-734b-4856-a5c3-1a32d845e6b6  ba70b7fa-aef4-492a-9d45-13a0c63ce47c   

  Fecha de Emision  Consumo (m3) Fecha de Pago Oportuno Fecha de Lectura  \
0       2021-01-06         11.51             2021-01-19       2020-12-28   
1       2021-01-06         11.51             2021-01-19       2020-12-28   
2       2021-03-02         10.26             2021-03-17       2021-02-20   
3       2021-04-01         14.96             2021-04-11       2021-03-27   
4       2021-05-10         14.89             2021-05-21       2021-05-05   

  Fecha de Suspens

### 2.1 Selección Inicial de Características
El notebook original titula esta sección "# Ejercicios de prediccion con PCA".
Se selecciona un subconjunto de columnas de `df_analisis` para crear `df_prediccion`. Es importante notar que en esta selección inicial se incluye `Dias_PagoOportuno_PagoReal`, una variable que está directamente relacionada con la definición de `Mora`.

In [4]:
df_prediccion = df_analisis[['Numero de factura', 'Consumo (m3)', 'Estrato', 'Precio por Consumo', 'Dias_Emision_PagoOportuno', 'Dias_Lectura_Emision', 'Dias_PagoOportuno_PagoReal', 'Mora']]
print("--- df_prediccion (primeras filas después de selección inicial) ---")
print(df_prediccion.head())

--- df_prediccion (primeras filas después de selección inicial) ---
                      Numero de factura  Consumo (m3)    Estrato  \
0  886199bb-77c8-43e2-86a0-a53348fa2706         11.51  Estrato 1   
1  886199bb-77c8-43e2-86a0-a53348fa2706         11.51  Estrato 1   
2  6848b692-4212-4738-a35c-1f8c0d383e3d         10.26  Estrato 1   
3  ad91361e-9b8d-491e-bef9-e690e9b28faf         14.96  Estrato 1   
4  e77f7ac6-734b-4856-a5c3-1a32d845e6b6         14.89  Estrato 1   

   Precio por Consumo  Dias_Emision_PagoOportuno  Dias_Lectura_Emision  \
0             6767.88                         13                     9   
1             6767.88                         13                     9   
2             6032.88                         15                    10   
3             9529.52                         10                     5   
4             9484.93                         11                     5   

   Dias_PagoOportuno_PagoReal  Mora  
0                          -4     0  
1 

### 2.2 Preprocesamiento Básico de Características
A continuación, se realizan varias tareas de preprocesamiento:
- Se elimina la columna 'Numero de factura', ya que es un identificador y no una característica predictiva.
- La columna 'Estrato' se convierte de un formato de texto (ej. "Estrato 1") a un valor numérico entero.
- Los valores faltantes (NaN) en el DataFrame se rellenan con la media de sus respectivas columnas.

In [5]:
df_prediccion_ml = df_prediccion.drop('Numero de factura', axis=1).copy() # Se usa .copy() para evitar SettingWithCopyWarning

# Convertir 'Estrato' a numérico ordinal
if df_prediccion_ml['Estrato'].dtype == 'object' or isinstance(df_prediccion_ml['Estrato'].dtype, pd.CategoricalDtype):
    df_prediccion_ml['Estrato'] = df_prediccion_ml['Estrato'].str.replace('Estrato ', '', regex=False).astype(int)
else:
    df_prediccion_ml['Estrato'] = df_prediccion_ml['Estrato'].astype(int)

# Imputar NaNs con la media de cada columna
for col in df_prediccion_ml.columns:
    if df_prediccion_ml[col].isnull().any():
        df_prediccion_ml[col].fillna(df_prediccion_ml[col].mean(), inplace=True)

print("--- df_prediccion_ml después de preprocesamiento básico (primeras filas) ---")
print(df_prediccion_ml.head())
print("\n--- Verificación de NaNs restantes ---")
print(df_prediccion_ml.isnull().sum())

--- df_prediccion_ml después de preprocesamiento básico (primeras filas) ---
   Consumo (m3)  Estrato  Precio por Consumo  Dias_Emision_PagoOportuno  \
0         11.51        1             6767.88                         13   
1         11.51        1             6767.88                         13   
2         10.26        1             6032.88                         15   
3         14.96        1             9529.52                         10   
4         14.89        1             9484.93                         11   

   Dias_Lectura_Emision  Dias_PagoOportuno_PagoReal  Mora  
0                     9                          -4     0  
1                     9                          -4     0  
2                    10                          -1     0  
3                     5                          -6     0  
4                     5                         -10     0  

--- Verificación de NaNs restantes ---
Consumo (m3)                  0
Estrato                       0
Precio p

## 3. Modelado con PCA - Primer Intento (Ilustrando Fuga de Datos)

En este primer intento, construiremos un modelo utilizando las características preparadas, incluyendo `Dias_PagoOportuno_PagoReal`. Como se mencionó, esto probablemente resultará en una fuga de datos.

### 3.1 Definición de Características (X) y Variable Objetivo (y)

In [6]:
X_leak = df_prediccion_ml.drop('Mora', axis=1)
y_leak = df_prediccion_ml['Mora']

print("--- Características X_leak (primeras filas) ---")
print(X_leak.head())
print("\n--- Variable objetivo y_leak (primeras filas) ---")
print(y_leak.head())

--- Características X_leak (primeras filas) ---
   Consumo (m3)  Estrato  Precio por Consumo  Dias_Emision_PagoOportuno  \
0         11.51        1             6767.88                         13   
1         11.51        1             6767.88                         13   
2         10.26        1             6032.88                         15   
3         14.96        1             9529.52                         10   
4         14.89        1             9484.93                         11   

   Dias_Lectura_Emision  Dias_PagoOportuno_PagoReal  
0                     9                          -4  
1                     9                          -4  
2                    10                          -1  
3                     5                          -6  
4                     5                         -10  

--- Variable objetivo y_leak (primeras filas) ---
0    0
1    0
2    0
3    0
4    0
Name: Mora, dtype: int64


### 3.2 Escalado de Características
Antes de aplicar PCA, es crucial escalar las características para que todas tengan una media de 0 y una desviación estándar de 1. Esto asegura que las características con magnitudes mayores no dominen el análisis de componentes principales.

In [7]:
scaler_leak = StandardScaler()
X_scaled_leak = scaler_leak.fit_transform(X_leak)

print("--- X_scaled_leak (primeras 5 filas de características escaladas) ---")
print(pd.DataFrame(X_scaled_leak, columns=X_leak.columns).head())

--- X_scaled_leak (primeras 5 filas de características escaladas) ---
   Consumo (m3)   Estrato  Precio por Consumo  Dias_Emision_PagoOportuno  \
0     -0.228758 -1.173305           -1.024588                   0.293913   
1     -0.228758 -1.173305           -1.024588                   0.293913   
2     -0.517315 -1.173305           -1.104680                   1.464782   
3      0.567660 -1.173305           -0.723656                  -1.462391   
4      0.551500 -1.173305           -0.728515                  -0.876957   

   Dias_Lectura_Emision  Dias_PagoOportuno_PagoReal  
0              0.879353                   -0.606847  
1              0.879353                   -0.606847  
2              1.464965                   -0.243007  
3             -1.463097                   -0.849407  
4             -1.463097                   -1.334527  


### 3.3 Aplicación de PCA
Aplicamos PCA para reducir la dimensionalidad del conjunto de datos. Se configura `n_components=0.95`, lo que significa que PCA seleccionará el número mínimo de componentes principales que logren explicar al menos el 95% de la varianza en los datos escalados.

In [8]:
pca_leak = PCA(n_components=0.95)
X_pca_leak = pca_leak.fit_transform(X_scaled_leak)

print(f"Número de componentes seleccionados por PCA (con leakage): {pca_leak.n_components_}")
print(f"Varianza explicada por cada componente: {pca_leak.explained_variance_ratio_}")
print(f"Varianza explicada acumulada: {pca_leak.explained_variance_ratio_.sum():.4f}")
print("\n--- X_pca_leak (primeras 5 filas de componentes principales) ---")
print(pd.DataFrame(X_pca_leak).head())

Número de componentes seleccionados por PCA (con leakage): 5
Varianza explicada por cada componente: [0.28844036 0.16700398 0.1667819  0.16652381 0.16645021]
Varianza explicada acumulada: 0.9552

--- X_pca_leak (primeras 5 filas de componentes principales) ---
          0         1         2         3         4
0 -1.316445  0.695379  0.305548 -1.170526 -0.093741
1 -1.316445  0.695379  0.305548 -1.170526 -0.093741
2 -1.544456  1.634697  1.179591 -0.839910  0.245958
3 -0.630377 -1.096210 -2.032761 -1.123220  0.278516
4 -0.643859 -1.054806 -1.592973 -1.418787  0.822259


### 3.4 División en Conjuntos de Entrenamiento y Prueba

In [9]:
X_train_pca_leak, X_test_pca_leak, y_train_leak, y_test_leak = train_test_split(
    X_pca_leak, y_leak, test_size=0.2, random_state=42, stratify=y_leak
)

print(f"Dimensiones de X_train_pca_leak: {X_train_pca_leak.shape}")
print(f"Dimensiones de X_test_pca_leak: {X_test_pca_leak.shape}")

Dimensiones de X_train_pca_leak: (1920000, 5)
Dimensiones de X_test_pca_leak: (480000, 5)


### 3.5 Entrenamiento y Evaluación del Modelo RandomForest (Intento 1)
Se entrena un RandomForestClassifier utilizando los componentes principales. El parámetro `class_weight='balanced'` se usa para manejar el posible desbalance de clases en la variable 'Mora'.

In [10]:
model_leak = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')
model_leak.fit(X_train_pca_leak, y_train_leak)

y_pred_leak = model_leak.predict(X_test_pca_leak)

print("--- Evaluación del Modelo (Intento 1 - con posible leakage) ---")
print(f"Accuracy: {accuracy_score(y_test_leak, y_pred_leak):.4f}")
print("\nClassification Report:\n", classification_report(y_test_leak, y_pred_leak))
print("\nConfusion Matrix:\n", confusion_matrix(y_test_leak, y_pred_leak))

--- Evaluación del Modelo (Intento 1 - con posible leakage) ---
Accuracy: 1.0000

Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00    359928
           1       1.00      1.00      1.00    120072

    accuracy                           1.00    480000
   macro avg       1.00      1.00      1.00    480000
weighted avg       1.00      1.00      1.00    480000


Confusion Matrix:
 [[359928      0]
 [    18 120054]]


**Análisis del Intento 1:**
Como se puede observar en la salida (que el notebook original generó con una accuracy de 1.0 y un reporte de clasificación perfecto), el modelo parece predecir la 'Mora' perfectamente. Esto es una fuerte indicación de **fuga de datos**, causada por la inclusión de la variable `Dias_PagoOportuno_PagoReal` que está directamente relacionada con cómo se calcula la 'Mora'.

# Segunda prueba sin la variable Dias_PagoOportuno_PagoReal

## 4. Modelado con PCA - Segundo Intento (Corrigiendo Fuga de Datos)

En este segundo intento, eliminaremos la variable `Dias_PagoOportuno_PagoReal` para construir un modelo más robusto y realista.

### 4.1 Preparación de Datos Sin Fuga de Datos

In [11]:
# Reutilizamos df_prediccion_ml que ya tiene 'Estrato' convertido y NaNs imputados,
# pero esta vez eliminamos 'Dias_PagoOportuno_PagoReal'
df_prediccion_ml_sin_leak = df_prediccion_ml.drop('Dias_PagoOportuno_PagoReal', axis=1)

X_sin_leak = df_prediccion_ml_sin_leak.drop('Mora', axis=1)
y_sin_leak = df_prediccion_ml_sin_leak['Mora']

print("--- Características X_sin_leak (primeras filas) ---")
print(X_sin_leak.head())

--- Características X_sin_leak (primeras filas) ---
   Consumo (m3)  Estrato  Precio por Consumo  Dias_Emision_PagoOportuno  \
0         11.51        1             6767.88                         13   
1         11.51        1             6767.88                         13   
2         10.26        1             6032.88                         15   
3         14.96        1             9529.52                         10   
4         14.89        1             9484.93                         11   

   Dias_Lectura_Emision  
0                     9  
1                     9  
2                    10  
3                     5  
4                     5  


### 4.2 Escalado de Características y Aplicación de PCA (Sin Fuga)

In [12]:
scaler_sin_leak = StandardScaler()
X_scaled_sin_leak = scaler_sin_leak.fit_transform(X_sin_leak)

pca_sin_leak = PCA(n_components=0.95)
X_pca_sin_leak = pca_sin_leak.fit_transform(X_scaled_sin_leak)

print(f"Número de componentes seleccionados por PCA (sin leakage): {pca_sin_leak.n_components_}")
print(f"Varianza explicada acumulada (sin leakage): {pca_sin_leak.explained_variance_ratio_.sum():.4f}")
print("\n--- X_pca_sin_leak (primeras 5 filas de componentes principales) ---")
print(pd.DataFrame(X_pca_sin_leak).head())

Número de componentes seleccionados por PCA (sin leakage): 5
Varianza explicada acumulada (sin leakage): 1.0000

--- X_pca_sin_leak (primeras 5 filas de componentes principales) ---
          0         1         2         3         4
0 -1.316168  1.094917 -0.443476 -0.439158 -0.133146
1 -1.316168  1.094917 -0.443476 -0.439158 -0.133146
2 -1.544346  2.176887  0.178549 -0.013738 -0.019409
3 -0.629988 -1.390291 -2.004090 -0.054984 -0.390648
4 -0.643248 -1.009708 -1.846525  0.361113 -0.384578


### 4.3 División en Conjuntos de Entrenamiento y Prueba (Sin Fuga)

In [13]:
X_train_pca_sin_leak, X_test_pca_sin_leak, y_train_sin_leak, y_test_sin_leak = train_test_split(
    X_pca_sin_leak, y_sin_leak, test_size=0.2, random_state=42, stratify=y_sin_leak
)

print(f"Dimensiones de X_train_pca_sin_leak: {X_train_pca_sin_leak.shape}")
print(f"Dimensiones de X_test_pca_sin_leak: {X_test_pca_sin_leak.shape}")

Dimensiones de X_train_pca_sin_leak: (1920000, 5)
Dimensiones de X_test_pca_sin_leak: (480000, 5)


### 4.4 Entrenamiento y Evaluación del Modelo RandomForest (Intento 2 - Sin Fuga)

In [None]:
model_sin_leak = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')
model_sin_leak.fit(X_train_pca_sin_leak, y_train_sin_leak)

y_pred_sin_leak = model_sin_leak.predict(X_test_pca_sin_leak)

print("--- Evaluación del Modelo (Intento 2 - sin leakage) ---")
print(f"Accuracy: {accuracy_score(y_test_sin_leak, y_pred_sin_leak):.4f}")
print("\nClassification Report:\n", classification_report(y_test_sin_leak, y_pred_sin_leak))

cm_sin_leak = confusion_matrix(y_test_sin_leak, y_pred_sin_leak)
print("\nConfusion Matrix:\n", cm_sin_leak)

# Visualización de la Matriz de Confusión
plt.figure(figsize=(8, 6))
sns.heatmap(cm_sin_leak, annot=True, fmt='d', cmap='Blues',
            xticklabels=['No Mora (0)', 'Mora (1)'], yticklabels=['No Mora (0)', 'Mora (1)'])
plt.xlabel('Predicción')
plt.ylabel('Valor Real')
plt.title('Matriz de Confusión (Modelo sin Fuga de Datos y con PCA)')
plt.show()

**Análisis del Intento 2:**
Al eliminar la variable que causaba la fuga de datos, el modelo ahora produce métricas de rendimiento más realistas. El accuracy y otras métricas (precision, recall, F1-score) reflejan mejor la capacidad del modelo para generalizar a datos no vistos.

## 5. Estimación de la Importancia de las Características Originales Después de PCA

Dado que el modelo RandomForest se entrenó con los componentes principales, no obtenemos directamente la importancia de las características originales. Sin embargo, podemos estimarla examinando cómo cada característica original contribuye a los componentes principales y cómo estos componentes, a su vez, son importantes para el modelo.

In [None]:
# Importancia de los componentes principales según el modelo RandomForest
pca_component_importances = model_sin_leak.feature_importances_

# Loadings: indican la contribución de cada característica original a cada componente principal.
# pca_sin_leak.components_ tiene forma (n_components, n_original_features)
original_feature_loadings_abs = np.abs(pca_sin_leak.components_)

# Ponderar la contribución de cada característica a un componente por la importancia de ese componente
weighted_loadings = original_feature_loadings_abs * pca_component_importances[:, np.newaxis]

# Sumar las contribuciones ponderadas a través de todos los componentes para cada característica original
estimated_original_feature_importances = weighted_loadings.sum(axis=0)

# Normalizar para que la suma total sea 1 (opcional, para facilitar la comparación)
estimated_original_feature_importances_normalized = estimated_original_feature_importances / estimated_original_feature_importances.sum()

feature_names_sin_leak = X_sin_leak.columns
importance_df = pd.DataFrame({
    'Feature': feature_names_sin_leak,
    'Estimated_Importance': estimated_original_feature_importances_normalized
}).sort_values(by='Estimated_Importance', ascending=False)

print("--- Importancia Estimada de Características Originales (Post-PCA) ---")
print(importance_df)

plt.figure(figsize=(10, 7))
sns.barplot(x='Estimated_Importance', y='Feature', data=importance_df, palette='viridis')
plt.title('Importancia Estimada de Características Originales (Post-PCA)')
plt.show()

**Interpretación de la Importancia Estimada:**
Este análisis nos proporciona una visión de qué características originales tienen mayor influencia en la predicción del modelo, incluso después de la transformación PCA. Las características con una "Importancia Estimada" más alta son aquellas que contribuyen significativamente a los componentes principales que el modelo RandomForest consideró importantes.

## 6. Conclusión del Tutorial

En este tutorial, hemos cubierto un ciclo de modelado predictivo que incluyó:
- Preparación de datos y codificación de características.
- Un primer intento de modelado que nos permitió identificar y entender el concepto de fuga de datos.
- La corrección de la fuga de datos para un segundo intento de modelado más realista.
- La aplicación de PCA para reducción de dimensionalidad, explicando cómo se seleccionan los componentes (basado en la varianza explicada).
- El entrenamiento y evaluación de un RandomForestClassifier sobre los datos transformados por PCA.
- Un método para estimar la importancia de las características originales después de aplicar PCA.

**Aprendizajes Clave:**
- La **vigilancia contra la fuga de datos** es crucial. Resultados "demasiado buenos para ser verdad" a menudo indican este problema.
- **PCA puede ser una herramienta útil** para reducir la dimensionalidad, lo que puede ayudar a simplificar modelos, reducir el tiempo de entrenamiento y, en algunos casos, mejorar el rendimiento al eliminar ruido. Sin embargo, su efectividad debe evaluarse caso por caso.
- La **interpretabilidad del modelo** se vuelve más compleja con PCA, pero existen técnicas para estimar la influencia de las características originales.

**Próximos Pasos Posibles:**
- **Optimización de Hiperparámetros:** Ajustar los hiperparámetros tanto del RandomForestClassifier como de PCA (ej. el número de componentes o el umbral de varianza).
- **Comparación:** Entrenar el mismo modelo sin PCA (solo con datos escalados) y comparar el rendimiento y el tiempo de entrenamiento para evaluar el impacto real de PCA en este problema.
- **Explorar otros Modelos:** Probar diferentes algoritmos de clasificación.