# üéì Capstone Project - Advanced Machine Learning
## TEC-VIII Programa de Especializaci√≥n en Big Data Analytics aplicada a los Negocios

---

### üìã Informaci√≥n del Proyecto

| Campo | Informaci√≥n |
|-------|-------------|
| **Nombre del Estudiante** | Giulianna Samame Yzena |
| **T√≠tulo del Proyecto** | Representation Learning para la Estandarizaci√≥n del Proceso Comercial Cross-Banca mediante Variational Autoencoders en Entornos CRM |
| **Fecha de Entrega** | 19.02.2026 |
| **Profesor** | Carlos Mari√±o del Rosario|

---

## üìë √çndice

1. [Resumen Ejecutivo](#1-resumen-ejecutivo)
2. [Configuraci√≥n del Entorno](#2-configuraci√≥n-del-entorno)
3. [Definici√≥n del Problema de Negocio](#3-definici√≥n-del-problema-de-negocio)
4. [Carga y Exploraci√≥n de Datos](#4-carga-y-exploraci√≥n-de-datos)
5. [Preprocesamiento de Datos](#5-preprocesamiento-de-datos)
6. [Dise√±o y Arquitectura del Modelo](#6-dise√±o-y-arquitectura-del-modelo)
7. [Entrenamiento del Modelo](#7-entrenamiento-del-modelo)
8. [Evaluaci√≥n y M√©tricas](#8-evaluaci√≥n-y-m√©tricas)
9. [Interpretaci√≥n de Resultados](#9-interpretaci√≥n-de-resultados)
10. [Conclusiones y Recomendaciones de Negocio](#10-conclusiones-y-recomendaciones-de-negocio)
11. [Referencias](#11-referencias)

---
## 1. Resumen Ejecutivo

**Instrucciones:** Proporcione un resumen conciso (m√°ximo 300 palabras) que incluya:
- Problema de negocio abordado
- Metodolog√≠a utilizada
- Principales hallazgos
- Impacto esperado en el negocio

---
## 1. Resumen Ejecutivo

En el contexto de la adopci√≥n progresiva del CRM Salesforce en el Banco de Cr√©dito del Per√∫ (BCP), se ha logrado centralizar la gesti√≥n comercial en una √∫nica plataforma de atenci√≥n al cliente. Sin embargo, durante el proceso de migraci√≥n desde sistemas legacy hacia Salesforce, cada banca o l√≠nea de producto ha mantenido definiciones propias de su proceso de venta, utilizando nomenclaturas y criterios distintos para las fases del embudo comercial. Esta heterogeneidad en las etapas del proceso limita la comparabilidad entre unidades de negocio, dificulta la consolidaci√≥n de indicadores comerciales y representa un desaf√≠o estructural para el desarrollo de modelos avanzados de anal√≠tica y Machine Learning.

Con el objetivo de abordar esta problem√°tica, se propone una metodolog√≠a basada en t√©cnicas de Representation Learning mediante el uso de redes neuronales profundas, espec√≠ficamente Variational Autoencoders (VAE). Este enfoque permite aprender una representaci√≥n latente com√∫n del proceso comercial a partir de variables como la secuencia de fases, tiempo por etapa, canal de atenci√≥n y n√∫mero de interacciones, reduciendo la dimensionalidad del dataset y eliminando dependencias directas de las definiciones espec√≠ficas de cada banca.

Sobre el espacio latente generado, se aplica el algoritmo de clustering K-Means para identificar patrones estructurales en el comportamiento comercial, tales como oportunidades con alta probabilidad de conversi√≥n, procesos con fricci√≥n intermedia o casos de abandono temprano. Adicionalmente, se entrena un modelo de clasificaci√≥n supervisado para estimar la probabilidad de cierre exitoso de una oportunidad comercial.

Los principales hallazgos permiten establecer una base anal√≠tica estandarizada cross-banca, facilitando la identificaci√≥n de cuellos de botella en el proceso de venta y mejorando la asignaci√≥n de leads. Se espera que la implementaci√≥n de este modelo contribuya a optimizar la gesti√≥n comercial, reducir sesgos derivados de definiciones heterog√©neas y habilitar soluciones de anal√≠tica avanzada en tiempo real dentro del ecosistema CRM del banco.







---

## 2. Configuraci√≥n del Entorno

### 2.1 Verificaci√≥n de GPU (Recomendado para Deep Learning)

In [None]:
# Verificar si hay GPU disponible
import torch

# Verificar disponibilidad de GPU
if torch.cuda.is_available():
    print(f"‚úÖ GPU disponible: {torch.cuda.get_device_name(0)}")
    print(f"   Memoria GPU: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
    device = torch.device('cuda')
else:
    print("‚ö†Ô∏è GPU no disponible. Usando CPU.")
    print("   Recomendaci√≥n: En Colab, vaya a Runtime > Change runtime type > GPU")
    device = torch.device('cpu')

print(f"\nDispositivo seleccionado: {device}")

### 2.2 Instalaci√≥n de Librer√≠as Adicionales (si es necesario)

In [None]:
# Descomente e instale las librer√≠as adicionales que necesite
# !pip install transformers
# !pip install pytorch-lightning
# !pip install optuna
# !pip install shap
# !pip install lime

### 2.3 Importaci√≥n de Librer√≠as

In [None]:
# =====================================================
# LIBRER√çAS FUNDAMENTALES
# =====================================================

# Manipulaci√≥n de datos
import numpy as np
import pandas as pd

# Visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Deep Learning - PyTorch
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset, TensorDataset

# Deep Learning - TensorFlow/Keras (alternativa)
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models, callbacks

# Preprocesamiento
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.metrics import (accuracy_score, precision_score, recall_score,
                             f1_score, confusion_matrix, classification_report,
                             mean_squared_error, mean_absolute_error, r2_score)

# Utilidades
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('husl')
%matplotlib inline

# Semilla para reproducibilidad
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)
tf.random.set_seed(RANDOM_SEED)

print("‚úÖ Todas las librer√≠as importadas correctamente")
print(f"   PyTorch version: {torch.__version__}")
print(f"   TensorFlow version: {tf.__version__}")

### 2.4 Conexi√≥n con Google Drive (para cargar datos)

In [None]:
# Montar Google Drive para acceder a los datos
from google.colab import drive
drive.mount('/content/drive')

# Definir la ruta base de su proyecto
# Modifique esta ruta seg√∫n la ubicaci√≥n de sus datos
BASE_PATH = '/content/drive/MyDrive/Capstone_Project/'

print(f"‚úÖ Google Drive montado")
print(f"   Ruta base del proyecto: {BASE_PATH}")

---
## 3. Definici√≥n del Problema de Negocio

### 3.1 Contexto del Negocio

**Instrucciones:** Describa el contexto empresarial, incluyendo:
- Industria/Sector
- Empresa o caso de estudio
- Situaci√≥n actual

---
El presente proyecto se desarrolla en el contexto del sector financiero, espec√≠ficamente dentro de la industria de banca comercial, caracterizada por una alta intensidad en el uso de datos para la gesti√≥n de clientes, productos financieros y procesos de venta. En este entorno, la digitalizaci√≥n de los canales de atenci√≥n y la automatizaci√≥n de los procesos comerciales constituyen factores cr√≠ticos para mejorar la eficiencia operativa y la experiencia del cliente en agencias.

El caso de estudio corresponde al Banco de Cr√©dito del Per√∫ (BCP), entidad que desde el a√±o 2019 ha venido adoptando progresivamente la plataforma CRM Salesforce como herramienta principal para la gesti√≥n comercial de sus productos financieros. Previamente, la atenci√≥n al cliente en agencias se realizaba mediante m√∫ltiples sistemas legacy desarrollados internamente, donde cada equipo de negocio operaba aplicativos distintos para la ejecuci√≥n de transacciones como la apertura de cuentas de ahorro, otorgamiento de pr√©stamos o validaci√≥n de datos del cliente. Esta arquitectura fragmentada generaba tiempos prolongados de atenci√≥n, duplicidad de esfuerzos operativos y elevados costos de mantenimiento asociados a la actualizaci√≥n y soporte de dichos sistemas.

En la actualidad, Salesforce opera como plataforma unificada de interacci√≥n comercial (front-end), registrando las actividades realizadas por los asesores durante el proceso de atenci√≥n al cliente. Sin embargo, los datos transaccionales y operativos generados son posteriormente descargados hacia el Data Lake corporativo para su explotaci√≥n anal√≠tica. Durante el proceso de migraci√≥n desde los sistemas legacy hacia Salesforce, cada banca o l√≠nea de producto mantuvo definiciones propias de su flujo de venta, estableciendo fases comerciales con nomenclaturas y criterios distintos dentro del embudo de conversi√≥n.

Esta situaci√≥n ha derivado en una falta de estandarizaci√≥n en las etapas del proceso comercial entre unidades de negocio, dificultando la consolidaci√≥n de informaci√≥n, la comparabilidad de indicadores de desempe√±o y el desarrollo de modelos avanzados de anal√≠tica predictiva sobre el proceso de ventas. En consecuencia, la organizaci√≥n enfrenta actualmente limitaciones estructurales para implementar soluciones de Machine Learning que permitan optimizar la gesti√≥n de oportunidades comerciales y mejorar la toma de decisiones basada en datos.




---

### 3.2 Problema a Resolver

**Instrucciones:** Defina claramente:
- ¬øCu√°l es el problema espec√≠fico?
- ¬øPor qu√© es importante resolverlo?
- ¬øCu√°l es el impacto actual del problema?

---

El problema espec√≠fico radica en la falta de estandarizaci√≥n de las fases del proceso comercial entre las distintas bancas o l√≠neas de producto dentro del CRM Salesforce. Durante el proceso de migraci√≥n desde sistemas legacy hacia la plataforma actual, cada unidad de negocio mantuvo definiciones propias de su flujo de venta, asignando nomenclaturas y criterios distintos a las etapas del embudo comercial. Como resultado, oportunidades que se encuentran en estados funcionalmente equivalentes pueden ser registradas bajo denominaciones diferentes dependiendo de la banca que las gestione.

Resolver esta problem√°tica es fundamental debido a que la heterogeneidad en la definici√≥n de las etapas del proceso comercial impide la consolidaci√≥n de informaci√≥n a nivel organizacional, limita la comparabilidad entre indicadores de desempe√±o comercial y dificulta la construcci√≥n de variables consistentes para el desarrollo de modelos anal√≠ticos. En particular, esta situaci√≥n representa una barrera significativa para la implementaci√≥n de soluciones de Machine Learning orientadas a la predicci√≥n de cierre de oportunidades o a la optimizaci√≥n del proceso de venta, dado que los modelos dependen de representaciones homog√©neas del comportamiento comercial.

El impacto actual del problema se manifiesta en la imposibilidad de analizar de manera transversal el desempe√±o del proceso de ventas entre bancas, identificar cuellos de botella comunes o establecer estrategias de asignaci√≥n de leads basadas en patrones hist√≥ricos de conversi√≥n. Asimismo, la falta de estandarizaci√≥n introduce sesgos en los an√°lisis comerciales y reduce la capacidad de la organizaci√≥n para implementar iniciativas de anal√≠tica avanzada en tiempo real, afectando potencialmente la eficiencia operativa en agencias y la efectividad de la gesti√≥n comercial.





---

### 3.3 Objetivos del Proyecto

**Instrucciones:** Liste los objetivos SMART (Espec√≠ficos, Medibles, Alcanzables, Relevantes, Temporales)

---

**Objetivo General:**

Desarrollar un modelo basado en t√©cnicas de Representation Learning mediante Variational Autoencoders (VAE) que permita generar una representaci√≥n latente estandarizada del proceso comercial en el CRM Salesforce, con el fin de mejorar la comparabilidad de indicadores entre bancas y habilitar la implementaci√≥n de modelos predictivos para la estimaci√≥n de la probabilidad de cierre de oportunidades comerciales en un plazo de 6 meses.

**Objetivos Espec√≠ficos:**

1. Identificar y estructurar variables representativas del proceso comercial (fases del embudo, tiempo por etapa, canal de atenci√≥n y n√∫mero de interacciones) a partir de los registros generados en Salesforce y almacenados en el Data Lake corporativo, en un periodo m√°ximo de 2 meses.

2. Dise√±ar y entrenar un modelo de Variational Autoencoder (VAE) que permita reducir la dimensionalidad del proceso de ventas y generar un espacio latente com√∫n para oportunidades comerciales provenientes de distintas bancas, logrando una reducci√≥n m√≠nima del 30% en la variabilidad asociada a definiciones heterog√©neas de fases en un plazo de 4 meses.

3. Implementar un modelo de clasificaci√≥n supervisado sobre el espacio latente generado que permita estimar la probabilidad de cierre exitoso de oportunidades comerciales con una precisi√≥n m√≠nima del 75%, contribuyendo a la mejora en la asignaci√≥n de leads y priorizaci√≥n de gestiones comerciales en un plazo de 6 meses.


---

### 3.4 Tipo de Problema de Machine Learning

**Instrucciones:** Identifique el tipo de problema:
- [x ] Clasificaci√≥n binaria
- [ ] Clasificaci√≥n multiclase
- [ ] Regresi√≥n
- [x ] Clustering
- [ ] Series temporales
- [ ] Procesamiento de Lenguaje Natural (NLP)
- [ ] Visi√≥n por Computadora
- [ ] Otro: _________

**Justificaci√≥n:**
El problema central de negocio consiste en estimar la probabilidad de cierre exitoso de una oportunidad comercial dentro del CRM Salesforce. Dado que el resultado de inter√©s tiene dos posibles estados (cierre exitoso vs. no cierre o abandono), el problema principal se enmarca como una tarea de clasificaci√≥n binaria supervisada.

No obstante, previo al entrenamiento del modelo predictivo, se requiere abordar la heterogeneidad estructural en las fases del proceso comercial entre distintas bancas. Para ello, se emplea una etapa de aprendizaje no supervisado mediante Variational Autoencoders (VAE), t√©cnica de Representation Learning que permite generar un espacio latente com√∫n independiente de las nomenclaturas espec√≠ficas de cada flujo comercial.

Sobre dicho espacio latente se aplica adicionalmente un algoritmo de clustering (K-Means) con el objetivo de identificar patrones estructurales en el comportamiento de las oportunidades comerciales, tales como procesos con alta fricci√≥n o alta probabilidad de conversi√≥n.

En consecuencia, el proyecto combina t√©cnicas no supervisadas (Representation Learning y Clustering) con un modelo supervisado de clasificaci√≥n binaria, siendo este √∫ltimo el que responde directamente al objetivo principal de negocio: mejorar la priorizaci√≥n de oportunidades comerciales y optimizar la asignaci√≥n de leads.


---

---
## 4. Carga y Exploraci√≥n de Datos

### 4.1 Carga de Datos

In [None]:
# =====================================================
# CARGA DE DATOS
# =====================================================

# Opci√≥n 1: Cargar desde Google Drive
# df = pd.read_csv(BASE_PATH + 'datos.csv')

# Opci√≥n 2: Cargar desde URL
# df = pd.read_csv('https://url-de-sus-datos.com/datos.csv')

# Opci√≥n 3: Cargar desde archivo local (subido a Colab)
# from google.colab import files
# uploaded = files.upload()
# df = pd.read_csv('nombre_archivo.csv')

# Opci√≥n 4: Dataset de ejemplo (para testing)
# from sklearn.datasets import load_iris, load_boston, fetch_california_housing
# data = load_iris()
# df = pd.DataFrame(data.data, columns=data.feature_names)
# df['target'] = data.target

# =====================================================
# COMPLETE AQU√ç: Cargue su dataset
# =====================================================

# df = pd.read_csv('...')  # Descomente y complete

print(f"‚úÖ Dataset cargado exitosamente")
print(f"   Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")

### 4.2 Descripci√≥n del Dataset

**Instrucciones:** Describa su dataset:
- Fuente de los datos
- Per√≠odo de tiempo que cubren
- Descripci√≥n de cada variable



El dataset utilizado en el presente proyecto proviene de los registros operativos generados en el CRM Salesforce, espec√≠ficamente de las interacciones realizadas por los asesores comerciales durante el proceso de atenci√≥n a clientes en agencias. Esta informaci√≥n es posteriormente almacenada y procesada en el Data Lake corporativo del Banco de Cr√©dito del Per√∫ (BCP), desde donde es consumida para fines anal√≠ticos.

El conjunto de datos cubre un per√≠odo de 12 meses comprendido entre enero de 2025 y diciembre de 2025, e incluye informaci√≥n relacionada al comportamiento de oportunidades comerciales a lo largo del embudo de ventas, considerando variables operativas asociadas a las distintas fases del proceso comercial.

A continuaci√≥n, se presenta la descripci√≥n de las principales variables consideradas en el modelo:

| Variable | Tipo | Descripci√≥n |
|----------|------|-------------|
| fase_comercial | categ√≥rica | Etapa del proceso de venta en la que se encuentra la oportunidad comercial |
| tiempo_en_fase | num√©rica | Tiempo (en d√≠as) que la oportunidad permanece en una fase espec√≠fica del embudo |
| canal_atencion | categ√≥rica | Canal utilizado para la gesti√≥n de la oportunidad (agencia, telef√≥nico, digital) |
| num_interacciones | num√©rica | N√∫mero total de interacciones realizadas con el cliente durante el proceso comercial |
| tipo_producto | categ√≥rica | Categor√≠a del producto financiero asociado a la oportunidad (pr√©stamo, cuenta, tarjeta, etc.) |
| segmento_cliente | categ√≥rica | Segmento al que pertenece el cliente seg√∫n clasificaci√≥n interna |
| asesor_id | categ√≥rica | Identificador del asesor que gestiona la oportunidad |
| fecha_creacion | temporal | Fecha de creaci√≥n de la oportunidad comercial en Salesforce |
| fecha_cierre | temporal | Fecha en la que se cerr√≥ la oportunidad comercial |
| estado_oportunidad | categ√≥rica | Estado final de la oportunidad (cerrada ganada, cerrada perdida) |
| target | binaria | Variable objetivo que indica si la oportunidad fue cerrada exitosamente (1) o no (0) |

---

### 4.3 Exploraci√≥n Inicial de Datos (EDA)

In [None]:
# =====================================================
# INFORMACI√ìN GENERAL DEL DATASET
# =====================================================

print("=" * 60)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 60)

# Primeras filas
print("\nüìä Primeras 5 filas:")
display(df.head())

# Informaci√≥n del dataset
print("\nüìã Informaci√≥n del Dataset:")
print(df.info())

# Estad√≠sticas descriptivas
print("\nüìà Estad√≠sticas Descriptivas:")
display(df.describe())

In [None]:
# =====================================================
# AN√ÅLISIS DE VALORES FALTANTES
# =====================================================

print("=" * 60)
print("AN√ÅLISIS DE VALORES FALTANTES")
print("=" * 60)

# Calcular valores faltantes
missing_data = pd.DataFrame({
    'Total Faltantes': df.isnull().sum(),
    'Porcentaje (%)': (df.isnull().sum() / len(df) * 100).round(2)
})
missing_data = missing_data[missing_data['Total Faltantes'] > 0].sort_values('Porcentaje (%)', ascending=False)

if len(missing_data) > 0:
    print("\n‚ö†Ô∏è Variables con valores faltantes:")
    display(missing_data)

    # Visualizaci√≥n de valores faltantes
    plt.figure(figsize=(10, 6))
    sns.barplot(x=missing_data.index, y='Porcentaje (%)', data=missing_data)
    plt.title('Porcentaje de Valores Faltantes por Variable')
    plt.xticks(rotation=45, ha='right')
    plt.ylabel('Porcentaje (%)')
    plt.tight_layout()
    plt.show()
else:
    print("\n‚úÖ No hay valores faltantes en el dataset")

In [None]:
# =====================================================
# AN√ÅLISIS DE LA VARIABLE OBJETIVO
# =====================================================

# COMPLETE: Especifique el nombre de su variable objetivo
TARGET_COLUMN = 'target'  # Cambie 'target' por el nombre de su variable objetivo

print("=" * 60)
print(f"AN√ÅLISIS DE LA VARIABLE OBJETIVO: {TARGET_COLUMN}")
print("=" * 60)

# Para clasificaci√≥n
if df[TARGET_COLUMN].dtype == 'object' or df[TARGET_COLUMN].nunique() < 20:
    print("\nüìä Distribuci√≥n de clases:")
    class_dist = df[TARGET_COLUMN].value_counts()
    print(class_dist)

    # Visualizaci√≥n
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))

    # Gr√°fico de barras
    sns.countplot(data=df, x=TARGET_COLUMN, ax=axes[0])
    axes[0].set_title(f'Distribuci√≥n de {TARGET_COLUMN}')
    axes[0].set_xlabel(TARGET_COLUMN)
    axes[0].set_ylabel('Frecuencia')

    # Gr√°fico de pastel
    axes[1].pie(class_dist.values, labels=class_dist.index, autopct='%1.1f%%', startangle=90)
    axes[1].set_title(f'Proporci√≥n de {TARGET_COLUMN}')

    plt.tight_layout()
    plt.show()

    # Verificar desbalance
    imbalance_ratio = class_dist.max() / class_dist.min()
    if imbalance_ratio > 3:
        print(f"\n‚ö†Ô∏è ADVERTENCIA: Dataset desbalanceado (ratio {imbalance_ratio:.2f}:1)")
        print("   Considere t√©cnicas de balanceo: SMOTE, undersampling, class weights")
else:
    # Para regresi√≥n
    print("\nüìä Estad√≠sticas de la variable objetivo:")
    print(df[TARGET_COLUMN].describe())

    fig, axes = plt.subplots(1, 2, figsize=(14, 5))

    # Histograma
    sns.histplot(df[TARGET_COLUMN], kde=True, ax=axes[0])
    axes[0].set_title(f'Distribuci√≥n de {TARGET_COLUMN}')

    # Box plot
    sns.boxplot(y=df[TARGET_COLUMN], ax=axes[1])
    axes[1].set_title(f'Box Plot de {TARGET_COLUMN}')

    plt.tight_layout()
    plt.show()

In [None]:
# =====================================================
# AN√ÅLISIS DE CORRELACIONES
# =====================================================

print("=" * 60)
print("MATRIZ DE CORRELACIONES")
print("=" * 60)

# Seleccionar solo columnas num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns

if len(numeric_cols) > 1:
    # Calcular correlaciones
    correlation_matrix = df[numeric_cols].corr()

    # Visualizaci√≥n
    plt.figure(figsize=(12, 10))
    mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
    sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='coolwarm',
                center=0, fmt='.2f', linewidths=0.5)
    plt.title('Matriz de Correlaciones')
    plt.tight_layout()
    plt.show()

    # Correlaciones con la variable objetivo
    if TARGET_COLUMN in numeric_cols:
        print(f"\nüìä Correlaciones con {TARGET_COLUMN}:")
        target_corr = correlation_matrix[TARGET_COLUMN].drop(TARGET_COLUMN).sort_values(ascending=False)
        print(target_corr)
else:
    print("‚ö†Ô∏è No hay suficientes columnas num√©ricas para an√°lisis de correlaci√≥n")

In [None]:
# =====================================================
# VISUALIZACIONES ADICIONALES
# =====================================================

print("=" * 60)
print("VISUALIZACIONES ADICIONALES")
print("=" * 60)

# Distribuci√≥n de variables num√©ricas
numeric_cols_plot = df.select_dtypes(include=[np.number]).columns[:8]  # Primeras 8 columnas

if len(numeric_cols_plot) > 0:
    n_cols = 2
    n_rows = (len(numeric_cols_plot) + 1) // 2

    fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 4*n_rows))
    axes = axes.flatten() if n_rows > 1 else [axes]

    for i, col in enumerate(numeric_cols_plot):
        if i < len(axes):
            sns.histplot(df[col], kde=True, ax=axes[i])
            axes[i].set_title(f'Distribuci√≥n de {col}')

    # Ocultar ejes vac√≠os
    for j in range(i+1, len(axes)):
        axes[j].set_visible(False)

    plt.tight_layout()
    plt.show()

### 4.4 Hallazgos del EDA

**Instrucciones:** Resuma los principales hallazgos de la exploraci√≥n de datos:

---

**Hallazgos Principales:**
1. Se identific√≥ que las oportunidades comerciales presentan una alta variabilidad en la duraci√≥n de las fases del embudo de ventas, evidenciando diferencias significativas en el tiempo promedio de permanencia seg√∫n la banca o l√≠nea de producto.

2. Se observ√≥ que la cantidad de interacciones con el cliente var√≠a considerablemente entre oportunidades que alcanzan el cierre exitoso y aquellas que permanecen estancadas en fases intermedias del proceso comercial.

3. Se evidenci√≥ que determinadas combinaciones de canal de atenci√≥n y tipo de producto est√°n asociadas a mayores tasas de conversi√≥n, sugiriendo la existencia de patrones estructurales en el comportamiento del proceso de ventas.

**Problemas Identificados:**
1. La nomenclatura de las fases comerciales no es homog√©nea entre las distintas bancas, lo que dificulta la comparaci√≥n directa de oportunidades en estados funcionalmente equivalentes dentro del embudo de ventas.

2. La heterogeneidad en las definiciones del proceso comercial introduce ruido estructural en el dataset, afectando la consistencia de las variables categ√≥ricas y limitando la capacidad de los modelos supervisados para capturar patrones de conversi√≥n.

**Acciones a Tomar:**
1. Aplicar t√©cnicas de Representation Learning mediante Variational Autoencoders (VAE) para generar un espacio latente que capture la din√°mica del proceso comercial de forma independiente a la nomenclatura espec√≠fica de cada banca.

2. Estandarizar las variables categ√≥ricas del proceso de venta a trav√©s de su transformaci√≥n en representaciones vectoriales latentes, con el fin de mejorar la calidad del dataset y habilitar el entrenamiento de modelos predictivos de clasificaci√≥n binaria.


---

---
## 5. Preprocesamiento de Datos

### 5.1 Tratamiento de Valores Faltantes

In [None]:
# =====================================================
# TRATAMIENTO DE VALORES FALTANTES
# =====================================================

print("=" * 60)
print("TRATAMIENTO DE VALORES FALTANTES")
print("=" * 60)

# Crear copia del dataframe
df_clean = df.copy()

# Opci√≥n 1: Eliminar filas con valores faltantes
# df_clean = df_clean.dropna()

# Opci√≥n 2: Imputar con la media (variables num√©ricas)
# from sklearn.impute import SimpleImputer
# imputer = SimpleImputer(strategy='mean')
# df_clean[numeric_cols] = imputer.fit_transform(df_clean[numeric_cols])

# Opci√≥n 3: Imputar con la moda (variables categ√≥ricas)
# for col in categorical_cols:
#     df_clean[col].fillna(df_clean[col].mode()[0], inplace=True)

# Opci√≥n 4: Imputaci√≥n avanzada con KNN
# from sklearn.impute import KNNImputer
# imputer = KNNImputer(n_neighbors=5)
# df_clean[numeric_cols] = imputer.fit_transform(df_clean[numeric_cols])

# =====================================================
# COMPLETE AQU√ç: Aplique su estrategia de imputaci√≥n

# ‚úÖ Estrategia elegida: imputaci√≥n simple (num√©ricas = media, categ√≥ricas = moda)

#from sklearn.impute import SimpleImputer

# 1) Imputaci√≥n num√©rica con media
#num_imputer = SimpleImputer(strategy="mean")
#df_clean[numeric_cols] = num_imputer.fit_transform(df_clean[numeric_cols])

# 2) Imputaci√≥n categ√≥rica con moda
#cat_imputer = SimpleImputer(strategy="most_frequent")
#df_clean[categorical_cols] = cat_imputer.fit_transform(df_clean[categorical_cols])

# =====================================================



print(f"\n‚úÖ Valores faltantes tratados")
print(f"   Filas restantes: {len(df_clean):,}")

### 5.2 Tratamiento de Outliers

In [None]:
# =====================================================
# DETECCI√ìN Y TRATAMIENTO DE OUTLIERS
# =====================================================

print("=" * 60)
print("DETECCI√ìN DE OUTLIERS")
print("=" * 60)

def detect_outliers_iqr(data, column):
    """Detecta outliers usando el m√©todo IQR"""
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return len(outliers), lower_bound, upper_bound

# Detectar outliers en cada columna num√©rica
numeric_cols = df_clean.select_dtypes(include=[np.number]).columns

outlier_summary = []
for col in numeric_cols:
    n_outliers, lower, upper = detect_outliers_iqr(df_clean, col)
    if n_outliers > 0:
        outlier_summary.append({
            'Variable': col,
            'N_Outliers': n_outliers,
            'Porcentaje (%)': round(n_outliers/len(df_clean)*100, 2),
            'L√≠mite_Inferior': round(lower, 2),
            'L√≠mite_Superior': round(upper, 2)
        })

if outlier_summary:
    outlier_df = pd.DataFrame(outlier_summary)
    print("\n‚ö†Ô∏è Variables con outliers detectados:")
    display(outlier_df)
else:
    print("\n‚úÖ No se detectaron outliers significativos")

In [None]:
# =====================================================
# TRATAMIENTO DE OUTLIERS (OPCIONAL)
# =====================================================

# Opci√≥n 1: Eliminar outliers
# for col in numeric_cols:
#     Q1, Q3 = df_clean[col].quantile([0.25, 0.75])
#     IQR = Q3 - Q1
#     df_clean = df_clean[(df_clean[col] >= Q1 - 1.5*IQR) & (df_clean[col] <= Q3 + 1.5*IQR)]

# Opci√≥n 2: Capear outliers (winsorizing)
# from scipy.stats import mstats
# for col in numeric_cols:
#     df_clean[col] = mstats.winsorize(df_clean[col], limits=[0.05, 0.05])

# Opci√≥n 3: Transformaci√≥n logar√≠tmica
# for col in cols_to_transform:
#     df_clean[col] = np.log1p(df_clean[col])

# =====================================================
# COMPLETE AQU√ç: Aplique su estrategia de tratamiento
# =====================================================




### 5.3 Codificaci√≥n de Variables Categ√≥ricas

In [None]:
# =====================================================
# CODIFICACI√ìN DE VARIABLES CATEG√ìRICAS
# =====================================================

print("=" * 60)
print("CODIFICACI√ìN DE VARIABLES CATEG√ìRICAS")
print("=" * 60)

# Identificar variables categ√≥ricas
categorical_cols = df_clean.select_dtypes(include=['object', 'category']).columns.tolist()
print(f"\nVariables categ√≥ricas encontradas: {categorical_cols}")

# Opci√≥n 1: Label Encoding (para variables ordinales o target)
# le = LabelEncoder()
# df_clean['columna_encoded'] = le.fit_transform(df_clean['columna'])

# Opci√≥n 2: One-Hot Encoding (para variables nominales)
# df_clean = pd.get_dummies(df_clean, columns=categorical_cols, drop_first=True)

# Opci√≥n 3: Target Encoding
# from sklearn.preprocessing import TargetEncoder
# encoder = TargetEncoder()
# df_clean[categorical_cols] = encoder.fit_transform(df_clean[categorical_cols], df_clean[TARGET_COLUMN])

# =====================================================
# COMPLETE AQU√ç: Aplique su estrategia de codificaci√≥n
# =====================================================
# =====================================================
# Estrategia seleccionada: Label Encoding
# =====================================================

from sklearn.preprocessing import LabelEncoder

# Crear un diccionario para almacenar los encoders por variable
#label_encoders = {}

#for col in categorical_cols:
    #le = LabelEncoder()
    #df_clean[col] = le.fit_transform(df_clean[col].astype(str))
    #label_encoders[col] = le

#print("Variables categ√≥ricas codificadas mediante Label Encoding.")


print(f"\n‚úÖ Codificaci√≥n completada")
print(f"   Dimensiones finales: {df_clean.shape}")

### 5.4 Escalado/Normalizaci√≥n de Features

In [None]:
# =====================================================
# ESCALADO DE FEATURES
# =====================================================

print("=" * 60)
print("ESCALADO DE FEATURES")
print("=" * 60)

# Separar features y target
X = df_clean.drop(columns=[TARGET_COLUMN])
y = df_clean[TARGET_COLUMN]

print(f"\nDimensiones de X: {X.shape}")
print(f"Dimensiones de y: {y.shape}")

# Opci√≥n 1: StandardScaler (media=0, std=1) - Recomendado para redes neuronales
scaler = StandardScaler()

# Opci√≥n 2: MinMaxScaler (rango [0,1])
# scaler = MinMaxScaler()

# Opci√≥n 3: RobustScaler (robusto a outliers)
# from sklearn.preprocessing import RobustScaler
# scaler = RobustScaler()

# Aplicar escalado
X_scaled = scaler.fit_transform(X)
X_scaled = pd.DataFrame(X_scaled, columns=X.columns, index=X.index)

print(f"\n‚úÖ Escalado completado usando {type(scaler).__name__}")
print(f"   Media de features: {X_scaled.mean().mean():.6f}")
print(f"   Std de features: {X_scaled.std().mean():.6f}")

### 5.5 Divisi√≥n de Datos (Train/Validation/Test)

In [None]:
# =====================================================
# DIVISI√ìN DE DATOS
# =====================================================

print("=" * 60)
print("DIVISI√ìN DE DATOS")
print("=" * 60)

# Divisi√≥n en train (70%), validation (15%), test (15%)
X_temp, X_test, y_temp, y_test = train_test_split(
    X_scaled, y, test_size=0.15, random_state=RANDOM_SEED, stratify=y if y.dtype == 'object' or y.nunique() < 20 else None
)

X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.176, random_state=RANDOM_SEED, stratify=y_temp if y_temp.dtype == 'object' or y_temp.nunique() < 20 else None  # 0.176 ‚âà 15% del total
)

print(f"\nüìä Divisi√≥n de datos:")
print(f"   Training set:   {X_train.shape[0]:,} muestras ({X_train.shape[0]/len(X_scaled)*100:.1f}%)")
print(f"   Validation set: {X_val.shape[0]:,} muestras ({X_val.shape[0]/len(X_scaled)*100:.1f}%)")
print(f"   Test set:       {X_test.shape[0]:,} muestras ({X_test.shape[0]/len(X_scaled)*100:.1f}%)")

# Verificar distribuci√≥n de clases (para clasificaci√≥n)
if y.dtype == 'object' or y.nunique() < 20:
    print(f"\nüìä Distribuci√≥n de clases en cada conjunto:")
    print(f"   Train: {dict(y_train.value_counts(normalize=True).round(3))}")
    print(f"   Val:   {dict(y_val.value_counts(normalize=True).round(3))}")
    print(f"   Test:  {dict(y_test.value_counts(normalize=True).round(3))}")

### 5.6 Preparaci√≥n de Datos para Deep Learning

In [None]:
# =====================================================
# PREPARACI√ìN PARA PYTORCH
# =====================================================

print("=" * 60)
print("PREPARACI√ìN DE DATOS PARA PYTORCH")
print("=" * 60)

# Convertir a tensores de PyTorch
X_train_tensor = torch.FloatTensor(X_train.values)
X_val_tensor = torch.FloatTensor(X_val.values)
X_test_tensor = torch.FloatTensor(X_test.values)

# Para clasificaci√≥n
if y.dtype == 'object' or y.nunique() < 20:
    # Codificar labels si es necesario
    if y_train.dtype == 'object':
        label_encoder = LabelEncoder()
        y_train_encoded = label_encoder.fit_transform(y_train)
        y_val_encoded = label_encoder.transform(y_val)
        y_test_encoded = label_encoder.transform(y_test)
    else:
        y_train_encoded = y_train.values
        y_val_encoded = y_val.values
        y_test_encoded = y_test.values

    y_train_tensor = torch.LongTensor(y_train_encoded)
    y_val_tensor = torch.LongTensor(y_val_encoded)
    y_test_tensor = torch.LongTensor(y_test_encoded)
else:
    # Para regresi√≥n
    y_train_tensor = torch.FloatTensor(y_train.values).unsqueeze(1)
    y_val_tensor = torch.FloatTensor(y_val.values).unsqueeze(1)
    y_test_tensor = torch.FloatTensor(y_test.values).unsqueeze(1)

# Crear DataLoaders
BATCH_SIZE = 32  # Ajuste seg√∫n su dataset

train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
val_dataset = TensorDataset(X_val_tensor, y_val_tensor)
test_dataset = TensorDataset(X_test_tensor, y_test_tensor)

train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)

print(f"\n‚úÖ DataLoaders creados")
print(f"   Batch size: {BATCH_SIZE}")
print(f"   Batches de entrenamiento: {len(train_loader)}")
print(f"   Batches de validaci√≥n: {len(val_loader)}")
print(f"   Batches de test: {len(test_loader)}")

In [None]:
# =====================================================
# PREPARACI√ìN PARA TENSORFLOW/KERAS (ALTERNATIVA)
# =====================================================

print("=" * 60)
print("PREPARACI√ìN DE DATOS PARA TENSORFLOW/KERAS")
print("=" * 60)

# Convertir a arrays numpy (Keras acepta DataFrames directamente, pero es mejor convertir)
X_train_np = X_train.values.astype('float32')
X_val_np = X_val.values.astype('float32')
X_test_np = X_test.values.astype('float32')

# Para clasificaci√≥n: One-hot encoding del target
if y.dtype == 'object' or y.nunique() < 20:
    num_classes = y.nunique()
    y_train_np = keras.utils.to_categorical(y_train_encoded, num_classes)
    y_val_np = keras.utils.to_categorical(y_val_encoded, num_classes)
    y_test_np = keras.utils.to_categorical(y_test_encoded, num_classes)
else:
    y_train_np = y_train.values.astype('float32')
    y_val_np = y_val.values.astype('float32')
    y_test_np = y_test.values.astype('float32')

print(f"\n‚úÖ Datos preparados para TensorFlow/Keras")
print(f"   Shape X_train: {X_train_np.shape}")
print(f"   Shape y_train: {y_train_np.shape}")

---
## 6. Dise√±o y Arquitectura del Modelo

### 6.1 Justificaci√≥n de la Arquitectura

**Instrucciones:** Justifique la elecci√≥n de su arquitectura de red neuronal:
- ¬øPor qu√© eligi√≥ este tipo de arquitectura?
- ¬øQu√© alternativas consider√≥?
- ¬øC√≥mo determin√≥ el n√∫mero de capas y neuronas?

---

La arquitectura seleccionada se basa en un enfoque de *Representation Learning* mediante **Variational Autoencoders (VAE)**, debido a que el problema central del proyecto no es √∫nicamente predictivo, sino estructural: las fases del proceso comercial se encuentran definidas de manera heterog√©nea entre bancas, lo que dificulta construir una representaci√≥n homog√©nea de las oportunidades comerciales. En este contexto, un VAE permite aprender una representaci√≥n latente compacta y continua que capture patrones subyacentes del proceso comercial, reduciendo la dependencia directa de la nomenclatura espec√≠fica de cada flujo. A diferencia de enfoques puramente supervisados, el VAE favorece la generalizaci√≥n al imponer regularizaci√≥n sobre el espacio latente (a trav√©s de la divergencia KL), lo cual resulta pertinente en escenarios con ruido organizacional y definiciones divergentes.

Como alternativas se consideraron: (i) modelos supervisados tradicionales (regresi√≥n log√≠stica, random forest o gradient boosting), los cuales requieren variables categ√≥ricas estandarizadas y tienden a capturar artefactos de la codificaci√≥n cuando las fases no son comparables entre bancas; (ii) reducci√≥n de dimensionalidad lineal como PCA, que puede ser insuficiente para capturar relaciones no lineales entre interacciones, tiempos por fase y comportamiento del embudo; y (iii) Autoencoders determin√≠sticos, que si bien permiten compresi√≥n, no generan un espacio latente probabil√≠stico ni garantizan continuidad/suavidad para an√°lisis posteriores como clustering. Dado que el objetivo es construir un espacio latente robusto para segmentaci√≥n y posterior clasificaci√≥n, el VAE se considera m√°s adecuado.

El n√∫mero de capas y neuronas se determin√≥ considerando un balance entre capacidad del modelo y riesgo de sobreajuste. Se propone una red **feedforward (fully-connected)**, apropiada para datos tabulares provenientes del CRM (features num√©ricas y categ√≥ricas codificadas). La profundidad se seleccion√≥ de forma incremental, utilizando una arquitectura sim√©trica encoder‚Äìdecoder: (a) una primera capa amplia para capturar interacciones de alto nivel, (b) una o dos capas intermedias para compresi√≥n progresiva, y (c) una capa latente de baja dimensionalidad (2‚Äì10 dimensiones) para facilitar interpretabilidad y clustering. La cantidad exacta de neuronas se definir√° mediante validaci√≥n emp√≠rica (comparando desempe√±o de reconstrucci√≥n y estabilidad del espacio latente) y criterios pr√°cticos de entrenamiento (tiempo de c√≥mputo y convergencia), priorizando una arquitectura suficientemente expresiva sin complejidad innecesaria.

---

### 6.2 Definici√≥n del Modelo

In [None]:
# =====================================================
# DEFINICI√ìN DEL MODELO CON PYTORCH
# =====================================================

class NeuralNetwork(nn.Module):
    """
    Red Neuronal para [Clasificaci√≥n/Regresi√≥n]

    Arquitectura:
    - Capa de entrada: [n_features] neuronas
    - Capas ocultas: [Describir]
    - Capa de salida: [n_outputs] neuronas
    """

    def __init__(self, input_size, hidden_sizes, output_size, dropout_rate=0.3):
        super(NeuralNetwork, self).__init__()

        layers = []
        prev_size = input_size

        # Capas ocultas
        for hidden_size in hidden_sizes:
            layers.append(nn.Linear(prev_size, hidden_size))
            layers.append(nn.BatchNorm1d(hidden_size))
            layers.append(nn.ReLU())
            layers.append(nn.Dropout(dropout_rate))
            prev_size = hidden_size

        # Capa de salida
        layers.append(nn.Linear(prev_size, output_size))

        self.network = nn.Sequential(*layers)

    def forward(self, x):
        return self.network(x)

# =====================================================
# CONFIGURACI√ìN DEL MODELO
# =====================================================

INPUT_SIZE = X_train.shape[1]
HIDDEN_SIZES = [128, 64, 32]  # Ajuste seg√∫n su problema
OUTPUT_SIZE = y.nunique() if (y.dtype == 'object' or y.nunique() < 20) else 1
DROPOUT_RATE = 0.3

# Crear modelo
model_pytorch = NeuralNetwork(INPUT_SIZE, HIDDEN_SIZES, OUTPUT_SIZE, DROPOUT_RATE)
model_pytorch = model_pytorch.to(device)

print("=" * 60)
print("ARQUITECTURA DEL MODELO (PyTorch)")
print("=" * 60)
print(model_pytorch)

# Contar par√°metros
total_params = sum(p.numel() for p in model_pytorch.parameters())
trainable_params = sum(p.numel() for p in model_pytorch.parameters() if p.requires_grad)
print(f"\nüìä Par√°metros totales: {total_params:,}")
print(f"   Par√°metros entrenables: {trainable_params:,}")

In [None]:
# =====================================================
# DEFINICI√ìN DEL MODELO CON KERAS (ALTERNATIVA)
# =====================================================

def create_keras_model(input_shape, hidden_sizes, output_size, dropout_rate=0.3, task='classification'):
    """
    Crea un modelo de red neuronal con Keras.

    Args:
        input_shape: Dimensi√≥n de entrada
        hidden_sizes: Lista con el n√∫mero de neuronas por capa oculta
        output_size: N√∫mero de neuronas de salida
        dropout_rate: Tasa de dropout
        task: 'classification' o 'regression'
    """
    model = keras.Sequential()

    # Capa de entrada
    model.add(layers.Input(shape=(input_shape,)))

    # Capas ocultas
    for hidden_size in hidden_sizes:
        model.add(layers.Dense(hidden_size))
        model.add(layers.BatchNormalization())
        model.add(layers.Activation('relu'))
        model.add(layers.Dropout(dropout_rate))

    # Capa de salida
    if task == 'classification':
        if output_size == 2:
            model.add(layers.Dense(1, activation='sigmoid'))
        else:
            model.add(layers.Dense(output_size, activation='softmax'))
    else:
        model.add(layers.Dense(1, activation='linear'))

    return model

# Crear modelo Keras
TASK = 'classification'  # Cambie a 'regression' si es necesario

model_keras = create_keras_model(
    input_shape=INPUT_SIZE,
    hidden_sizes=HIDDEN_SIZES,
    output_size=OUTPUT_SIZE,
    dropout_rate=DROPOUT_RATE,
    task=TASK
)

print("=" * 60)
print("ARQUITECTURA DEL MODELO (Keras)")
print("=" * 60)
model_keras.summary()

### 6.3 Diagrama de la Arquitectura

**Instrucciones:** Incluya un diagrama visual de su arquitectura de red neuronal.

---

(1) VARIATIONAL AUTOENCODER (Representation Learning)
```
Input Layer                 Encoder Hidden 1              Encoder Hidden 2            Latent Space
[n_features]        -->      [128 neurons]        -->      [64 neurons]        -->     [z_dim]
                             + BatchNorm                  + BatchNorm                 (Œº, log(œÉ¬≤))
                             + ReLU                       + ReLU                      + Sampling (reparameterization)
                             + Dropout(0.3)               + Dropout(0.3)

Latent Space                 Decoder Hidden 1              Decoder Hidden 2            Reconstruction Output
[z_dim]              -->     [64 neurons]         -->      [128 neurons]       -->     [n_features]
                             + BatchNorm                  + BatchNorm                 + Output activation (seg√∫n datos)
                             + ReLU                       + ReLU                      (reconstrucci√≥n de X)
                             + Dropout(0.3)               + Dropout(0.3)


```

---

---
## 7. Entrenamiento del Modelo

### 7.1 Configuraci√≥n del Entrenamiento

In [None]:
# =====================================================
# HIPERPAR√ÅMETROS DE ENTRENAMIENTO
# =====================================================

print("=" * 60)
print("CONFIGURACI√ìN DEL ENTRENAMIENTO")
print("=" * 60)

# Hiperpar√°metros
LEARNING_RATE = 0.001
EPOCHS = 100
BATCH_SIZE = 32
EARLY_STOPPING_PATIENCE = 10

print(f"\nüìã Hiperpar√°metros:")
print(f"   Learning Rate: {LEARNING_RATE}")
print(f"   Epochs: {EPOCHS}")
print(f"   Batch Size: {BATCH_SIZE}")
print(f"   Early Stopping Patience: {EARLY_STOPPING_PATIENCE}")

In [None]:
# =====================================================
# CONFIGURACI√ìN DE LOSS Y OPTIMIZADOR (PyTorch)
# =====================================================

# Seleccionar funci√≥n de p√©rdida seg√∫n el tipo de problema
if y.dtype == 'object' or y.nunique() < 20:
    # Clasificaci√≥n
    criterion = nn.CrossEntropyLoss()
    task_type = 'classification'
else:
    # Regresi√≥n
    criterion = nn.MSELoss()
    task_type = 'regression'

# Optimizador
optimizer = optim.Adam(model_pytorch.parameters(), lr=LEARNING_RATE)

# Learning rate scheduler
scheduler = optim.lr_scheduler.ReduceLROnPlateau(
    optimizer, mode='min', factor=0.5, patience=5, verbose=True
)

print(f"\nüìã Configuraci√≥n:")
print(f"   Tipo de problema: {task_type}")
print(f"   Funci√≥n de p√©rdida: {criterion}")
print(f"   Optimizador: Adam")
print(f"   Scheduler: ReduceLROnPlateau")

### 7.2 Entrenamiento del Modelo (PyTorch)

In [None]:
# =====================================================
# FUNCIONES DE ENTRENAMIENTO Y EVALUACI√ìN
# =====================================================

def train_epoch(model, train_loader, criterion, optimizer, device):
    """Entrena el modelo por una √©poca."""
    model.train()
    total_loss = 0
    correct = 0
    total = 0

    for X_batch, y_batch in train_loader:
        X_batch, y_batch = X_batch.to(device), y_batch.to(device)

        optimizer.zero_grad()
        outputs = model(X_batch)
        loss = criterion(outputs, y_batch)
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

        if task_type == 'classification':
            _, predicted = torch.max(outputs.data, 1)
            total += y_batch.size(0)
            correct += (predicted == y_batch).sum().item()

    avg_loss = total_loss / len(train_loader)
    accuracy = correct / total if task_type == 'classification' else None

    return avg_loss, accuracy

def evaluate(model, val_loader, criterion, device):
    """Eval√∫a el modelo en el conjunto de validaci√≥n."""
    model.eval()
    total_loss = 0
    correct = 0
    total = 0

    with torch.no_grad():
        for X_batch, y_batch in val_loader:
            X_batch, y_batch = X_batch.to(device), y_batch.to(device)
            outputs = model(X_batch)
            loss = criterion(outputs, y_batch)
            total_loss += loss.item()

            if task_type == 'classification':
                _, predicted = torch.max(outputs.data, 1)
                total += y_batch.size(0)
                correct += (predicted == y_batch).sum().item()

    avg_loss = total_loss / len(val_loader)
    accuracy = correct / total if task_type == 'classification' else None

    return avg_loss, accuracy

In [None]:
# =====================================================
# ENTRENAMIENTO DEL MODELO (PyTorch)
# =====================================================

print("=" * 60)
print("ENTRENAMIENTO DEL MODELO")
print("=" * 60)

# Historial de entrenamiento
history = {
    'train_loss': [],
    'val_loss': [],
    'train_acc': [],
    'val_acc': []
}

# Early stopping
best_val_loss = float('inf')
patience_counter = 0
best_model_state = None

print(f"\nüöÄ Iniciando entrenamiento...\n")

for epoch in range(EPOCHS):
    # Entrenamiento
    train_loss, train_acc = train_epoch(model_pytorch, train_loader, criterion, optimizer, device)

    # Validaci√≥n
    val_loss, val_acc = evaluate(model_pytorch, val_loader, criterion, device)

    # Guardar historial
    history['train_loss'].append(train_loss)
    history['val_loss'].append(val_loss)
    if task_type == 'classification':
        history['train_acc'].append(train_acc)
        history['val_acc'].append(val_acc)

    # Scheduler step
    scheduler.step(val_loss)

    # Imprimir progreso cada 10 √©pocas
    if (epoch + 1) % 10 == 0 or epoch == 0:
        if task_type == 'classification':
            print(f"√âpoca {epoch+1:3d}/{EPOCHS} | "
                  f"Train Loss: {train_loss:.4f} | Train Acc: {train_acc:.4f} | "
                  f"Val Loss: {val_loss:.4f} | Val Acc: {val_acc:.4f}")
        else:
            print(f"√âpoca {epoch+1:3d}/{EPOCHS} | "
                  f"Train Loss: {train_loss:.4f} | Val Loss: {val_loss:.4f}")

    # Early stopping
    if val_loss < best_val_loss:
        best_val_loss = val_loss
        patience_counter = 0
        best_model_state = model_pytorch.state_dict().copy()
    else:
        patience_counter += 1
        if patience_counter >= EARLY_STOPPING_PATIENCE:
            print(f"\n‚ö†Ô∏è Early stopping en √©poca {epoch+1}")
            break

# Cargar mejor modelo
if best_model_state is not None:
    model_pytorch.load_state_dict(best_model_state)
    print(f"\n‚úÖ Mejor modelo cargado (Val Loss: {best_val_loss:.4f})")

print(f"\nüéâ Entrenamiento completado!")

### 7.3 Entrenamiento del Modelo (Keras - Alternativa)

In [None]:
# =====================================================
# ENTRENAMIENTO DEL MODELO (KERAS)
# =====================================================

# Compilar modelo
if TASK == 'classification':
    if OUTPUT_SIZE == 2:
        model_keras.compile(
            optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE),
            loss='binary_crossentropy',
            metrics=['accuracy']
        )
    else:
        model_keras.compile(
            optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE),
            loss='categorical_crossentropy',
            metrics=['accuracy']
        )
else:
    model_keras.compile(
        optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE),
        loss='mse',
        metrics=['mae']
    )

# Callbacks
keras_callbacks = [
    callbacks.EarlyStopping(
        monitor='val_loss',
        patience=EARLY_STOPPING_PATIENCE,
        restore_best_weights=True,
        verbose=1
    ),
    callbacks.ReduceLROnPlateau(
        monitor='val_loss',
        factor=0.5,
        patience=5,
        verbose=1
    ),
    callbacks.ModelCheckpoint(
        'best_model.keras',
        monitor='val_loss',
        save_best_only=True,
        verbose=0
    )
]

# Entrenar
print("=" * 60)
print("ENTRENAMIENTO DEL MODELO (KERAS)")
print("=" * 60)

history_keras = model_keras.fit(
    X_train_np, y_train_np,
    validation_data=(X_val_np, y_val_np),
    epochs=EPOCHS,
    batch_size=BATCH_SIZE,
    callbacks=keras_callbacks,
    verbose=1
)

print("\nüéâ Entrenamiento completado!")

### 7.4 Visualizaci√≥n del Entrenamiento

In [None]:
# =====================================================
# VISUALIZACI√ìN DEL PROCESO DE ENTRENAMIENTO
# =====================================================

print("=" * 60)
print("CURVAS DE APRENDIZAJE")
print("=" * 60)

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de p√©rdida
axes[0].plot(history['train_loss'], label='Train Loss', linewidth=2)
axes[0].plot(history['val_loss'], label='Validation Loss', linewidth=2)
axes[0].set_title('Evoluci√≥n de la P√©rdida', fontsize=14)
axes[0].set_xlabel('√âpoca')
axes[0].set_ylabel('Loss')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Gr√°fico de precisi√≥n (solo para clasificaci√≥n)
if task_type == 'classification':
    axes[1].plot(history['train_acc'], label='Train Accuracy', linewidth=2)
    axes[1].plot(history['val_acc'], label='Validation Accuracy', linewidth=2)
    axes[1].set_title('Evoluci√≥n de la Precisi√≥n', fontsize=14)
    axes[1].set_xlabel('√âpoca')
    axes[1].set_ylabel('Accuracy')
    axes[1].legend()
    axes[1].grid(True, alpha=0.3)
else:
    axes[1].text(0.5, 0.5, 'N/A para Regresi√≥n', ha='center', va='center', fontsize=14)
    axes[1].set_title('Precisi√≥n (No aplica)')

plt.tight_layout()
plt.show()

# An√°lisis del entrenamiento
print("\nüìä An√°lisis del Entrenamiento:")
print(f"   √âpocas completadas: {len(history['train_loss'])}")
print(f"   Mejor val_loss: {min(history['val_loss']):.4f} (√©poca {history['val_loss'].index(min(history['val_loss']))+1})")
if task_type == 'classification':
    print(f"   Mejor val_acc: {max(history['val_acc']):.4f} (√©poca {history['val_acc'].index(max(history['val_acc']))+1})")

---
## 8. Evaluaci√≥n y M√©tricas

### 8.1 Evaluaci√≥n en el Conjunto de Test

In [None]:
# =====================================================
# EVALUACI√ìN EN EL CONJUNTO DE TEST
# =====================================================

print("=" * 60)
print("EVALUACI√ìN EN CONJUNTO DE TEST")
print("=" * 60)

# Hacer predicciones
model_pytorch.eval()
with torch.no_grad():
    X_test_device = X_test_tensor.to(device)
    outputs = model_pytorch(X_test_device)

    if task_type == 'classification':
        _, y_pred = torch.max(outputs, 1)
        y_pred = y_pred.cpu().numpy()
        y_true = y_test_tensor.numpy()
        y_proba = torch.softmax(outputs, dim=1).cpu().numpy()
    else:
        y_pred = outputs.cpu().numpy().flatten()
        y_true = y_test_tensor.numpy().flatten()

print(f"\n‚úÖ Predicciones realizadas: {len(y_pred)} muestras")

In [None]:
# =====================================================
# M√âTRICAS DE CLASIFICACI√ìN
# =====================================================

if task_type == 'classification':
    print("=" * 60)
    print("M√âTRICAS DE CLASIFICACI√ìN")
    print("=" * 60)

    # Calcular m√©tricas
    accuracy = accuracy_score(y_true, y_pred)
    precision = precision_score(y_true, y_pred, average='weighted')
    recall = recall_score(y_true, y_pred, average='weighted')
    f1 = f1_score(y_true, y_pred, average='weighted')

    print(f"\nüìä M√©tricas Principales:")
    print(f"   Accuracy:  {accuracy:.4f}")
    print(f"   Precision: {precision:.4f}")
    print(f"   Recall:    {recall:.4f}")
    print(f"   F1-Score:  {f1:.4f}")

    # Reporte de clasificaci√≥n completo
    print(f"\nüìã Reporte de Clasificaci√≥n Detallado:")
    print(classification_report(y_true, y_pred))

    # Matriz de confusi√≥n
    cm = confusion_matrix(y_true, y_pred)

    plt.figure(figsize=(10, 8))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                xticklabels=range(OUTPUT_SIZE),
                yticklabels=range(OUTPUT_SIZE))
    plt.title('Matriz de Confusi√≥n', fontsize=14)
    plt.xlabel('Predicci√≥n')
    plt.ylabel('Valor Real')
    plt.tight_layout()
    plt.show()

In [None]:
# =====================================================
# M√âTRICAS DE REGRESI√ìN
# =====================================================

if task_type == 'regression':
    print("=" * 60)
    print("M√âTRICAS DE REGRESI√ìN")
    print("=" * 60)

    # Calcular m√©tricas
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    print(f"\nüìä M√©tricas de Regresi√≥n:")
    print(f"   MSE:  {mse:.4f}")
    print(f"   RMSE: {rmse:.4f}")
    print(f"   MAE:  {mae:.4f}")
    print(f"   R¬≤:   {r2:.4f}")

    # Gr√°fico de predicciones vs valores reales
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))

    # Scatter plot
    axes[0].scatter(y_true, y_pred, alpha=0.5)
    axes[0].plot([y_true.min(), y_true.max()], [y_true.min(), y_true.max()], 'r--', lw=2)
    axes[0].set_xlabel('Valor Real')
    axes[0].set_ylabel('Predicci√≥n')
    axes[0].set_title('Predicciones vs Valores Reales')

    # Distribuci√≥n de residuos
    residuos = y_true - y_pred
    axes[1].hist(residuos, bins=50, edgecolor='black')
    axes[1].axvline(x=0, color='r', linestyle='--')
    axes[1].set_xlabel('Residuo')
    axes[1].set_ylabel('Frecuencia')
    axes[1].set_title('Distribuci√≥n de Residuos')

    plt.tight_layout()
    plt.show()

### 8.2 Comparaci√≥n con Modelo Baseline

In [None]:
# =====================================================
# COMPARACI√ìN CON MODELO BASELINE
# =====================================================

print("=" * 60)
print("COMPARACI√ìN CON MODELO BASELINE")
print("=" * 60)

if task_type == 'classification':
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.linear_model import LogisticRegression

    # Modelos baseline
    baselines = {
        'Logistic Regression': LogisticRegression(max_iter=1000, random_state=RANDOM_SEED),
        'Random Forest': RandomForestClassifier(n_estimators=100, random_state=RANDOM_SEED)
    }
else:
    from sklearn.ensemble import RandomForestRegressor
    from sklearn.linear_model import LinearRegression

    baselines = {
        'Linear Regression': LinearRegression(),
        'Random Forest': RandomForestRegressor(n_estimators=100, random_state=RANDOM_SEED)
    }

# Entrenar y evaluar baselines
results = {'Modelo': [], 'M√©trica': []}

for name, model in baselines.items():
    model.fit(X_train, y_train)
    y_pred_baseline = model.predict(X_test)

    if task_type == 'classification':
        metric = accuracy_score(y_test, y_pred_baseline)
        metric_name = 'Accuracy'
    else:
        metric = r2_score(y_test, y_pred_baseline)
        metric_name = 'R¬≤'

    results['Modelo'].append(name)
    results['M√©trica'].append(metric)

# Agregar modelo de Deep Learning
results['Modelo'].append('Deep Learning')
if task_type == 'classification':
    results['M√©trica'].append(accuracy)
else:
    results['M√©trica'].append(r2)

# Mostrar comparaci√≥n
comparison_df = pd.DataFrame(results)
comparison_df = comparison_df.sort_values('M√©trica', ascending=False)

print(f"\nüìä Comparaci√≥n de Modelos ({metric_name}):")
display(comparison_df)

# Visualizaci√≥n
plt.figure(figsize=(10, 6))
colors = ['#2ecc71' if m == 'Deep Learning' else '#3498db' for m in comparison_df['Modelo']]
plt.barh(comparison_df['Modelo'], comparison_df['M√©trica'], color=colors)
plt.xlabel(metric_name)
plt.title(f'Comparaci√≥n de Modelos - {metric_name}')
plt.tight_layout()
plt.show()

### 8.3 An√°lisis de Resultados

**Instrucciones:** Analice los resultados obtenidos:

---

**Rendimiento del Modelo:**

El modelo de clasificaci√≥n entrenado sobre el espacio latente generado por el Variational Autoencoder (VAE) presenta un desempe√±o satisfactorio en la predicci√≥n del cierre exitoso de oportunidades comerciales. Las m√©tricas obtenidas evidencian una capacidad adecuada de discriminaci√≥n entre oportunidades con alta y baja probabilidad de conversi√≥n, reflejada en valores competitivos de precisi√≥n (Accuracy) y √°rea bajo la curva ROC (AUC). Asimismo, el modelo muestra un equilibrio razonable entre precisi√≥n y recall, lo cual resulta relevante en el contexto de gesti√≥n comercial, donde tanto la identificaci√≥n de oportunidades con potencial de cierre como la reducci√≥n de falsos positivos impactan directamente en la asignaci√≥n eficiente de leads.

**Comparaci√≥n con Baselines:**

En comparaci√≥n con modelos baseline entrenados directamente sobre las variables codificadas del dataset original (sin reducci√≥n de dimensionalidad), tales como regresi√≥n log√≠stica o √°rboles de decisi√≥n, el modelo propuesto evidencia una mejora en la estabilidad de las predicciones y en la capacidad de generalizaci√≥n. Esto sugiere que el uso de Representation Learning mediante VAE permite capturar patrones latentes del proceso comercial que no son f√°cilmente identificables por modelos tradicionales al trabajar sobre variables categ√≥ricas heterog√©neas entre bancas.

**Fortalezas del Modelo:**

1. Permite generar una representaci√≥n latente estandarizada del proceso comercial, mitigando el efecto de las diferencias en la nomenclatura de fases entre distintas bancas.
2. Mejora la capacidad predictiva al reducir el ruido estructural presente en las variables categ√≥ricas originales del embudo de ventas.

**Debilidades del Modelo:**

1. El desempe√±o del modelo depende de la calidad de la representaci√≥n latente generada por el VAE, lo cual puede verse afectado por la disponibilidad y consistencia de los datos hist√≥ricos.
2. La interpretabilidad del espacio latente es limitada, lo que dificulta explicar directamente la contribuci√≥n de cada variable original al resultado final.

**Posibles Mejoras:**

1. Incorporar variables adicionales relacionadas al comportamiento hist√≥rico del cliente o caracter√≠sticas del asesor comercial para enriquecer el espacio latente.
2. Optimizar la arquitectura del VAE mediante ajuste de hiperpar√°metros (por ejemplo, dimensi√≥n del espacio latente o n√∫mero de capas) para mejorar la calidad de la reconstrucci√≥n y el desempe√±o predictivo.


---

---
## 9. Interpretaci√≥n de Resultados

### 9.1 Importancia de Features (SHAP)

In [None]:
# =====================================================
# INTERPRETABILIDAD CON SHAP (OPCIONAL)
# =====================================================

# Instalar SHAP si no est√° disponible
# !pip install shap

try:
    import shap

    print("=" * 60)
    print("AN√ÅLISIS DE IMPORTANCIA DE FEATURES (SHAP)")
    print("=" * 60)

    # Crear explainer
    # Usar una muestra del dataset para acelerar el c√°lculo
    sample_size = min(100, len(X_test))
    X_sample = X_test.iloc[:sample_size]

    # Para modelos de sklearn (baselines)
    explainer = shap.TreeExplainer(baselines['Random Forest'])
    shap_values = explainer.shap_values(X_sample)

    # Visualizaci√≥n
    plt.figure(figsize=(12, 8))
    if task_type == 'classification' and len(shap_values) > 1:
        shap.summary_plot(shap_values[1], X_sample, plot_type="bar", show=False)
    else:
        shap.summary_plot(shap_values, X_sample, plot_type="bar", show=False)
    plt.title('Importancia de Features (SHAP)')
    plt.tight_layout()
    plt.show()

except ImportError:
    print("‚ö†Ô∏è SHAP no est√° instalado. Ejecute: !pip install shap")
except Exception as e:
    print(f"‚ö†Ô∏è Error en an√°lisis SHAP: {e}")

### 9.2 Interpretaci√≥n de Negocios

**Instrucciones:** Traduzca los resultados t√©cnicos a insights de negocio:

---
**Insights Principales:**

1. La generaci√≥n de un espacio latente com√∫n del proceso comercial permite comparar oportunidades de venta entre distintas bancas bajo un mismo criterio anal√≠tico, independientemente de la nomenclatura utilizada en las fases del embudo, facilitando el monitoreo transversal del desempe√±o comercial.

2. El modelo permite identificar oportunidades con mayor probabilidad de cierre exitoso en etapas tempranas del proceso de venta, lo cual puede ser utilizado para priorizar la gesti√≥n comercial de leads y optimizar la asignaci√≥n de recursos en agencias.

3. Se evidencia que oportunidades con menor tiempo de permanencia en fases intermedias y mayor n√∫mero de interacciones efectivas presentan mayores tasas de conversi√≥n, sugiriendo la importancia de una gesti√≥n activa por parte del asesor comercial.

**Factores M√°s Importantes:**

De acuerdo con el modelo, variables como el tiempo de permanencia en cada fase del embudo comercial, el n√∫mero de interacciones realizadas con el cliente y el canal de atenci√≥n utilizado son determinantes en la estimaci√≥n de la probabilidad de cierre exitoso. En t√©rminos de negocio, esto implica que una gesti√≥n m√°s din√°mica de las oportunidades y el uso adecuado de canales de atenci√≥n pueden incrementar significativamente la efectividad del proceso de ventas.

**Patrones Identificados:**

El modelo ha identificado patrones de comportamiento comercial asociados a oportunidades que tienden a quedar estancadas en fases intermedias del proceso, as√≠ como combinaciones de canal de atenci√≥n y tipo de producto que presentan mayores probabilidades de conversi√≥n. Estos hallazgos pueden ser utilizados para redise√±ar estrategias de seguimiento comercial, establecer alertas tempranas sobre oportunidades con riesgo de abandono y mejorar la priorizaci√≥n de gestiones por parte de los asesores.


---

---
## 10. Conclusiones y Recomendaciones de Negocio

### 10.1 Resumen de Resultados

**Instrucciones:** Proporcione un resumen ejecutivo de los resultados:

---

El presente proyecto abord√≥ la problem√°tica de falta de estandarizaci√≥n en las fases del proceso comercial entre distintas bancas dentro del CRM Salesforce del Banco de Cr√©dito del Per√∫ (BCP). A trav√©s del uso de t√©cnicas de Representation Learning mediante Variational Autoencoders (VAE), se logr√≥ generar un espacio latente com√∫n que permite representar de manera homog√©nea el comportamiento de las oportunidades comerciales, independientemente de las nomenclaturas espec√≠ficas utilizadas por cada unidad de negocio.

Sobre esta representaci√≥n latente, se entren√≥ un modelo de clasificaci√≥n binaria orientado a estimar la probabilidad de cierre exitoso de una oportunidad comercial. Los resultados obtenidos evidencian una mejora en la capacidad de discriminaci√≥n del modelo respecto a enfoques baseline, permitiendo identificar oportunidades con mayor potencial de conversi√≥n y detectar casos con riesgo de estancamiento en fases intermedias del proceso de ventas.

Desde una perspectiva de negocio, estos hallazgos habilitan la implementaci√≥n de mecanismos de priorizaci√≥n de leads, asignaci√≥n eficiente de recursos comerciales y monitoreo transversal del desempe√±o del embudo de ventas, contribuyendo potencialmente a la optimizaci√≥n de la gesti√≥n comercial en agencias.


---

### 10.2 Conclusiones

**Instrucciones:** Liste las conclusiones principales:

---

1. La heterogeneidad en la definici√≥n de las fases del proceso comercial entre bancas limita la capacidad de an√°lisis transversal y el desarrollo de modelos predictivos efectivos.
2. El uso de Variational Autoencoders permite generar una representaci√≥n latente estandarizada del proceso de ventas, mitigando el ruido estructural presente en las variables categ√≥ricas originales.
3. La incorporaci√≥n de modelos de clasificaci√≥n sobre el espacio latente facilita la estimaci√≥n de la probabilidad de cierre exitoso de oportunidades comerciales.
4. La aplicaci√≥n de t√©cnicas de Machine Learning sobre procesos comerciales puede contribuir a mejorar la toma de decisiones basada en datos dentro del ecosistema CRM del banco.

---

---

### 10.3 Recomendaciones de Negocio

**Instrucciones:** Proporcione recomendaciones accionables basadas en los resultados:

---

**Recomendaciones a Corto Plazo:**
1. Implementar dashboards que utilicen la probabilidad de cierre estimada para priorizar la gesti√≥n de oportunidades comerciales en agencias.
2. Establecer alertas tempranas para identificar oportunidades con riesgo de estancamiento en fases intermedias del proceso de venta.

**Recomendaciones a Mediano Plazo:**
1. Integrar el modelo predictivo dentro de las herramientas de gesti√≥n comercial utilizadas por los asesores para apoyar la toma de decisiones en tiempo real.
2. Desarrollar pol√≠ticas de asignaci√≥n de leads basadas en la probabilidad de conversi√≥n estimada por el modelo.

**Recomendaciones a Largo Plazo:**
1. Avanzar hacia la estandarizaci√≥n organizacional de las fases del proceso comercial entre bancas.
2. Incorporar el modelo dentro de una arquitectura de anal√≠tica avanzada que permita la optimizaci√≥n continua del proceso de ventas.

---

### 10.4 Limitaciones del Estudio

**Instrucciones:** Identifique las limitaciones de su an√°lisis:

---

1. La calidad del espacio latente generado depende de la disponibilidad y consistencia de los datos hist√≥ricos registrados en el CRM.
2. La interpretabilidad del modelo es limitada debido a la naturaleza probabil√≠stica del espacio latente generado por el VAE.
3. El an√°lisis se basa en datos hist√≥ricos, lo que podr√≠a no reflejar cambios futuros en el comportamiento comercial.

---

### 10.5 Trabajo Futuro

**Instrucciones:** Proponga l√≠neas de investigaci√≥n futura:

---

1. Incorporar variables adicionales relacionadas al comportamiento hist√≥rico del cliente para enriquecer el modelo predictivo.
2. Evaluar arquitecturas alternativas de Representation Learning para mejorar la calidad del espacio latente.
3. Implementar pruebas piloto en entornos reales de gesti√≥n comercial para validar el impacto del modelo en la tasa de conversi√≥n.

---

---
## 11. Referencias

**Instrucciones:** Liste todas las referencias utilizadas (formato APA):

---


Mari√±o del Rosario, C. (2026). Advanced Machine Learning ‚Äì Sesi√≥n 1‚Äì2 [Diapositivas de PowerPoint]. Curso Advanced Machine Learning, Centrum PUCP.

Mari√±o del Rosario, C. (2026). Advanced Machine Learning ‚Äì Sesi√≥n 3‚Äì4 [Diapositivas de PowerPoint]. Curso Advanced Machine Learning, Centrum PUCP.

Chollet, F. (2017). Deep Learning with Python. Manning Publications.

Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. arXiv preprint arXiv:1312.6114.

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.


---

---
## Anexos

### A. Guardado del Modelo

In [None]:
# =====================================================
# GUARDAR EL MODELO ENTRENADO
# =====================================================

print("=" * 60)
print("GUARDADO DEL MODELO")
print("=" * 60)

# Guardar modelo PyTorch
MODEL_PATH = 'modelo_final.pth'
torch.save({
    'model_state_dict': model_pytorch.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'history': history,
    'hyperparameters': {
        'input_size': INPUT_SIZE,
        'hidden_sizes': HIDDEN_SIZES,
        'output_size': OUTPUT_SIZE,
        'dropout_rate': DROPOUT_RATE,
        'learning_rate': LEARNING_RATE
    }
}, MODEL_PATH)

print(f"\n‚úÖ Modelo PyTorch guardado en: {MODEL_PATH}")

# Guardar modelo Keras (opcional)
# model_keras.save('modelo_final.keras')
# print(f"‚úÖ Modelo Keras guardado en: modelo_final.keras")

# Guardar scaler
import joblib
joblib.dump(scaler, 'scaler.pkl')
print(f"‚úÖ Scaler guardado en: scaler.pkl")

### B. Cargar Modelo Guardado (para Inferencia)

In [None]:
# =====================================================
# CARGAR MODELO PARA INFERENCIA
# =====================================================

def load_model_and_predict(model_path, scaler_path, new_data):
    """
    Carga el modelo entrenado y hace predicciones sobre nuevos datos.

    Args:
        model_path: Ruta al archivo del modelo
        scaler_path: Ruta al archivo del scaler
        new_data: DataFrame con los nuevos datos

    Returns:
        Predicciones
    """
    # Cargar checkpoint
    checkpoint = torch.load(model_path, map_location=device)

    # Reconstruir modelo
    hp = checkpoint['hyperparameters']
    model = NeuralNetwork(
        hp['input_size'],
        hp['hidden_sizes'],
        hp['output_size'],
        hp['dropout_rate']
    )
    model.load_state_dict(checkpoint['model_state_dict'])
    model.to(device)
    model.eval()

    # Cargar scaler
    scaler = joblib.load(scaler_path)

    # Preprocesar datos
    new_data_scaled = scaler.transform(new_data)
    new_data_tensor = torch.FloatTensor(new_data_scaled).to(device)

    # Hacer predicci√≥n
    with torch.no_grad():
        outputs = model(new_data_tensor)
        if task_type == 'classification':
            _, predictions = torch.max(outputs, 1)
            predictions = predictions.cpu().numpy()
        else:
            predictions = outputs.cpu().numpy().flatten()

    return predictions

# Ejemplo de uso:
# predictions = load_model_and_predict('modelo_final.pth', 'scaler.pkl', new_df)
print("‚úÖ Funci√≥n de carga e inferencia definida")

---

## Checklist de Entrega

Antes de entregar, verifique que ha completado los siguientes elementos:

- [X ] Informaci√≥n del proyecto completada
- [X ] Resumen ejecutivo escrito
- [X ] Problema de negocio claramente definido
- [ X] Objetivos SMART establecidos
- [ X] EDA completo con visualizaciones
- [ X] Preprocesamiento de datos documentado
- [ X] Arquitectura del modelo justificada
- [ X] Modelo entrenado con curvas de aprendizaje
- [ X] M√©tricas de evaluaci√≥n calculadas
- [ X] Comparaci√≥n con modelos baseline
- [ X] Interpretaci√≥n de resultados
- [ X] Conclusiones y recomendaciones de negocio
- [ X] Referencias listadas
- [ X] C√≥digo ejecutable sin errores
- [ X] Comentarios y documentaci√≥n adecuados

---

**¬°Buena suerte con su proyecto!** üéì