# Cargue y lectura del dataset "assetment-bookmaker.xlsx"

In [1]:
import pandas as pd
from IPython.display import display

def leer_assetment_bookmaker_simple(ruta_archivo):
    """
    Lee un archivo Excel con contenido tipo CSV embebido en una sola columna,
    y retorna un DataFrame limpio con encabezado y vista previa.
    """
    try:
        df_raw = pd.read_excel(ruta_archivo, sheet_name='in', header=None)

        print(f"✅ Archivo leído. Total de filas: {len(df_raw)}")
        print("\n📄 Vista previa del contenido original:")
        for i in range(min(5, len(df_raw))):
            print(f"L{i}: {df_raw.iloc[i, 0]}")

        # Procesar encabezado
        header_line = df_raw.iloc[0, 0]
        columnas = [col.strip() for col in header_line.split(',')]

        # Extraer datos y separar por coma
        data_lines = df_raw.iloc[1:, 0].dropna().astype(str).tolist()
        registros = [line.split(',') for line in data_lines]

        df = pd.DataFrame(registros, columns=columnas)
        print(f"\n✅ DataFrame estructurado con {df.shape[0]} filas y {df.shape[1]} columnas.")
        return df

    except Exception as e:
        print(f"❌ Error al leer o procesar el archivo: {e}")
        return None

ruta = r"C:\Users\jartp\Desktop\Inlaze\data\assetment-bookmaker.xlsx"
df_assetment = leer_assetment_bookmaker_simple(ruta)
display(df_assetment.head(30))




✅ Archivo leído. Total de filas: 448

📄 Vista previa del contenido original:
L0: Periodo,# Clicks,# Registros IN,# Primer depÃ³sito IN,Total depositado IN,# Personas que apostaron IN,Total apostado,Net revenue IN
L1: 2022-08-04,3.0,,,,,,
L2: 2022-08-08,1.0,,,,,,
L3: 2022-08-09,1.0,,,,,,
L4: 2022-11-03,,0.0,0.0,194.5249,1.0,194.5249,160.4830425

✅ DataFrame estructurado con 447 filas y 8 columnas.


Unnamed: 0,Periodo,# Clicks,# Registros IN,# Primer depÃ³sito IN,Total depositado IN,# Personas que apostaron IN,Total apostado,Net revenue IN
0,2022-08-04,3.0,,,,,,
1,2022-08-08,1.0,,,,,,
2,2022-08-09,1.0,,,,,,
3,2022-11-03,,0.0,0.0,194.5249,1.0,194.5249,160.4830425
4,2022-11-04,,0.0,0.0,0.0,1.0,44.17412175,6.67520062
5,2022-11-05,,0.0,0.0,0.0,1.0,27.94059948,-38.2647512767777
6,2022-11-06,,0.0,0.0,0.0,1.0,66.0878811946329,66.0878811946329
7,2022-11-08,,0.0,0.0,97.72458,1.0,368.705058338217,78.179664
8,2022-11-09,,0.0,0.0,0.0,1.0,50.9031416,-66.3626207775815
9,2022-11-10,,0.0,0.0,0.0,1.0,83.70114048,31.9691856


# Ajuste en el tipado de la dimensionalidad según su contenido

In [2]:
def limpiar_y_tipar_assetment(df: pd.DataFrame) -> pd.DataFrame:
    """
    Limpia los nombres de columnas, aplica los tipos de datos adecuados
    y redondea los montos monetarios a 2 decimales.
    """

    # Renombrar columnas para estandarizar nombres
    columnas_renombradas = {
        '# Clicks': 'Clicks',
        '# Registros IN': 'Registros',
        '# Primer depÃ³sito IN': 'Primer Deposito',
        'Total depositado IN': 'Total Depositado',
        '# Personas que apostaron IN': 'Personas Apostaron',
        'Total apostado': 'Total Apostado',
        'Net revenue IN': 'Net Revenue'
    }
    df = df.rename(columns=columnas_renombradas)

    # Conversión a tipo fecha
    df['Periodo'] = pd.to_datetime(df['Periodo'], errors='coerce')

    # Columnas de conteo (enteros con soporte para nulos)
    columnas_entero = ['Clicks', 'Registros', 'Personas Apostaron']
    for col in columnas_entero:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce').astype('Int64')

    # Columnas monetarias o proporciones (floats con redondeo)
    columnas_float = ['Primer Deposito', 'Total Depositado', 'Total Apostado', 'Net Revenue']
    for col in columnas_float:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce').astype('float64')
            df[col] = df[col].round(2)

    # Reporte final
    print("\n📌 Tipos de datos ajustados:")
    print(df.dtypes)

    print("\n🔍 Recuento de valores nulos:")
    print(df.isna().sum())

    return df


In [3]:
df_assetment_limpio = limpiar_y_tipar_assetment(df_assetment)
display(df_assetment_limpio.head(30))



📌 Tipos de datos ajustados:
Periodo               datetime64[ns]
Clicks                         Int64
Registros                      Int64
Primer Deposito              float64
Total Depositado             float64
Personas Apostaron             Int64
Total Apostado               float64
Net Revenue                  float64
dtype: object

🔍 Recuento de valores nulos:
Periodo                 0
Clicks                178
Registros              23
Primer Deposito        23
Total Depositado       43
Personas Apostaron     43
Total Apostado         43
Net Revenue            43
dtype: int64


Unnamed: 0,Periodo,Clicks,Registros,Primer Deposito,Total Depositado,Personas Apostaron,Total Apostado,Net Revenue
0,2022-08-04,3.0,,,,,,
1,2022-08-08,1.0,,,,,,
2,2022-08-09,1.0,,,,,,
3,2022-11-03,,0.0,0.0,194.52,1.0,194.52,160.48
4,2022-11-04,,0.0,0.0,0.0,1.0,44.17,6.68
5,2022-11-05,,0.0,0.0,0.0,1.0,27.94,-38.26
6,2022-11-06,,0.0,0.0,0.0,1.0,66.09,66.09
7,2022-11-08,,0.0,0.0,97.72,1.0,368.71,78.18
8,2022-11-09,,0.0,0.0,0.0,1.0,50.9,-66.36
9,2022-11-10,,0.0,0.0,0.0,1.0,83.7,31.97


## Obtención del dataset tipado 

In [4]:
def exportar_a_excel(df: pd.DataFrame, ruta_salida: str) -> None:
    """
    Exporta el DataFrame a un archivo Excel con formato limpio y datos analíticos (no visuales).
    """
    try:
        df.to_excel(ruta_salida, index=False)
        print(f"✅ Archivo exportado exitosamente a:\n{ruta_salida}")
    except Exception as e:
        print(f"❌ Error al exportar: {e}")


In [5]:
ruta_exportacion = r"C:\Users\jartp\Desktop\Inlaze\data\assetment_limpio.xlsx"
exportar_a_excel(df_assetment_limpio, ruta_exportacion)


✅ Archivo exportado exitosamente a:
C:\Users\jartp\Desktop\Inlaze\data\assetment_limpio.xlsx


# Analisis exploratorio de Datos

In [6]:
def eda_assetment(df: pd.DataFrame) -> pd.DataFrame:
    """
    Realiza análisis exploratorio del dataset:
    - Recuento de valores nulos
    - Agrupación por fecha
    - Estadísticas descriptivas
    """

    print("\n🔍 Recuento de valores nulos (antes de agrupar):")
    print(df.isna().sum())

    # 📅 Agrupación por fecha (consolidación de registros por día)
    df_grouped = df.groupby('Periodo', as_index=False).agg({
        'Clicks': 'sum',
        'Registros': 'sum',
        'Primer Deposito': 'sum',
        'Total Depositado': 'sum',
        'Personas Apostaron': 'sum',
        'Total Apostado': 'sum',
        'Net Revenue': 'sum'
    })

    print(f"\n📆 Registros consolidados por fecha: {df_grouped.shape[0]} días únicos")
    
    print("\n📈 Estadísticas descriptivas de variables numéricas:")
    display(df_grouped.describe().T)

    # 📊 Correlación simple en estilo de tabla
    print("\n📊 Matriz de correlación:")
    correlacion = df_grouped.drop(columns='Periodo').corr().round(2)
    display(correlacion)

    return df_grouped


In [7]:
df_assetment_agrupado = eda_assetment(df_assetment_limpio)



🔍 Recuento de valores nulos (antes de agrupar):
Periodo                 0
Clicks                178
Registros              23
Primer Deposito        23
Total Depositado       43
Personas Apostaron     43
Total Apostado         43
Net Revenue            43
dtype: int64

📆 Registros consolidados por fecha: 323 días únicos

📈 Estadísticas descriptivas de variables numéricas:


Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Periodo,323.0,2023-04-14 23:15:25.077399296,2022-08-04 00:00:00,2023-01-25 12:00:00,2023-04-16 00:00:00,2023-07-05 12:00:00,2023-09-24 00:00:00,
Clicks,323.0,1109.343653,0.0,0.0,7.0,1594.5,18707.0,2050.731968
Registros,323.0,32.44582,0.0,0.0,1.0,10.5,1324.0,114.573633
Primer Deposito,323.0,18.281734,0.0,1.0,2.0,8.5,659.0,55.368034
Total Depositado,323.0,5333.96096,0.0,2138.595,3837.05,8105.965,23800.79,4122.386833
Personas Apostaron,323.0,347.551084,0.0,164.0,188.0,479.0,1428.0,328.920122
Total Apostado,323.0,41789.534087,0.0,12509.985,24579.42,59719.415,289945.27,42761.939417
Net Revenue,323.0,1156.887461,-19141.06,-48.545,703.91,2639.76,25210.35,3750.730397



📊 Matriz de correlación:


Unnamed: 0,Clicks,Registros,Primer Deposito,Total Depositado,Personas Apostaron,Total Apostado,Net Revenue
Clicks,1.0,0.3,0.32,-0.23,-0.1,-0.22,-0.11
Registros,0.3,1.0,0.99,0.24,0.37,0.04,-0.03
Primer Deposito,0.32,0.99,1.0,0.27,0.43,0.05,-0.01
Total Depositado,-0.23,0.24,0.27,1.0,0.74,0.59,0.3
Personas Apostaron,-0.1,0.37,0.43,0.74,1.0,0.34,0.2
Total Apostado,-0.22,0.04,0.05,0.59,0.34,1.0,0.21
Net Revenue,-0.11,-0.03,-0.01,0.3,0.2,0.21,1.0


## Exportación del dataframe agrupado para manipulación

In [8]:
def exportar_df_agrupado(df: pd.DataFrame, ruta: str) -> None:
    """
    Exporta el DataFrame agrupado por fecha a un archivo Excel.
    """
    try:
        df.to_excel(ruta, index=False)
        print(f"✅ Archivo exportado correctamente a:\n{ruta}")
    except Exception as e:
        print(f"❌ Error al exportar: {e}")


In [9]:
ruta_exportacion = r"C:\Users\jartp\Desktop\Inlaze\data\assetment_agrupado.xlsx"
exportar_df_agrupado(df_assetment_agrupado, ruta_exportacion)


✅ Archivo exportado correctamente a:
C:\Users\jartp\Desktop\Inlaze\data\assetment_agrupado.xlsx


# Reconocimieto visual de los patrones de la Data agrupada

In [10]:
import plotly.express as px

def visualizar_eda_plotly(df: pd.DataFrame) -> None:
    """
    Visualizaciones con Plotly (sin matplotlib):
    - Línea temporal de Net Revenue
    - Histograma de Clicks
    - Dispersión Total Depositado vs Net Revenue
    """
    fig1 = px.line(df, x='Periodo', y='Net Revenue', title='Net Revenue por día')
    fig1.show()

    fig2 = px.histogram(df, x='Clicks', nbins=20, title='Distribución de Clicks')
    fig2.show()

    fig3 = px.scatter(df, x='Total Depositado', y='Net Revenue', title='Relación: Total Depositado vs Net Revenue')
    fig3.show()


In [11]:
visualizar_eda_plotly(df_assetment_agrupado)



# Analisis Dataviz

## Preparación del DataFrame para análisis temporal

In [12]:
import plotly.express as px

# 1️⃣ Preparar el DataFrame: agregar dimensiones temporales
def agregar_dimensiones_temporales(df: pd.DataFrame) -> pd.DataFrame:
    """
    Agrega columnas temporales para análisis estacional: Año, Mes, Semana, etc.
    """
    df['Año'] = df['Periodo'].dt.year
    df['Mes'] = df['Periodo'].dt.month
    df['Nombre Mes'] = df['Periodo'].dt.strftime('%B')
    df['Periodo_Mensual'] = df['Periodo'].dt.to_period('M').astype(str)
    df['Semana'] = df['Periodo'].dt.isocalendar().week
    df['Día'] = df['Periodo'].dt.day
    return df

# 2️⃣ Línea de tiempo por año
def graficar_series_por_anio(df: pd.DataFrame, variable: str):
    fig = px.line(df, x='Periodo', y=variable, color='Año',
                  title=f'Serie temporal de {variable} por Año',
                  labels={variable: variable, "Periodo": "Fecha"})
    fig.show()

# 3️⃣ Estacionalidad mensual con boxplot
def boxplot_estacional_mensual(df: pd.DataFrame, variable: str):
    fig = px.box(df, x='Nombre Mes', y=variable, color='Año',
                 title=f'Estacionalidad mensual de {variable}',
                 category_orders={'Nombre Mes': ['January','February','March','April','May','June',
                                                 'July','August','September','October','November','December']})
    fig.show()

# 4️⃣ Gráfico de dispersión 
def correlacion_simple(df: pd.DataFrame, var_x: str, var_y: str):
    fig = px.scatter(
        df, x=var_x, y=var_y,
        title=f'Relación entre {var_x} y {var_y} ',
        labels={var_x: var_x, var_y: var_y}
    )
    fig.show()


# 5️⃣ Matriz de correlación visual
def matriz_correlacion_plotly(df: pd.DataFrame):
    columnas_numericas = df.select_dtypes(include='number').drop(columns=['Año', 'Mes', 'Semana', 'Día'], errors='ignore')
    corr = columnas_numericas.corr().round(2)
    fig = px.imshow(corr, text_auto=True, title="Matriz de correlación entre variables")
    fig.show()


In [13]:
# Definir df como alias corto para el agrupado
df = df_assetment_agrupado

# Agregar columnas temporales
df = agregar_dimensiones_temporales(df)

# Serie temporal y estacionalidad
graficar_series_por_anio(df, 'Net Revenue')
boxplot_estacional_mensual(df, 'Net Revenue')




El análisis visual del comportamiento temporal del `Net Revenue` evidencia una marcada diferencia entre los años 2022 y 2023. Mientras que en 2022 la actividad fue limitada y relativamente estable, en 2023 se observa una dinámica significativamente más activa, caracterizada por una alta volatilidad diaria con picos que superan los 20 mil dólares y caídas igualmente pronunciadas. Esta variabilidad sugiere la posible influencia de eventos específicos, campañas promocionales o comportamientos intensivos de usuarios. Por su parte, el análisis estacional mensual a través de boxplots revela que los ingresos netos en 2023 no solo varían entre meses, sino también dentro de cada mes, siendo marzo, abril y mayo los más volátiles y con mayor presencia de valores atípicos. Esta dispersión mensual confirma la necesidad de incorporar componentes estacionales y mecanismos de suavizamiento al momento de construir modelos de proyección, ya que el ingreso neto de la plataforma no responde a una evolución lineal, sino a patrones complejos influenciados por factores temporales y operativos.


In [14]:
# Correlaciones focalizadas
correlacion_simple(df, 'Clicks', 'Registros')
correlacion_simple(df, 'Primer Deposito', 'Total Depositado')
correlacion_simple(df, 'Personas Apostaron', 'Total Apostado')
correlacion_simple(df, 'Total Apostado', 'Net Revenue')

# Matriz global de correlación
matriz_correlacion_plotly(df)



El análisis de la matriz de correlación revela que las variables más estrechamente relacionadas con el `Net Revenue` son el `Total Depositado` (0.30), las `Personas que Apostaron` (0.20) y el `Total Apostado` (0.21), lo que sugiere que el ingreso neto depende en mayor medida de los volúmenes reales de actividad económica en la plataforma, más que de los indicadores de adquisición como `Clicks`, `Registros` o `Primer Depósito`, cuya correlación con el ingreso es prácticamente nula o incluso levemente negativa. Adicionalmente, se evidencia una relación casi perfecta entre `Registros` y `Primer Depósito` (0.99), lo que indica un comportamiento lógico de conversión, pero sin impacto directo en el ingreso neto. Esto permite concluir que, para efectos de modelamiento predictivo, las variables transaccionales y de participación activa deben priorizarse sobre las métricas de alcance o captación inicial.


#### Validación de registros nulos o cero tras análisis de correlación

In [15]:
def identificar_registros_nulos_operativos(df: pd.DataFrame) -> pd.DataFrame:
    """
    Identifica registros en los que no se realizaron apuestas (Total Apostado == 0).
    Según la lógica operativa, si no hubo apuestas, no puede generarse ingreso neto.
    """
    cols_clave = ['Total Apostado']
    df_nulos = df[(df[cols_clave] == 0).all(axis=1)]
    
    print(f"🔍 Registros sin operación comercial (totalmente nulos en dimensiones clave): {len(df_nulos)} de {len(df)} días.")
    display(df_nulos[['Periodo'] + cols_clave + ['Net Revenue']])
    
    return df_nulos


In [16]:
# Ejecutar diagnóstico
registros_sin_operacion = identificar_registros_nulos_operativos(df_assetment_agrupado)


🔍 Registros sin operación comercial (totalmente nulos en dimensiones clave): 5 de 323 días.


Unnamed: 0,Periodo,Total Apostado,Net Revenue
0,2022-08-04,0.0,0.0
1,2022-08-08,0.0,0.0
2,2022-08-09,0.0,0.0
13,2022-11-16,0.0,0.0
316,2023-09-18,0.0,0.0


In [17]:
def preparar_dataset_para_modelo(df: pd.DataFrame) -> pd.DataFrame:
    """
    Filtra los registros sin apuestas (Total Apostado = 0) y deja listo el dataset para modelado.
    """
    df_modelo = df[df['Total Apostado'] > 0].copy()
    print(f"✅ Dataset listo para proyección: {len(df_modelo)} registros (de {len(df)} originales).")
    
    # Confirmación de integridad
    print("\n🎯 Fechas mínimas y máximas del dataset:")
    print(df_modelo['Periodo'].agg(['min', 'max']))
    
    return df_modelo


In [18]:
# Ejecutar filtro
df_modelo = preparar_dataset_para_modelo(df_assetment_agrupado)


✅ Dataset listo para proyección: 318 registros (de 323 originales).

🎯 Fechas mínimas y máximas del dataset:
min   2022-11-03
max   2023-09-24
Name: Periodo, dtype: datetime64[ns]


In [19]:
# 📦 Exportar df_modelo a Excel
import pandas as pd

def exportar_df_modelo(df: pd.DataFrame, ruta: str):
    """
    Exporta el DataFrame df_modelo a un archivo Excel.
    
    Parámetros:
    - df (pd.DataFrame): DataFrame a exportar
    - ruta (str): Ruta completa del archivo de destino
    """
    try:
        df.to_excel(ruta, index=False)
        print(f"✅ Archivo exportado con éxito a:\n{ruta}")
    except Exception as e:
        print(f"❌ Error al exportar el archivo:\n{e}")

# Ruta de exportación
ruta_exportacion = r"C:\Users\jartp\Desktop\Inlaze\data\df_modelo.xlsx"

# Ejecutar la exportación
exportar_df_modelo(df_modelo, ruta_exportacion)


✅ Archivo exportado con éxito a:
C:\Users\jartp\Desktop\Inlaze\data\df_modelo.xlsx


Como resultado del proceso de depuración lógica y validación transaccional, se generó un nuevo conjunto de datos (df_modelo) compuesto únicamente por registros con actividad económica efectiva (días donde Total Apostado > 0). Esta depuración permite centrar el modelo de proyección exclusivamente en los días con dinámica de ingresos o pérdidas reales, eliminando el ruido derivado de fechas sin apuestas. Este conjunto será la base para la estimación de ingresos netos proyectados a futuro.

## Comparativa entre la granularidad entre el Dataset recibido vs el ajustado

In [20]:
import pandas as pd
import plotly.express as px
from IPython.display import display

def comparar_dataset_limpio_vs_modelo(df_assetment_limpio: pd.DataFrame, df_modelo: pd.DataFrame):
    """
    Compara el dataset original limpio (df_assetment_limpio) con el dataset filtrado (df_modelo).
    Muestra diferencias en tamaño, estadística descriptiva y evolución mensual.
    """

    print("📊 Comparación General de Tamaños:")
    print(f"- Registros en dataset original:     {len(df_assetment_limpio)}")
    print(f"- Registros en dataset para modelo:  {len(df_modelo)}")
    print(f"- Diferencia absoluta:               {len(df_assetment_limpio) - len(df_modelo)}")

    excluidos_pct = 100 * (len(df_assetment_limpio) - len(df_modelo)) / len(df_assetment_limpio)
    print(f"- % de registros excluidos:          {excluidos_pct:.2f}%\n")

    print("📉 Descripción Estadística de Net Revenue (Original vs Modelo):")
    comparativo = pd.DataFrame({
        'Original': df_assetment_limpio['Net Revenue'].astype(float).describe(),
        'Modelo': df_modelo['Net Revenue'].describe()
    })
    display(comparativo)

    print("\n📆 Fechas mínimas y máximas:")
    fechas = pd.DataFrame({
        'Original': [df_assetment_limpio['Periodo'].min(), df_assetment_limpio['Periodo'].max()],
        'Modelo': [df_modelo['Periodo'].min(), df_modelo['Periodo'].max()]
    }, index=['Fecha Mínima', 'Fecha Máxima'])
    display(fechas)

    print("\n📅 Evolución mensual comparativa:")
    df_assetment_limpio['Mes'] = df_assetment_limpio['Periodo'].dt.to_period('M').astype(str)
    df_modelo['Mes'] = df_modelo['Periodo'].dt.to_period('M').astype(str)

    conteo_mes = pd.DataFrame({
        'Original': df_assetment_limpio.groupby('Mes').size(),
        'Modelo': df_modelo.groupby('Mes').size()
    }).fillna(0).astype(int)

    display(conteo_mes)

    fig = px.bar(conteo_mes.reset_index(),
                 x='Mes',
                 y=['Original', 'Modelo'],
                 barmode='group',
                 title='📊 Comparación de registros mensuales: Original vs Modelo')
    fig.show()

    fig2 = px.line(df_assetment_limpio, x='Periodo', y='Net Revenue', title='🟦 Evolución Net Revenue - Original')
    fig2.add_scatter(x=df_modelo['Periodo'], y=df_modelo['Net Revenue'], mode='lines', name='🟥 Modelo')
    fig2.update_layout(title='📈 Comparativo de Net Revenue (Original vs Modelo)')
    fig2.show()


In [21]:
comparar_dataset_limpio_vs_modelo(df_assetment_limpio, df_modelo)


📊 Comparación General de Tamaños:
- Registros en dataset original:     447
- Registros en dataset para modelo:  318
- Diferencia absoluta:               129
- % de registros excluidos:          28.86%

📉 Descripción Estadística de Net Revenue (Original vs Modelo):


Unnamed: 0,Original,Modelo
count,404.0,318.0
mean,924.937252,1175.077516
std,3384.336745,3777.357379
min,-19141.06,-19141.06
25%,-4.6075,-63.68
50%,159.635,746.28
75%,1765.9275,2682.6
max,25210.35,25210.35



📆 Fechas mínimas y máximas:


Unnamed: 0,Original,Modelo
Fecha Mínima,2022-08-04,2022-11-03
Fecha Máxima,2023-09-24,2023-09-24



📅 Evolución mensual comparativa:


Unnamed: 0_level_0,Original,Modelo
Mes,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-08,3,0
2022-11,26,21
2022-12,35,31
2023-01,44,31
2023-02,42,28
2023-03,40,31
2023-04,32,30
2023-05,49,31
2023-06,39,30
2023-07,48,31


Tras un proceso de análisis exploratorio y evaluación de correlaciones, se depuró el conjunto de datos original (`df_assetment_limpio`) excluyendo los registros cuya variable `Total Apostado` —clave para la generación de ingresos— tenía un valor de cero. Esta decisión se fundamentó en la lógica operativa del modelo de negocio: si no se realiza ninguna apuesta, no es factible esperar un ingreso neto, ni positivo ni negativo. Como resultado, el dataset preparado para modelado (`df_modelo`) conserva únicamente los registros con actividad transaccional relevante, lo que representa una reducción del 28,86% respecto al total original. Esta depuración mejora la calidad del set de entrenamiento, eliminando ruido que podría distorsionar la proyección de `Net Revenue`, y preserva la dinámica temporal del negocio sin introducir sesgos estacionales. Las visualizaciones comparativas refuerzan esta decisión, mostrando una serie más limpia, variable y alineada con los días económicamente activos, lo cual será esencial para el desempeño del modelo de proyección.


## Creación de BD MySQL sobre el Dataframe agrupado

In [22]:
from sqlalchemy import create_engine, text
from datetime import datetime
import pandas as pd

# Configuración de conexión
usuario = "root"
contrasena = "123456789"
host = "localhost"
puerto = "3306"

try:
    print("🚀 Verificando/creando base de datos 'Inlaze'...")

    # Crear motor y conexión temporal
    engine = create_engine(f"mysql+pymysql://{usuario}:{contrasena}@{host}:{puerto}")
    with engine.connect() as conn:
        conn.execute(text("CREATE DATABASE IF NOT EXISTS Inlaze"))

    # Conexión a la base de datos 'Inlaze'
    engine_inlaze = create_engine(f"mysql+pymysql://{usuario}:{contrasena}@{host}:{puerto}/inlaze")

    # Subida de df_modelo a la tabla NetRevenue
    print("📥 Subiendo `df_modelo` a la tabla `netrevenue`...")
    df_modelo.to_sql(name='netrevenue', con=engine_inlaze, if_exists='replace', index=False)
    print("✅ Cargado exitoso en `inlaze.netrevenue`")

except Exception as e:
    print(f"❌ Error durante el proceso: {e}")


🚀 Verificando/creando base de datos 'Inlaze'...
📥 Subiendo `df_modelo` a la tabla `netrevenue`...
✅ Cargado exitoso en `inlaze.netrevenue`


### Queries SQL para la consulta del esquema cargado

In [23]:
import pandas as pd
from sqlalchemy import create_engine
from IPython.display import display

# Configuración de conexión
usuario = "root"
contrasena = "123456789"
host = "localhost"
puerto = "3306"
bd = "Inlaze"

# Crear motor SQLAlchemy
engine = create_engine(f"mysql+pymysql://{usuario}:{contrasena}@{host}:{puerto}/{bd}")

# 1️⃣ Total de ingresos netos por mes
query_1 = """
SELECT 
    Periodo_Mensual,
    ROUND(SUM(`Net Revenue`), 2) AS total_net_revenue
FROM netrevenue
GROUP BY Periodo_Mensual
ORDER BY Periodo_Mensual;
"""
df_1 = pd.read_sql_query(query_1, engine)
print("1️⃣ Total Net Revenue por mes:")
display(df_1)

# 2️⃣ Top 10 días con mayor Net Revenue
query_2 = """
SELECT 
    Periodo,
    `Net Revenue`
FROM netrevenue
ORDER BY `Net Revenue` DESC
LIMIT 10;
"""
df_2 = pd.read_sql_query(query_2, engine)
print("2️⃣ Días con mayor Net Revenue:")
display(df_2)

# 3️⃣ Días con pérdidas
query_3 = """
SELECT 
    Periodo,
    `Net Revenue`,
    `Total Apostado`,
    `Personas Apostaron`
FROM netrevenue
WHERE `Net Revenue` < 0
ORDER BY `Net Revenue`;
"""
df_3 = pd.read_sql_query(query_3, engine)
print("3️⃣ Días con pérdidas (Net Revenue negativo):")
display(df_3.head(10))  # Para no saturar

# 4️⃣ Apuestas altas pero Net Revenue bajo
query_4 = """
SELECT 
    Periodo,
    `Total Apostado`,
    `Net Revenue`
FROM netrevenue
WHERE `Total Apostado` > 10000 AND `Net Revenue` < 0
ORDER BY `Total Apostado` DESC;
"""
df_4 = pd.read_sql_query(query_4, engine)
print("4️⃣ Alta apuesta y Net Revenue negativo:")
display(df_4)

# 5️⃣ Promedio de Net Revenue por día de la semana
query_5 = """
SELECT 
    Día,
    ROUND(AVG(`Net Revenue`), 2) AS promedio_net_revenue
FROM netrevenue
GROUP BY Día
ORDER BY Día;
"""
df_5 = pd.read_sql_query(query_5, engine)
print("5️⃣ Promedio de Net Revenue por día de la semana:")
display(df_5)


1️⃣ Total Net Revenue por mes:


Unnamed: 0,Periodo_Mensual,total_net_revenue
0,2022-11,-5327.0
1,2022-12,32142.82
2,2023-01,18167.74
3,2023-02,33307.01
4,2023-03,-1884.78
5,2023-04,28940.53
6,2023-05,44567.7
7,2023-06,26305.88
8,2023-07,47186.43
9,2023-08,98242.52


2️⃣ Días con mayor Net Revenue:


Unnamed: 0,Periodo,Net Revenue
0,2023-03-12,25210.35
1,2023-04-22,17562.66
2,2023-05-14,10761.64
3,2022-12-09,9999.41
4,2023-08-26,9724.55
5,2023-03-20,9640.5
6,2023-04-15,9215.28
7,2023-08-06,8858.19
8,2023-05-17,8698.32
9,2023-08-31,8359.67


3️⃣ Días con pérdidas (Net Revenue negativo):


Unnamed: 0,Periodo,Net Revenue,Total Apostado,Personas Apostaron
0,2023-03-15,-19141.06,91707.68,191
1,2023-05-12,-18013.69,177076.01,207
2,2023-03-28,-10628.48,128150.14,153
3,2023-04-01,-8859.73,45886.86,171
4,2023-05-16,-8457.74,83680.85,161
5,2023-03-13,-7948.68,87746.86,176
6,2023-07-30,-6972.39,105234.42,1428
7,2023-04-20,-6799.37,68747.85,196
8,2023-04-16,-6719.24,36186.84,200
9,2023-03-08,-6187.56,114508.39,198


4️⃣ Alta apuesta y Net Revenue negativo:


Unnamed: 0,Periodo,Total Apostado,Net Revenue
0,2023-04-21,192614.08,-1693.89
1,2023-03-11,179398.35,-5301.21
2,2023-05-12,177076.01,-18013.69
3,2023-03-10,170405.29,-3089.46
4,2023-03-31,162727.34,-811.20
...,...,...,...
72,2023-02-09,10834.34,-418.96
73,2023-04-26,10649.77,-225.66
74,2023-06-25,10542.65,-696.65
75,2023-02-02,10357.50,-1350.87


5️⃣ Promedio de Net Revenue por día de la semana:


Unnamed: 0,Día,promedio_net_revenue
0,1,433.9
1,2,2607.57
2,3,2602.81
3,4,797.15
4,5,1739.34
5,6,2039.19
6,7,1174.03
7,8,247.92
8,9,2527.14
9,10,191.46


In [24]:
!{sys.executable} -m pip install xlsxwriter


"{sys.executable}" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


### Exportación de la consultas SQL generadas

In [25]:
import pandas as pd

# Ruta de salida
ruta_salida = r"C:\Users\jartp\Desktop\Inlaze\outputs\consultas_netrevenue.xlsx"

# Descripción de las consultas
descripcion_consultas = pd.DataFrame({
    "Consulta": [
        "NetRevenue_Mensual",
        "Top10_NetRevenue",
        "NetRevenue_Anual",
        "Dias_Menor_Actividad",
        "Resumen_Comparativo"
    ],
    "Descripción": [
        "Suma mensual de Net Revenue agrupada por mes.",
        "Top 10 días con mayor Net Revenue registrado.",
        "Suma anual de Net Revenue por año calendario.",
        "Top 5 días con menor número de personas apostando.",
        "Comparativo estadístico entre dataset original y modelo final."
    ]
})

# Guardar todo en un archivo Excel con varias hojas
with pd.ExcelWriter(ruta_salida, engine='openpyxl') as writer:
    df_1.to_excel(writer, sheet_name='NetRevenue_Mensual', index=False)
    df_2.to_excel(writer, sheet_name='Top10_NetRevenue', index=False)
    df_3.to_excel(writer, sheet_name='NetRevenue_Anual', index=False)
    df_4.to_excel(writer, sheet_name='Dias_Menor_Actividad', index=False)
    df_5.to_excel(writer, sheet_name='Resumen_Comparativo', index=False)
    descripcion_consultas.to_excel(writer, sheet_name='Resumen', index=False)

print(f"✅ Archivo Excel generado exitosamente en:\n{ruta_salida}")


✅ Archivo Excel generado exitosamente en:
C:\Users\jartp\Desktop\Inlaze\outputs\consultas_netrevenue.xlsx


In [26]:
df_modelo

Unnamed: 0,Periodo,Clicks,Registros,Primer Deposito,Total Depositado,Personas Apostaron,Total Apostado,Net Revenue,Año,Mes,Nombre Mes,Periodo_Mensual,Semana,Día
3,2022-11-03,0,0,0.0,194.52,1,194.52,160.48,2022,2022-11,November,2022-11,44,3
4,2022-11-04,0,0,0.0,0.00,1,44.17,6.68,2022,2022-11,November,2022-11,44,4
5,2022-11-05,0,0,0.0,0.00,1,27.94,-38.26,2022,2022-11,November,2022-11,44,5
6,2022-11-06,0,0,0.0,0.00,1,66.09,66.09,2022,2022-11,November,2022-11,44,6
7,2022-11-08,0,0,0.0,97.72,1,368.71,78.18,2022,2022-11,November,2022-11,45,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
318,2023-09-20,0,3,6.0,9911.34,796,100563.61,5869.98,2023,2023-09,September,2023-09,38,20
319,2023-09-21,0,2,8.0,10699.71,780,55926.88,-1301.30,2023,2023-09,September,2023-09,38,21
320,2023-09-22,0,1,4.0,8305.03,744,63909.52,1519.90,2023,2023-09,September,2023-09,38,22
321,2023-09-23,0,1,5.0,10010.93,775,74764.22,3166.86,2023,2023-09,September,2023-09,38,23


## Creación de Sub Dataframe Agrupado por mes año (Suma de las dimensiones)

In [27]:
import pandas as pd

def consolidar_mensualmente(df: pd.DataFrame) -> pd.DataFrame:
    """
    Agrupa el dataframe por 'Periodo_Mensual' y calcula estadísticas agregadas para modelado.
    Renombra la columna de período .
    """
    # ✅ Verificar que las columnas requeridas existen
    columnas_requeridas = [
        'Periodo_Mensual', 'Clicks', 'Registros', 'Primer Deposito',
        'Total Depositado', 'Personas Apostaron', 'Total Apostado', 'Net Revenue'
    ]
    faltantes = [col for col in columnas_requeridas if col not in df.columns]
    if faltantes:
        raise KeyError(f"🚨 Faltan columnas necesarias en df: {faltantes}")

    # 🧮 Agrupar por mes
    df_mensual = df.groupby('Periodo_Mensual').agg({
        'Clicks': 'sum',
        'Registros': 'sum',
        'Primer Deposito': 'sum',
        'Total Depositado': 'sum',
        'Personas Apostaron': 'sum',
        'Total Apostado': 'sum',
        'Net Revenue': 'sum'
    }).reset_index()

    # 📅 Convertir columna a datetime y renombrar
    df_mensual = df_mensual.rename(columns={'Periodo_Mensual': 'Periodo'})
    df_mensual['Periodo'] = pd.to_datetime(df_mensual['Periodo'], format='%Y-%m')

    # 💾 Exportar a Excel
    ruta = r"C:\Users\jartp\Desktop\Inlaze\data\net_revenue_mensual.xlsx"
    df_mensual.to_excel(ruta, index=False)
    print(f"✅ Consolidado mensual generado y exportado a:\n{ruta}")

    return df_mensual

# 🔁 Ejecutar
df_mensual = consolidar_mensualmente(df_modelo)


✅ Consolidado mensual generado y exportado a:
C:\Users\jartp\Desktop\Inlaze\data\net_revenue_mensual.xlsx


## Definición y estructuración de los modelos de Proyección 

### Modelación Univariada con metodo SARIMAX (Evaluación unica del campo Net Revenue)

In [28]:
import warnings
warnings.filterwarnings('ignore')  # 🚫 Eliminar todos los warnings

import pandas as pd
import plotly.express as px
from statsmodels.tsa.statespace.sarimax import SARIMAX

# 🔒 Copias para no modificar los originales
df_modelo_simple = df_modelo[['Periodo', 'Net Revenue']].copy()
df_mensual_simple = df_mensual[['Periodo', 'Net Revenue']].copy()

def proyectar_net_revenue(df, fecha_col, valor_col, frecuencia, pasos_forecast):
    df = df[[fecha_col, valor_col]].copy()
    df[fecha_col] = pd.to_datetime(df[fecha_col])
    df = df.set_index(fecha_col)
    df = df.asfreq(frecuencia)  # usa 'D' o 'ME'
    df = df.ffill()  # remplazamos fillna(method='ffill')

    modelo = SARIMAX(df, order=(1,1,1), seasonal_order=(1,1,0,12))
    resultado = modelo.fit(disp=False)

    pred = resultado.get_forecast(steps=pasos_forecast)
    pred_df = pred.predicted_mean.reset_index().round(2)
    pred_df.columns = ['Periodo', 'Net Revenue']
    pred_df['Tipo'] = 'Proyección'

    df_hist = df.reset_index().round(2)
    df_hist['Tipo'] = 'Histórico'

    return pd.concat([df_hist, pred_df], ignore_index=True)

# 📆 Proyección diaria (720 días)
proyeccion_diaria = proyectar_net_revenue(df_modelo_simple, 'Periodo', 'Net Revenue', 'D', 720)

# 📆 Proyección mensual (24 meses) — con frecuencia 'ME'
proyeccion_mensual = proyectar_net_revenue(df_mensual_simple, 'Periodo', 'Net Revenue', 'ME', 24)

# 🔍 Mostrar solo las primeras 30 filas de cada DF en pantalla
print("\n► Proyección diaria (ultimas 30 filas):")
display(proyeccion_diaria.tail(30))

print("\n► Proyección mensual (primeras 30 filas):")
display(proyeccion_mensual.head(30))

# 📊 Visualizaciones
fig_diaria = px.line(proyeccion_diaria, x='Periodo', y='Net Revenue', color='Tipo',
                     title='Proyección Diaria Net Revenue')
fig_mensual = px.line(proyeccion_mensual, x='Periodo', y='Net Revenue', color='Tipo',
                     title='Proyección Mensual Net Revenue')

fig_diaria.show()
fig_mensual.show()



► Proyección diaria (ultimas 30 filas):


Unnamed: 0,Periodo,Net Revenue,Tipo
1016,2025-08-15,6010.92,Proyección
1017,2025-08-16,9916.25,Proyección
1018,2025-08-17,6077.23,Proyección
1019,2025-08-18,6339.44,Proyección
1020,2025-08-19,6924.89,Proyección
1021,2025-08-20,6595.93,Proyección
1022,2025-08-21,7322.06,Proyección
1023,2025-08-22,7602.74,Proyección
1024,2025-08-23,10440.22,Proyección
1025,2025-08-24,4519.56,Proyección



► Proyección mensual (primeras 30 filas):


Unnamed: 0,Periodo,Net Revenue,Tipo
0,2022-11-30,,Histórico
1,2022-12-31,,Histórico
2,2023-01-31,,Histórico
3,2023-02-28,,Histórico
4,2023-03-31,,Histórico
5,2023-04-30,,Histórico
6,2023-05-31,,Histórico
7,2023-06-30,,Histórico
8,2023-07-31,,Histórico
9,2023-08-31,,Histórico


El modelo de proyección implementado utiliza un enfoque univariado mediante SARIMAX, considerando únicamente el comportamiento histórico de la variable objetivo: **Net Revenue**. Este tipo de modelado es particularmente útil cuando se desea analizar patrones internos de la serie como **tendencias, ciclos y estacionalidades**, sin depender de variables externas que puedan introducir ruido o incertidumbre.

El modelo ajustado refleja una tendencia creciente moderada y una estacionalidad recurrente a lo largo del tiempo, lo cual es visible tanto en la proyección diaria como en la mensual. La predicción muestra una estabilización progresiva del ingreso neto, acompañado de oscilaciones regulares que capturan el comportamiento estacional registrado en los últimos 12 meses. En la visualización diaria, se nota un patrón ondulante asociado a eventos semanales o quincenales, mientras que en la visualización mensual se observa un crecimiento acumulado, con incrementos progresivos estimados para los próximos 24 meses.

Es importante destacar que al no incorporar variables explicativas como `Total Apostado`, `Personas Apostaron` o `Primer Deposito`, esta proyección **no explica el "por qué" del comportamiento futuro**, sino que asume que las condiciones que generaron el pasado se mantendrán. Esto puede ser útil como **línea base o benchmark**, pero se limita en contextos donde se esperan cambios en el comportamiento de los usuarios, campañas comerciales, regulaciones o efectos externos.


## Exportación de las proyecciones obtenidas

In [29]:
import pandas as pd

# 🔁 Copias para preservar originales
resumen_mensual = proyeccion_mensual.copy()
resumen_diario = proyeccion_diaria.copy()

# 📆 Agrupación mensual
resumen_mensual['Año-Mes'] = resumen_mensual['Periodo'].dt.to_period('M')
tabla_mensual = (
    resumen_mensual
    .groupby(['Año-Mes', 'Tipo'], observed=True)['Net Revenue']
    .sum()
    .reset_index()
    .pivot(index='Año-Mes', columns='Tipo', values='Net Revenue')
    .reset_index()
    .round(2)
)

# 📆 Agrupación diaria
resumen_diario['Fecha'] = resumen_diario['Periodo'].dt.date
tabla_diaria = (
    resumen_diario
    .groupby(['Fecha', 'Tipo'], observed=True)['Net Revenue']
    .sum()
    .reset_index()
    .pivot(index='Fecha', columns='Tipo', values='Net Revenue')
    .reset_index()
    .round(2)
)

# 🧮 Totales combinados
suma_total = pd.concat([proyeccion_mensual, proyeccion_diaria])
totales = (
    suma_total
    .groupby('Tipo', observed=True)['Net Revenue']
    .sum()
    .reset_index()
    .rename(columns={'Net Revenue': 'Net Revenue Total'})
    .round(2)
)

# 📝 Descripción de hojas
descripcion = pd.DataFrame([
    {"Hoja": "Resumen_Mensual", "Descripción": "Comparativo de Net Revenue mensual entre valores históricos y proyectados."},
    {"Hoja": "Resumen_Diario", "Descripción": "Comparativo de Net Revenue diario entre valores históricos y proyectados."},
    {"Hoja": "Totales", "Descripción": "Suma total de Net Revenue para histórico y proyección, útil para estimar ingresos agregados."},
    {"Hoja": "Proyeccion_Mensual_Detallada", "Descripción": "Detalle completo de Net Revenue proyectado y real por mes (multivariado-ready)."},
    {"Hoja": "Proyeccion_Diaria_Detallada", "Descripción": "Detalle completo de Net Revenue proyectado y real por día (multivariado-ready)."}
])

# 💾 Exportar a Excel
ruta_export = r"C:\Users\jartp\Desktop\Inlaze\data\comparativo_proyecciones_netrevenue.xlsx"
with pd.ExcelWriter(ruta_export, engine='openpyxl') as writer:
    tabla_mensual.to_excel(writer, sheet_name='Resumen_Mensual', index=False)
    tabla_diaria.to_excel(writer, sheet_name='Resumen_Diario', index=False)
    totales.to_excel(writer, sheet_name='Totales', index=False)
    descripcion.to_excel(writer, sheet_name='Resumen', index=False)
    proyeccion_mensual.round(2).to_excel(writer, sheet_name='Proyeccion_Mensual_Detallada', index=False)
    proyeccion_diaria.round(2).to_excel(writer, sheet_name='Proyeccion_Diaria_Detallada', index=False)

# 👁️ Vista previa
print("📊 Vista previa de exportación:")
print("\nResumen mensual:")
display(tabla_mensual.head(30))
print("\nResumen diario:")
display(tabla_diaria.tail(30))
print("\nTotales:")
display(totales)
print("\nResumen de hojas:")
display(descripcion)

print(f"\n✅ Exportación completada a:\n{ruta_export}")


📊 Vista previa de exportación:

Resumen mensual:


Tipo,Año-Mes,Histórico,Proyección
0,2022-11,0.0,
1,2022-12,0.0,
2,2023-01,0.0,
3,2023-02,0.0,
4,2023-03,0.0,
5,2023-04,0.0,
6,2023-05,0.0,
7,2023-06,0.0,
8,2023-07,0.0,
9,2023-08,0.0,



Resumen diario:


Tipo,Fecha,Histórico,Proyección
1016,2025-08-15,,6010.92
1017,2025-08-16,,9916.25
1018,2025-08-17,,6077.23
1019,2025-08-18,,6339.44
1020,2025-08-19,,6924.89
1021,2025-08-20,,6595.93
1022,2025-08-21,,7322.06
1023,2025-08-22,,7602.74
1024,2025-08-23,,10440.22
1025,2025-08-24,,4519.56



Totales:


Unnamed: 0,Tipo,Net Revenue Total
0,Histórico,374946.12
1,Proyección,3376935.11



Resumen de hojas:


Unnamed: 0,Hoja,Descripción
0,Resumen_Mensual,Comparativo de Net Revenue mensual entre valor...
1,Resumen_Diario,Comparativo de Net Revenue diario entre valore...
2,Totales,Suma total de Net Revenue para histórico y pro...
3,Proyeccion_Mensual_Detallada,Detalle completo de Net Revenue proyectado y r...
4,Proyeccion_Diaria_Detallada,Detalle completo de Net Revenue proyectado y r...



✅ Exportación completada a:
C:\Users\jartp\Desktop\Inlaze\data\comparativo_proyecciones_netrevenue.xlsx


##  Modelación Multivariada con metodos estadisticos y de machine learning

### Preparación del conjunto para modelación de serie de tiempo

#### Simulación de Dataset: Imputación dimensional por descomposicion estacional

In [30]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
import warnings
warnings.filterwarnings("ignore")

# ---------- 1. Cargar dataset base ----------
fechas = pd.date_range(start="2022-11-03", end="2023-09-24", freq='D')
np.random.seed(42)

df_modelo = pd.DataFrame({
    'Periodo': fechas,
    'Clicks': np.random.randint(0, 10, len(fechas)),
    'Registros': np.random.randint(0, 5, len(fechas)),
    'Primer Deposito': np.random.randint(0, 10, len(fechas)),
    'Total Depositado': np.random.uniform(0, 15000, len(fechas)),
    'Personas Apostaron': np.random.randint(500, 1000, len(fechas)),
    'Total Apostado': np.random.uniform(10000, 120000, len(fechas)),
    'Net Revenue': np.random.uniform(-5000, 10000, len(fechas))
})

# Introducir artificialmente ceros para simular fallos
cols_simular = ['Clicks', 'Registros', 'Primer Deposito', 'Total Depositado', 'Personas Apostaron']
for col in cols_simular:
    indices = np.random.choice(df_modelo.index, size=20, replace=False)
    df_modelo.loc[indices, col] = 0

# ---------- 2. Preparar DataFrame de trabajo ----------
df_multivariado = df_modelo.copy()
df_multivariado['Periodo'] = pd.to_datetime(df_multivariado['Periodo'])
df_multivariado = df_multivariado.sort_values('Periodo')
df_multivariado['Periodo_ordinal'] = (df_multivariado['Periodo'] - df_multivariado['Periodo'].min()).dt.days

# ---------- 3. Imputación por RandomForest ----------
features_base = ['Total Apostado', 'Net Revenue']
columnas_imputar = ['Clicks', 'Registros', 'Primer Deposito', 'Total Depositado', 'Personas Apostaron']

for col in columnas_imputar:
    df_multivariado[f'imputed_{col}'] = False

    mask_valid = (df_multivariado[col] != 0) & (~df_multivariado[col].isna())
    X_train = df_multivariado.loc[mask_valid, features_base]
    y_train = df_multivariado.loc[mask_valid, col]

    modelo = RandomForestRegressor(n_estimators=100, random_state=42)
    modelo.fit(X_train, y_train)

    mask_imputar = (df_multivariado[col] == 0) | (df_multivariado[col].isna())
    pred = modelo.predict(df_multivariado.loc[mask_imputar, features_base])
    df_multivariado.loc[mask_imputar, col] = pred
    df_multivariado.loc[mask_imputar, f'imputed_{col}'] = True

# ---------- 4. Imputación de Net Revenue ----------
df_multivariado['Net Revenue'] = df_multivariado['Net Revenue'].interpolate(method='linear')

# ---------- 5. Ajustar formatos ----------
columnas_enteras = ['Clicks', 'Registros', 'Primer Deposito', 'Personas Apostaron']
df_multivariado[columnas_enteras] = df_multivariado[columnas_enteras].round(0).astype(int)

columnas_monetarias = ['Total Depositado', 'Total Apostado', 'Net Revenue']
df_multivariado[columnas_monetarias] = df_multivariado[columnas_monetarias].round(2)

# ---------- 6. Validación final ----------
print("✅ Dataset robusto imputado y formateado correctamente.")
print(df_multivariado.tail(5))

# ---------- 7. Exportación ----------
ruta_export = r"C:\\Users\\jartp\\Desktop\\Inlaze\\outputs\\df_multivariado_imputado.xlsx"
df_multivariado.to_excel(ruta_export, index=False)
print(f"📁 Archivo exportado correctamente a: {ruta_export}")


✅ Dataset robusto imputado y formateado correctamente.
       Periodo  Clicks  Registros  Primer Deposito  Total Depositado  \
321 2023-09-20       6          4                3           3884.74   
322 2023-09-21       1          1                6           8828.31   
323 2023-09-22       9          2                3          14734.96   
324 2023-09-23       1          4                6          13262.98   
325 2023-09-24       9          3                3           9011.98   

     Personas Apostaron  Total Apostado  Net Revenue  Periodo_ordinal  \
321                 523        28481.56     -2179.63              321   
322                 815        91056.11       330.77              322   
323                 877       104907.68      6756.88              323   
324                 886        33841.38      3313.40              324   
325                 903        20528.60     -4921.56              325   

     imputed_Clicks  imputed_Registros  imputed_Primer Deposito  \
321   

## Definición de hiperparametrosy entrenamiento de XGBoost, Holt-Winters y SARIMAX,  para la proyección

In [31]:
import pandas as pd
import numpy as np
from statsmodels.tsa.holtwinters import ExponentialSmoothing
from statsmodels.tsa.statespace.sarimax import SARIMAX
from xgboost import XGBRegressor
from sklearn.linear_model import LinearRegression
import warnings
warnings.filterwarnings("ignore")

# ---------- 1. Crear horizonte de predicción ----------
pasos_forecast = 720
ultima_fecha = df_multivariado['Periodo'].max()
fechas_futuras = pd.date_range(start=ultima_fecha + pd.Timedelta(days=1), periods=pasos_forecast, freq='D')
ordinal_inicio = df_multivariado['Periodo_ordinal'].max() + 1
ordinales_futuros = np.arange(ordinal_inicio, ordinal_inicio + pasos_forecast)

df_futuro = pd.DataFrame({'Periodo': fechas_futuras, 'Periodo_ordinal': ordinales_futuros})

# ---------- 2. Proyección de variables auxiliares ----------
dimensiones = ['Clicks', 'Registros', 'Primer Deposito', 'Total Depositado', 'Personas Apostaron', 'Total Apostado']
for col in dimensiones:
    modelo_col = LinearRegression()
    modelo_col.fit(df_multivariado[['Periodo_ordinal']], df_multivariado[col])
    df_futuro[col] = modelo_col.predict(df_futuro[['Periodo_ordinal']])

# ---------- 3. Modelos de Predicción ----------
# Establecer Serie temporal con índice Datetime
serie_net = df_multivariado.set_index('Periodo')['Net Revenue'].asfreq('D')

# Holt-Winters
modelo_hw = ExponentialSmoothing(serie_net, trend='add', seasonal='add', seasonal_periods=30)
modelo_hw_fit = modelo_hw.fit()
pred_hw = modelo_hw_fit.forecast(pasos_forecast)

# SARIMAX
modelo_sarimax = SARIMAX(serie_net, order=(1, 1, 1), seasonal_order=(1, 1, 0, 30))
modelo_sarimax_fit = modelo_sarimax.fit(disp=False)
pred_sarimax = modelo_sarimax_fit.forecast(pasos_forecast)

# XGBoost
X_train = df_multivariado[['Periodo_ordinal', 'Total Apostado']]
y_train = df_multivariado['Net Revenue']
X_pred = df_futuro[['Periodo_ordinal', 'Total Apostado']]
modelo_xgb = XGBRegressor(n_estimators=100, random_state=42)
modelo_xgb.fit(X_train, y_train)
pred_xgb = modelo_xgb.predict(X_pred)

# ---------- 4. Ensamble de resultados ----------
df_futuro['Net Revenue (Holt-Winters)'] = pred_hw.values
df_futuro['Net Revenue (SARIMAX)'] = pred_sarimax.values
df_futuro['Net Revenue (XGBoost)'] = pred_xgb

# ---------- 5. Enriquecer columnas temporales ----------
df_futuro['Año'] = df_futuro['Periodo'].dt.year
df_futuro['Mes'] = df_futuro['Periodo'].dt.month
df_futuro['Nombre Mes'] = df_futuro['Periodo'].dt.strftime('%B')
df_futuro['Periodo_Mensual'] = df_futuro['Periodo'].dt.to_period('M').astype(str)
df_futuro['Semana'] = df_futuro['Periodo'].dt.isocalendar().week
df_futuro['Día'] = df_futuro['Periodo'].dt.day

# ---------- 6. Ajustes finales ----------
cols_float = ['Total Depositado', 'Total Apostado', 'Net Revenue (Holt-Winters)', 'Net Revenue (SARIMAX)', 'Net Revenue (XGBoost)']
cols_int = ['Clicks', 'Registros', 'Primer Deposito', 'Personas Apostaron']

df_futuro[cols_float] = df_futuro[cols_float].round(2)
df_futuro[cols_int] = df_futuro[cols_int].round(0).astype(int)

# ---------- 7. Exportar resultados ----------
ruta_export_final = r"C:\Users\jartp\Desktop\Inlaze\outputs\proyeccion_netrevenue_multivariado.xlsx"
df_futuro.to_excel(ruta_export_final, index=False)
print(f"✅ Predicciones exportadas exitosamente a:\n{ruta_export_final}")


✅ Predicciones exportadas exitosamente a:
C:\Users\jartp\Desktop\Inlaze\outputs\proyeccion_netrevenue_multivariado.xlsx


## DataViz sobre la proyección Multivariada

In [32]:
import plotly.graph_objects as go
import plotly.express as px
import plotly.io as pio
import pandas as pd

# ---------- 1. Cargar datos ----------
ruta_final = r"C:\Users\jartp\Desktop\Inlaze\outputs\proyeccion_netrevenue_multivariado.xlsx"
df_futuro = pd.read_excel(ruta_final)
df_futuro['Periodo'] = pd.to_datetime(df_futuro['Periodo'])
df_futuro['Cuatrimestre'] = df_futuro['Periodo'].dt.month.map({
    1: 'Q1', 2: 'Q1', 3: 'Q1', 4: 'Q2', 5: 'Q2', 6: 'Q2',
    7: 'Q3', 8: 'Q3', 9: 'Q3', 10: 'Q4', 11: 'Q4', 12: 'Q4'
})
df_futuro['Año'] = df_futuro['Periodo'].dt.year
df_futuro['Mes'] = df_futuro['Periodo'].dt.to_period('M').astype(str)

# ---------- 2. Línea comparativa con umbrales y sombreado ----------
fig1 = go.Figure()

# Modelos
fig1.add_trace(go.Scatter(x=df_futuro['Periodo'], y=df_futuro['Net Revenue (XGBoost)'],
                          name="XGBoost", mode='lines', line=dict(width=2)))
fig1.add_trace(go.Scatter(x=df_futuro['Periodo'], y=df_futuro['Net Revenue (Holt-Winters)'],
                          name="Holt-Winters", mode='lines', line=dict(dash='dot')))
fig1.add_trace(go.Scatter(x=df_futuro['Periodo'], y=df_futuro['Net Revenue (SARIMAX)'],
                          name="SARIMAX", mode='lines', line=dict(dash='dash')))

# Umbral de rentabilidad = 0
fig1.add_trace(go.Scatter(x=df_futuro['Periodo'], y=[0]*len(df_futuro), mode='lines',
                          name='Rentabilidad Neutra', line=dict(color='black', dash='dash'), showlegend=True))

# Sombreado por cuatrimestre (Q1 a Q4 alternando color)
cuatrimestres = df_futuro.groupby(['Año', 'Cuatrimestre'])['Periodo'].agg(['min', 'max']).reset_index()
for i, row in cuatrimestres.iterrows():
    fig1.add_vrect(x0=row['min'], x1=row['max'],
                   fillcolor="LightGray" if i % 2 == 0 else "Lavender",
                   opacity=0.2, line_width=0)

# Diseño
fig1.update_layout(
    title="🧠 Proyección de Net Revenue (con Umbrales y Cuatrimestres)",
    xaxis_title="Fecha",
    yaxis_title="Net Revenue (USD)",
    hovermode='x unified',
    template='plotly_white',
    legend_title="Modelo",
    height=600
)

pio.show(fig1)

# ---------- 3. Barras promedio mensual por modelo ----------
df_mensual = df_futuro.groupby('Mes')[
    ['Net Revenue (XGBoost)', 'Net Revenue (Holt-Winters)', 'Net Revenue (SARIMAX)']
].mean().reset_index().melt(id_vars='Mes', var_name='Modelo', value_name='Net Revenue')

fig2 = px.bar(df_mensual, x='Mes', y='Net Revenue', color='Modelo', barmode='group',
              title="📊 Promedio mensual proyectado por modelo")
fig2.update_layout(xaxis_tickangle=-45, height=500, template='plotly_white')
pio.show(fig2)

# ---------- 4. Heatmap mensual (Net Revenue XGBoost) ----------
df_heat = df_futuro.copy()
df_heat['Mes'] = df_heat['Periodo'].dt.strftime('%b')
df_heat['Día'] = df_heat['Periodo'].dt.day
heat_data = df_heat.pivot_table(index='Día', columns='Mes', values='Net Revenue (XGBoost)', aggfunc='mean')

fig3 = px.imshow(heat_data, color_continuous_scale='RdYlGn', origin='lower',
                 title="🔥 Mapa de calor Net Revenue (XGBoost) por día del mes")
fig3.update_layout(height=600)
pio.show(fig3)

# ---------- 5. Boxplot comparativo de dispersión ----------
df_box = df_futuro.melt(id_vars='Periodo', 
                        value_vars=['Net Revenue (XGBoost)', 'Net Revenue (Holt-Winters)', 'Net Revenue (SARIMAX)'],
                        var_name='Modelo', value_name='Net Revenue')

fig4 = px.box(df_box, x='Modelo', y='Net Revenue', title="📦 Dispersión comparativa de modelos (Boxplot)")
fig4.update_layout(height=500, template='plotly_white')
pio.show(fig4)


# Cargue de Proyecciones a BD MySQL

In [34]:
import pandas as pd
from sqlalchemy import create_engine

# ---------- 1. Parámetros de conexión ----------
usuario = "root"
contrasena = "123456789"
host = "localhost"
puerto = "3306"
base_datos = "inlaze"
tabla = "proyeccion"

# ---------- 2. Crear conexión con SQLAlchemy ----------
url_conexion = f"mysql+pymysql://{usuario}:{contrasena}@{host}:{puerto}/{base_datos}"
motor = create_engine(url_conexion)

# ---------- 3. Redondear columna antes de cargar ----------
df_futuro['Net Revenue (XGBoost)'] = df_futuro['Net Revenue (XGBoost)'].round(2)

# ---------- 4. Cargar DataFrame a MySQL ----------
try:
    df_futuro.to_sql(name=tabla, con=motor, if_exists='replace', index=False)
    print(f"✅ Carga exitosa: {len(df_futuro)} registros insertados en la tabla `{tabla}`.")
except Exception as e:
    print("❌ Error durante la carga:", e)


✅ Carga exitosa: 720 registros insertados en la tabla `proyeccion`.
