# Notebook de ejecucion de los algoritmos 

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import os
import json
import joblib
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from tensorflow.keras.models import model_from_json
from datetime import timedelta

import statsmodels.formula.api as smf

from src.dynamic_pricing_data_loader import cargar_y_preparar_datos

from Tools.ExtractData import GetDataFromETL
from Tools.Tools4TrainRN import RedNeuronal
from Tools.Tools4ProofRN import ProofRedNeuronal
from Tools.Tools4Elasticity import Elasticity
from Tools.Tools4Clasify import K_means
from Tools.Tools4ClasSuper import ClusteringSupervisado
from Tools.Tools4ProofCluster import PredictorClusters

# Clase para extracción de los datos

In [2]:
Data= GetDataFromETL(True)

El archivo JSON ha sido actualizado con las nuevas rutas.
Memoria usada antes: 5187.80 MB
Memoria usada después: 999.15 MB
Reducción: 80.7%


## Data para ejecutar la red neuronal

In [3]:
Df_PRN= Data.D4_Proof_NN() # Extraccion de datos para probar la Red Neuronal

## Data para ejecutar el clustering supervisado

In [4]:
# clustering supervisado
Df_ClusSuper= Data.D4_ClusteringSuper()

## Ejecución del algoritmo de red neuronal

In [5]:
# Dataframe de pronosticos de nuevos clientes
lista_resultados = []
Df_=Df_PRN.copy()
for row in range(len(Df_PRN)):
    InfoClient = pd.DataFrame(Df_.iloc[row]).T
    PRN=ProofRedNeuronal(InfoClient)# Clase para pronosticar nuevos con la red
    InfoClient["TARIFA DINAMICA"]= PRN.PrecioDin[0,0]
    lista_resultados.append(InfoClient)

DataTD = pd.concat(lista_resultados, ignore_index=True)



## Ejecución del algoritmo de aprendizaje supervisado

In [6]:
# Entrena modelo ClusteringSupervisado
clustering = ClusteringSupervisado()
# Crear predictor con el modelo entrenado
predictor = PredictorClusters(Df_ClusSuper.copy())
resultados= predictor.Get_values()


Modelo XGBoost guardado exitosamente como: modelo_xgboost_clientes.json
Datos recibidos: 54545 filas, 8 columnas
Clientes a predecir: 33286 emails únicos
Columnas para el modelo: 25 features
Modelo espera 21 características
Columnas alineadas con el modelo entrenado
Predicciones de cluster realizadas


In [7]:
TD= DataTD[['NOMBRE_PASAJERO','FECHA_CORRIDA','HORA_SALIDA_CORRIDA','FECHA_OPERACION','HORA_OPERACION',
            'TIPO_PASAJERO','TARIFA DINAMICA']].copy()

In [8]:
TD.head(7)

Unnamed: 0,NOMBRE_PASAJERO,FECHA_CORRIDA,HORA_SALIDA_CORRIDA,FECHA_OPERACION,HORA_OPERACION,TIPO_PASAJERO,TARIFA DINAMICA
0,JOSE ANTONIO OCEGUERA,2025-10-24,1900-01-01 23:59:00,2025-10-25 00:00:00,1900-01-01 00:03:29,AD,1058.147095
1,ISAAC OMAR RODRIGUEZ,2025-10-24,1900-01-01 23:59:00,2025-10-25 00:00:00,1900-01-01 00:03:29,AD,1058.582886
2,DANIEL GUTIERREZ,2025-10-24,1900-01-01 23:59:00,2025-10-25 00:00:00,1900-01-01 00:03:29,AD,1058.730103
3,LUIS SEBASTIÁN HERRERA MADRAZO,2025-10-25,1900-01-01 07:10:00,2025-10-25 00:00:00,1900-01-01 00:03:38,AD,768.806213
4,CE4SASR OMAR EUFRACIO MORALES,2025-10-25,1900-01-01 02:00:00,2025-10-25 00:00:00,1900-01-01 00:30:30,AD,1062.102905
5,ARTURO CHAVARRIA,2025-10-25,1900-01-01 02:00:00,2025-10-25 00:00:00,1900-01-01 00:37:20,IN,1060.634521
6,FELIX LOPEZ GOMEZ,2025-10-25,1900-01-01 02:00:00,2025-10-25 00:00:00,1900-01-01 00:42:32,PE,1064.195679


In [9]:
TP= resultados[['NOMBRE_PASAJERO','FECHA_CORRIDA','HORA_SALIDA_CORRIDA','FECHA_OPERACION','HORA_OPERACION',
            'TIPO_PASAJERO','ORIGEN_DESTINO','BOLETOS_VEND','EMAIL','Cluster','Aumento']].copy()

In [10]:
TP[['NOMBRE_PASAJERO','FECHA_CORRIDA','HORA_SALIDA_CORRIDA','TIPO_PASAJERO','ORIGEN_DESTINO','EMAIL','Cluster','Aumento']].head(7)

Unnamed: 0,NOMBRE_PASAJERO,FECHA_CORRIDA,HORA_SALIDA_CORRIDA,TIPO_PASAJERO,ORIGEN_DESTINO,EMAIL,Cluster,Aumento
0,JOSÉ CRUZ AVILAN MURILLO,2025-10-25,1900-01-01 11:00:00,AD,MEXN-GDLJ,CRUZAVILAN@HOTMAIL.COM,2,7
1,MIGUEL ÁNGEL MENDOZA MARTÍNEZ,2025-10-25,1900-01-01 06:00:00,AD,MEXN-GDLJ,MMIGUEL.MENDOZAM@GMAIL.COM,0,5
2,EDUARDO VÁZQUEZ TANECO,2025-10-25,1900-01-01 12:00:00,AD,GDLJ-MEXN,ZONA15ZAPOPAN@GMAIL.COM,3,13
3,MARÍA ANTONIETA MONDRAGÓN SOSA,2025-10-26,1900-01-01 11:00:00,AD,MXST-QUER,AMNDRAGON@GMAIL.COM,2,7
4,MARIO CERVANTES,2025-10-25,1900-01-01 02:00:00,AD,MEXN-GDLJ,MARIOCERVANTES007@HOTMAIL.COM,2,7
5,ALICIA RUIZ RUBIO,2025-10-25,1900-01-01 10:00:00,AD,GDLJ-MEXN,ESPINOZARUIZ.M@GMAIL.COM,0,5
6,ANA KAREN MONSERRAT HERNÁNDEZ ZUÑIGA,2025-10-25,1900-01-01 11:00:00,AD,MEXN-GDLJ,MONSEE.AH@GMAIL.COM,2,7


In [11]:
len(TD),len(TP)

(77897, 77897)

In [12]:
len(Df_PRN),len(Df_ClusSuper)

(77897, 77897)

In [13]:
# Definimos las columnas que determinan el orden único
columnas_orden = [
    'NOMBRE_PASAJERO', 
    'FECHA_CORRIDA', 
    'HORA_SALIDA_CORRIDA', 
    'FECHA_OPERACION', 
    'HORA_OPERACION',
    'TIPO_PASAJERO'
]

# Aplicamos el ordenamiento a TD
TD = TD.sort_values(by=columnas_orden).reset_index(drop=True)

# Aplicamos el mismo ordenamiento a TP
TP = TP.sort_values(by=columnas_orden).reset_index(drop=True)

# Aplicamos el mismo ordenamiento a Df_PRN
Df_PRN1=Df_PRN.sort_values(by=columnas_orden).reset_index(drop=True)
# Aplicamos el mismo ordenamiento a Df_ClusSuper
Df_ClusSuper1=Df_ClusSuper.sort_values(by=columnas_orden).reset_index(drop=True)

TD['VENTA']=Df_PRN1['VENTA'].copy()
df_final=TD.copy()
df_final[['ORIGEN_DESTINO','EMAIL','BOLETOS_VEND','Cluster','Aumento']]=TP[['ORIGEN_DESTINO','EMAIL','BOLETOS_VEND','Cluster','Aumento']].copy()

acla_keys = ['PF', 'AD', 'ES', 'IN', 'MA', 'NI', 'PD', 'PE', 'XA', 'ZA', 'ZB', 'VC', 'PH', 'FA', 'OD', 'XP', 'IF', 'SC']
porcentaje_values = [25, 0, 50, 50, 25, 50, 25, 0, 5, 0, 10, 25, 6, 0, 50, 25, 0, 0]

# Crear el diccionario (Mapeo de código a porcentaje entero)
diccionario_acla_porcentaje = dict(zip(acla_keys, porcentaje_values))

# 1. Mapea el TIPO_PASAJERO al porcentaje entero (25, 50, 0, etc.)
# 2. Divide entre 100 para convertirlo al factor decimal (0.25, 0.50, 0.0)
df_final['Descuento'] = df_final['TIPO_PASAJERO'].map(diccionario_acla_porcentaje) / 100
df_final['Tarifa_final']= df_final['TARIFA DINAMICA']*(1+df_final['Aumento']/100)
df_final['VentaD_final']= df_final['Tarifa_final']*(1-df_final['Descuento'])
df_final['Delta_P']=(df_final['VentaD_final']-df_final['VENTA'])/df_final['VentaD_final']

In [24]:
df_final[['NOMBRE_PASAJERO', 'FECHA_CORRIDA','HORA_SALIDA_CORRIDA', 
'TIPO_PASAJERO','ORIGEN_DESTINO','EMAIL','Cluster','TARIFA DINAMICA','Aumento','VentaD_final']].to_excel('Resumen.xlsx', index=False)

In [14]:
df_comp= df_final.groupby(['ORIGEN_DESTINO','FECHA_CORRIDA']).agg({
    'BOLETOS_VEND':'sum',
    'VentaD_final':'sum',
    'VENTA':'sum'
}).reset_index()

df_comp['Diff_P_Dinero']= df_comp['VentaD_final']-df_comp['VENTA']
df_comp['%dP']=(df_comp['VENTA']-df_comp['VentaD_final'])/df_comp['VentaD_final']
df_comp['Precio_Prom']=df_comp['VENTA']/df_comp['BOLETOS_VEND']
df_comp['Precio_Prom_Dinamico']=df_comp['VentaD_final']/df_comp['BOLETOS_VEND']

In [15]:
Elas= pd.read_excel('Elas_2026.xlsx')

In [16]:
# 1. Convertir a datetime por si acaso
df_comp['FECHA_CORRIDA'] = pd.to_datetime(df_comp['FECHA_CORRIDA'])
Elas['FECHA_CORRIDA'] = pd.to_datetime(Elas['FECHA_CORRIDA'])

# 2. Crear columnas temporales de Mes y Día en ambos dataframes
df_comp['mes'] = df_comp['FECHA_CORRIDA'].dt.month
df_comp['dia'] = df_comp['FECHA_CORRIDA'].dt.day

Elas['mes'] = Elas['FECHA_CORRIDA'].dt.month
Elas['dia'] = Elas['FECHA_CORRIDA'].dt.day
# 3. Unir los dataframes
# Suponiendo que la columna con el valor se llama 'valor_elasticidad' en Elas
df_comp = df_comp.merge(
    Elas[['ORIGEN_DESTINO', 'mes', 'dia', 'ELASTICIDADES']], 
    on=['ORIGEN_DESTINO', 'mes', 'dia'], 
    how='left'
)

# 4. Renombrar la columna resultante a 'Elast'
df_comp = df_comp.rename(columns={'ELASTICIDADES': 'Elast'})

# 5. (Opcional) Eliminar las columnas auxiliares
df_comp = df_comp.drop(columns=['mes', 'dia'])

In [17]:
df_comp['%dQ']=df_comp['%dP']*df_comp['Elast']
df_comp['Boletos_Estimados']=df_comp['BOLETOS_VEND']*(df_comp['Elast']+1)
df_comp['Ingreso_Estimado']=df_comp['Boletos_Estimados']*df_comp['Precio_Prom_Dinamico']
df_comp['Diff_P_Dinero_Estimado']= df_comp['Ingreso_Estimado']-df_comp['VENTA']
df_comp['%dP_Estimado']=(df_comp['Ingreso_Estimado']-df_comp['VENTA'])/df_comp['Ingreso_Estimado']
df_comp['%dQ_Estimado']=(df_comp['Boletos_Estimados']-df_comp['BOLETOS_VEND'])/df_comp['Boletos_Estimados']

In [18]:
df_comp

Unnamed: 0,ORIGEN_DESTINO,FECHA_CORRIDA,BOLETOS_VEND,VentaD_final,VENTA,Diff_P_Dinero,%dP,Precio_Prom,Precio_Prom_Dinamico,Elast,%dQ,Boletos_Estimados,Ingreso_Estimado,Diff_P_Dinero_Estimado,%dP_Estimado
0,GDLJ-MEXN,2025-10-25,133.0,140566.827109,151347.750000,-10780.922891,0.076696,1137.953003,1056.893437,0.538838,0.041327,204.665401,216309.518808,64961.768808,0.300319
1,GDLJ-MEXN,2025-10-26,188.0,195284.481825,212807.218750,-17522.736925,0.089729,1131.953247,1038.747244,0.489134,0.043890,279.957225,290804.796107,77997.577357,0.268213
2,GDLJ-MEXN,2025-10-27,105.0,106749.676079,117057.687500,-10308.011421,0.096562,1114.835083,1016.663582,0.498748,0.048160,157.368557,159990.880894,42933.193394,0.268348
3,GDLJ-MEXN,2025-10-28,46.0,46177.068358,49292.000000,-3114.931642,0.067456,1071.565186,1003.849312,0.619042,0.041758,74.475913,74762.593947,25470.593947,0.340686
4,GDLJ-MEXN,2025-10-29,199.0,198402.214476,215163.265625,-16761.051149,0.084480,1081.222412,996.996053,0.546666,0.046182,307.786448,306861.873600,91698.607975,0.298827
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
783,ZACA-AGUA,2026-01-18,8.0,1796.392417,2069.080078,-272.687661,0.151797,258.635010,224.549052,0.983847,0.149345,15.870776,3563.767761,1494.687683,0.419412
784,ZACA-AGUA,2026-01-19,11.0,2299.414901,2537.879883,-238.464982,0.103707,230.716354,209.037718,0.980850,0.101721,21.789349,4554.795841,2016.915958,0.442811
785,ZACA-AGUA,2026-01-20,12.0,2983.429716,3258.719971,-275.290254,0.092273,271.559998,248.619143,0.979166,0.090351,23.749991,5904.702421,2645.982450,0.448114
786,ZACA-AGUA,2026-01-21,5.0,1382.186965,1548.540039,-166.353074,0.120355,309.708008,276.437393,0.984547,0.118495,9.922736,2743.015218,1194.475179,0.435461


In [19]:
df_comp.to_excel('DatosDinamicos.xlsx', index=False)

In [20]:
df_comp.groupby(['ORIGEN_DESTINO']).agg({
    '%dP_Estimado':'min'
}).reset_index().to_excel('PorcentajeCrecimientoPorRuta.xlsx', index=False)

In [None]:
df_comp.groupby(['ORIGEN_DESTINO']).agg({
    '%dQ_Estimado':'min'
}).reset_index().to_excel('PorcentajeBolCrecimientoPorRuta.xlsx', index=False)