# Ensamblar y calcular ganancia

### Autor: Federico Picado
### Fecha de última modificación: 28/10/2024
### Descripción:

Podemos evaluar la ganancia de un modelo en particular, ordenado de distinta forma.
Tambien podemos realizar ensambles entre modelos y evaluar su ganancia. 

## Parámetros

In [1]:
#ver

## Input

In [12]:
# Ya en el input se ejecutan cosas
import pandas as pd
import numpy as np
import os
from sklearn.model_selection import train_test_split
import time

In [11]:
base_path = 'C:/Users/Federico/Desktop/Maestria Data mining/DM EyF/'# Cambiar
dataset_path = base_path + 'datasets/'
dataset_file = 'Competencia_01_tagg.csv' # df con N_cliente, clase_ternaria para junio
clientes_baja_junio= pd.read_csv(dataset_path + dataset_file)

# nombre de la carpeta donde se guardaron los resultados para cada modelo segun la metrica
dataset_folder1="prediccion_gv"
dataset_folder2="prediccion_shap"
#en el caso de tener mas modelos agregarlos


## Output

< Archivos, bases de datos, modelos que va a generar el job>

In [98]:
# en este ultimo jobs se evalua la performance del modelo.

# MAIN

In [4]:
# Crear un diccionario para almacenar los DataFrames
dataframes = {}

# Función para cargar los CSV de una carpeta específica y asignarlos a variables
def cargar_csv_de_carpeta(dataset_folder):
    folder_path = os.path.join(dataset_path, dataset_folder)
    for file_name in os.listdir(folder_path):
        if file_name.endswith('.csv'):
            # Nombre de la variable sin extensión
            variable_name = file_name.replace('.csv', '')
            
            # Cargar el DataFrame
            file_path = os.path.join(folder_path, file_name)
            dataframes[variable_name] = pd.read_csv(file_path)
            print(f"Archivo '{file_name}' cargado en la variable '{variable_name}'")

# Cargar los archivos de cada carpeta
cargar_csv_de_carpeta(dataset_folder1)
cargar_csv_de_carpeta(dataset_folder2)


Archivo 'prediccion_gv_bootstrap.csv' cargado en la variable 'prediccion_gv_bootstrap'
Archivo 'prediccion_gv_max.csv' cargado en la variable 'prediccion_gv_max'
Archivo 'prediccion_gv_mediana.csv' cargado en la variable 'prediccion_gv_mediana'
Archivo 'prediccion_gv_promedio.csv' cargado en la variable 'prediccion_gv_promedio'
Archivo 'prediccion_shap_bootstrap.csv' cargado en la variable 'prediccion_shap_bootstrap'
Archivo 'prediccion_shap_max.csv' cargado en la variable 'prediccion_shap_max'
Archivo 'prediccion_shap_mediana.csv' cargado en la variable 'prediccion_shap_mediana'
Archivo 'prediccion_shap_promedio.csv' cargado en la variable 'prediccion_shap_promedio'


In [8]:
dataframes

{'prediccion_gv_bootstrap':         numero_de_cliente  Probabilidad
 0              1462097870      0.912031
 1               606371992      0.898902
 2               560453687      0.897263
 3               627202522      0.878225
 4              1455714205      0.873836
 ...                   ...           ...
 164871          576296876      0.000009
 164872          566164387      0.000008
 164873          590935893      0.000007
 164874          652025650      0.000007
 164875          577768545      0.000007
 
 [164876 rows x 2 columns],
 'prediccion_gv_max':         numero_de_cliente  Probabilidad
 0               606371992      0.937074
 1              1462097870      0.933110
 2               627202522      0.920704
 3               560453687      0.914898
 4              1455714205      0.901547
 ...                   ...           ...
 164871          576296876      0.000016
 164872          716625469      0.000016
 164873          590935893      0.000014
 164874          652

In [26]:
def calculoGanancia(bajas,prediccion,corte):
    ''' 
    Calcula la ganancia para una semilla específica.
    
    Parámetros:
    bajas: DataFrame con columnas "numero_de_cliente" y "clase_ternaria".
    prediccion: DataFrame con columnas "numero_de_cliente" y "Probabilidad".
    corte: int, cantidad de estímulos.
    random_state: int, semilla para train_test_split.
    
    Retorna:
    ganancia_publico: Ganancia para el público.
    ganancia_privado: Ganancia para el privado.
    '''
    # Realizar el split en público y privado
    Publico, Privado = train_test_split(
        bajas,
        test_size=0.7,
        stratify=bajas['clase_ternaria'],
        random_state=123
    )

    # Clientes que decido estimular
    estimulos = prediccion.iloc[:corte] 

    # Obtener los estímulos en el conjunto público y privado
    estimulos_publico = pd.merge(estimulos, Publico, on='numero_de_cliente', how='inner')
    estimulos_privado = pd.merge(estimulos, Privado, on='numero_de_cliente', how='inner')

    # Calcular los verdaderos positivos en cada conjunto
    TP_publico = estimulos_publico[estimulos_publico['clase_ternaria'] == 'BAJA+2']
    TP_privado = estimulos_privado[estimulos_privado['clase_ternaria'] == 'BAJA+2']

    # 5. Calcular la ganancia para cada conjunto con normalización
    # Primero, calculamos la ganancia en cada conjunto
    ganancia_publico_sin_norm = (len(TP_publico) * 273000) - ((len(estimulos_publico) - len(TP_publico)) * 7000)
    ganancia_privado_sin_norm = (len(TP_privado) * 273000) - ((len(estimulos_privado) - len(TP_privado)) * 7000)

    # Luego, normalizamos dividiendo por el porcentaje correspondiente
    ganancia_publico = ganancia_publico_sin_norm / 0.3
    ganancia_privado = ganancia_privado_sin_norm / 0.7

    return ganancia_publico, ganancia_privado

In [27]:
inicio = time.time()

resultados = []
cortes = range(5000, 20000, 1000)

# Iteramos sobre cada modelo en el diccionario de predicciones
for model_name, pred_model in dataframes.items():
    # Aseguramos que las predicciones estén ordenadas por probabilidad descendente
    pred_model_sorted = pred_model.sort_values('Probabilidad', ascending=False)
    
    # Iteramos sobre cada corte
    for corte in cortes:
        ganancia_publico, ganancia_privado = calculoGanancia(clientes_baja_junio, pred_model_sorted, corte)
        
        # Almacenamos los resultados
        resultados.append({
            'Modelo': model_name,
            'Corte': corte,
            'Ganancia Público': ganancia_publico,
            'Ganancia Privado': ganancia_privado
        })

# Convertimos los resultados en un DataFrame
resultados = pd.DataFrame(resultados)

fin = time.time()
tiempo_ejecucion = fin - inicio

print(f"Tiempo de ejecución: {tiempo_ejecucion:.2f} segundos")


Tiempo de ejecución: 14.97 segundos


In [28]:
resultados

Unnamed: 0,Modelo,Corte,Ganancia Público,Ganancia Privado
0,prediccion_gv_bootstrap,5000,7.868000e+07,74680000.0
1,prediccion_gv_bootstrap,6000,8.507333e+07,84340000.0
2,prediccion_gv_bootstrap,7000,8.831667e+07,88550000.0
3,prediccion_gv_bootstrap,8000,8.878333e+07,94350000.0
4,prediccion_gv_bootstrap,9000,9.079000e+07,95890000.0
...,...,...,...,...
115,prediccion_shap_promedio,15000,8.950667e+07,93640000.0
116,prediccion_shap_promedio,16000,8.694000e+07,93140000.0
117,prediccion_shap_promedio,17000,8.575000e+07,88850000.0
118,prediccion_shap_promedio,18000,8.414000e+07,85140000.0


In [29]:
# Pivotamos el DataFrame 'resultados' para reorganizar las ganancias
resultados_pivot = resultados.pivot_table(
    index='Corte',
    columns='Modelo',
    values=['Ganancia Público', 'Ganancia Privado']
)

# Aplanamos las columnas para facilitar el acceso
resultados_pivot.columns = [f'{ganancia}_{modelo}' for ganancia, modelo in resultados_pivot.columns]

# Reordenamos las columnas alternando 'Público' y 'Privado' para cada modelo
# Ordenamos primero por el modelo, luego alternando entre 'Público' y 'Privado'
columnas_ordenadas = []
for modelo in resultados['Modelo'].unique():
    columnas_ordenadas.append(f'Ganancia Público_{modelo}')
    columnas_ordenadas.append(f'Ganancia Privado_{modelo}')

# Reorganizamos el DataFrame usando el nuevo orden de columnas
resultados_pivot = resultados_pivot[columnas_ordenadas]

# Convertimos el índice 'Corte' en una columna si prefieres tenerla como tal
resultados_pivot = resultados_pivot.reset_index()
resultados_pivot

Unnamed: 0,Corte,Ganancia Público_prediccion_gv_bootstrap,Ganancia Privado_prediccion_gv_bootstrap,Ganancia Público_prediccion_gv_max,Ganancia Privado_prediccion_gv_max,Ganancia Público_prediccion_gv_mediana,Ganancia Privado_prediccion_gv_mediana,Ganancia Público_prediccion_gv_promedio,Ganancia Privado_prediccion_gv_promedio,Ganancia Público_prediccion_shap_bootstrap,Ganancia Privado_prediccion_shap_bootstrap,Ganancia Público_prediccion_shap_max,Ganancia Privado_prediccion_shap_max,Ganancia Público_prediccion_shap_mediana,Ganancia Privado_prediccion_shap_mediana,Ganancia Público_prediccion_shap_promedio,Ganancia Privado_prediccion_shap_promedio
0,5000,78680000.0,74680000.0,73103330.0,72670000.0,78610000.0,75110000.0,78586670.0,74720000.0,73290000.0,74190000.0,71703330.0,72470000.0,74246670.0,74580000.0,74083330.0,73450000.0
1,6000,85073330.0,84340000.0,80780000.0,82580000.0,84116670.0,83950000.0,84116670.0,83950000.0,84023330.0,82390000.0,86216670.0,78250000.0,83323330.0,83890000.0,84093330.0,82760000.0
2,7000,88316670.0,88550000.0,86706670.0,88840000.0,85610000.0,89310000.0,88270000.0,88570000.0,89810000.0,89510000.0,88946670.0,87880000.0,87943330.0,89110000.0,89810000.0,89110000.0
3,8000,88783330.0,94350000.0,89646670.0,91580000.0,89086670.0,95420000.0,88853330.0,95120000.0,89553330.0,92820000.0,92306670.0,90440000.0,90346670.0,93280000.0,89553330.0,92820000.0
4,9000,90790000.0,95890000.0,87430000.0,93330000.0,91770000.0,95470000.0,90836670.0,95870000.0,91980000.0,96580000.0,91046670.0,96580000.0,90020000.0,97420000.0,92073330.0,96540000.0
5,10000,87476670.0,98510000.0,88036670.0,94670000.0,88270000.0,98970000.0,87430000.0,98530000.0,93310000.0,96810000.0,88736670.0,97570000.0,93263330.0,96430000.0,93286670.0,96820000.0
6,11000,86356670.0,97390000.0,86450000.0,97350000.0,87220000.0,97420000.0,87290000.0,96990000.0,93800000.0,99400000.0,90230000.0,95330000.0,93753330.0,98220000.0,94663330.0,98630000.0
7,12000,89273330.0,98140000.0,90206670.0,94540000.0,88526670.0,97260000.0,89273330.0,98540000.0,90113330.0,98180000.0,90533330.0,95600000.0,91186670.0,98520000.0,90206670.0,98540000.0
8,13000,88550000.0,94850000.0,85563330.0,94530000.0,88503330.0,94870000.0,88526670.0,95260000.0,90860000.0,96260000.0,90860000.0,96260000.0,89903330.0,96270000.0,91700000.0,96300000.0
9,14000,86800000.0,92000000.0,85306670.0,91840000.0,89483330.0,91650000.0,86963330.0,91930000.0,89110000.0,95010000.0,91210000.0,94110000.0,87500000.0,95700000.0,87476670.0,94110000.0


## Tengo el problema que segun la semilla con la que dividi el publico privado me puede dar distinto.. hago semillero

In [32]:
def calculoGanancia(bajas, prediccion, corte, random_state):
    ''' 
    Calcula la ganancia para una semilla específica.
    
    Parámetros:
    bajas: DataFrame con columnas "numero_de_cliente" y "clase_ternaria".
    prediccion: DataFrame con columnas "numero_de_cliente" y "Probabilidad".
    corte: int, cantidad de estímulos.
    random_state: int, semilla para train_test_split.
    
    Retorna:
    ganancia_publico: Ganancia normalizada para el conjunto público.
    ganancia_privado: Ganancia normalizada para el conjunto privado.
    '''
    # Realizar el split en público y privado
    Publico, Privado = train_test_split(
        bajas,
        test_size=0.7,
        stratify=bajas['clase_ternaria'],
        random_state=random_state
    )

    # Obtener los estímulos según el modelo
    estimulos = prediccion.iloc[:corte] 

    # Obtener los estímulos en el conjunto público y privado
    estimulos_publico = pd.merge(estimulos, Publico, on='numero_de_cliente', how='inner')
    estimulos_privado = pd.merge(estimulos, Privado, on='numero_de_cliente', how='inner')

    # Calcular los verdaderos positivos en cada conjunto
    TP_publico = estimulos_publico[estimulos_publico['clase_ternaria'] == 'BAJA+2']
    TP_privado = estimulos_privado[estimulos_privado['clase_ternaria'] == 'BAJA+2']

    # Calcular la ganancia para cada conjunto con normalización
    ganancia_publico_sin_norm = (len(TP_publico) * 273000) - ((len(estimulos_publico) - len(TP_publico)) * 7000)
    ganancia_privado_sin_norm = (len(TP_privado) * 273000) - ((len(estimulos_privado) - len(TP_privado)) * 7000)

    # Normalizamos dividiendo por el porcentaje correspondiente
    ganancia_publico = ganancia_publico_sin_norm / 0.3
    ganancia_privado = ganancia_privado_sin_norm / 0.7

    return ganancia_publico, ganancia_privado

def calculoGananciaPromedio(bajas, prediccion, corte, n_seeds=100):
    '''
    Calcula la ganancia promedio para múltiples semillas.
    
    Parámetros:
    bajas: Df con columnas "numero_de_cliente" y "clase_ternaria".
    prediccion: Df con columnas "numero_de_cliente" y "Probabilidad".
    corte: int, cantidad de estímulos.
    n_seeds: int, número de semillas aleatorias (por defecto 200).
    
    Retorna:
    promedio_ganancia_publico: Ganancia promedio normalizada para el conjunto público.
    promedio_ganancia_privado: Ganancia promedio normalizada para el conjunto privado.
    '''
    
    seeds = np.random.randint(1000, 100001, size=n_seeds)
    ganancias_publico = []
    ganancias_privado = []

    for seed in seeds:
        ganancia_publico, ganancia_privado = calculoGanancia(bajas, prediccion, corte, random_state=seed)
        ganancias_publico.append(ganancia_publico)
        ganancias_privado.append(ganancia_privado)

    promedio_ganancia_publico = np.mean(ganancias_publico)
    promedio_ganancia_privado = np.mean(ganancias_privado)

    return promedio_ganancia_publico,promedio_ganancia_privado


In [33]:
inicio = time.time()

resultados = []
cortes = range(5000, 20000, 1000)

# Iteramos sobre cada modelo en el diccionario de predicciones
for model_name, pred_model in dataframes.items():
    # Aseguramos que las predicciones estén ordenadas por probabilidad descendente
    pred_model_sorted = pred_model.sort_values('Probabilidad', ascending=False)
    
    # Iteramos sobre cada corte
    for corte in cortes:
        ganancia_publico, ganancia_privado = calculoGananciaPromedio(clientes_baja_junio, pred_model_sorted, corte)
        
        # Almacenamos los resultados
        resultados.append({
            'Modelo': model_name,
            'Corte': corte,
            'Ganancia Público': ganancia_publico,
            'Ganancia Privado': ganancia_privado
        })

# Convertimos los resultados en un DataFrame
resultados = pd.DataFrame(resultados)

fin = time.time()
tiempo_ejecucion = fin - inicio

print(f"Tiempo de ejecución: {tiempo_ejecucion:.2f} segundos")

Tiempo de ejecución: 1486.60 segundos


In [34]:
# Pivotamos el DataFrame 'resultados' para reorganizar las ganancias
resultados_pivot = resultados.pivot_table(
    index='Corte',
    columns='Modelo',
    values=['Ganancia Público', 'Ganancia Privado']
)

# Aplanamos las columnas para facilitar el acceso
resultados_pivot.columns = [f'{ganancia}_{modelo}' for ganancia, modelo in resultados_pivot.columns]

# Reordenamos las columnas alternando 'Público' y 'Privado' para cada modelo
# Ordenamos primero por el modelo, luego alternando entre 'Público' y 'Privado'
columnas_ordenadas = []
for modelo in resultados['Modelo'].unique():
    columnas_ordenadas.append(f'Ganancia Público_{modelo}')
    columnas_ordenadas.append(f'Ganancia Privado_{modelo}')

# Reorganizamos el DataFrame usando el nuevo orden de columnas
resultados_pivot = resultados_pivot[columnas_ordenadas]

# Convertimos el índice 'Corte' en una columna si prefieres tenerla como tal
resultados_pivot = resultados_pivot.reset_index()
resultados_pivot

Unnamed: 0,Corte,Ganancia Público_prediccion_gv_bootstrap,Ganancia Privado_prediccion_gv_bootstrap,Ganancia Público_prediccion_gv_max,Ganancia Privado_prediccion_gv_max,Ganancia Público_prediccion_gv_mediana,Ganancia Privado_prediccion_gv_mediana,Ganancia Público_prediccion_gv_promedio,Ganancia Privado_prediccion_gv_promedio,Ganancia Público_prediccion_shap_bootstrap,Ganancia Privado_prediccion_shap_bootstrap,Ganancia Público_prediccion_shap_max,Ganancia Privado_prediccion_shap_max,Ganancia Público_prediccion_shap_mediana,Ganancia Privado_prediccion_shap_mediana,Ganancia Público_prediccion_shap_promedio,Ganancia Privado_prediccion_shap_promedio
0,5000,75273330.0,76140000.0,73269230.0,72598900.0,76373500.0,76068500.0,76315630.0,75693300.0,73181970.0,74236300.0,72764070.0,72015400.0,73844400.0,74752400.0,74000730.0,73485400.0
1,6000,84365400.0,84643400.0,82296200.0,81930200.0,83652330.0,84149000.0,84847230.0,83636900.0,82733930.0,82942600.0,80031930.0,80900600.0,83394270.0,83859600.0,83016270.0,83221600.0
2,7000,88194630.0,88602300.0,88810870.0,87938200.0,87218600.0,88620600.0,89108130.0,88210800.0,88060000.0,90260000.0,87694600.0,88416600.0,88663630.0,88801300.0,88737830.0,89569500.0
3,8000,92436400.0,92784400.0,90156730.0,91361400.0,93568300.0,93499300.0,92559600.0,93531600.0,92536970.0,91541300.0,90952870.0,91020200.0,92867370.0,92199700.0,93860200.0,90974200.0
4,9000,93732570.0,94628900.0,90263370.0,92115700.0,93772470.0,94611800.0,94861430.0,94145100.0,96064970.0,94829300.0,95159870.0,94817200.0,95304300.0,95155300.0,95564930.0,95043600.0
5,10000,95190200.0,95204200.0,93079930.0,92508600.0,94670800.0,96226800.0,94029130.0,95701800.0,94457770.0,96318100.0,93634800.0,95470800.0,95521530.0,95462200.0,96428730.0,95473400.0
6,11000,94138330.0,94055000.0,93222730.0,94447400.0,94752930.0,94191600.0,94433970.0,93928300.0,96918970.0,98063300.0,94425100.0,93532100.0,96534900.0,97027900.0,97324500.0,97489500.0
7,12000,95738300.0,95369300.0,93011570.0,93337900.0,95239200.0,94383200.0,94762030.0,96187700.0,95887630.0,95705300.0,95276300.0,93567300.0,97735870.0,95713200.0,95018230.0,96477900.0
8,13000,93016000.0,92936000.0,92185330.0,91692000.0,93667000.0,92657000.0,94092830.0,92874500.0,93177700.0,95266700.0,94535470.0,94684800.0,94525900.0,94288900.0,95239200.0,94783200.0
9,14000,90018830.0,90620500.0,89530470.0,90029800.0,89922000.0,91462000.0,89077100.0,91024100.0,92254170.0,93662500.0,93292730.0,93217400.0,93839670.0,92983000.0,92062130.0,92144800.0


In [37]:
resultados_pivot.to_csv("Resumen_predicciones.csv",index=False)