# CLTV VISUALIZACIÓN

In [10]:
import pyodbc
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import logging
from datetime import datetime

# Configuración básica de logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

# Configuración de conexión a SQL Server
LOCAL_SERVER = "localhost"
LOCAL_DATABASE = "master"  
LOCAL_DRIVER = "{ODBC Driver 17 for SQL Server}"
local_conn_str = f"DRIVER={LOCAL_DRIVER};SERVER={LOCAL_SERVER};DATABASE={LOCAL_DATABASE};Trusted_Connection=yes;TrustServerCertificate=yes"

# Ruta al archivo SQL con la consulta CLTV
SQL_FOLDER_PATH = "../sql/CLTV/"
SQL_FILE = "SQLQuery_CLTV.sql" 
def load_cltv_data():
    """Carga los datos de CLTV desde SQL Server"""
    try:
        # Leer la consulta SQL
        with open(f"{SQL_FOLDER_PATH}{SQL_FILE}", "r", encoding="utf-8") as file:
            query = file.read()
        
        # Conectar y ejecutar consulta
        conn = pyodbc.connect(local_conn_str)
        df = pd.read_sql(query, conn)
        conn.close()
        
        logging.info(f"Datos de CLTV cargados correctamente. Filas obtenidas: {len(df)}")
        return df
    
    except Exception as e:
        logging.error(f"Error al cargar datos CLTV: {str(e)}")
        return None

def analyze_cltv(df):
    """Realiza análisis estadísticos y gráficos del CLTV"""
    if df is None or df.empty:
        logging.error("No hay datos para analizar")
        return
    
    # Verificar si existe la columna CLTV
    if 'CLTV' not in df.columns:
        logging.error("No se encontró la columna 'CLTV' en los datos")
        return
    
    # Análisis estadístico básico
    stats = {
        'Máximo': df['CLTV'].max(),
        'Mínimo': df['CLTV'].min(),
        'Media': df['CLTV'].mean(),
        'Mediana': df['CLTV'].median(),
        'Desviación Estándar': df['CLTV'].std(),
        'Percentil 25': df['CLTV'].quantile(0.25),
        'Percentil 75': df['CLTV'].quantile(0.75)
    }
    
    # Mostrar estadísticas
    print("\nEstadísticas descriptivas del CLTV:")
    for key, value in stats.items():
        print(f"{key}: {value:.2f}")
    
    # Configurar estilo de los gráficos
    plt.style.use('seaborn')
    sns.set_palette("husl")
    
    # Crear figura con múltiples gráficos
    plt.figure(figsize=(15, 10))
    
    # Histograma
    plt.subplot(2, 2, 1)
    sns.histplot(df['CLTV'], bins=30, kde=True)
    plt.title('Distribución del CLTV')
    plt.xlabel('CLTV')
    plt.ylabel('Frecuencia')
    
    # Boxplot
    plt.subplot(2, 2, 2)
    sns.boxplot(y=df['CLTV'])
    plt.title('Diagrama de Caja del CLTV')
    plt.ylabel('CLTV')
    
    # Gráfico de densidad
    plt.subplot(2, 2, 3)
    sns.kdeplot(df['CLTV'], shade=True)
    plt.title('Densidad del CLTV')
    plt.xlabel('CLTV')
    plt.ylabel('Densidad')
    
    # Gráfico de percentiles
    plt.subplot(2, 2, 4)
    percentiles = df['CLTV'].quantile([0.1, 0.25, 0.5, 0.75, 0.9])
    percentiles.plot(kind='bar')
    plt.title('Percentiles del CLTV')
    plt.xlabel('Percentil')
    plt.ylabel('Valor CLTV')
    plt.xticks(rotation=0)
    
    plt.tight_layout()
    
    # Guardar gráficos
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    plt.savefig(f'cltv_analysis_{timestamp}.png')
    logging.info(f"Gráficos guardados como 'cltv_analysis_{timestamp}.png'")
    
    plt.show()

if __name__ == "__main__":
    logging.info("=== INICIO DEL ANÁLISIS CLTV ===")
    
    # Cargar datos
    cltv_data = load_cltv_data()
    
    # Analizar datos si se cargaron correctamente
    if cltv_data is not None:
        # Mostrar vista previa
        print("\nVista previa de los datos:")
        print(cltv_data.head())
        
        # Verificar nombres de columnas
        print("\nColumnas disponibles:", cltv_data.columns.tolist())
        
        # Realizar análisis
        analyze_cltv(cltv_data)
    
    logging.info("=== ANÁLISIS COMPLETADO ===")

2025-03-28 17:59:02,195 - INFO - === INICIO DEL ANÁLISIS CLTV ===
  df = pd.read_sql(query, conn)
2025-03-28 17:59:02,337 - ERROR - Error al cargar datos CLTV: 'NoneType' object is not iterable
2025-03-28 17:59:02,344 - INFO - === ANÁLISIS COMPLETADO ===


In [11]:
# Generales y manejo de datos
import pandas as pd
import numpy as np
import os
import logging

# Visualización
import matplotlib.pyplot as plt

# Conexión a SQL Server
import pyodbc  

In [12]:
# Configuración de logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

# Configuración de conexión a SQL Server LOCAL
LOCAL_SERVER = "localhost"
LOCAL_DATABASE = "master"
LOCAL_DRIVER = "{ODBC Driver 17 for SQL Server}"

local_conn_str = f"DRIVER={LOCAL_DRIVER};SERVER={LOCAL_SERVER};DATABASE={LOCAL_DATABASE};Trusted_Connection=yes;TrustServerCertificate=yes"

# Ruta a la carpeta con los archivos SQL
SQL_FOLDER_PATH = "../sql/CLTV/"
SQL_FILE = "SQLQuery_CLTV.sql"

# Leer la consulta desde el archivo SQL
with open(f"{SQL_FOLDER_PATH}{SQL_FILE}", "r", encoding="iso-8859-1") as file:
    query = file.read()

# Conectar a SQL Server y ejecutar la consulta
try:
    conn = pyodbc.connect(local_conn_str)
    df_CLTV = pd.read_sql(query, conn)
    conn.close()
    
    # Mostrar las primeras filas
    print(df_CLTV.head())
    
    logging.info("Consulta ejecutada exitosamente y convertida a DataFrame.")

except Exception as e:
    logging.error(f"Error al ejecutar la consulta: {e}")

  df_CLTV = pd.read_sql(query, conn)
2025-03-28 17:59:02,367 - ERROR - Error al ejecutar la consulta: Execution failed on sql '-- Verificar y eliminar la tabla temporal si ya existe
IF OBJECT_ID('tempdb..#TempCoeficientes') IS NOT NULL
    DROP TABLE #TempCoeficientes;

-- Crear tabla temporal con las columnas exactas de tu CSV
CREATE TABLE #TempCoeficientes (
    Variable NVARCHAR(100),
    Coeficiente FLOAT,
    Odds_Ratio FLOAT
);

-- Importar datos del CSV
BULK INSERT #TempCoeficientes
FROM 'C:\Users\aleja\OneDrive\Documentos\GitHub\3r\2n cuatri\gestion de datos - jacinto\Caso_DW\CLTV-Data-Integration\docs\model_outputs\logistic_coefficients_calculated.csv'
WITH (
    FORMAT = 'CSV',
    FIRSTROW = 2,            -- Ignorar encabezados
    FIELDTERMINATOR = ',',   -- Columnas separadas por coma
    ROWTERMINATOR = '\n',    -- Filas separadas por salto de lÃ­nea
    TABLOCK
);

-- Extraer el intercepto (beta0) y coeficientes necesarios
DECLARE @beta0 FLOAT, @beta_PVP FLOAT, @beta_Car

In [16]:
# Configuración avanzada de logging
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s",
    handlers=[
        logging.StreamHandler(),
        logging.FileHandler('cltv_analysis.log', encoding='utf-8')
    ]
)

# Configuración de conexión a SQL Server (con soporte para caracteres especiales)
CONNECTION_CONFIG = {
    'server': "localhost",
    'database': "master",
    'driver': "ODBC Driver 17 for SQL Server",
    'trusted_connection': "yes",
    'trust_server_certificate': "yes",
    'autocommit': True,
    'unicode_results': True  # Importante para caracteres especiales
}

def build_connection_string(config):
    """Construye la cadena de conexión a partir de un diccionario de configuración"""
    return ";".join(f"{k}={v}" for k, v in config.items())

# Rutas de archivos (usando pathlib para mejor manejo de rutas)
from pathlib import Path
SQL_DIR = Path("../sql/CLTV/")
SQL_FILE = "SQLQuery_CLTV.sql"

def read_sql_file(file_path):
    """Lee un archivo SQL con manejo de codificación automático"""
    encodings = ['utf-8', 'iso-8859-1', 'latin1']  # Orden de intentos de codificación
    
    for encoding in encodings:
        try:
            with open(file_path, 'r', encoding=encoding) as file:
                return file.read()
        except UnicodeDecodeError:
            continue
            
    raise ValueError(f"No se pudo decodificar el archivo {file_path} con las codificaciones probadas")

# Proceso principal
try:
    # 1. Leer consulta SQL
    query = read_sql_file(SQL_DIR / SQL_FILE)
    
    # 2. Establecer conexión con soporte para caracteres especiales
    conn_str = build_connection_string(CONNECTION_CONFIG)
    
    # Configuración adicional para caracteres especiales
    pyodbc.pooling = False  # Recomendado para evitar problemas con Unicode
    
    conn = pyodbc.connect(conn_str)
    conn.setdecoding(pyodbc.SQL_CHAR, encoding='utf-8')
    conn.setdecoding(pyodbc.SQL_WCHAR, encoding='utf-8')
    conn.setencoding(encoding='utf-8')
    
    # 3. Ejecutar consulta y obtener datos
    df_CLTV = pd.read_sql(query, conn)
    
    # 4. Procesamiento inicial de datos
    if not df_CLTV.empty:
        # Convertir nombres de columnas a formato estándar
        df_CLTV.columns = df_CLTV.columns.str.strip()
        
        # Mostrar información básica
        logging.info(f"Datos cargados correctamente. Dimensiones: {df_CLTV.shape}")
        print("\nResumen inicial de datos:")
        print(df_CLTV.head())
        
        # Análisis básico de estructura
        print("\nTipos de datos y valores nulos:")
        print(df_CLTV.info())
        
    else:
        logging.warning("La consulta no devolvió ningún dato")
        
except Exception as e:
    logging.error(f"Error en el proceso principal: {str(e)}", exc_info=True)
    
finally:
    # Asegurar que la conexión se cierra incluso si hay errores
    if 'conn' in locals() and conn:
        conn.close()
        logging.info("Conexión a la base de datos cerrada")

  df_CLTV = pd.read_sql(query, conn)
2025-03-28 18:00:49,153 - ERROR - Error en el proceso principal: Execution failed on sql '-- Verificar y eliminar la tabla temporal si ya existe
IF OBJECT_ID('tempdb..#TempCoeficientes') IS NOT NULL
    DROP TABLE #TempCoeficientes;

-- Crear tabla temporal con las columnas exactas de tu CSV
CREATE TABLE #TempCoeficientes (
    Variable NVARCHAR(100),
    Coeficiente FLOAT,
    Odds_Ratio FLOAT
);

-- Importar datos del CSV
BULK INSERT #TempCoeficientes
FROM 'C:\Users\aleja\OneDrive\Documentos\GitHub\3r\2n cuatri\gestion de datos - jacinto\Caso_DW\CLTV-Data-Integration\docs\model_outputs\logistic_coefficients_calculated.csv'
WITH (
    FORMAT = 'CSV',
    FIRSTROW = 2,            -- Ignorar encabezados
    FIELDTERMINATOR = ',',   -- Columnas separadas por coma
    ROWTERMINATOR = '\n',    -- Filas separadas por salto de línea
    TABLOCK
);

-- Extraer el intercepto (beta0) y coeficientes necesarios
DECLARE @beta0 FLOAT, @beta_PVP FLOAT, @beta_CarA

In [21]:
import pyodbc
import pandas as pd
import logging

# Configuración de logging
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

def get_cltv_data():
    """Obtiene los datos CLTV desde SQL Server con manejo robusto de errores"""
    try:
        # Configuración de conexión
        LOCAL_SERVER = "localhost"
        LOCAL_DATABASE = "master"
        LOCAL_DRIVER = "{ODBC Driver 17 for SQL Server}"
        local_conn_str = f"DRIVER={LOCAL_DRIVER};SERVER={LOCAL_SERVER};DATABASE={LOCAL_DATABASE};Trusted_Connection=yes;TrustServerCertificate=yes"

        # Leer la consulta SQL
        SQL_FOLDER_PATH = "../sql/CLTV/"
        SQL_FILE = "SQLQuery_CLTV.sql"
        
        try:
            with open(f"{SQL_FOLDER_PATH}{SQL_FILE}", "r", encoding="iso-8859-1") as file:
                query = file.read()
        except FileNotFoundError:
            logging.error(f"Archivo SQL no encontrado en: {SQL_FOLDER_PATH}{SQL_FILE}")
            return None
        except Exception as e:
            logging.error(f"Error al leer el archivo SQL: {e}")
            return None

        # Establecer conexión
        try:
            conn = pyodbc.connect(local_conn_str)
            logging.info("Conexión a SQL Server establecida correctamente")
        except pyodbc.Error as e:
            logging.error(f"Error al conectar a SQL Server: {e}")
            return None

        # Ejecutar consulta y obtener datos
        try:
            df_CLTV = pd.read_sql(query, conn)
            logging.info(f"Datos CLTV obtenidos correctamente. Filas: {len(df_CLTV)}")
            return df_CLTV
        except Exception as e:
            logging.error(f"Error al ejecutar la consulta SQL: {e}")
            return None
        finally:
            conn.close()
            
    except Exception as e:
        logging.error(f"Error inesperado: {e}")
        return None

# Obtener los datos
df_CLTV = get_cltv_data()

# Mostrar resultados
if df_CLTV is not None:
    print("\nPrimeras filas del DataFrame CLTV:")
    print(df_CLTV.head())
    
    # Verificar columnas disponibles para análisis
    print("\nColumnas disponibles:")
    print(df_CLTV.columns.tolist())
else:
    print("No se pudieron obtener los datos CLTV. Verifica los logs para más detalles.")

2025-03-28 18:10:57,927 - INFO - Conexión a SQL Server establecida correctamente
  df_CLTV = pd.read_sql(query, conn)
2025-03-28 18:10:57,931 - ERROR - Error al ejecutar la consulta SQL: Execution failed on sql '-- Verificar y eliminar la tabla temporal si ya existe
IF OBJECT_ID('tempdb..#TempCoeficientes') IS NOT NULL
    DROP TABLE #TempCoeficientes;

-- Crear tabla temporal con las columnas exactas de tu CSV
CREATE TABLE #TempCoeficientes (
    Variable NVARCHAR(100),
    Coeficiente FLOAT,
    Odds_Ratio FLOAT
);

-- Importar datos del CSV
BULK INSERT #TempCoeficientes
FROM 'C:\Users\aleja\OneDrive\Documentos\GitHub\3r\2n cuatri\gestion de datos - jacinto\Caso_DW\CLTV-Data-Integration\docs\model_outputs\logistic_coefficients_calculated.csv'
WITH (
    FORMAT = 'CSV',
    FIRSTROW = 2,            -- Ignorar encabezados
    FIELDTERMINATOR = ',',   -- Columnas separadas por coma
    ROWTERMINATOR = '\n',    -- Filas separadas por salto de lÃ­nea
    TABLOCK
);

-- Extraer el intercep

No se pudieron obtener los datos CLTV. Verifica los logs para más detalles.


In [19]:
import pyodbc
import pandas as pd
import logging

# Configuración
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")
conn_str = "DRIVER={ODBC Driver 17 for SQL Server};SERVER=localhost;DATABASE=master;Trusted_Connection=yes;TrustServerCertificate=yes"

def execute_sql_script(connection_string, sql_script_path):
    try:
        conn = pyodbc.connect(connection_string)
        cursor = conn.cursor()
        
        # Leer el script SQL
        with open(sql_script_path, 'r', encoding='utf-8') as f:
            sql_script = f.read()
        
        # Dividir el script en lotes por GO (si existe)
        batches = [batch.strip() for batch in sql_script.split('GO') if batch.strip()]
        
        # Ejecutar cada lote
        for batch in batches:
            try:
                if "SELECT" in batch.upper():  # Si es consulta que devuelve datos
                    df = pd.read_sql(batch, conn)
                    return df
                else:  # Para comandos DML/DDL
                    cursor.execute(batch)
                    conn.commit()
            except Exception as batch_error:
                logging.error(f"Error en lote SQL: {batch_error}\nLote problemático: {batch[:200]}...")
                raise
                
    except Exception as e:
        logging.error(f"Error general: {e}")
        return None
    finally:
        if 'conn' in locals():
            conn.close()

# Uso
df_result = execute_sql_script(conn_str, "../sql/CLTV/SQLQuery_CLTV.sql")
if df_result is not None:
    print(df_result.head())

  df = pd.read_sql(batch, conn)
2025-03-28 18:10:45,627 - ERROR - Error en lote SQL: 'NoneType' object is not iterable
Lote problemático: -- Verificar y eliminar la tabla temporal si ya existe
IF OBJECT_ID('tempdb..#TempCoeficientes') IS NOT NULL
    DROP TABLE #TempCoeficientes;

-- Crear tabla temporal con las columnas exactas de tu C...
2025-03-28 18:10:45,628 - ERROR - Error general: 'NoneType' object is not iterable


In [20]:
# SQL Server (entorno local)
LOCAL_SERVER = 'localhost'
LOCAL_DATABASE = 'master'
LOCAL_DRIVER = '{ODBC Driver 17 for SQL Server}'

# Construcción de cadena de conexión
local_conn_str = f"DRIVER={LOCAL_DRIVER};SERVER={LOCAL_SERVER};DATABASE={LOCAL_DATABASE};Trusted_Connection=yes;TrustServerCertificate=yes"
conn = pyodbc.connect(local_conn_str)

# Lectura de la consulta SQL desde archivo
with open("../sql/CLTV/SQLQuery_CLTV.sql", "r") as file:
    query = file.read()

# Ejecución de la consulta y carga del resultado en un DataFrame
df = pd.read_sql(query, conn)

  df = pd.read_sql(query, conn)


DatabaseError: Execution failed on sql '-- Verificar y eliminar la tabla temporal si ya existe
IF OBJECT_ID('tempdb..#TempCoeficientes') IS NOT NULL
    DROP TABLE #TempCoeficientes;

-- Crear tabla temporal con las columnas exactas de tu CSV
CREATE TABLE #TempCoeficientes (
    Variable NVARCHAR(100),
    Coeficiente FLOAT,
    Odds_Ratio FLOAT
);

-- Importar datos del CSV
BULK INSERT #TempCoeficientes
FROM 'C:\Users\aleja\OneDrive\Documentos\GitHub\3r\2n cuatri\gestion de datos - jacinto\Caso_DW\CLTV-Data-Integration\docs\model_outputs\logistic_coefficients_calculated.csv'
WITH (
    FORMAT = 'CSV',
    FIRSTROW = 2,            -- Ignorar encabezados
    FIELDTERMINATOR = ',',   -- Columnas separadas por coma
    ROWTERMINATOR = '\n',    -- Filas separadas por salto de lÃ­nea
    TABLOCK
);

-- Extraer el intercepto (beta0) y coeficientes necesarios
DECLARE @beta0 FLOAT, @beta_PVP FLOAT, @beta_CarAge FLOAT;

SELECT @beta0 = ISNULL(Coeficiente, 0) FROM #TempCoeficientes WHERE Variable = 'Intercepto';
SELECT @beta_PVP = ISNULL(Coeficiente, 0) FROM #TempCoeficientes WHERE Variable = 'log_PVP';
SELECT @beta_CarAge = ISNULL(Coeficiente, 0) FROM #TempCoeficientes WHERE Variable = 'sqrt_Car_Age';

-- Calcular probabilidad de retenciÃ³n para cada cliente (esta es la Ãºnica consulta que devolverÃ¡ resultados)
WITH RetencionClientes AS (
    SELECT 
        f.Customer_ID,
        f.Margen_eur AS Margen,
        -- FÃ³rmula logÃ­stica para retenciÃ³n con manejo de NULLs
        CASE 
            WHEN f.PVP IS NULL OR f.Car_Age IS NULL OR f.Margen_eur IS NULL THEN NULL
            ELSE 1 - (1 / (1 + EXP(-(@beta0 + 
                           @beta_PVP * LOG(NULLIF(f.PVP, 0)) + 
                           @beta_CarAge * SQRT(NULLIF(f.Car_Age, 0))))))
        END AS Retencion
    FROM 
        Fact f
    WHERE
        f.PVP > 0 
        AND f.Car_Age IS NOT NULL
        AND f.Margen_eur IS NOT NULL
)
-- Calcular el CLTV con acumulados progresivos
SELECT
    Customer_ID,
    Margen,
    Retencion,
    -- CLTV por aÃ±o individual (opcional)
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (POWER(Retencion, 1)/POWER(1.07, 1)) END AS CLTV_AÃ±o1,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (POWER(Retencion, 2)/POWER(1.07, 2)) END AS CLTV_AÃ±o2,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (POWER(Retencion, 3)/POWER(1.07, 3)) END AS CLTV_AÃ±o3,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (POWER(Retencion, 4)/POWER(1.07, 4)) END AS CLTV_AÃ±o4,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (POWER(Retencion, 5)/POWER(1.07, 5)) END AS CLTV_AÃ±o5,
    -- CLTV acumulado progresivo (mejor formato para anÃ¡lisis)
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (POWER(Retencion, 1)/POWER(1.07, 1)) END AS CLTV_Acum_1AÃ±o,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (
        POWER(Retencion, 1)/POWER(1.07, 1) +
        POWER(Retencion, 2)/POWER(1.07, 2)
    ) END AS CLTV_Acum_2AÃ±os,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (
        POWER(Retencion, 1)/POWER(1.07, 1) +
        POWER(Retencion, 2)/POWER(1.07, 2) +
        POWER(Retencion, 3)/POWER(1.07, 3)
    ) END AS CLTV_Acum_3AÃ±os,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (
        POWER(Retencion, 1)/POWER(1.07, 1) +
        POWER(Retencion, 2)/POWER(1.07, 2) +
        POWER(Retencion, 3)/POWER(1.07, 3) +
        POWER(Retencion, 4)/POWER(1.07, 4)
    ) END AS CLTV_Acum_4AÃ±os,
    CASE WHEN Retencion IS NULL THEN NULL ELSE Margen * (
        POWER(Retencion, 1)/POWER(1.07, 1) +
        POWER(Retencion, 2)/POWER(1.07, 2) +
        POWER(Retencion, 3)/POWER(1.07, 3) +
        POWER(Retencion, 4)/POWER(1.07, 4) +
        POWER(Retencion, 5)/POWER(1.07, 5)
    ) END AS CLTV_Acum_5AÃ±os
FROM
    RetencionClientes
WHERE
    Retencion IS NOT NULL
ORDER BY
    CLTV_Acum_5AÃ±os DESC;': ('42000', "[42000] [Microsoft][ODBC Driver 17 for SQL Server][SQL Server]Sintaxis incorrecta cerca de '±'. (102) (SQLExecDirectW)")

In [None]:
1. contulta para dataframe y fuerzas par que sea float e integer
2. crear tabla en sql server y forzar que sea float e integer