In [1]:
import math

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from scipy.stats import pearsonr, mannwhitneyu, f_oneway

from toolbox_ML import describe_df, tipifica_variables, get_features_num_regression, plot_features_num_regression, get_features_cat_regression, plot_features_cat_regression
import toolbox_ML_v2 as f_v2

pd.set_option('display.max_rows', None)

## Dataset utilizado

Se utiliza un dataset público de Kaggle relacionado con **clientes de seguros de automóvil**.

La variable objetivo principal en los ejemplos será:

- **Customer Lifetime Value (CLV)**  

El dataset contiene:
- Variables **numéricas** (ingresos, primas, número de pólizas, etc.)
- Variables **categóricas** (estado civil, tipo de póliza, canal de venta, etc.)

Esto lo convierte en un buen caso de uso para evaluar tipificación automática y selección de variables

https://www.kaggle.com/datasets/ranja7/vehicle-insurance-customer-data

In [None]:
df = pd.read_csv('./data/AutoInsurance.csv')
df.info()

**Customer**: Identificador único del cliente dentro del sistema de la aseguradora.

**State**: Estado o región de residencia del cliente.

**Customer Lifetime Value**: Valor económico total estimado que el cliente aporta a la aseguradora a lo largo de toda su relación contractual.

**Response**: Indica si el cliente respondió o no a una campaña de marketing previa.

**Coverage**: Nivel de cobertura del seguro contratado (por ejemplo, básica, extendida, premium).

**Education**: Nivel educativo del cliente.

**Effective To Date**: Fecha hasta la cual la póliza está vigente.

**EmploymentStatus**: Situación laboral del cliente (empleado, desempleado, jubilado, etc.).

**Gender**: Género del cliente.

**Income**: Ingresos anuales estimados del cliente.

**Location Code**: Tipo de zona donde reside el cliente (urbana, suburbana, rural).

**Marital Status**: Estado civil del cliente.

**Monthly Premium Auto**: Importe mensual que el cliente paga por su seguro de automóvil.

**Months Since Last Claim**: Número de meses transcurridos desde la última reclamación realizada.

**Months Since Policy Inception**: Meses desde que el cliente contrató la póliza actual.

**Number of Open Complaints**: Número de reclamaciones abiertas en el momento actual.

**Number of Policies**: Cantidad de pólizas activas contratadas por el cliente.

**Policy Type**: Tipo general de póliza contratada.

**Policy**: Subtipo o modalidad específica de la póliza.

**Renew Offer Type**: Tipo de oferta presentada al cliente en el proceso de renovación.

**Sales Channel**: Canal por el que se realizó la venta o contratación (agente, web, call center, etc.).

**Total Claim Amount**: Importe total reclamado por el cliente en siniestros anteriores.

**Vehicle Class**: Categoría del vehículo asegurado (turismo, SUV, deportivo, etc.).

**Vehicle Size**: Tamaño del vehículo asegurado.

## Exploración inicial del DataFrame

Antes de cualquier análisis, se obtiene una **descripción estructurada de las variables**, incluyendo:

- Tipo de dato
- Porcentaje de valores nulos
- Cardinalidad absoluta y relativa

Esta información sirve como base para:
- Detectar variables problemáticas
- Entender la naturaleza de cada columna

In [None]:
describe_df(df)

## Tipificación automática de variables

A partir de la información descriptiva, se asigna a cada variable una **clasificación sugerida**:

Las categorías principales son:
- Binaria
- Categórica
- Numérica discreta
- Numérica continua

In [None]:
tipifica_variables(df, 10, 60)

## Selección de variables numéricas relevantes

Se identifican las variables numéricas con **relación lineal significativa** respecto a la variable objetivo.

Criterios utilizados:
- Correlación de Pearson
- Umbral mínimo de correlación
- Nivel de significación estadística (p-value)

In [None]:
get_features_num_regression(df, 'Customer Lifetime Value', umbral_corr=0, pvalue=1)

## Visualización de relaciones numéricas

Las variables numéricas seleccionadas se representan gráficamente frente a la variable objetivo.

Estas visualizaciones permiten:
- Validar visualmente la correlación detectada
- Identificar patrones no lineales
- Detectar outliers


In [None]:
plot_features_num_regression(df, 'Customer Lifetime Value', umbral_corr=0, pvalue=1)

## Análisis de variables categóricas

Se analiza la relación entre variables categóricas y la variable objetivo numérica mediante tests estadísticos:

- Mann–Whitney U → variables binarias
- ANOVA → variables categóricas con más de dos niveles

In [None]:
get_features_cat_regression(df, 'Customer Lifetime Value', pvalue=0.1)

## Visualización condicionada por variables categóricas

Se representan las distribuciones de la variable objetivo condicionadas por variables categóricas relevantes.

Dos modos de visualización:
- Comparación global por categoría
- Análisis individual de cada nivel de la variable categórica

In [None]:
plot_features_cat_regression(df, 'Customer Lifetime Value', pvalue=0.01)

In [None]:
plot_features_cat_regression(df, 'Customer Lifetime Value', ['Renew Offer Type'], pvalue=0.01, with_individual_plot=True);

## Comparación entre versiones

A lo largo del notebook se ejecutan las mismas pruebas con una versión reinterpretada de las funciones.

Principales diferencias introducidas en V2:
- Validaciones de entrada más estrictas
- Salidas más ricas (DataFrames con métricas)
- Tipificación reutilizable entre funciones
- Visualizaciones más informativas
- Mejor separación entre cálculo y representación

El objetivo es construir una **toolbox reutilizable en proyectos reales de Machine Learning**.

In [None]:
f_v2.describe_df(df)

In [None]:
f_v2.tipifica_variables(df, 10, 0.1)

In [None]:
f_v2.get_features_num_regression(df, 'Customer Lifetime Value', umbral_corr=0, pvalue=1)

In [None]:
f_v2.plot_features_num_regression(df, 'Customer Lifetime Value', umbral_corr=0, pvalue=1)

In [None]:
f_v2.get_features_cat_regression(df, 'Customer Lifetime Value', pvalue=0.1)

In [None]:
f_v2.plot_features_cat_regression(df, 'Customer Lifetime Value', pvalue=0.01)

In [None]:
f_v2.plot_features_cat_regression(df, 'Customer Lifetime Value', columns='Renew Offer Type', pvalue=0.01, with_individual_plot=True);

## Conclusiones

Este notebook muestra cómo, partiendo de un mismo enunciado, es posible:

- Evolucionar una solución funcional hacia una solución más robusta
- Priorizar legibilidad y reutilización
- Integrar estadística, visualización y tipificación automática