# **Análisis Exploratorio de Datos**

## **Información del Proyecto**

- **Fecha:** 11/15/2025
- **Docente:** Robert Erick García 
- **Integrantes:** Karol Vanessa Vitonco y Sophie Rosero Muriel

<div id = "id0" >

## Tabla de Contenido

- [1. Pregunta del Análisis](#id1)
    - [1.1 Introducción](#id2)
    - [1.2 Datos](#id3)
    - [1.3 Objetivos](#id4)
    - [1.4 Variables Dependientes e Independientes](#id5)
- [2. Carga de Librerías](#id6)
- [3. Carga de Datos](#id7)
- [4. Descriptión y Limpieza](#id8)
    - [4.1 Información del dataset cargado](#id9)
    - [4.2 Ajustando los tipos de datos](#id10)
    - [4.3 Tratamiento de datos duplicados](#id11)
    - [4.4 Visualización de datos nulos](#id12)
    - [4.5 Eliminación de variables](#id13)
- [5. Análisis Exploratorio de Datos](#id15)
    - [5.1 Análisis Univariable](#id16)
        - [5.1.1 Análisis Descriptivo del Data Profiling](#id17)
        - [5.1.2 Variables Númericas](#id18)
        - [5.1.3 Variables Catagóricas](#id19)
    - [5.2 Análisis Bivariable](#id20)
        - [5.2.1 Númericas vs Variable Objetivo](#id21)
        - [5.2.2 Categoricas vs Variable Objetivo](#id22)
- [6. Conclusiones](#id23)
- [7. Procesamiento de Datos Final para Modelamiento](#id24)
    - [7.1 Tratamiento de datos nulos](#id25)
    - [7.2 Limpieza de datos atípicos](#id26)
    - [7.3 Codificación de variables categóricas](#id27)
    - [7.4 Escalado/normalización de variables](#id28)
    - [7.5 Análisis de correlaciones](#id29)
    - [7.6 Balanceo de datos](#id30)
    - [7.7 Ingeniería de características](#id31)
    - [7.8 Selección y justificación de variables finales](#id32)
- [8. Modelado/Comparación de Algoritmos](#id33)
    - [8.1 Descriptión General](#id34)
        - [8.1.1 Concatenación de train/test](#id35)
        - [8.1.2 Información del dataset cargado](#id36)
        - [8.1.3 Visualización de variables](#id37)
    - [8.2 Regresión Ridge](#id38)
        - [8.2.1 Evaluación del modelo](#id39)
    - [8.3 Regresión Lineal](#id40)
        - [8.3.1 Evaluación del modelo](#id41)
    - [8.4 Regresión KNN](#id42)
        - [8.4.1 Evaluación del modelo](#id43)
- [9. Evaluación de Modelos](#id44)
    - [9.1 Métricas de Desempeño (MSE, RMSE, MAE, R²)](#id45)
    - [9.2 Tests de Significatividad Individual y Global](#id46)
- [10. Comparación y Conclusiones](#id47)

<div id = "id1" >

## **1. Pregunta del Análisis**

Este proyecto abarca un análisis exploratorio de datos (EDA), la preparación de datos (Data Preparation), el modelado y comparación de algoritmos, la evaluación de métricas de desempeño y la presentación de los resultados. El enfoque es identificar los factores que influyen en la **propensión a pagar la prima de renovación en políticas de seguros**, preparar el conjunto de datos para un sistema de aprendizaje automático que prediga esta propensión, y crear un plan de incentivos para agentes que maximice los ingresos netos (renovaciones menos incentivos). La pregunta rectora es: ***¿Qué factores influyen en la propensión a renovar primas de seguros, y cómo se puede preparar el dataset, modelar y evaluar para predecir esta probabilidad y optimizar incentivos?*** enfocado en identificar los factores que influyen en la **propensión a pagar la prima de renovación en políticas de seguros** y **preparar el conjunto de datos** para un sistema de aprendizaje automático que prediga esta propensión, permitiendo crear un plan de incentivos para agentes que maximice los ingresos netos.

[Regresar a la Tabla de Contenido](#id0)

<div id = "id2" >

### **1.1 Introducción**

El dataset utilizado corresponde a datos de una compañía de seguros, enfocado en transacciones pasadas de asegurados y su propensión a renovar primas. Este dataset es proporcionado por el cliente (Robert Erick Gardía) como **insurance_company.csv** en el caso de estudio.

Contiene información demográfica (edad en días, ingresos mensuales, tipo de área de residencia), transaccional (porcentaje de prima pagada en efectivo o crédito, conteo de primas atrasadas en 3-6/6-12/más de 12 meses, puntuación de suscripción al solicitar, total de primas pagadas hasta ahora, canal de abastecimiento) y detalles de la póliza (monto de la prima mensual, renovación como variable objetivo binaria: 0 - No Renovado, 1 - Renovado). Adicionalmente se proporcionan relaciones clave: esfuerzo esperado en horas por agente según incentivos, e incremento esperado en probabilidades de renovación dado el esfuerzo del agente; estas se usarán en la sección de modelado y recomendaciones para optimizar incentivos.

El objetivo del análisis exploratorio es comprender las características fundamentales del conjunto de datos, identificar patrones en la renovación de primas, detectar anomalías (valores faltantes, atípicos) y preparar el dataset para modelamiento mediante limpieza, transformación, ingeniería de características y selección de variables. Esto permitirá responder preguntas clave, como:

- ¿Qué factores demográficos, transaccionales o de póliza influyen en la renovación?
- ¿Cuáles son los patrones de atrasos en pagos y canales de abastecimiento más comunes asociados con no renovaciones?
- ¿Cómo impactan los ingresos, edad y puntuación de suscripción en la propensión a renovar?
- ¿Qué variables deben eliminarse o transformarse para optimizar el modelo predictivo y el plan de incentivos?

[Regresar a la Tabla de Contenido](#id0)

<div id = "id3" >

### **1.2 Datos**

El conjunto de datos describe información de una compañía de seguros, incluyendo características demográficas, transaccionales, detalles de pagos atrasados, puntuación de suscripción, canal de abastecimiento, área de residencia, monto de prima y renovación. A continuación, se detallan las variables principales y la variable objetivo, con sus tipos de datos y descripciones corregidas y completadas según la información proporcionada.

**Identificadores**

- `id` → integer: Identificador único del cliente.

**Demográficas**

- `age_in_days` → integer: Edad del cliente en días.
- `Income` → integer: Ingresos mensuales del cliente.
- `residence_area_type` → string: Área de residencia del cliente. Valores: Urban, Rural.

**Transaccionales y Pagos**

- `perc_premium_paid_by_cash_credit` → float: Porcentaje del monto de la prima pagada en efectivo o con tarjeta de crédito.
- `Count_3-6_months_late` → integer: Número de primas atrasadas de 3 a 6 meses.
- `Count_6-12_months_late` → integer: Número de primas atrasadas de 6 a 12 meses.
- `Count_more_than_12_months_late` → integer: Número de primas atrasadas de más de 12 meses.
- `no_of_premiums_paid` → integer: Total de primas pagadas a tiempo hasta ahora.
- `premium` → integer: Monto de la prima del seguro mensual.

**Suscripción y Canal**

- `application_underwriting_score` → float: Puntuación de suscripción del solicitante en el momento de la solicitud.
- `sourcing_channel` → string: Canal de abastecimiento para la aplicación. Valores: A, B, C, D, E.

**Variable Objetivo**

- `renewal` → integer: Estado de renovación de la póliza. Valores:
    - 0: No Renovado.
    - 1: Renovado.

**Tipos de Datos**

- **Categóricos (string):** `sourcing_channel`, `residence_area_type`.
- **Numéricos (float):** `perc_premium_paid_by_cash_credit`, `application_underwriting_score`.
- **Numéricos (integer):** `id`, `age_in_days`, `Income`, `Count_3-6_months_late`, `Count_6-12_months_late`, `Count_more_than_12_months_late`, `no_of_premiums_paid`, `premium`, `renewal`.

[Regresar a la Tabla de Contenido](#id0)

<div id = "id4" >

### **1.3 Objetivos**

El proyecto se centrará en los siguientes puntos:

- **Comprensión del problema (Business Understanding):** Definir claramente el problema de negocio (predecir propensión a renovación para maximizar ingresos netos vía incentivos), objetivos del modelo predictivo (clasificación binaria de renovación), variables relevantes y justificación del enfoque predictivo para optimizar decisiones de agentes.

- **Análisis Exploratorio de Datos (EDA):** Realizar un análisis exhaustivo del dataset para identificar patrones, correlaciones y anomalías (valores faltantes, outliers) mediante visualizaciones claras, describir origen/estructura, limpieza inicial, codificación, y conclusiones intermedias, respondiendo: ¿Qué factores influyen en la propensión a renovar primas?

- **Preparación de los datos (Data Preparation):** Demostrar un proceso estructurado: ingeniería de variables, escalado/normalización, balanceo de clases, selección de características, y división train/test con validación cruzada.

- **Modelado y comparación de algoritmos:** Entrenar tres modelos distintos (Ridge, Lineal y KNN), comparar métricas (Accuracy, F1, ROC-AUC), optimizar con grid search/tuning, y seleccionar el más adecuado justificando su elección.

- **Evaluación y métricas de desempeño:** Calcular e interpretar métricas clave, explicar su impacto en el objetivo de negocio (maximizar renovaciones netas).
Comunicación ejecutiva de resultados: Resumir hallazgos, valor del modelo y recomendaciones (plan de incentivos) en sección clara/orientada a decisiones, con web-app para deployment.

- **Organización, documentación y código:** Presentar un notebook con secciones definidas y conclusiones según los resultados obtenidos.

[Regresar a la Tabla de Contenido](#id0)

<div id = "id5" >

### **1.4 Variables Dependientes e Independientes**

##### **Variable Dependiente**

La variable dependiente es `renewal`, ya que representa el resultado principal que indica si una póliza fue renovada (0 - No Renovado, 1 - Renovado). Esta variable captura el objetivo del análisis: predecir la propensión a renovar, que puede reflejar la lealtad del cliente, la efectividad de los incentivos o factores relacionados con el comportamiento financiero. Todas las demás variables se utilizan para explicar o predecir este resultado.

##### **Variables Independientes**

Entre las variables independientes, las más relevantes para predecir `renewal` son aquellas relacionadas con los pagos (`perc_premium_paid_by_cash_credit`, `Count_3-6_months_late`, `Count_6-12_months_late`, `Count_more_than_12_months_late`, `no_of_premiums_paid`), la suscripción (`application_underwriting_score`), y el canal (`sourcing_channel`). Estas variables capturan aspectos financieros, de comportamiento y de adquisición que pueden influir en la renovación. Variables demográficas como `age_in_days`, `Income` y `residence_area_type` también son relevantes para explorar patrones sociodemográficos. Otras variables, como `id`, se eliminaron debido a su baja relevancia *(ver más: [4.5 Eliminación de variables](#id13))*.

**De características demográficas:**

- `age_in_days` (edad del cliente en días)
- `Income` (ingresos mensuales del cliente)
- `residence_area_type` (área de residencia: Urban, Rural)

**De transaccionales y pagos:**

- `perc_premium_paid_by_cash_credit` (porcentaje de prima pagada en efectivo o crédito)
- `Count_3-6_months_late` (número de primas atrasadas de 3 a 6 meses)
- `Count_6-12_months_late` (número de primas atrasadas de 6 a 12 meses)
- `Count_more_than_12_months_late` (número de primas atrasadas de más de 12 meses)
- `no_of_premiums_paid` (total de primas pagadas a tiempo hasta ahora)
- `premium` (monto de la prima mensual)

**De suscripción y canal:**

- `application_underwriting_score` (puntuación de suscripción en la solicitud)
- `sourcing_channel` (canal de abastecimiento: A, B, C, D, E)

##### **Notas**
> ***Valores Faltantes:*** Variables como `Count_3-6_months_late`, `Count_6-12_months_late`, `Count_more_than_12_months_late` (97 faltantes cada una) y `application_underwriting_score` (2974 faltantes) serán tratadas en la sección de limpieza de datos. El dataset muestra un desbalance en `renewal` (93.74% renovados), lo que se abordará en el balanceo.

[Regresar a la Tabla de Contenido](#id0)

<div id = "id6" >

## **2. Carga de Librerías**

In [2]:
# librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from ydata_profiling import ProfileReport # EDA
from scipy.stats import kruskal, chi2_contingency

# modelamiento
from sklearn.impute import KNNImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, MinMaxScaler, RobustScaler
from imblearn.over_sampling import SMOTE

# modelos de regresión
from sklearn.linear_model import Ridge               # regresión Ridge
from sklearn.neighbors import KNeighborsRegressor    # regresión KNN
from sklearn.linear_model import LinearRegression    # regresión Lineal

# métricas de evaluación
from sklearn.metrics import mean_squared_error       # ¯|
from sklearn.metrics import mean_absolute_error      #  | -> métricas de evaluación para pruebas estadísticas
from sklearn.metrics import r2_score                 # _|
import statsmodels.api as sm

# warnings
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

pd.set_option("display.max_rows", None)  # sin límite de filas

# #warnings
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

pd.set_option("display.max_rows", None)  # sin límite de filas

[Regresar a la Tabla de Contenido](#id0)

<div id = "id7" >

## **3. Carga de Datos**

In [3]:
data = pd.read_csv('data/insurance_company.csv') # cargar el dataset

In [4]:
data.head(10) # 10 primeras filas del dataset

Unnamed: 0,id,perc_premium_paid_by_cash_credit,age_in_days,Income,Count_3-6_months_late,Count_6-12_months_late,Count_more_than_12_months_late,application_underwriting_score,no_of_premiums_paid,sourcing_channel,residence_area_type,premium,renewal
0,110936,0.429,12058,355060,0.0,0.0,0.0,99.02,13,C,Urban,3300,1
1,41492,0.01,21546,315150,0.0,0.0,0.0,99.89,21,A,Urban,18000,1
2,31300,0.917,17531,84140,2.0,3.0,1.0,98.69,7,C,Rural,3300,0
3,19415,0.049,15341,250510,0.0,0.0,0.0,99.57,9,A,Urban,9600,1
4,99379,0.052,31400,198680,0.0,0.0,0.0,99.87,12,B,Urban,9600,1
5,59951,0.54,17527,282080,2.0,0.0,0.0,99.18,9,B,Rural,22200,1
6,54031,1.0,24829,118400,0.0,0.0,0.0,99.05,11,B,Urban,7500,1
7,94290,1.0,21911,180240,1.0,6.0,4.0,99.33,3,A,Urban,9600,0
8,93730,0.621,9868,92520,0.0,0.0,0.0,99.58,4,A,Urban,7500,1
9,84844,0.908,23008,107180,2.0,0.0,0.0,98.91,11,A,Rural,5400,0


[Regresar a la Tabla de Contenido](#id0)

<div id = "id8" >

## **4. Descripción y Limpieza**

<div id = "id9" >

### **4.1 Información de dataset cargados**

In [5]:
data.shape # número de filas y columnas

(79853, 13)

In [6]:
data.describe() # descripción general del dataset

Unnamed: 0,id,perc_premium_paid_by_cash_credit,age_in_days,Income,Count_3-6_months_late,Count_6-12_months_late,Count_more_than_12_months_late,application_underwriting_score,no_of_premiums_paid,premium,renewal
count,79853.0,79853.0,79853.0,79853.0,79756.0,79756.0,79756.0,76879.0,79853.0,79853.0,79853.0
mean,57167.166368,0.314288,18846.696906,208847.2,0.248671,0.078188,0.060008,99.067291,10.863887,10924.507533,0.93741
std,32928.97016,0.334915,5208.719136,496582.6,0.691468,0.436507,0.312023,0.739799,5.170687,9401.676542,0.242226
min,2.0,0.0,7670.0,24030.0,0.0,0.0,0.0,91.9,2.0,1200.0,0.0
25%,28640.0,0.034,14974.0,108010.0,0.0,0.0,0.0,98.81,7.0,5400.0,1.0
50%,57262.0,0.167,18625.0,166560.0,0.0,0.0,0.0,99.21,10.0,7500.0,1.0
75%,85632.0,0.538,22636.0,252090.0,0.0,0.0,0.0,99.54,14.0,13800.0,1.0
max,114076.0,1.0,37602.0,90262600.0,13.0,17.0,11.0,99.89,60.0,60000.0,1.0


In [7]:
data.info() # información de cada variable

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79853 entries, 0 to 79852
Data columns (total 13 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   id                                79853 non-null  int64  
 1   perc_premium_paid_by_cash_credit  79853 non-null  float64
 2   age_in_days                       79853 non-null  int64  
 3   Income                            79853 non-null  int64  
 4   Count_3-6_months_late             79756 non-null  float64
 5   Count_6-12_months_late            79756 non-null  float64
 6   Count_more_than_12_months_late    79756 non-null  float64
 7   application_underwriting_score    76879 non-null  float64
 8   no_of_premiums_paid               79853 non-null  int64  
 9   sourcing_channel                  79853 non-null  object 
 10  residence_area_type               79853 non-null  object 
 11  premium                           79853 non-null  int64  
 12  rene

Surgen las siguientes observaciones:

- Los tipos de datos "object" se deben cambiar a "category".
- El formato de los nombres de las columnas debería cambiarse para que estén todos en minúscula.
- Hay tipos incorrectos en algunas columnas como 'encounter_id' o 'patient_nbr'.
- Existen valores faltantes en múltiples columnas que deberían resolverse.