# **Análisis Exploratorio de Datos**

## **Información del Proyecto**

- **Fecha:** 11/15/2025
- **Docente:** Robert Erick García 
- **Integrantes:** Karol Vanessa Vitonco y Sophie Rosero Muriel

<div id = "id0" >

## Tabla de Contenido

- [1. Pregunta del Análisis](#id1)
    - [1.1 Introducción](#id2)
    - [1.2 Datos](#id3)
    - [1.3 Objetivos](#id4)
    - [1.4 Variables Dependientes e Independientes](#id5)
- [2. Carga de Librerías](#id6)
- [3. Carga de Datos](#id7)
- [4. Descriptión y Limpieza](#id8)
    - [4.1 Información del dataset cargado](#id9)
    - [4.2 Ajustando los tipos de datos](#id10)
    - [4.3 Tratamiento de datos duplicados](#id11)
    - [4.4 Visualización de datos nulos](#id12)
    - [4.5 Eliminación de variables](#id13)
- [5. Análisis Exploratorio de Datos](#id15)
    - [5.1 Análisis Univariable](#id16)
        - [5.1.1 Análisis Descriptivo del Data Profiling](#id17)
        - [5.1.2 Variables Númericas](#id18)
        - [5.1.3 Variables Catagóricas](#id19)
    - [5.2 Análisis Bivariable](#id20)
        - [5.2.1 Númericas vs Variable Objetivo](#id21)
        - [5.2.2 Categoricas vs Variable Objetivo](#id22)
- [6. Conclusiones](#id23)
- [7. Procesamiento de Datos Final para Modelamiento](#id24)
    - [7.1 Tratamiento de datos nulos](#id25)
    - [7.2 Limpieza de datos atípicos](#id26)
    - [7.3 Codificación de variables categóricas](#id27)
    - [7.4 Escalado/normalización de variables](#id28)
    - [7.5 Análisis de correlaciones](#id29)
    - [7.6 Balanceo de datos](#id30)
    - [7.7 Ingeniería de características](#id31)
    - [7.8 Selección y justificación de variables finales](#id32)
- [8. Modelado/Comparación de Algoritmos](#id33)
    - [8.1 Descriptión General](#id34)
        - [8.1.1 Concatenación de train/test](#id35)
        - [8.1.2 Información del dataset cargado](#id36)
        - [8.1.3 Visualización de variables](#id37)
    - [8.2 Regresión Ridge](#id38)
        - [8.2.1 Evaluación del modelo](#id39)
    - [8.3 Regresión Lineal](#id40)
        - [8.3.1 Evaluación del modelo](#id41)
    - [8.4 Regresión KNN](#id42)
        - [8.4.1 Evaluación del modelo](#id43)
- [9. Evaluación de Modelos](#id44)
    - [9.1 Métricas de Desempeño (MSE, RMSE, MAE, R²)](#id45)
    - [9.2 Tests de Significatividad Individual y Global](#id46)
- [10. Comparación y Conclusiones](#id47)

<div id = "id1" >

## **1. Pregunta del Análisis**

Este proyecto abarca un análisis exploratorio de datos (EDA), la preparación de datos (Data Preparation), el modelado y comparación de algoritmos, la evaluación de métricas de desempeño y la presentación de los resultados. El enfoque es identificar los factores que influyen en la **propensión a pagar la prima de renovación en políticas de seguros**, preparar el conjunto de datos para un sistema de aprendizaje automático que prediga esta propensión, y crear un plan de incentivos para agentes que maximice los ingresos netos (renovaciones menos incentivos). La pregunta rectora es: ***¿Qué factores influyen en la propensión a renovar primas de seguros, y cómo se puede preparar el dataset, modelar y evaluar para predecir esta probabilidad y optimizar incentivos?*** enfocado en identificar los factores que influyen en la **propensión a pagar la prima de renovación en políticas de seguros** y **preparar el conjunto de datos** para un sistema de aprendizaje automático que prediga esta propensión, permitiendo crear un plan de incentivos para agentes que maximice los ingresos netos.

[Regresar a la Tabla de Contenido](#id0)

<div id = "id2" >

### **1.1 Introducción**

El dataset utilizado corresponde a datos de una compañía de seguros, enfocado en transacciones pasadas de asegurados y su propensión a renovar primas. Este dataset es proporcionado por el cliente (Robert Erick Gardía) como **insurance_company.csv** en el caso de estudio.

Contiene información demográfica (edad en días, ingresos mensuales, tipo de área de residencia), transaccional (porcentaje de prima pagada en efectivo o crédito, conteo de primas atrasadas en 3-6/6-12/más de 12 meses, puntuación de suscripción al solicitar, total de primas pagadas hasta ahora, canal de abastecimiento) y detalles de la póliza (monto de la prima mensual, renovación como variable objetivo binaria: 0 - No Renovado, 1 - Renovado). Adicionalmente se proporcionan relaciones clave: esfuerzo esperado en horas por agente según incentivos, e incremento esperado en probabilidades de renovación dado el esfuerzo del agente; estas se usarán en la sección de modelado y recomendaciones para optimizar incentivos.

El objetivo del análisis exploratorio es comprender las características fundamentales del conjunto de datos, identificar patrones en la renovación de primas, detectar anomalías (valores faltantes, atípicos) y preparar el dataset para modelamiento mediante limpieza, transformación, ingeniería de características y selección de variables. Esto permitirá responder preguntas clave, como:

- ¿Qué factores demográficos, transaccionales o de póliza influyen en la renovación?
- ¿Cuáles son los patrones de atrasos en pagos y canales de abastecimiento más comunes asociados con no renovaciones?
- ¿Cómo impactan los ingresos, edad y puntuación de suscripción en la propensión a renovar?
- ¿Qué variables deben eliminarse o transformarse para optimizar el modelo predictivo y el plan de incentivos?

[Regresar a la Tabla de Contenido](#id0)

<div id = "id3" >

### **1.2 Datos**

El conjunto de datos describe información de una compañía de seguros, incluyendo características demográficas, transaccionales, detalles de pagos atrasados, puntuación de suscripción, canal de abastecimiento, área de residencia, monto de prima y renovación. A continuación, se detallan las variables principales y la variable objetivo, con sus tipos de datos y descripciones corregidas y completadas según la información proporcionada.

**Identificadores**

- `id` → integer: Identificador único del cliente.

**Demográficas**

- `age_in_days` → integer: Edad del cliente en días.
- `Income` → integer: Ingresos mensuales del cliente.
- `residence_area_type` → string: Área de residencia del cliente. Valores: Urban, Rural.

**Transaccionales y Pagos**

- `perc_premium_paid_by_cash_credit` → float: Porcentaje del monto de la prima pagada en efectivo o con tarjeta de crédito.
- `Count_3-6_months_late` → integer: Número de primas atrasadas de 3 a 6 meses.
- `Count_6-12_months_late` → integer: Número de primas atrasadas de 6 a 12 meses.
- `Count_more_than_12_months_late` → integer: Número de primas atrasadas de más de 12 meses.
- `no_of_premiums_paid` → integer: Total de primas pagadas a tiempo hasta ahora.
- `premium` → integer: Monto de la prima del seguro mensual.

**Suscripción y Canal**

- `application_underwriting_score` → float: Puntuación de suscripción del solicitante en el momento de la solicitud.
- `sourcing_channel` → string: Canal de abastecimiento para la aplicación. Valores: A, B, C, D, E.

**Variable Objetivo**

- `renewal` → integer: Estado de renovación de la póliza. Valores:
    - 0: No Renovado.
    - 1: Renovado.

**Tipos de Datos**

- **Categóricos (string):** `sourcing_channel`, `residence_area_type`.
- **Numéricos (float):** `perc_premium_paid_by_cash_credit`, `application_underwriting_score`.
- **Numéricos (integer):** `id`, `age_in_days`, `Income`, `Count_3-6_months_late`, `Count_6-12_months_late`, `Count_more_than_12_months_late`, `no_of_premiums_paid`, `premium`, `renewal`.

[Regresar a la Tabla de Contenido](#id0)