# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-12 23:18:09--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-12 23:18:09--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K) [

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

In [37]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)


In [4]:
df.describe()

Unnamed: 0,Customer Lifetime Value,Income,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Total Claim Amount
count,9134.0,9134.0,9134.0,9134.0,9134.0,9134.0,9134.0,9134.0
mean,8004.940475,37657.380009,93.219291,15.097,48.064594,0.384388,2.96617,434.088794
std,6870.967608,30379.904734,34.407967,10.073257,27.905991,0.910384,2.390182,290.500092
min,1898.007675,0.0,61.0,0.0,0.0,0.0,1.0,0.099007
25%,3994.251794,0.0,68.0,6.0,24.0,0.0,1.0,272.258244
50%,5780.182197,33889.5,83.0,14.0,48.0,0.0,2.0,383.945434
75%,8962.167041,62320.0,109.0,23.0,71.0,0.0,4.0,547.514839
max,83325.38119,99981.0,298.0,35.0,99.0,5.0,9.0,2893.239678


In [3]:
df.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

In [7]:
df['Customer Lifetime Value'].mean()


8004.940474987081

In [8]:
df['Customer Lifetime Value'].std()

6870.967608356924

RESPUESTA: Una desviación estándar alta en el CLV significa que todos los valores son muy diferentes, lo que quiere decir que los grupos de clientes tienen comportamientos distintos. Algunos con un valor alto y otro muy bajo. Por ende, significa la necesidad de segmentar estrategias para optimizar la rentabilidad


## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

In [10]:
df['Response'].value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


In [13]:
df['Response'].value_counts()
(response_counts.get('Yes', 0) / response_counts.sum()) * 100

14.320122618786948

La proporción de yes es baja, menos de la mitad de clientes respondieron positivamente a la inciativa de la empresa. Por lo tanto la estrategia actual no se considera lo suficientemente efectiva

## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

In [15]:
df.groupby('Coverage')['Monthly Premium Auto'].mean()


Unnamed: 0_level_0,Monthly Premium Auto
Coverage,Unnamed: 1_level_1
Basic,82.173851
Extended,103.579504
Premium,133.381068


RESPUESTA: Existe una diferencia entre la cobertura básica, es menor, entre mayor sube el numero de rango mejor es la variable Monthly Premium Auto

## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

In [16]:
df.groupby('EmploymentStatus')['Income'].mean()

Unnamed: 0_level_0,Income
EmploymentStatus,Unnamed: 1_level_1
Disabled,20045.582716
Employed,56384.884521
Medical Leave,20292.770833
Retired,20554.960993
Unemployed,0.0


RESPUESTA: Algunos grupos, como 'Employed', pueden tener un ingreso promedio más alto, mientras que otros, como 'Retired', podrían tener un ingreso promedio más bajo.
Los clientes que están empleados y tienen mayores ingresos probablemente estarán más interesados en seguros que ofrezcan coberturas completas y primas más altas.

La empresa puede personalizar su oferta de productos y servicios según el 'EmploymentStatus' del cliente.



## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

In [18]:
df.groupby('State')['Customer Lifetime Value'].mean()

Unnamed: 0_level_0,Customer Lifetime Value
State,Unnamed: 1_level_1
Arizona,7861.341489
California,8003.647758
Nevada,8056.706839
Oregon,8077.901191
Washington,8021.472273


El estado es Oregon

Los factores pueden varior desde culturales por la actitud que tienn hacia los seguro, las regulaciones que puedan haber, Oregon podría tener una tasa de retención de clientes más alta en comparación con otros estados. Las tasas de accidentes y reclamaciones en Oregon podrían ser más bajas en comparación con otros estados

## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

In [57]:
df2 = df[df['Number of Policies']==1]

In [58]:
df2['Total Claim Amount'].mean()

440.2785319286374

In [59]:
df1 = df[df['Number of Policies']>1]

In [60]:
df1['Total Claim Amount'].mean()

430.6682882804692

RESPUESTA: Al tener más pólizas, los clientes con múltiples productos asegurados tienen una mayor probabilidad de experimentar eventos que den lugar a reclamaciones.

## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

In [27]:
df.groupby('Vehicle Class')['Customer Lifetime Value'].mean()

Unnamed: 0_level_0,Customer Lifetime Value
Vehicle Class,Unnamed: 1_level_1
Four-Door Car,6631.726607
Luxury Car,17053.348399
Luxury SUV,17122.999134
SUV,10443.511816
Sports Car,10750.989331
Two-Door Car,6671.030732


RESPUESTA: Los vehículos de clase Luxury SUV y Luxury Car son los que se asocian a un mayor CLV.
La empresa debería considerar enfocar sus esfuerzos de marketing y ventas en vehículos de lujo para maximizar el CLV.

## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

In [55]:
df.groupby('Education')['Months Since Last Claim'].mean()


Unnamed: 0_level_0,Months Since Last Claim
Education,Unnamed: 1_level_1
Bachelor,14.834789
College,15.432301
Doctor,15.260234
High School or Below,14.978642
Master,15.19973


RESPUESTA:
Se observa que a mayor nivel educativo, menor frecuencia de reclamos. Esto podría indicar una mayor conciencia del riesgo, mejor gestión financiera o mayor tolerancia al riesgo en clientes con estudios superiores. Estos insights son valiosos para segmentar clientes y adaptar la gestión de reclamos.

## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

In [56]:
df.groupby(['Marital Status', 'Gender'])['Income'].mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Marital Status,Gender,Unnamed: 2_level_1
Divorced,F,37913.70945
Divorced,M,43681.934848
Married,F,44276.994962
Married,M,43304.110361
Single,F,23573.75812
Single,M,22005.776407


RESPUESTA: Se observa que los hombres casados tienen el mayor ingreso promedio, seguidos por las mujeres solteras, mientras que los hombres solteros y las mujeres casadas tienen ingresos promedio menores. Esta información podría influir en la segmentación de clientes al dirigir productos de mayor valor a hombres casados, ofrecer planes de inversión a mujeres solteras, y diseñar estrategias específicas para hombres y mujeres solteros con necesidades financieras diferenciadas.


## Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

In [64]:
df['Response'].value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


RESPUESTA: "Yes" es baja, es recomendable ajustar la estrategia para mejorar los resultados.

## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

In [65]:
df.groupby('Coverage')['Number of Open Complaints'].mean()

Unnamed: 0_level_0,Number of Open Complaints
Coverage,Unnamed: 1_level_1
Basic,0.384698
Extended,0.398979
Premium,0.333738


RESPUESTA Es mayor el número de quejas en Basic y extended, en premium los clientes están más satisfechos.

## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

In [66]:
df.groupby('EmploymentStatus')['Months Since Policy Inception'].mean()

Unnamed: 0_level_0,Months Since Policy Inception
EmploymentStatus,Unnamed: 1_level_1
Disabled,47.469136
Employed,47.800456
Medical Leave,48.141204
Retired,48.531915
Unemployed,48.747087


RESPUESTA: el estado laboral no es un factor determinante en la estabilidad del cliente, ya que están similares

## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

In [67]:
df.groupby('Policy Type')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Policy Type,Unnamed: 1_level_1
Corporate Auto,430.312188
Personal Auto,434.828219
Special Auto,440.47277


RESPUESTA: Se observa que las pólizas de tipo "Personal Auto" y "Corporate Auto" presentan los mayores montos promedio de reclamaciones, lo que podría indicar un mayor riesgo asociado a este tipo de pólizas

## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

In [70]:
presupuesto_marketing = 5000000
numero_total_clientes = len(df)
cac_promedio = presupuesto_marketing / numero_total_clientes

print(f"CAC promedio: ${cac_promedio:.2f}")

clv_promedio = df['Customer Lifetime Value'].mean()

print(f"CLV promedio: ${clv_promedio:.2f}")

if cac_promedio < clv_promedio:
    print("El CAC es inferior al CLV, lo que justificaría la inversión.")
else:
    print("El CAC es superior o igual al CLV, se debe replantear la estrategia de adquisición.")

porcentaje_cac_clv = (cac_promedio / clv_promedio) * 100
print(f"El CAC representa el {porcentaje_cac_clv:.2f}% del CLV.")


CAC promedio: $547.41
CLV promedio: $8004.94
El CAC es inferior al CLV, lo que justificaría la inversión.
El CAC representa el 6.84% del CLV.


RESPUESTA

CAC promedio: $547.41
CLV promedio: $8004.94
El CAC es inferior al CLV, lo que justificaría la inversión.
El CAC representa el 6.84% del CLV.

### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

In [73]:
response_counts = df['Response'].value_counts()
yes_responses = response_counts.get('Yes', 0)

total_customers = len(df)

proportion_profitable = yes_responses / total_customers

print(f"La proporción de clientes rentables es: {proportion_profitable:.2%}")


La proporción de clientes rentables es: 14.32%


## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.


Para mejorar los resultados, la empresa puede enfocarse en atraer clientes que realmente valgan la pena, es decir, aquellos que generen más ingresos a largo plazo. También es clave cuidar a los clientes actuales con programas de fidelidad o beneficios que los hagan quedarse más tiempo. Por último, es importante hacer que la publicidad sea más eficiente, usando mejor los datos y la tecnología para gastar menos y conseguir más clientes de calidad.