# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-13 01:08:30--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-13 01:08:30--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K) [

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

In [2]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)


## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

In [3]:
clv_mean = df["Customer Lifetime Value"].mean()
clv_std = df["Customer Lifetime Value"].std()
print(f"El CLV promedio es {clv_mean} y la desviación estándar es {clv_std}")

El CLV promedio es 8004.940474987081 y la desviación estándar es 6870.967608356924


**¿Qué indica una alta desviación? **
rta:Una alta desviación estándar indica que existen diferencias significativas en el valor que los clientes aportan
**¿Podrían existir segmentos de clientes con comportamientos muy distintos?**
rta:Los clientes cuentan con comportamientos muy distintos, puesto que la deviación es significativa.

## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

In [None]:
df["Response"].value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


In [None]:
response_counts = df["Response"].value_counts()
(response_counts.get('Yes', 0) / response_counts.sum()) * 100

14.320122618786948

**¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?**
rta: si, la proporción de "yes" es bbaja puesto que solo es un 14% a comparación de las respuestas totales, por lo tanto se deben crear propuestas mas atractivas para el cliente o mejorar los canales de comunicación.


## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

In [None]:
df.groupby("Coverage")["Monthly Premium Auto"].mean()


Unnamed: 0_level_0,Monthly Premium Auto
Coverage,Unnamed: 1_level_1
Basic,82.173851
Extended,103.579504
Premium,133.381068


In [None]:
Monthly_Premium_Auto = df.groupby("Coverage")["Monthly Premium Auto"].mean()
max_coverage = premium_by_coverage.idxmax()
min_coverage = premium_by_coverage.idxmin()
diff = premium_by_coverage.max() - premium_by_coverage.min()

print(f"\nLa cobertura con la prima mensual promedio más alta es: {max_coverage} "
      f"(${premium_by_coverage[max_coverage]:.2f})")
print(f"La cobertura con la prima mensual promedio más baja es: {min_coverage} "
      f"(${premium_by_coverage[min_coverage]:.2f})")
print(f"Diferencia entre la cobertura más cara y la más barata: ${diff:.2f}")



La cobertura con la prima mensual promedio más alta es: Premium ($133.38)
La cobertura con la prima mensual promedio más baja es: Basic ($82.17)
Diferencia entre la cobertura más cara y la más barata: $51.21


**¿Existen diferencias notables entre las coberturas?**
si exsiten diferencias notables entre las coberturas puesto que existe una cobertura más economica como lo es la Basic y una cobertuta con un precio mayor la cual es la premium.
 **¿Qué implicaciones tendría esto en la estrategia de precios?**
 estas diferencias de coberturas pueden impicar una segmentaciòn de clientes puesto que algunos estan dispuestos a pagar más que otros por el prooducto.

## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

In [None]:
df.groupby("EmploymentStatus")["Income"].mean()


Unnamed: 0_level_0,Income
EmploymentStatus,Unnamed: 1_level_1
Disabled,20045.582716
Employed,56384.884521
Medical Leave,20292.770833
Retired,20554.960993
Unemployed,0.0


***¿Qué diferencias encuentras entre los grupos?***
se puede evidenciar que la mayor diferencia entre lo grupos se ve en el estado de empleo, puesto que dependiendo de ese se genera el ingreso quee reciben.

***¿Cómo podría influir esto en la segmentación de clientes?***
esto puede influir en la segmentaciòn de clientes en el ambito de estrategias de prescio, puesto que deppendiendiendo de su ingreso se pueden generar promociones o se pueden hacer ajustes para crear mayor competitividad.


## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

In [None]:
df.groupby("State")["Customer Lifetime Value"].mean()

Unnamed: 0_level_0,Customer Lifetime Value
State,Unnamed: 1_level_1
Arizona,7861.341489
California,8003.647758
Nevada,8056.706839
Oregon,8077.901191
Washington,8021.472273


***¿Qué estado muestra el mayor CLV?***
 rta: el estado de Oregon.
***¿Qué factores regionales podrían explicar esto?***
 rta:los factores que pueden influenciar este factor puede ser la economía local, comportamiento del consumidor y políticas estatales del lugar.

## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

In [None]:
df[df["Number of Policies"] == 1]



Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize
16,FV94802,Nevada,2566.867823,No,Basic,High School or Below,2/6/11,Medical Leave,M,25049,Suburban,Married,67,14,7,0,1,Personal Auto,Personal L3,Offer2,Call Center,454.245098,Two-Door Car,Medsize
17,OE15005,California,3945.241604,No,Basic,College,1/5/11,Medical Leave,M,28855,Suburban,Married,101,12,59,0,1,Personal Auto,Personal L2,Offer3,Call Center,647.442031,SUV,Medsize
20,ZK25313,Oregon,2872.051273,No,Basic,High School or Below,2/19/11,Employed,M,57749,Suburban,Single,74,31,21,0,1,Personal Auto,Personal L2,Offer1,Branch,355.200000,Two-Door Car,Medsize
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9120,RN61682,California,2114.738469,No,Basic,Bachelor,2/19/11,Unemployed,F,0,Suburban,Single,72,30,69,5,1,Personal Auto,Personal L2,Offer3,Web,518.400000,Four-Door Car,Medsize
9121,BB10681,California,4140.648654,No,Extended,College,1/17/11,Unemployed,F,0,Suburban,Divorced,123,5,35,2,1,Corporate Auto,Corporate L3,Offer1,Branch,590.400000,SUV,Medsize
9128,YM19146,California,4100.398533,No,Premium,College,1/6/11,Employed,F,47761,Suburban,Single,104,16,58,0,1,Personal Auto,Personal L2,Offer1,Branch,541.282007,Four-Door Car,Large
9130,PK87824,California,3096.511217,Yes,Extended,College,2/12/11,Employed,F,21604,Suburban,Divorced,79,14,28,0,1,Corporate Auto,Corporate L3,Offer1,Branch,379.200000,Four-Door Car,Medsize


In [None]:
df[df["Number of Policies"] > 1]

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.431650,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
5,OC83172,Oregon,8256.297800,Yes,Basic,Bachelor,1/25/11,Employed,F,62902,Rural,Married,69,14,94,0,2,Personal Auto,Personal L3,Offer2,Web,159.383042,Two-Door Car,Medsize
6,XZ87318,Oregon,5380.898636,Yes,Basic,College,2/24/11,Employed,F,55350,Suburban,Married,67,0,13,0,9,Corporate Auto,Corporate L3,Offer1,Agent,321.600000,Four-Door Car,Medsize
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9126,AC13887,California,4628.995325,No,Basic,Bachelor,1/9/11,Unemployed,M,0,Suburban,Single,67,25,21,0,4,Corporate Auto,Corporate L1,Offer1,Branch,482.400000,Two-Door Car,Medsize
9127,TF56202,California,5032.165498,No,Basic,College,2/12/11,Employed,M,66367,Suburban,Divorced,64,6,48,0,3,Personal Auto,Personal L3,Offer2,Call Center,307.200000,Two-Door Car,Small
9129,LA72316,California,23405.987980,No,Basic,Bachelor,2/10/11,Employed,M,71941,Urban,Married,73,18,89,0,2,Personal Auto,Personal L1,Offer2,Web,198.234764,Four-Door Car,Medsize
9131,TD14365,California,8163.890428,No,Extended,Bachelor,2/6/11,Unemployed,M,0,Suburban,Single,85,9,37,3,2,Corporate Auto,Corporate L2,Offer1,Branch,790.784983,Four-Door Car,Medsize


In [None]:
df[df["Number of Policies"] > 1]["Total Claim Amount"].mean()

430.6682882804692

In [None]:
difference = multiple_policies - single_policy
print(f"La diferencia entre las dos poblaciones es: {difference}")

La diferencia entre las dos poblaciones es: -9.610243648168193


***¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?***
La mayor diferencia que se ve es que los clientes con solo una poliza cuuentan con un pprecio mayor al que tienen más de una poliza, los distintos precios pueden implicar variaciones en las estrategias de suscripción y precios.

## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

In [None]:
df.groupby("Vehicle Class")["Customer Lifetime Value"].mean()

Unnamed: 0_level_0,Customer Lifetime Value
Vehicle Class,Unnamed: 1_level_1
Four-Door Car,6631.726607
Luxury Car,17053.348399
Luxury SUV,17122.999134
SUV,10443.511816
Sports Car,10750.989331
Two-Door Car,6671.030732


 **¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?**
 El vehiculo que más se asocia a un mayor CLV es el luuxury SUV, esto podria tener implicaciones en la publicidad haciendo que se enfoque en segmentos más renables


## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

In [None]:
 df.groupby("Education")["Months Since Last Claim"].mean()

Unnamed: 0_level_0,Months Since Last Claim
Education,Unnamed: 1_level_1
Bachelor,14.834789
College,15.432301
Doctor,15.260234
High School or Below,14.978642
Master,15.19973


rta: no se evidencian diferencias notables entre los niveles educativos, esto puede indicar sobre la gestion de reclamos que existe un comportacmiento hoomogeneo en cuanto a los tiempo de educaciòn, además se puede hacer una estrategia aun más eficiente basandose en la anterior puesto que la diferencia no es grande.

## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

In [None]:
df.groupby(["Marital Status", "Gender"])["Income"].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Marital Status,Gender,Unnamed: 2_level_1
Divorced,F,37913.70945
Divorced,M,43681.934848
Married,F,44276.994962
Married,M,43304.110361
Single,F,23573.75812
Single,M,22005.776407


Rta: las diferencias más notables son que las personas casadas tienen los ingresos más altos a compraciòn con las otras dos categorias, mientras que las parejas divorciadas tienen ingresos medios y las personas solteras son las personas con menos ingresos en comparaciòn de las distintas categorias.
Estas diferencias pueden influir en estrategias como lo seria ofertas enfocadas al estado civil, o campañas enfocadas al genero e ingreso de la persona haciendo que la oferta se vuelva màs atractiva.

## Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

In [None]:
df["Response"].value_counts(normalize=True) * 100

Unnamed: 0_level_0,proportion
Response,Unnamed: 1_level_1
No,85.679877
Yes,14.320123


Rta: si se debe ajustar la estrategia de comunicación puesto que solo el 14% respondieron que si lo cual indica que la tasa positiva es baja, lo cua pude indicar el bajo interes o satisfacciòn del consumidor.

## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

In [None]:
df.groupby("Coverage")["Number of Open Complaints"].mean()

Unnamed: 0_level_0,Number of Open Complaints
Coverage,Unnamed: 1_level_1
Basic,0.384698
Extended,0.398979
Premium,0.333738


rta: si la cobertura extended tiene una mayor cantidad de quejas, lo que puede indicar que estos esten menos satisfechos con el producto. las acciones a seguir es primero analzar el por que es la categoria con más quejas, en segundo lugar se debe mejorar la comunicación con el cliente y se debe optimizar los proesos de atenición.

## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

In [None]:
df.groupby("EmploymentStatus")["Months Since Policy Inception"].mean()

Unnamed: 0_level_0,Months Since Policy Inception
EmploymentStatus,Unnamed: 1_level_1
Disabled,47.469136
Employed,47.800456
Medical Leave,48.141204
Retired,48.531915
Unemployed,48.747087


rta: si se puede evidenciar una relación emtre el estado labroral y la antiguedad de polizas puesto que las personas desempleadas, jubiladas y en licencia medica tieenen a tener polizas màs antiguas.

en la estabilidad del cliente esto puede implicar que los clientes con menos cambios en su vida laboral son aquellos que tienden a tener polizas màs estables , mientras que los clientes con una vida laboral màs activa pueden requerir incentivos para seguir en la aseguradora.


## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

In [None]:
df.groupby("Policy Type")["Total Claim Amount"].mean()

Unnamed: 0_level_0,Total Claim Amount
Policy Type,Unnamed: 1_level_1
Corporate Auto,430.312188
Personal Auto,434.828219
Special Auto,440.47277


rta: las ddiferencias que se observan en los tipos de polizas son que el Total Claim Amount promedio es más alto en Special Auto $440.47, seguido de  Personal Auto $434.83 y finalmente corporate Auto $430.31.


esto puede implcar que eiste un mayor riesgo de polizas en special auto o que existe una diferencia en la eficiencia de estrategia operativa.

## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

In [None]:
marketing_budget = 5000000

In [None]:
clv_promedio = df["Customer Lifetime Value"].mean()
print(f"Customer Lifetime Value (CLV) promedio: ${clv_promedio:.2f}")

Customer Lifetime Value (CLV) promedio: $8004.94


In [None]:
total_customers = df.shape[0]
print(f"Costo de Adquisición de Clientes (CAC) promedio: ${cac_promedio:.2f}")

Costo de Adquisición de Clientes (CAC) promedio: $547.41


In [None]:
cac_promedio = marketing_budget / total_customers
print(f"El CAC representa el {porcentaje_cac_sobre_clv:.2f}% del CLV.")

El CAC representa el 6.84% del CLV.


In [None]:
rentabilidad = clv_promedio > cac_promedio
porcentaje_cac_sobre_clv = (cac_promedio / clv_promedio) * 100
if rentabilidad:
    print("✅ La inversión en marketing es rentable, ya que el CAC es menor que el CLV.")
else:
    print("❌ La inversión en marketing NO es rentable, ya que el CAC es mayor que el CLV. Se debe replantear la estrategia.")

✅ La inversión en marketing es rentable, ya que el CAC es menor que el CLV.


### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

In [None]:
clientes_rentables = df[df["Customer Lifetime Value"] > cac_promedio].shape[0]
proporcion_rentables = (clientes_rentables / total_customers) * 100
print(f"Número de clientes rentables: {clientes_rentables}")
print(f"Proporción de clientes rentables: {proporcion_rentables:.2f}%")

Número de clientes rentables: 9134
Proporción de clientes rentables: 100.00%


## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.
