# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [None]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-12 23:19:39--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-12 23:19:40--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K)

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

In [None]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)


In [None]:
df.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

In [None]:
df ["Customer Lifetime Value"].mean()

8004.940474987081

In [None]:
df ["Customer Lifetime Value"].describe()

Unnamed: 0,Customer Lifetime Value
count,9134.0
mean,8004.940475
std,6870.967608
min,1898.007675
25%,3994.251794
50%,5780.182197
75%,8962.167041
max,83325.38119


In [None]:
df ["Customer Lifetime Value"].std()


6870.967608356924

 una alta desviación indica que los datos están dispersos en un rango de valores más grandes, es decir, existen clientes muy diferentes, por lo que se necesita segmentar. Asimismo, si pueden existir segmentos de clientes con comportamientos distintos ya que no hay una segmentación clara de la información de estos clientes.

## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

In [None]:
df.Response.value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


In [None]:
df.shape

(9134, 24)

In [None]:
df["Response"].value_counts()/len(df) * 100

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,85.679877
Yes,14.320123


Si, la proporción de yes es baja, ya que solo respondieron positivamente 14.320123 personas. Por otro lado. esto podría indicar que la estrategia de respuesta del usuario está siendo mal ejecutada y no tendrá el resultado deseado por parte del público objetivo.


## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

In [None]:
df.groupby("Coverage")["Monthly Premium Auto"].mean()

Unnamed: 0_level_0,Monthly Premium Auto
Coverage,Unnamed: 1_level_1
Basic,82.173851
Extended,103.579504
Premium,133.381068


In [None]:
df.groupby("Coverage")["Monthly Premium Auto"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Coverage,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Basic,5568.0,82.173851,27.364519,61.0,65.0,70.0,102.0,199.0
Extended,2742.0,103.579504,31.689253,76.0,84.0,92.0,123.0,249.0
Premium,824.0,133.381068,43.936499,101.0,107.0,114.0,152.0,298.0


 Si existen diferencias notables entre las coberturas ya que son diferentes tipos de seguros. Las impliciones que tendria esto en la estrategia de precios es que varían de acuerdo a la capacidad adquisitiva de los clientes, si quieren proteger su auto van a mirar que items se están ofreciendo en los 3 tipos de seguros; por lo que el seguro premium al tener más items que llamen la atención del usuario y brinde mayor cobertura, hace que el dueño gaste más dinero para tener bien asegurado el vehículo.



## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

In [None]:
df.groupby("EmploymentStatus")["Income"].mean()

Unnamed: 0_level_0,Income
EmploymentStatus,Unnamed: 1_level_1
Disabled,20045.582716
Employed,56384.884521
Medical Leave,20292.770833
Retired,20554.960993
Unemployed,0.0


In [None]:
df.groupby("EmploymentStatus")["Income"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
EmploymentStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Disabled,405.0,20045.582716,5350.680175,10097.0,16061.0,20178.0,24392.0,29981.0
Employed,5698.0,56384.884521,22066.049694,20009.0,37230.0,55593.0,74015.0,99981.0
Medical Leave,432.0,20292.770833,5454.673575,10037.0,16095.25,20480.5,24598.25,29957.0
Retired,282.0,20554.960993,5476.359449,10180.0,15634.5,21073.0,25147.0,29692.0
Unemployed,2317.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


 Las diferencias entre los grupos es que algunas personas si están aptas para poder trabajar, otras ya están trabajando y otras están desempleadas. Asimismo algunos están retirados y otros tiene problemas médicos que no les permite  trabajar.
 Esto podría influir en la segmentación de los clientes debido a los ingresos que estos tengan. Si están trabajando tienen mayor poder adquisitivo y como empresa podrían ofrecerles el seguro más caro, sin embargo, si el cliente esta desempleado, la empresa gracias a la segmentación debería ofrecerle el seguro más económico.

## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

In [None]:
df.groupby("State")["Customer Lifetime Value"].mean()

Unnamed: 0_level_0,Customer Lifetime Value
State,Unnamed: 1_level_1
Arizona,7861.341489
California,8003.647758
Nevada,8056.706839
Oregon,8077.901191
Washington,8021.472273


El estado que muestra mayor CLV es oregon.
Los factores regionales que podrían explicar esto podrían ser ingreso por capital, si viven en una ciudad más grande pueden tener más oportunidades, por ende, más ingresos, también los factores culturales de cada estado, el número de personas que viven en cada estado, la seguridad de este lugar o el clima existente también podria ser un factor regional.

## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

In [None]:
df[df["Number of Policies"] == 1] ['Total Claim Amount'].mean()

440.2785319286374

In [None]:
df[df["Number of Policies"] > 1] ['Total Claim Amount'].mean()

430.6682882804692

In [None]:
df.groupby("Number of Policies")["Total Claim Amount"].mean()

Unnamed: 0_level_0,Total Claim Amount
Number of Policies,Unnamed: 1_level_1
1,440.278532
2,433.610653
3,415.969821
4,428.791219
5,428.755107
6,410.962617
7,468.401546
8,445.049999
9,424.499642


Las diferencias que encuentro son que las personas adquirieron más de una poliza, siendo 7 el mayor número de seguros adquiridos, esto podría indicar que el riesgo y comportamiento de reclamaciones varia de acuerdo a los factores de cada estado o el riesgo al que están expuestos. Al tener varias polizas, están menos propensar a sufrir un riesgo, mientras que las personas que solo tienen una corren más riesgo.


## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

In [None]:
df.groupby("Vehicle Class")["Customer Lifetime Value"].mean()

Unnamed: 0_level_0,Customer Lifetime Value
Vehicle Class,Unnamed: 1_level_1
Four-Door Car,6631.726607
Luxury Car,17053.348399
Luxury SUV,17122.999134
SUV,10443.511816
Sports Car,10750.989331
Two-Door Car,6671.030732


La clase de vehículo que se asocia a un mayor CLV es Luxury SUV	17122.999134 y las implicaciones que podría tener esto en la estrategia de producto es que las personas al tener un carro más caro, comprarían la poliza más costosa ya que quiere proteger de forma completa el vehículo. También podría incrementar el valor de las polizas y los autos de lujo a través del tiempo.


## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

In [None]:
df.groupby("Education")["Months Since Last Claim"].mean()

Unnamed: 0_level_0,Months Since Last Claim
Education,Unnamed: 1_level_1
Bachelor,14.834789
College,15.432301
Doctor,15.260234
High School or Below,14.978642
Master,15.19973


 No ya que no tiene una variación muy grande, esto podria indicar que el nivel educativo no importa, ni se realizan más reclamaciones.

## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

In [None]:
df.groupby(["Marital Status", "Gender"])["Income"].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Marital Status,Gender,Unnamed: 2_level_1
Divorced,F,37913.70945
Divorced,M,43681.934848
Married,F,44276.994962
Married,M,43304.110361
Single,F,23573.75812
Single,M,22005.776407


Se puede inferir que las personas casadas a pesar del sexo de cada uno tiene más ingresos mientras que los solteros tienen menos ingresos. Esto podría influir en la estragía de segmentación de clientes, en que la estrategia deberia estar enfocada en las personas casadas y divorciadas y no tanto en los solteros.

## Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

In [None]:
df.value_counts("Response")

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


 Si porque se esperaba que la estrategia de comunicación tuviera una mayor aceptación o recepción por parte del público objetivo.  

## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

In [None]:
df.groupby("Coverage")["Number of Open Complaints"].mean()

Unnamed: 0_level_0,Number of Open Complaints
Coverage,Unnamed: 1_level_1
Basic,0.384698
Extended,0.398979
Premium,0.333738


 Aunque Extendend es la que recibe más quejasn no existen quejas significativamentes mayores. Las acciones que se podrían tomar es continuar con la misma estrategia ya que no hay un volumen grande de quejas o también enfocarse en conocer que queja se repite más y generar una solución acorde a eso.

## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

In [None]:
df.groupby("EmploymentStatus")["Months Since Policy Inception"].mean()

Unnamed: 0_level_0,Months Since Policy Inception
EmploymentStatus,Unnamed: 1_level_1
Disabled,47.469136
Employed,47.800456
Medical Leave,48.141204
Retired,48.531915
Unemployed,48.747087


No existe alguna relación entre el estado laboral y la antigüedad de las pólizas, en la estabilidad del cliente no implicaría algún cambio significativo ya que este se ve afectado por factores externos.

## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

In [None]:
df.groupby("Policy Type")["Total Claim Amount"].mean()

Unnamed: 0_level_0,Total Claim Amount
Policy Type,Unnamed: 1_level_1
Corporate Auto,430.312188
Personal Auto,434.828219
Special Auto,440.47277


No hay  diferencia entre los tipos de póliza y las implicaciones en términos de riesgo y eficiencia operativa no varían mucho en terminos económicos ni de distribución.



## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

In [96]:
CLVpromedio = df['Customer Lifetime Value'].mean()
PMK = 5000000
Nclientes = len(df)

In [97]:
CACpromedio = PMK / Nclientes

In [91]:
print("CAC promedio: $",CACprom)
print("CLV promedio: $",CLVprom)

CAC promedio: $ 547.4052988832932
CLV promedio: $ 8004.940474987081


In [92]:
PorcentajeCAC_clv = (CACpromedio / CLVpromedio) * 100
print(f"El CAC representa el {PorcentajeCAC_clv:.2f}% del CLV.")

El CAC representa el 6.84% del CLV.


### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

In [86]:
df['CLVN'] = df['Customer Lifetime Value']
C4 = df[df['CLVN'] > 548]

print(C4)


     Customer       State  Customer Lifetime Value Response  Coverage  \
0     BU79786  Washington              2763.519279       No     Basic   
1     QZ44356     Arizona              6979.535903       No  Extended   
2     AI49188      Nevada             12887.431650       No   Premium   
3     WW63253  California              7645.861827       No     Basic   
4     HB64268  Washington              2813.692575       No     Basic   
...       ...         ...                      ...      ...       ...   
9129  LA72316  California             23405.987980       No     Basic   
9130  PK87824  California              3096.511217      Yes  Extended   
9131  TD14365  California              8163.890428       No  Extended   
9132  UP19263  California              7524.442436       No  Extended   
9133  Y167826  California              2611.836866       No  Extended   

     Education Effective To Date EmploymentStatus Gender  Income  \
0     Bachelor           2/24/11         Employed      

In [87]:
C4.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size,CLVN
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize,2763.519279
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize,6979.535903
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize,12887.43165
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize,7645.861827
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize,2813.692575


In [88]:
C4.shape

(9134, 25)

## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.


1. Hacer una buena segmentación de los clientes para conocer a profundidad el público objetivo y generar mejores estrategias de comunicación.
2. Generaria una campaña de email-marketing para los clientes que adquieren más de 1 poliza, los que están empleados y los que están casados para generar más ingresos.
3. Para aumentar los clientes se podrían generar seguros con periodos más cortos de protección y con valores más económicos para que lleguen más clientes y más personas puedan adquirirlas.