# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-12 23:47:46--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-12 23:47:46--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K) [

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

In [2]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)


In [3]:
df.shape

(9134, 24)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9134 entries, 0 to 9133
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Customer                       9134 non-null   object 
 1   State                          9134 non-null   object 
 2   Customer Lifetime Value        9134 non-null   float64
 3   Response                       9134 non-null   object 
 4   Coverage                       9134 non-null   object 
 5   Education                      9134 non-null   object 
 6   Effective To Date              9134 non-null   object 
 7   EmploymentStatus               9134 non-null   object 
 8   Gender                         9134 non-null   object 
 9   Income                         9134 non-null   int64  
 10  Location Code                  9134 non-null   object 
 11  Marital Status                 9134 non-null   object 
 12  Monthly Premium Auto           9134 non-null   i

In [5]:
df.isnull().sum()

Unnamed: 0,0
Customer,0
State,0
Customer Lifetime Value,0
Response,0
Coverage,0
Education,0
Effective To Date,0
EmploymentStatus,0
Gender,0
Income,0


In [6]:
df.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

RTA 1: El promedio de CLV es 8004.94 y su desviacion estàndar es 6870.96.

RTA 2: Una alta desviaciòn en la variable CLV indica comportamientos muy distintos en los clientes del negocio lo que identifica la necesidad de construir estrategias diferentes para cada segemento.

In [7]:
df['Customer Lifetime Value'].mean()

8004.940474987081

In [8]:
df['Customer Lifetime Value'].std()

6870.967608356924

## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

RTA: La proporciòn de clientes que responde si, es baja del 14.32 %, la estrategia de marketing no esta funcionando de la mejor manera.

In [9]:
Response_yes = df['Response'].value_counts()['Yes']
percentage_yes = (Response_yes / df.shape[0]) * 100

In [10]:
print(percentage_yes)

14.320122618786948


## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

RTA: Hay diferencia notable en el promedio de monthly premiun auto, la cobertura basica es muy baja en comparaciòn a la premium, en coberturas mas bajas promover mejores precios puede mejorar los resultados.

In [11]:
df.groupby('Coverage')['Monthly Premium Auto'].mean()

Unnamed: 0_level_0,Monthly Premium Auto
Coverage,Unnamed: 1_level_1
Basic,82.173851
Extended,103.579504
Premium,133.381068


## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

RTA: Clientes con un estatus de empleado tienen mejores ingresos y se piueden cobertur en el objetivo, a clientes que se encuentra retirados, en licencia medica o que presentan alguna discapacidad pueden constituir otro segemento de clientes con ingresos medios, clientes sin empleo no tienen ingresos y se pueden omitir en el proceso de definir una estrategia de marketing.

In [12]:
df.groupby('EmploymentStatus')['Income'].mean()

Unnamed: 0_level_0,Income
EmploymentStatus,Unnamed: 1_level_1
Disabled,20045.582716
Employed,56384.884521
Medical Leave,20292.770833
Retired,20554.960993
Unemployed,0.0


## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

RTA: Clientes ubicados en los stados de Nevada, Oregon y Washington tiene un mejor CLV, tasas de accidentes puede ser mayores en diferentes Estados, diferentes culturas tambien pueden tener efecto.

In [15]:
df.groupby('State')['Customer Lifetime Value'].mean()

Unnamed: 0_level_0,Customer Lifetime Value
State,Unnamed: 1_level_1
Arizona,7861.341489
California,8003.647758
Nevada,8056.706839
Oregon,8077.901191
Washington,8021.472273


## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

RTA: Las reclamaciòn promedio son mayores en clientes con una sola poliza.

In [24]:
df.groupby('Number of Policies')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Number of Policies,Unnamed: 1_level_1
1,440.278532
2,433.610653
3,415.969821
4,428.791219
5,428.755107
6,410.962617
7,468.401546
8,445.049999
9,424.499642


In [26]:
df1 = df[df['Number of Policies']>1]

In [27]:
df1.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
5,OC83172,Oregon,8256.2978,Yes,Basic,Bachelor,1/25/11,Employed,F,62902,Rural,Married,69,14,94,0,2,Personal Auto,Personal L3,Offer2,Web,159.383042,Two-Door Car,Medsize
6,XZ87318,Oregon,5380.898636,Yes,Basic,College,2/24/11,Employed,F,55350,Suburban,Married,67,0,13,0,9,Corporate Auto,Corporate L3,Offer1,Agent,321.6,Four-Door Car,Medsize


In [28]:
df1['Total Claim Amount'].mean()

430.6682882804692

In [29]:
df2 = df[df['Number of Policies']==1]

In [30]:
df2.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize
16,FV94802,Nevada,2566.867823,No,Basic,High School or Below,2/6/11,Medical Leave,M,25049,Suburban,Married,67,14,7,0,1,Personal Auto,Personal L3,Offer2,Call Center,454.245098,Two-Door Car,Medsize
17,OE15005,California,3945.241604,No,Basic,College,1/5/11,Medical Leave,M,28855,Suburban,Married,101,12,59,0,1,Personal Auto,Personal L2,Offer3,Call Center,647.442031,SUV,Medsize
20,ZK25313,Oregon,2872.051273,No,Basic,High School or Below,2/19/11,Employed,M,57749,Suburban,Single,74,31,21,0,1,Personal Auto,Personal L2,Offer1,Branch,355.2,Two-Door Car,Medsize


In [31]:
df2['Total Claim Amount'].mean()

440.2785319286374

## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

RTA: Vehiculos de lujo tienen un mayor CLV, se convierten en clientes importantes en un estrategia de producto fortaleciendo ese segmento de lujo y atrayendo clientes parta ese segemento que tiene un mayor CLV.

In [32]:
df.groupby('Vehicle Class')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Vehicle Class,Unnamed: 1_level_1
Four-Door Car,351.760366
Luxury Car,1130.288964
Luxury SUV,1092.525076
SUV,569.572999
Sports Car,558.148
Two-Door Car,350.542917


## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

RTA: Clientes con mayor nivel de educaciòn tiene en promedio mayor nùmero meses desde del ùltimo reclamo, aunque las diferecnias no son mayores a un mes.

In [34]:
df.groupby('Education ')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Months Since Last Claim
Education,Unnamed: 1_level_1
Bachelor,14.834789
College,15.432301
Doctor,15.260234
High School or Below,14.978642
Master,15.19973


## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

RTA: el genero femenimo tiene un mayor promedio de ingresos cuando se encuentran en matrimonio o solteras, clientes que se encuentran en matrimonio tienen mayores ingresos, los clientes con grupos familiares son un segmento màs atractivo por su nivel de ingresos, dirigir la estrategia de marketing a esos grupos puede tener mejores resultados que en solteros.

In [35]:
df.groupby(['Marital Status','Gender'])['Income'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Marital Status,Gender,Unnamed: 2_level_1
Divorced,F,37913.70945
Divorced,M,43681.934848
Married,F,44276.994962
Married,M,43304.110361
Single,F,23573.75812
Single,M,22005.776407


## Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

RTA: Si, los resultados muestran que las respuestas son mayormente negativas por tal motivo es necesario modificar la estrategia de marketing para lograr tener una mejor respuesta de los clientes.

In [36]:
df['Response'].value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

RTA: Hay un menor nùmero de quejas en en las coverturas premium lo que significa que los cleintes se ecuntran mas satisfechos que en las coberturas extendida y basica.

In [38]:
df.groupby(['Coverage'])['Number of Open Complaints'].mean()

Unnamed: 0_level_0,Number of Open Complaints
Coverage,Unnamed: 1_level_1
Basic,0.384698
Extended,0.398979
Premium,0.333738


## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

RTA: Estados laborales màs inestables tiene una antiguedad mayor en las poliza.

In [39]:
df.groupby(['EmploymentStatus'])['Months Since Policy Inception'].mean()

Unnamed: 0_level_0,Months Since Policy Inception
EmploymentStatus,Unnamed: 1_level_1
Disabled,47.469136
Employed,47.800456
Medical Leave,48.141204
Retired,48.531915
Unemployed,48.747087


## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

RTA: Las polizas Special Auto tienen un numero mayor de reclamos lo que representa un mayor riesgo en este segmento, por otro lado autos personales y corporativos tienen un menor numero de reclamos son segmento con menos riesgo.

In [41]:
df.groupby(['Policy Type'])['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Policy Type,Unnamed: 1_level_1
Corporate Auto,430.312188
Personal Auto,434.828219
Special Auto,440.47277


## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

RTA: La inversiòn necesaria para conseguir cada cliente promedio es 547.40 es menor al life time value promedio signifca que la inversiòn en marketing da resultados y que la ganancia esperada de cada cliente (8004.94) supera el costo de adquirirlo o la inversiòn incial.

In [42]:
df['Customer'].nunique()

9134

In [45]:
# 2
CACpro = 5000000 / 9134

print(CACpro)

547.4052988832932


In [46]:
#3
print(df['Customer Lifetime Value'].mean())

8004.940474987081


In [49]:
# 3

ProporCAC_CLV = (CACpro/ 8004.940474987081) * 100
print(ProporCAC_CLV)

6.838343153128526


### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

RTA: la porporciòn de clientes resntable es el 14.32 %.

In [55]:
respon= df['Response'].value_counts()
print(respon)

Response
No     7826
Yes    1308
Name: count, dtype: int64


In [58]:
yes = respon.get('Yes', 0)
print(yes)

1308


In [64]:
propoclientes = yes/ 9134
print(propoclientes)

0.14320122618786948


## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.


1) Promover una mehor estartegia de marketing al inicio en los clientes que brinde una mejr respuesta de ellos es clave para atarer màs gente, 2) identificar segmentos claves que ofrecen un mayor CLV y mejorar los producto y el alcance a este segmento de clientes puede brindar màs ganancias y clientes de set nivel (ejemplo clientes con clase de auto de lujo, 3) Las persnas casadas o los hjoombres solteros son clientes con mayores ingresos es clave identificarlos y atraerlos.