# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-12 23:13:04--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-12 23:13:05--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K) [

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

In [2]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)


In [3]:
df.shape

(9134, 24)

In [5]:
df.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9134 entries, 0 to 9133
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Customer                       9134 non-null   object 
 1   State                          9134 non-null   object 
 2   Customer Lifetime Value        9134 non-null   float64
 3   Response                       9134 non-null   object 
 4   Coverage                       9134 non-null   object 
 5   Education                      9134 non-null   object 
 6   Effective To Date              9134 non-null   object 
 7   EmploymentStatus               9134 non-null   object 
 8   Gender                         9134 non-null   object 
 9   Income                         9134 non-null   int64  
 10  Location Code                  9134 non-null   object 
 11  Marital Status                 9134 non-null   object 
 12  Monthly Premium Auto           9134 non-null   i

## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

In [11]:

CLVpromedio = df['Customer Lifetime Value'].mean()

CLVestandar = df['Customer Lifetime Value'].std()
print("CLV promedio:", CLVpromedio)
print("Desviación estándar del CLV: ", CLVestandar)
#Se presenta una alta variacion por lo que se puede segmentar los datoss para encontrar los diferentes comportamientos de nuestros clientes y asi generar esstrategias mas optimas
# Si existen diferentes comportamientos de clientes por lo que se deberia segmentarlos y generar campañas diferenciadores para cada tipo de comportamiento o los mas. rentables




CLV promedio: 8004.940474987081
Desviación estándar del CLV:  6870.967608356924


Se presenta una alta variacion por lo que se puede segmentar los datoss para encontrar los diferentes comportamientos de nuestros clientes y asi generar esstrategias mas optimas.

Si existen diferentes comportamientos de clientes por lo que se deberia segmentarlos y generar campañas diferenciadores para cada tipo de comportamiento o los mas. rentables


## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

In [14]:
df.Response.value_counts()


Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


In [16]:

Por_yes = (df.Response.value_counts(normalize=True) * 100).loc['Yes']
print(Por_yes)# Este es el valor en %

# si la proporcion es baja de los que respondieron si, 2) que ha tenido una baja participacion y que la estrategia no fue tan relevante pero para eso se necesita


14.320122618786948


1)si,la proporcion es baja de los que respondieron si

2) Que ha tenido una baja participacion y que la estrategia no fue tan relevante pero para eso se necesita

## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

In [19]:

df.groupby('Coverage')['Monthly Premium Auto'].mean()




Unnamed: 0_level_0,Monthly Premium Auto
Coverage,Unnamed: 1_level_1
Basic,82.173851
Extended,103.579504
Premium,133.381068


Si existen diferencias. entre los promedios de las diferentes coberturas sobre todo de la premium que es mas costoso.

A pesar de que el premium si representa mas costos no conocemos el margen que estos generan y si ese margen % lo compensa por sus costos

## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

In [20]:
df.groupby('EmploymentStatus')['Income'].mean()

Unnamed: 0_level_0,Income
EmploymentStatus,Unnamed: 1_level_1
Disabled,20045.582716
Employed,56384.884521
Medical Leave,20292.770833
Retired,20554.960993
Unemployed,0.0


Que los que poseen trabajo son de mayor poder adquisitivo y que los desempleados no consumen el producto, por lo que las estrategias se deben basar mas a personas con empleo

## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

In [21]:
df.groupby('State')['Customer Lifetime Value'].mean()

Unnamed: 0_level_0,Customer Lifetime Value
State,Unnamed: 1_level_1
Arizona,7861.341489
California,8003.647758
Nevada,8056.706839
Oregon,8077.901191
Washington,8021.472273


El estado con mayor CLV es Oregon. Existe una mayor cultura a adquirir seguros,  o es una region mas propensa a tener problemas por lo que contratan mas seguros

## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

In [24]:
df.groupby('Number of Policies')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Number of Policies,Unnamed: 1_level_1
1,440.278532
2,433.610653
3,415.969821
4,428.791219
5,428.755107
6,410.962617
7,468.401546
8,445.049999
9,424.499642


In [56]:

df['Numero_de_polizas'] = df['Number of Policies']
Cmasde1 = df[df['Numero_de_polizas'] > 1]
C1 = df[df['Numero_de_polizas'] == 1]
ProCmasde1 = Cmasde1['Total Claim Amount'].mean()
PromC1 = C1['Total Claim Amount'].mean()

print("Promedio Total Claim Amount (Más de una póliza):", ProCmasde1)
print("Promedio Total Claim Amount (Una póliza):", PromC1)


Promedio Total Claim Amount (Más de una póliza): 430.6682882804692
Promedio Total Claim Amount (Una póliza): 440.2785319286374


La direnrencia es de 10 lo que no es tanta como se podria esperar, que las personas de sola una poliza son mas propensas a tener mas reclamaciones

## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

In [26]:
df.groupby('Vehicle Class')['Customer Lifetime Value'].mean()

Unnamed: 0_level_0,Customer Lifetime Value
Vehicle Class,Unnamed: 1_level_1
Four-Door Car,6631.726607
Luxury Car,17053.348399
Luxury SUV,17122.999134
SUV,10443.511816
Sports Car,10750.989331
Two-Door Car,6671.030732


La clase de vehiculo con mayor CLV son los Luxury tanto la version CAR y SUV que son carros de mayor costo en el mercado por lo que sus usuarios quieren tener una poliza, que son los que mas facilidad tendrian de adquirir un seguro

## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

In [27]:
df.groupby('Education')['Months Since Last Claim'].mean()

Unnamed: 0_level_0,Months Since Last Claim
Education,Unnamed: 1_level_1
Bachelor,14.834789
College,15.432301
Doctor,15.260234
High School or Below,14.978642
Master,15.19973


Casi no hay diferencia entre el nivel educativo y la frecuencia de las reclamaciones, sin embargo los que tienen el nivel de BACHELOR son mas propensos a realizar reclamaciones

## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

In [28]:
df.groupby(['Marital Status', 'Gender'])['Income'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Marital Status,Gender,Unnamed: 2_level_1
Divorced,F,37913.70945
Divorced,M,43681.934848
Married,F,44276.994962
Married,M,43304.110361
Single,F,23573.75812
Single,M,22005.776407


Se puede inferir que las personas casadas sin imporar el sexo tienen mas altos ingresos mientras que los solteros son los menores ingresos, por lo que la estrategia deberia estar mas enfocada a personas casadas o que lo estuvieron.

## Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

In [29]:
df.Response.value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


Si ya que esperaria una mayor resepcion a la campaña

## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

In [30]:
df.groupby('Coverage')['Number of Open Complaints'].mean()

Unnamed: 0_level_0,Number of Open Complaints
Coverage,Unnamed: 1_level_1
Basic,0.384698
Extended,0.398979
Premium,0.333738


Los que tiene la cobertura de EXTENDED son los que se quejan mas pero si promedio de quejas no es significativamente mayor para generar una estrategia agresiva, por lo que siguiero un seguimiento estrategias mas suaves para ponerle a la par del resto

## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

In [31]:
df.groupby('EmploymentStatus')['Months Since Policy Inception'].mean()

Unnamed: 0_level_0,Months Since Policy Inception
EmploymentStatus,Unnamed: 1_level_1
Disabled,47.469136
Employed,47.800456
Medical Leave,48.141204
Retired,48.531915
Unemployed,48.747087


No, realmente no hay mucha relacion entre el estado laboral y la antiguedad del cliente, la estabilidad del cliente con la poliza depende mas de otros factores que de su estado de trabajo

## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

In [32]:
df.groupby('Policy Type')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Policy Type,Unnamed: 1_level_1
Corporate Auto,430.312188
Personal Auto,434.828219
Special Auto,440.47277


La poliza de Special Auto son las que mas reclamaciones tiene por lo que este tipo de polisa tiene mayor posibilidad de riesgo, lo que representaria. mas costos operativos asi como se vera afecta la eficiencia del servicio

## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

In [52]:
CLVprom = df['Customer Lifetime Value'].mean()
PMK = 5000000
Nclientes = len(df)

In [53]:
CACprom = PMK / Nclientes

In [54]:

print("CAC promedio: $",CACprom)
print("CLV promedio: $",CLVprom)


CAC promedio: $ 547.4052988832932
CLV promedio: $ 8004.940474987081


Como el CAC es inferior al CLV se justifica la inversion

In [43]:
PorcentajeCAC_clv = (CACprom / CLVprom) * 100
print(f"El CAC representa el {PorcentajeCAC_clv:.2f}% del CLV.")

El CAC representa el 6.84% del CLV.


### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

In [80]:
df['CLVN'] = df['Customer Lifetime Value']
C4 = df[df['CLVN'] > 548]

print(C4)


     Customer       State  Customer Lifetime Value Response  Coverage  \
0     BU79786  Washington              2763.519279       No     Basic   
1     QZ44356     Arizona              6979.535903       No  Extended   
2     AI49188      Nevada             12887.431650       No   Premium   
3     WW63253  California              7645.861827       No     Basic   
4     HB64268  Washington              2813.692575       No     Basic   
...       ...         ...                      ...      ...       ...   
9129  LA72316  California             23405.987980       No     Basic   
9130  PK87824  California              3096.511217      Yes  Extended   
9131  TD14365  California              8163.890428       No  Extended   
9132  UP19263  California              7524.442436       No  Extended   
9133  Y167826  California              2611.836866       No  Extended   

     Education Effective To Date EmploymentStatus Gender  Income  \
0     Bachelor           2/24/11         Employed      

In [81]:
C4.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size,Numero_de_polizas,CLVN
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize,1,2763.519279
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize,8,6979.535903
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize,2,12887.43165
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize,7,7645.861827
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize,1,2813.692575


In [79]:
C4.shape

(9134, 26)

Los clientes rentables son 9134

## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.




1.   Enfocar las camapaas a personas que esten casadas ya que sus ingresos son mayores y ueden adquirir mayores polizas
2.   Generar paquetes de fidelizacion y despuesos adicionales sobre la adquisisicion de mas de una poliza ya que las personas con mas polizas no generan mas reclamos
3.   Tambien se puede realizar mas diversidad de polizas para personas de bajos ingresos para aummentar la la cantidad de clientes





