# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-12 23:13:14--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 140.82.116.3
Connecting to github.com (github.com)|140.82.116.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-12 23:13:14--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K) [

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

In [2]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)


In [4]:
df.info() #Sin valores nulos, ningun dato atipico detectable

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9134 entries, 0 to 9133
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Customer                       9134 non-null   object 
 1   State                          9134 non-null   object 
 2   Customer Lifetime Value        9134 non-null   float64
 3   Response                       9134 non-null   object 
 4   Coverage                       9134 non-null   object 
 5   Education                      9134 non-null   object 
 6   Effective To Date              9134 non-null   object 
 7   EmploymentStatus               9134 non-null   object 
 8   Gender                         9134 non-null   object 
 9   Income                         9134 non-null   int64  
 10  Location Code                  9134 non-null   object 
 11  Marital Status                 9134 non-null   object 
 12  Monthly Premium Auto           9134 non-null   i

In [3]:
df.shape

(9134, 24)

In [6]:
df.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


In [38]:
df.columns

Index(['Customer', 'State', 'Customer Lifetime Value', 'Response', 'Coverage',
       'Education', 'Effective To Date', 'EmploymentStatus', 'Gender',
       'Income', 'Location Code', 'Marital Status', 'Monthly Premium Auto',
       'Months Since Last Claim', 'Months Since Policy Inception',
       'Number of Open Complaints', 'Number of Policies', 'Policy Type',
       'Policy', 'Renew Offer Type', 'Sales Channel', 'Total Claim Amount',
       'Vehicle Class', 'Vehicle Size'],
      dtype='object')

## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

In [65]:
CLVaverage = df['Customer Lifetime Value'].mean().round(2)
CLVstd = df['Customer Lifetime Value'].std()
print(f"Average CLV: {CLVaverage}")
print(f"Standar Dev CLV: {CLVstd}")

Average CLV: 8004.94
Standar Dev CLV: 6870.967608356924


## **Una desviacion estandar alta nos indica, que los datos estan dispersos en un rango amplio y no en una media, no hay una concentracion/aglomeraciond de datos significativa.**

## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

In [13]:
YesCount = df['Response'].value_counts()['Yes']
NoCount = df['Response'].value_counts()['No']
print(f"Yes: {YesCount}")
print(f"No: {NoCount}")

Yes: 1308
No: 7826


In [23]:
YesPercentage = df['Response'].value_counts()['Yes'] / df['Response'].count() * 100
print(f"Yes Percentage: {YesPercentage:.2f}%")

Yes Percentage: 14.32%


# Una baja tasa en la respuesta del cliente quiere decir que nuestra campaña o nuestro abordaje a ellos puede no ser la correcta

## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

In [27]:
CoverageAvg = df.groupby('Coverage')['Monthly Premium Auto'].mean().round(2)
CoverageAvg

Unnamed: 0_level_0,Monthly Premium Auto
Coverage,Unnamed: 1_level_1
Basic,82.17
Extended,103.58
Premium,133.38


# Hay una diferencia de 51 entre el Monthly premium mas bajo y el mas alto, esto puede indicar que podemos dar un enfoque mayor al premium, indicando mayor revenue para nosotros

## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

In [29]:
IncomeAvg = df.groupby('EmploymentStatus')['Income'].mean().round(2).sort_values(ascending=False)
IncomeAvg

Unnamed: 0_level_0,Income
EmploymentStatus,Unnamed: 1_level_1
Employed,56384.88
Retired,20554.96
Medical Leave,20292.77
Disabled,20045.58
Unemployed,0.0


#Podemos manejar una estrategia enfocada a personas empleadas ya que son las que mas income generan, y para los otros grupos ofrecer seguros mas asequibles y que agrupen necesidades especificas como salud para medical leave y ahorro para retired

## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

In [30]:
StateAvg = df.groupby('State')['Customer Lifetime Value'].mean().round(2).sort_values(ascending=False)
StateAvg

Unnamed: 0_level_0,Customer Lifetime Value
State,Unnamed: 1_level_1
Oregon,8077.9
Nevada,8056.71
Washington,8021.47
California,8003.65
Arizona,7861.34


#Oregon podria sugerir que es donde se encuentra nuestra poblacion objeto al representar un CLV mas alto, indicando que es la region que probablemente mas poder adquisitivo tiene

## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

In [50]:
OnePolicy = df[df['Number of Policies'] == 1]['Total Claim Amount'].mean()
print(f"One policy average: {OnePolicy:.2f}")
MultiplePolicy = df[df['Number of Policies'] > 1]['Total Claim Amount'].mean()
print(f"Multiple policy average: {MultiplePolicy:.2f}")

One policy average: 440.28
Multiple policy average: 430.67


# No hay una diferencia notable entre los dos, por lo que podriamos inferir que sin importar el numero de polizas el monto a reclamar es similar o se mantiene en un mismo rango

## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

In [32]:
VehicleClassAvg = df.groupby('Vehicle Class')['Customer Lifetime Value'].mean().round(2).sort_values(ascending=False)
VehicleClassAvg

Unnamed: 0_level_0,Customer Lifetime Value
Vehicle Class,Unnamed: 1_level_1
Luxury SUV,17123.0
Luxury Car,17053.35
Sports Car,10750.99
SUV,10443.51
Two-Door Car,6671.03
Four-Door Car,6631.73


# Podriamos enfocar nuestra estrategia a los consecionarios que ofrecen Luxury SUVs para aliarnos con ellos y llegar a este publico objetivo

## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

In [51]:
EducationAvg = df.groupby('Education')['Months Since Last Claim'].mean().round(2).sort_values(ascending=False)
EducationAvg

Unnamed: 0_level_0,Months Since Last Claim
Education,Unnamed: 1_level_1
College,15.43
Doctor,15.26
Master,15.2
High School or Below,14.98
Bachelor,14.83


# No hay diferencia notable, con diferencia de un aprox un mes entre el valor maximo y valor minimo, que nuestros clientes no tengan reclamos hace 14-15 meses indica muy buena gestion de nuestros reclamos

## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

In [52]:
MaritalGenderAvg = df.groupby(['Marital Status', 'Gender'])['Income'].mean().round(2)
MaritalGenderAvg

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Marital Status,Gender,Unnamed: 2_level_1
Divorced,F,37913.71
Divorced,M,43681.93
Married,F,44276.99
Married,M,43304.11
Single,F,23573.76
Single,M,22005.78


# Nuestros clientes con mayor income promedio son hombres casados, podriamos ofertar estrategias que se afinen a ellos, relacionados con temas familiares por ejemplo, y las personas solteras no serian prioridad en este caso

## Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

In [53]:
ResponseGroup = df['Response'].value_counts()
ResponseGroup

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


# Si lo sugiere, nuestra comunicacion no esta siendo efectiva ya que solo el 14% de nuestros clientes estan siendo alcanzados actualmente

## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

In [55]:
CoverageAvg = df.groupby('Coverage')['Number of Open Complaints'].mean().round(2).sort_values(ascending=False)
CoverageAvg

Unnamed: 0_level_0,Number of Open Complaints
Coverage,Unnamed: 1_level_1
Extended,0.4
Basic,0.38
Premium,0.33


# No hay coberturas con diferencia significativa, lo que nos sugiere que no hay una correlacion entre las quejas y el tipo de cobertura, en general hay quejas similares siendo la cobertura extendida la que tiene mas quejas

## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

In [56]:
EmploymentStatusAvg = df.groupby('EmploymentStatus')['Months Since Policy Inception'].mean().round(2).sort_values(ascending=False)
EmploymentStatusAvg

Unnamed: 0_level_0,Months Since Policy Inception
EmploymentStatus,Unnamed: 1_level_1
Unemployed,48.75
Retired,48.53
Medical Leave,48.14
Employed,47.8
Disabled,47.47


# Si bien no es una diferencia muy grande, los desempleados son los que mas antiguedad en sus polizas tienen, lo cual es de esperar ya que estas personas no tienen income, hablando desde antiguedad del cliente los desemplados son nuestro publico objetivo

## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

In [57]:
PolicyTypeAvg = df.groupby('Policy Type')['Total Claim Amount'].mean().round(2).sort_values(ascending=False)
PolicyTypeAvg

Unnamed: 0_level_0,Total Claim Amount
Policy Type,Unnamed: 1_level_1
Special Auto,440.47
Personal Auto,434.83
Corporate Auto,430.31


# Los autos especiales tienen un monto mayor de reclamos, podriamos reducir nuestra cobertura a este tipo de autos o tener un monitoreo mayor ya que mas riesgo nos representan

## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

In [67]:
CLVaverage = df['Customer Lifetime Value'].mean().round(2)
CLVaverage #CLV del paso 2

8004.94

In [73]:
CACavg = 5000000 / df['Customer'].count() #Average CAC
CACavg.round(2)

547.41

# CLV promedio: 8004.94 vs CAC promedio: 547.41

Nuestro CAC es mucho mas bajo que nuestro CLV lo que indica que nuestra inversion es totalmente rentable

In [80]:
CLVvsCAC = (CACavg / CLVaverage) * 100
print(f' El CAC representa el {CLVvsCAC:.2f} del CLV%')

 El CAC representa el 6.84 del CLV%


### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.
