# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-12 23:17:11--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-12 23:17:11--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K) [

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

Las columnas que tengo son 24, es decir, las primeras que me salen en la tabla, los titulos.
En cuanto a datos atípicos, se puede observar que algunos valores de "Customer Lifetime Value" y "Income" son significativamente diferentes de los demás. Por ejemplo, hay clientes con un valor de vida del cliente muy alto (como 12887.43) y otros con ingresos de 0. Esto podría indicar datos atípicos que merecen una revisión más profunda. texto en negrita

In [3]:
df.shape

(9134, 24)

In [4]:
df.info

In [2]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)

# Mostramos las primeras filas para verificar
df.head()


Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,Location Code,Marital Status,Monthly Premium Auto,Months Since Last Claim,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,Suburban,Married,69,32,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,Suburban,Single,94,13,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,Suburban,Married,108,18,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,Suburban,Married,106,18,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,Rural,Single,73,12,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

Reflexión sobre el Resultado
Interpretación del CLV Promedio (8004.94):

Un CLV promedio de aproximadamente 8004.94 indica que, en promedio, cada cliente aporta un valor significativo a la empresa a lo largo de su vida útil. Esto sugiere que la mayoría de los clientes tienen el potencial de ser rentables, lo cual es un buen signo para la salud financiera de la empresa.
Interpretación de la Desviación Estándar (6870.97):

La desviación estándar de 6870.97 es bastante alta en comparación con el promedio. Esto indica que hay una gran variabilidad en los valores del CLV entre los diferentes clientes. En otras palabras, algunos clientes generan un CLV mucho más alto que la media, mientras que otros tienen un CLV significativamente más bajo.

In [9]:
# Calcular el CLV promedio:
clv_mean = df['Customer Lifetime Value'].mean()
print(clv_mean)

# Calcular la desviacion estandar del CLV promedio:
clv_std = df['Customer Lifetime Value'].std()
print(clv_std)

8004.940474987081
6870.967608356924


## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

una proporción baja de respuestas "Yes" (14.3%) sugiere que hay oportunidades significativas para mejorar la estrategia de respuesta y marketing. Diagnosticar las razones detrás de esta baja respuesta puede revelar información valiosa para ajustar las ofertas, comunicar mejor el valor, y en última instancia, aumentar las tasas de respuesta positiva en futuras campañas.**texto en negrita**

In [10]:
# Cuantos clientes  respondieron "Yes" y "No"
df['Response'].value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


In [11]:
# Calcular el porcentaje de respuestas "yes"
porcentaje_yes = (df['Response'].value_counts()['Yes'] / df.shape[0]) * 100
print(porcentaje_yes)

14.320122618786948


## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

Si, existen. Las diferencias notables entre las coberturas ofrecen oportunidades significativas para segmentar y dirigirse a diferentes grupos de clientes. Debes asegurarte de que la estrategia de precios refleje el valor percibido por los clientes y esté apoyada por una sólida comunicación y marketing. Considerar cómo maximizar el atractivo y la percepción de valor de cada nivel de cobertura será clave para optimizar las ventas y la satisfacción del cliente.

In [15]:
# Agrupar por 'Coverage' y calcular la media de 'Monthly Premium Auto'
df.groupby('Coverage')['Monthly Premium Auto'].mean()


Unnamed: 0_level_0,Monthly Premium Auto
Coverage,Unnamed: 1_level_1
Basic,82.173851
Extended,103.579504
Premium,133.381068


## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

Las diferencias de ingresos entre los grupos según el estado laboral son notables y tienen un gran impacto en la forma en que se pueden segmentar a los clientes. Al reconocer estas diferencias, las empresas pueden adaptar sus ofertas, marketing y estrategias de atención al cliente para atender mejor las necesidades de cada segmento, lo que puede resultar en un aumento de las ventas y una mejor satisfacción del cliente. Este enfoque no solo es estratégico, sino que también contribuye a cumplir con las expectativas de los distintos grupos de manera más efectiva.**texto en negrita**

In [18]:
# Agrupar los datos por 'EmploymentStatus
df.groupby('EmploymentStatus')['Income'].mean()



Unnamed: 0_level_0,Income
EmploymentStatus,Unnamed: 1_level_1
Disabled,20045.582716
Employed,56384.884521
Medical Leave,20292.770833
Retired,20554.960993
Unemployed,0.0


## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

El CLV en Oregon es superior en comparación con otros estados, probablemente debido a una combinación de factores demográficos, económicos y culturales. Comprender estos factores puede ayudar a las empresas a adaptar sus estrategias de marketing y desarrollo de productos para maximizar el valor del cliente en esta región, lo que es clave para el éxito empresarial a largo plazo.**texto en negrita**

In [19]:
# Agrupa los datos por "state"
df.groupby('State')['Customer Lifetime Value'].mean()

Unnamed: 0_level_0,Customer Lifetime Value
State,Unnamed: 1_level_1
Arizona,7861.341489
California,8003.647758
Nevada,8056.706839
Oregon,8077.901191
Washington,8021.472273


## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

Las diferencias en el Total Claim Amount Son casi iguales los resultados a simple vista son muy cercanos, muy similares. Las empresas de seguros pueden utilizar estos datos para mejorar su gestión del riesgo, ajustar sus estrategias de marketing, diseñar productos más efectivos y, en general, mejorar la experiencia del cliente. Entender estas dinámicas es clave para maximizar la rentabilidad y la satisfacción del cliente a largo plazo.



In [22]:
df.groupby('Number of Policies')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Number of Policies,Unnamed: 1_level_1
1,440.278532
2,433.610653
3,415.969821
4,428.791219
5,428.755107
6,410.962617
7,468.401546
8,445.049999
9,424.499642


In [23]:
# Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
clientes_multiples_polizas = df[df['Number of Policies'] > 1]
clientes_una_poliza = df[df['Number of Policies'] == 1]

# Calcula el Total Claim Amount promedio para cada grupo.
claim_amount_multiples_polizas = clientes_multiples_polizas['Total Claim Amount'].mean()
claim_amount_una_poliza = clientes_una_poliza['Total Claim Amount'].mean()


## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

El Luxury SUV no solo representa la clase de vehículo con el mayor CLV, sino que también ofrece numerosas oportunidades para las empresas en términos de desarrollo de productos, mejoras en la experiencia del cliente, y estrategias de marketing. Aprovechar este potencial puede resultar en un aumento significativo en la rentabilidad y en la lealtad del cliente a largo plazo.

In [24]:
# Agrupar los datos por "Vehicle Class"
df.groupby('Vehicle Class')['Customer Lifetime Value'].mean()

Unnamed: 0_level_0,Customer Lifetime Value
Vehicle Class,Unnamed: 1_level_1
Four-Door Car,6631.726607
Luxury Car,17053.348399
Luxury SUV,17122.999134
SUV,10443.511816
Sports Car,10750.989331
Two-Door Car,6671.030732


## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

Las diferencias en los promedios de "Months Since Last Claim" entre niveles educativos son muy pequeñas y no parecen significativas. Esto sugiere que el nivel educativo probablemente no influye mucho en la gestión de reclamos. Podrían existir otros factores más relevantes que expliquen el comportamiento en este aspecto.

In [25]:
# Agrupar los datos por 'Education" y  calcula el promedio de 'Months Since Last Claim'
df.groupby('Education')['Months Since Last Claim'].mean()


Unnamed: 0_level_0,Months Since Last Claim
Education,Unnamed: 1_level_1
Bachelor,14.834789
College,15.432301
Doctor,15.260234
High School or Below,14.978642
Master,15.19973


## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

En resumen, los ingresos promedio varían notablemente según el estado civil y el género. Las personas casadas tienen los ingresos más altos, mientras que los solteros tienen los más bajos. Esto sugiere que las estrategias de segmentación podrían enfocarse en ofrecer productos premium a los casados y adaptar propuestas más accesibles a los solteros, considerando sus diferencias **económicas**

In [27]:
#Agrupar por Marital Status y Gender para calcular el ingreso promedio.
df.groupby(['Marital Status', 'Gender'])['Income'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Income
Marital Status,Gender,Unnamed: 2_level_1
Divorced,F,37913.70945
Divorced,M,43681.934848
Married,F,44276.994962
Married,M,43304.110361
Single,F,23573.75812
Single,M,22005.776407


#[texto del enlace](https://)# Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

La distribución muestra una baja proporción de respuestas "Yes" (14.3%), lo que indica que es necesario revisar y mejorar la estrategia de comunicación para aumentar la efectividad y el engagement con los clientes.

In [28]:
# value_counts() para mostrar cuántos clientes hay en cada grupo de Response.
df['Response'].value_counts()

Unnamed: 0_level_0,count
Response,Unnamed: 1_level_1
No,7826
Yes,1308


## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

Las coberturas Extended y Basic tienen un promedio de quejas ligeramente mayor que Premium, pero las diferencias no son nada significativas. Una acción sería investigar las causas detrás de las quejas en estas coberturas y mejorar los procesos o productos asociados para reducirlas

In [29]:
# Agrupar los datos por "Coverage" y calcula el número promedio de quejas abiertas (Number of Open Complaints).
df.groupby('Coverage')['Number of Open Complaints'].mean()

Unnamed: 0_level_0,Number of Open Complaints
Coverage,Unnamed: 1_level_1
Basic,0.384698
Extended,0.398979
Premium,0.333738


## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

Los clientes desempleados y retirados tienen una mayor antigüedad en sus pólizas. Esto podría implicar que tienen mayor estabilidad y lealtad hacia la aseguradora, lo que los hace valiosos para estrategias de retención

In [30]:
# Agrupar por "EmploymentStatus" y calcula el promedio de "Months Since Policy Inception"
df.groupby('EmploymentStatus')['Months Since Policy Inception'].mean()

Unnamed: 0_level_0,Months Since Policy Inception
EmploymentStatus,Unnamed: 1_level_1
Disabled,47.469136
Employed,47.800456
Medical Leave,48.141204
Retired,48.531915
Unemployed,48.747087


## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

Los tipos de póliza tienen diferencias mínimas en el Total Claim Amount, con "Special Auto" siendo ligeramente más alto. Esto podría implicar que las pólizas especializadas presentan un riesgo ligeramente mayor, pero también potencial para optimizar procesos operativos y ajustar tarifas **texto en negrita**

In [31]:
# AgrupaR por "Policy Type" y calcula el Total "Claim Amount" promedio para cada tipo de póliza
df.groupby('Policy Type')['Total Claim Amount'].mean()

Unnamed: 0_level_0,Total Claim Amount
Policy Type,Unnamed: 1_level_1
Corporate Auto,430.312188
Personal Auto,434.828219
Special Auto,440.47277


## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

In [32]:
# Importar las librerías necesarias
import pandas as pd

In [33]:
# Valores
presupuesto_marketing = 5000000  # Presupuesto de marketing
numero_clientes = 9134  # Número total de clientes
clv_promedio = 8004.940 # CLV promedio obtenido en el Paso 2
NumCli = len(df)

In [35]:
CACprmo = presupuesto_marketing / NumCli
print(CACprmo)
print(clv_promedio)

547.4052988832932
8004.940474987081


In [36]:
# Comparar el "CAC" promedio con el "CLV" Promedio
if CACprmo < clv_promedio:
    print("El CAC es inferior al CLV, lo que justifica la inversión.")
else:
    print("La inversión en marketing no es rentable.")

El CAC es inferior al CLV, lo que justifica la inversión.


In [37]:
# Comparar el "CAC" (547.4052988832932) promedio con el "CLV" Promedio (8004.940474987081)
df['Customer Lifetime Value'].mean()


8004.940474987081

In [38]:
# porcentaje del CLV representa el CAC
CACprmo / clv_promedio * 100

6.838343153128526

### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

In [43]:
# PROPORCION DE CLIENTES RENTABLES
# Importar las librerías necesarias
import pandas as pd

# Filtrar clientes rentables (CLV > CAC promedio)
clientes_rentables = df[df['Customer Lifetime Value'] > cac_promedio]

# Calcular la proporción de clientes rentables
proporcion_rentables = len(clientes_rentables) / numero_clientes * 100

# Mostrar los resultados
print(f"CLV Promedio: ${clv_promedio:.2f}")
print(f"CAC Promedio: ${cac_promedio:.2f}")
print(f"Número de Clientes Rentables: {len(clientes_rentables)}")
print(f"Proporción de Clientes Rentables: {proporcion_rentables:.2f}%")

CLV Promedio: $8004.94
CAC Promedio: $547.41
Número de Clientes Rentables: 9134
Proporción de Clientes Rentables: 100.00%


## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.


*Para mejorar los resultados de la empresa, recomendaria a acciones como: 1. implementar un enfoque integral en la experiencia del cliente que incluya un programa de atención al cliente personalizado, 2.el uso de análisis de datos para segmentar eficazmente a los consumidores y 3. la incorporación de tecnología avanzada en todos los procesos. Estas acciones maximizarán la satisfacción y la lealtad del cliente, mejorando así el rendimiento financiero general de la empresa ...  **texto en negrita**