# Análisis de Datos de Seguros - Enfoque Step-by-Step y Caso de Negocio

Este notebook está diseñado para que resuelvas problemas paso a paso utilizando Python (usando funciones básicas como .mean(), filtros, value_counts y groupby) y que puedas comparar los resultados con el objetivo propuesto. Además, se plantea un caso de negocio ficticio en el que se asigna un gasto en marketing (CAC) para evaluar la rentabilidad y tomar decisiones estratégicas.

El objetivo es evaluar tu habilidad para:
- Explorar y analizar datos en Python.
- Resolver problemas de análisis paso a paso.
- Comparar resultados con objetivos estratégicos.
- Formular conclusiones y recomendaciones basadas en los datos.

¡Comencemos!

In [1]:
!wget https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
!unzip WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip

--2025-03-12 23:12:04--  https://github.com/javierherrera1996/IntroMarketingAnalytics/raw/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip [following]
--2025-03-12 23:12:04--  https://raw.githubusercontent.com/javierherrera1996/IntroMarketingAnalytics/refs/heads/main/PrimerCorte/WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352796 (345K) [

## Paso 1: Exploración Inicial del Dataset
1. Carga el dataset `WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv`.
2. Revisa las primeras filas, dimensiones y la información general del dataset.

_Observa la estructura de los datos: ¿Qué columnas tienes? ¿Se nota algún dato atípico?_

In [8]:
# Cargar el dataset y ver primeras filas
import pandas as pd
import numpy as np

df = pd.read_csv('WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv')
pd.set_option('display.max_columns', None)
print(df.head())
print(df.shape)
print(df.info())


  Customer       State  Customer Lifetime Value Response  Coverage Education  \
0  BU79786  Washington              2763.519279       No     Basic  Bachelor   
1  QZ44356     Arizona              6979.535903       No  Extended  Bachelor   
2  AI49188      Nevada             12887.431650       No   Premium  Bachelor   
3  WW63253  California              7645.861827       No     Basic  Bachelor   
4  HB64268  Washington              2813.692575       No     Basic  Bachelor   

  Effective To Date EmploymentStatus Gender  Income Location Code  \
0           2/24/11         Employed      F   56274      Suburban   
1           1/31/11       Unemployed      F       0      Suburban   
2           2/19/11         Employed      F   48767      Suburban   
3           1/20/11       Unemployed      M       0      Suburban   
4            2/3/11         Employed      M   43836         Rural   

  Marital Status  Monthly Premium Auto  Months Since Last Claim  \
0        Married                    6

## Paso 2: Análisis del Customer Lifetime Value (CLV)
1. Calcula el CLV promedio y su desviación estándar.
2. Reflexiona: ¿Qué indica una alta desviación? ¿Podrían existir segmentos de clientes con comportamientos muy distintos?

Analizar el valor del ciclo de vida del cliente ayuda a entender cuánto valor puede generar cada cliente a lo largo del tiempo. Esto me permite enfocar a la empresa en los clientes más valiosos,dandoles más valor

In [9]:
clv_promedio = df['Customer Lifetime Value'].mean()
desviacion_estandar = df['Customer Lifetime Value'].std()

print(f"CLV promedio: {clv_promedio}")
print(f"Desviación estándar: {desviacion_estandar}")

CLV promedio: 8004.940474987081
Desviación estándar: 6870.967608356924


## Paso 3: Evaluación de la Columna Response
1. Usa `value_counts()` para ver cuántos clientes respondieron "Yes" y "No".
2. Calcula el porcentaje de respuestas "Yes".

Pregunta: ¿La proporción de "Yes" es baja? ¿Qué podría indicar esto respecto a la estrategia de respuesta?

Un porcentaje bajo de 'yes' es una señal de alerta. la estrategia actual puede necesitar un ajuste para asegurar que vamos en buen camino

In [10]:
value_counts = df['Response'].value_counts()
print(value_counts)

porcentaje_yes = (value_counts['Yes'] / df.shape[0]) * 100
print(f"El porcentaje de respuestas 'Yes' es: {porcentaje_yes:.2f}%")

Response
No     7826
Yes    1308
Name: count, dtype: int64
El porcentaje de respuestas 'Yes' es: 14.32%


## Paso 4: Análisis de la Prima Mensual (Monthly Premium Auto) por Coverage
1. Agrupa los datos por `Coverage` y calcula la media de `Monthly Premium Auto`.
2. Compara los promedios obtenidos para cada tipo de Coverage.

Pregunta: ¿Existen diferencias notables entre las coberturas? ¿Qué implicaciones tendría esto en la estrategia de precios?

La variación significativa en los costos mensuales de las diferentes opciones de cobertura resalta la necesidad de una estrategia de precios que refleje el valor que los clientes perciben en cada nivel

In [11]:
prima_mensual_por_cobertura = df.groupby('Coverage')['Monthly Premium Auto'].mean()
print(prima_mensual_por_cobertura)

Coverage
Basic        82.173851
Extended    103.579504
Premium     133.381068
Name: Monthly Premium Auto, dtype: float64


## Paso 5: Análisis del Ingreso (Income) según EmploymentStatus
1. Agrupa los datos por `EmploymentStatus` y calcula el ingreso promedio.

Pregunta: ¿Qué diferencias encuentras entre los grupos? ¿Cómo podría influir esto en la segmentación de clientes?

Las diferencias en ingresos por grupo requieren segmentar o filtar clientes según su empleo, esto permite adaptar estrategias de marketing y ventas a cada categoria

In [12]:
ingreso_promedio= df.groupby('EmploymentStatus')['Income'].mean()
print(ingreso_promedio)

EmploymentStatus
Disabled         20045.582716
Employed         56384.884521
Medical Leave    20292.770833
Retired          20554.960993
Unemployed           0.000000
Name: Income, dtype: float64


## Paso 6: Análisis del CLV por Estado
1. Agrupa los datos por `State` y calcula el CLV promedio.

Pregunta: ¿Qué estado muestra el mayor CLV? ¿Qué factores regionales podrían explicar esto?

Para el CLV por estado, se requieren datos específicos. Sin embargo, factores regionales previos dan una idea de cómo los estados pueden influir en el CLV.

In [13]:
State = df.groupby('State')['Customer Lifetime Value'].mean()
print(State)

State
Arizona       7861.341489
California    8003.647758
Nevada        8056.706839
Oregon        8077.901191
Washington    8021.472273
Name: Customer Lifetime Value, dtype: float64


## Paso 7: Análisis del Total Claim Amount según el Número de Pólizas
1. Separa a los clientes con más de 1 póliza de aquellos con 1 sola póliza.
2. Calcula el Total Claim Amount promedio para cada grupo.

Pregunta: ¿Qué diferencias encuentras y qué podrían indicar respecto al riesgo y comportamiento de reclamaciones?

La diferencia en el monto promedio de reclamo entre los dos grupos indica que los clientes con múltiples pólizas podrían presentar patrones de reclamación distintos. es crucial considerar variables adicionales antes de establecer conclusiones definitivas.

In [14]:
clientes_multiples_polizas = df[df['Number of Policies'] > 1]
clientes_una_poliza = df[df['Number of Policies'] == 1]


claim_promedio_multiples_polizas = clientes_multiples_polizas['Total Claim Amount'].mean()
claim_promedio_una_poliza = clientes_una_poliza['Total Claim Amount'].mean()

print(f"Claim promedio para clientes con más de 1 póliza: {claim_promedio_multiples_polizas}")
print(f"Claim promedio para clientes con 1 póliza: {claim_promedio_una_poliza}")

Claim promedio para clientes con más de 1 póliza: 430.6682882804692
Claim promedio para clientes con 1 póliza: 440.2785319286374


## Paso 8: Análisis del CLV según Vehicle Class
1. Agrupa los datos por `Vehicle Class` y calcula el CLV promedio para cada clase.

Pregunta: ¿Qué clase de vehículo se asocia a un mayor CLV y qué implicaciones podría tener esto en la estrategia de producto?

La asociación de la camioneta luxry SUV de lujo con el mayor CLV sugiere enfocar esfuerzos en este segmento, personalizando productos y estrategias de marketing para maximizar su valor a largo plazo

In [15]:
vehicle_class_clv = df.groupby('Vehicle Class')['Customer Lifetime Value'].mean()
print(vehicle_class_clv)

clase_mayor_clv = vehicle_class_clv.idxmax()
print(f"La clase de vehículo con el mayor CLV es: {clase_mayor_clv}")

Vehicle Class
Four-Door Car     6631.726607
Luxury Car       17053.348399
Luxury SUV       17122.999134
SUV              10443.511816
Sports Car       10750.989331
Two-Door Car      6671.030732
Name: Customer Lifetime Value, dtype: float64
La clase de vehículo con el mayor CLV es: Luxury SUV


## Paso 9: Análisis de Months Since Last Claim según Education
1. Agrupa los datos por `Education` y calcula el promedio de `Months Since Last Claim`.

Pregunta: ¿Existen diferencias notables entre los niveles educativos? ¿Qué podría indicar sobre la gestión de reclamos?

La falta de diferencias entre niveles educativos indica que no influyen en el tiempo desde el último reclamo, la empresa debe enfocarse en otros factores para mejorar la gestión de reclamos

In [16]:
education_months_since_last_claim = df.groupby('Education')['Months Since Last Claim'].mean()
print(education_months_since_last_claim)
promedio_montgths_since_last_claim = education_months_since_last_claim.mean()
print(f"El promedio de 'Months Since Last Claim' es: {promedio_montgths_since_last_claim}")

Education
Bachelor                14.834789
College                 15.432301
Doctor                  15.260234
High School or Below    14.978642
Master                  15.199730
Name: Months Since Last Claim, dtype: float64
El promedio de 'Months Since Last Claim' es: 15.141139317581025


## Paso 10: Análisis del Income según Marital Status y Gender
1. Realiza una segmentación cruzada agrupando por `Marital Status` y `Gender` para calcular el ingreso promedio.

Pregunta: ¿Qué diferencias observas? ¿Cómo podrían influir estas diferencias en la estrategia de segmentación de clientes?

Las diferencias de ingresos por marital stats y gender exigen segmentar clientes. Esto permite adaptar estrategias de marketing y ventas a cada grupo en específico

In [17]:
marital_status_gender_income = df.groupby(['Marital Status', 'Gender'])['Income'].mean()
print(marital_status_gender_income)
ingreso_promedio = marital_status_gender_income.mean()
print(f"El ingreso promedio es: {ingreso_promedio}")

Marital Status  Gender
Divorced        F         37913.709450
                M         43681.934848
Married         F         44276.994962
                M         43304.110361
Single          F         23573.758120
                M         22005.776407
Name: Income, dtype: float64
El ingreso promedio es: 35792.71402477281


## Paso 11: Distribución de la Columna Response
1. Usa `value_counts()` para mostrar cuántos clientes hay en cada grupo de Response.

Pregunta: ¿La distribución de respuestas sugiere que se debe ajustar la estrategia de comunicación?

La baja proporción de 'YES' indica que la comunicación actual es ineficaz y requiere ajustes. Es crucial analizar las razones y mejorar la comunicación

In [18]:
value_counts = df['Response'].value_counts()
print(value_counts)

Response
No     7826
Yes    1308
Name: count, dtype: int64


## Paso 12: Análisis de Quejas Abiertas por Coverage
1. Agrupa los datos por `Coverage` y calcula el número promedio de quejas abiertas (`Number of Open Complaints`).

Pregunta: ¿Existen coberturas con un número de quejas significativamente mayor? ¿Qué acciones se podrían tomar?

Aunque las quejas son similares entre coberturas, 'Extended' muestra un promedio ligeramente superior Se requiere investigar las causas para mejorar la cobertura y la satisfacción del cliente

In [19]:
coverage_open_complaints = df.groupby('Coverage')['Number of Open Complaints'].mean()
print(coverage_open_complaints)

promedio_number_of_open_complaints = coverage_open_complaints.mean()
print(f"El promedio de 'Number of Open Complaints' es: {promedio_number_of_open_complaints}")

Coverage
Basic       0.384698
Extended    0.398979
Premium     0.333738
Name: Number of Open Complaints, dtype: float64
El promedio de 'Number of Open Complaints' es: 0.3724716624987557


## Paso 13: Análisis de la Antigüedad de las Pólizas según EmploymentStatus
1. Agrupa por `EmploymentStatus` y calcula el promedio de `Months Since Policy Inception`.

Pregunta: ¿Existe alguna relación entre el estado laboral y la antigüedad de las pólizas? ¿Qué podría implicar esto en la estabilidad del cliente?

 la empresa debe enfocarse en otros factores para mejorar la estabilidad del cliente, la falta de diferencias entre estados laborales no inflye en los valores

In [20]:
EmploymentStatus_MonthsSincePolicyInception = df.groupby('EmploymentStatus')['Months Since Policy Inception'].mean()
print(EmploymentStatus_MonthsSincePolicyInception)

promedio_months_since_policy_inception = EmploymentStatus_MonthsSincePolicyInception.mean()
print(f"El promedio de 'Months Since Policy Inception' es: {promedio_months_since_policy_inception}")

EmploymentStatus
Disabled         47.469136
Employed         47.800456
Medical Leave    48.141204
Retired          48.531915
Unemployed       48.747087
Name: Months Since Policy Inception, dtype: float64
El promedio de 'Months Since Policy Inception' es: 48.137959490070806


## Paso 14: Análisis del Total Claim Amount según Policy Type
1. Agrupa por `Policy Type` y calcula el Total Claim Amount promedio para cada tipo de póliza.

Pregunta: ¿Qué diferencias se observan entre los tipos de póliza y qué podrían implicar en términos de riesgo y eficiencia operativa?

Las diferencias en el monto promedio de reclamo por tipo de póliza sugieren que 'Special Auto' implica mayor riesgo y 'Corporate Auto' menor riesgo. La empresa debe considerar estas diferencias en su evaluación de riesgos y optimización de acciones

In [21]:
policy_type_total_claim_amount = df.groupby('Policy Type')['Total Claim Amount'].mean()
print(policy_type_total_claim_amount)

promedio_total_claim_amount = policy_type_total_claim_amount.mean()
print(f"El promedio de 'Total Claim Amount' es: {promedio_total_claim_amount}")

Policy Type
Corporate Auto    430.312188
Personal Auto     434.828219
Special Auto      440.472770
Name: Total Claim Amount, dtype: float64
El promedio de 'Total Claim Amount' es: 435.2043924587161


## Caso de Negocio: Evaluación de la Inversión en Marketing

### Contexto:
Una compañía de seguros ha asignado un presupuesto ficticio de **$5,000,000** para campañas de adquisición. El objetivo es evaluar la rentabilidad de la inversión comparando el gasto de marketing ( 50000000) (CAC) con el Customer Lifetime Value (CLV) obtenido.

### Tareas:
1. Utiliza el CLV promedio obtenido en el Paso 2.
2. Calcula el CAC promedio dividiendo el presupuesto de marketing entre el número total de clientes.
3. Compara el CAC promedio con el CLV promedio y responde:
   - ¿El CAC es inferior al CLV, lo que justificaría la inversión?
   - ¿Qué porcentaje del CLV representa el CAC?

_Reflexión estratégica: Si el CAC es significativamente menor que el CLV, la inversión en marketing es rentable. De lo contrario, se deberá replantear la estrategia de adquisición._

In [22]:
clv_promedio = df['Customer Lifetime Value'].mean()
print(f"CLV promedio: {clv_promedio}")

CLV promedio: 8004.940474987081


In [26]:
presupuesto_marketing = 50000000
numero_total_clientes = len(df)

cac_promedio = presupuesto_marketing / numero_total_clientes
print(f"CAC promedio: {cac_promedio}")

CAC promedio: 5474.052988832932


In [27]:
porcentaje_cac_clv = (cac_promedio / clv_promedio) * 100
print(f"El {porcentaje_cac_clv}% del CLV representa el CAC.")

El 68.38343153128527% del CLV representa el CAC.


El 68.38343153128527% del CLV representa el CAC.


### **Bonus:** Teniendo lo anterior en cual es la proporcion de clientes rentables

## Conclusiones y Recomendaciones

### **Bonus 2:** En no más de un parrafo mencione 3 acciones concretas para mejorar los reusltados de la empresa.
