# 📘 Notebook: Visualización y Análisis Avanzado de Clientes

## 📌 Introducción
En este notebook analizaremos un conjunto de datos de clientes de seguros. Aplicaremos técnicas estadísticas y de visualización avanzadas con Seaborn, además de realizar pruebas de hipótesis e interpretación de resultados para construir narrativas basadas en los datos (storytelling).

### 📊 1. Importación de librerías y datos

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats
import numpy as np

# Configuración de estilo
sns.set(style="whitegrid")
df = pd.read_csv("customer.csv")
df.head()


### 📋 2. Análisis con Boxplots

In [None]:
plt.figure(figsize=(10, 5))
sns.boxplot(x='Coverage', y='ClaimAmount', data=df)
plt.title("Distribución de ClaimAmount según tipo de Coverage")
plt.show()


#### 📌 Interpretar:

¿Cuál categoría muestra más outliers?

¿Qué podemos inferir sobre el riesgo y el tipo de cobertura?

### 🔥 3. Heatmap de Correlación

In [None]:
plt.figure(figsize=(10, 6))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de correlación entre variables numéricas")
plt.show()


#### 📌 Interpretar:

¿Qué variables están más correlacionadas con ClaimAmount?

¿Hay correlaciones inesperadas?

### 🎻 4. Violinplot

In [None]:
plt.figure(figsize=(10, 5))
sns.violinplot(x='VehicleSize', y='CustomerLifetimeValue', data=df)
plt.title("Distribución del valor del cliente según el tamaño del vehículo")
plt.show()


#### 📌 Preguntas:

¿Qué categoría muestra mayor concentración?

¿Qué sugiere esto sobre el perfil del cliente?

### 📈 5. Lineplot y FacetGrid

In [None]:
# Convertimos fechas
df['EffectiveToDate'] = pd.to_datetime(df['EffectiveToDate'])
df_sorted = df.sort_values("EffectiveToDate")

# Gráfico de línea
plt.figure(figsize=(12, 5))
sns.lineplot(data=df_sorted, x='EffectiveToDate', y='ClaimAmount', ci=None)
plt.title("Evolución temporal de ClaimAmount")
plt.xticks(rotation=45)
plt.show()


In [None]:
g = sns.FacetGrid(df, col="VehicleSize", row="Coverage", margin_titles=True, height=3)
g.map_dataframe(sns.boxplot, x="Gender", y="ClaimAmount")
g.fig.subplots_adjust(top=0.9)
g.fig.suptitle("Variación de ClaimAmount según género, cobertura y tamaño de vehículo")
plt.show()


### 🔍 6. Pairplot y relaciones entre variables

In [None]:
sns.pairplot(df[['CustomerLifetimeValue', 'Income', 'MonthlyPremiumAuto', 'ClaimAmount']])
plt.suptitle("Relaciones entre métricas financieras", y=1.02)
plt.show()


#### 📌 Analizar:

¿Qué relaciones visuales surgen?

¿Hay alguna correlación visible entre ingresos y siniestros?



### 📏 7. Intervalos de Confianza

In [None]:
sample = df['ClaimAmount'].dropna()
media = sample.mean()
std = sample.std()
n = len(sample)
conf_int = stats.norm.interval(0.95, loc=media, scale=std/np.sqrt(n))
print(f"Intervalo de confianza del 95% para ClaimAmount: {conf_int}")


#### 📌 Reflexión: ¿Qué significa este intervalo para un gerente de seguros?

### ❓ 8. Prueba de Hipótesis

##### Hipótesis: Los clientes con cobertura Premium tienen un monto promedio de siniestros diferente al de cobertura Básica.

In [None]:
basic = df[df['Coverage'] == 'Basic']['ClaimAmount']
premium = df[df['Coverage'] == 'Premium']['ClaimAmount']

t_stat, p_val = stats.ttest_ind(basic, premium, equal_var=False)
print(f"T-statistic: {t_stat}, p-value: {p_val}")


#### 📌 Conclusión:

¿Rechazamos H₀ al 5%?

¿Qué acciones de negocio se pueden derivar?

### 🧠 9. Storytelling con datos

#### Consejos:

- Destacar insights relevantes, no solo gráficos bonitos.

- Apoyarse en preguntas clave: ¿Qué? ¿Por qué? ¿Y ahora qué?

- Usar títulos claros y lenguaje no técnico para comunicar resultados.

### ✅ 10. Ejercicios Finales

🔹 Ejercicio 1:
Crear un gráfico que muestre cómo varía ClaimAmount según Coverage y VehicleSize, e interpretar qué conclusiones surgen sobre el perfil de riesgo.

🔹 Ejercicio 2:
Usar pairplot para encontrar relaciones ocultas entre al menos 3 variables del dataset. Escribir una conclusión al respecto.

🔹 Ejercicio 3:
Dado el dataset:

Construí al menos 3 visualizaciones con interpretación:

- 1 con análisis de outliers

- 1 con análisis de correlación

- 1 con una narrativa visual (storytelling)

🔹 Ejercicio 4:
Elaborar una visualización tipo “dashboard” con varios subplots (usar subplots o FacetGrid) que cuente una historia sobre los clientes más valiosos (CustomerLifetimeValue).