<a href="https://colab.research.google.com/github/agmalaga2020/.github.io/blob/main/PEC4_CLTV_Analisis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PEC 4: Customer Life Time Value

## Actividad 1: Análisis exploratorio de los datos

In [41]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import datetime as dt
import os



### a) Revisa cada uno de los archivos CSV para entender su estructura y el tipo de datos. Inspecciona las primeras filas, y obtiene cuántas variables tenemos, el tipo de columnas y estadísticas descriptivas.

In [42]:
# Función para limpiar nombres de columnas
def clean_col_names(df):
    df = df.copy()
    df.columns = (
        df.columns
        .str.strip()
        .str.lower()
        .str.replace(' ', '_')
        .str.replace(r'[^0-9a-z_]', '', regex=True)
    )
    return df

# Definición de rutas
path_ventas = './201904 sales reciepts.csv'
path_clientes = './customer.csv'
path_objetivos = './sales_targets.csv'

# Carga de datos
print("Cargando datasets...")
df_ventas = pd.read_csv(path_entas:=path_ventas)
df_clientes = pd.read_csv(path_clients:=path_clientes)
df_objetivos = pd.read_csv(path_objetivos)
print("Datasets cargados.")

# Limpieza de nombres de columnas
print("Limpiando nombres de columnas...")
df_ventas = clean_col_names(df_ventas)
df_clientes = clean_col_names(df_clientes)
df_objetivos = clean_col_names(df_objetivos)
print("Nombres de columnas limpiados.")

# Inspección de cada dataset
for nombre, df in [
    ("Ventas (transacciones)", df_ventas),
    ("Clientes", df_clientes),
    ("Objetivos de venta", df_objetivos)
]:
    print(f"\n--- DataFrame: {nombre} ---")
    print(f"Estructura (filas, columnas): {df.shape}")
    print("Número de variables:", df.shape[1])
    print("Tipos de columnas:")
    print(df.dtypes)
    print("\nPrimeras filas:")
    display(df.head())
    print("\nInfo del DataFrame:")
    df.info()
    print("\nEstadísticas descriptivas:")
    display(df.describe(include='all'))
    print("-" * 60)

Cargando datasets...
Datasets cargados.
Limpiando nombres de columnas...
Nombres de columnas limpiados.

--- DataFrame: Ventas (transacciones) ---
Estructura (filas, columnas): (49894, 14)
Número de variables: 14
Tipos de columnas:
transaction_id        int64
transaction_date     object
transaction_time     object
sales_outlet_id       int64
staff_id              int64
customer_id           int64
instore_yn           object
order                 int64
line_item_id          int64
product_id            int64
quantity              int64
line_item_amount    float64
unit_price          float64
promo_item_yn        object
dtype: object

Primeras filas:


Unnamed: 0,transaction_id,transaction_date,transaction_time,sales_outlet_id,staff_id,customer_id,instore_yn,order,line_item_id,product_id,quantity,line_item_amount,unit_price,promo_item_yn
0,7,2019-04-01,12:04:43,3,12,558,N,1,1,52,1,2.5,2.5,N
1,11,2019-04-01,15:54:39,3,17,781,N,1,1,27,2,7.0,3.5,N
2,19,2019-04-01,14:34:59,3,17,788,Y,1,1,46,2,5.0,2.5,N
3,32,2019-04-01,16:06:04,3,12,683,N,1,1,23,2,5.0,2.5,N
4,33,2019-04-01,19:18:37,3,17,99,Y,1,1,34,1,2.45,2.45,N



Info del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49894 entries, 0 to 49893
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   transaction_id    49894 non-null  int64  
 1   transaction_date  49894 non-null  object 
 2   transaction_time  49894 non-null  object 
 3   sales_outlet_id   49894 non-null  int64  
 4   staff_id          49894 non-null  int64  
 5   customer_id       49894 non-null  int64  
 6   instore_yn        49894 non-null  object 
 7   order             49894 non-null  int64  
 8   line_item_id      49894 non-null  int64  
 9   product_id        49894 non-null  int64  
 10  quantity          49894 non-null  int64  
 11  line_item_amount  49894 non-null  float64
 12  unit_price        49894 non-null  float64
 13  promo_item_yn     49894 non-null  object 
dtypes: float64(2), int64(8), object(4)
memory usage: 5.3+ MB

Estadísticas descriptivas:


Unnamed: 0,transaction_id,transaction_date,transaction_time,sales_outlet_id,staff_id,customer_id,instore_yn,order,line_item_id,product_id,quantity,line_item_amount,unit_price,promo_item_yn
count,49894.0,49894,49894,49894.0,49894.0,49894.0,49894,49894.0,49894.0,49894.0,49894.0,49894.0,49894.0,49894
unique,,29,26074,,,,3,,,,,,,2
top,,2019-04-19,10:11:25,,,,Y,,,,,,,N
freq,,1907,11,,,,24992,,,,,,,49404
mean,869.056059,,,5.351846,25.359582,2282.324468,,1.173428,1.63186,47.878983,1.438209,4.682646,3.384645,
std,857.863149,,,2.074796,12.46649,3240.551757,,1.025445,1.412881,17.928355,0.543039,4.436668,2.682545,
min,1.0,,,3.0,6.0,0.0,,1.0,1.0,1.0,1.0,0.0,0.8,
25%,223.0,,,3.0,15.0,0.0,,1.0,1.0,33.0,1.0,3.0,2.5,
50%,481.0,,,5.0,26.0,0.0,,1.0,1.0,47.0,1.0,3.75,3.0,
75%,1401.0,,,8.0,41.0,5412.0,,1.0,1.0,60.0,2.0,6.0,3.75,


------------------------------------------------------------

--- DataFrame: Clientes ---
Estructura (filas, columnas): (2246, 9)
Número de variables: 9
Tipos de columnas:
customer_id             int64
home_store              int64
customer_firstname     object
customer_email         object
customer_since         object
loyalty_card_number    object
birthdate              object
gender                 object
birth_year              int64
dtype: object

Primeras filas:


Unnamed: 0,customer_id,home_store,customer_firstname,customer_email,customer_since,loyalty_card_number,birthdate,gender,birth_year
0,1,3,Kelly Key,Venus@adipiscing.edu,2017-01-04,908-424-2890,1950-05-29,M,1950
1,2,3,Clark Schroeder,Nora@fames.gov,2017-01-07,032-732-6308,1950-07-30,M,1950
2,3,3,Elvis Cardenas,Brianna@tellus.edu,2017-01-10,459-375-9187,1950-09-30,M,1950
3,4,3,Rafael Estes,Ina@non.gov,2017-01-13,576-640-9226,1950-12-01,M,1950
4,5,3,Colin Lynn,Dale@Integer.com,2017-01-15,344-674-6569,1951-02-01,M,1951



Info del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2246 entries, 0 to 2245
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   customer_id          2246 non-null   int64 
 1   home_store           2246 non-null   int64 
 2   customer_firstname   2246 non-null   object
 3   customer_email       2246 non-null   object
 4   customer_since       2246 non-null   object
 5   loyalty_card_number  2246 non-null   object
 6   birthdate            2246 non-null   object
 7   gender               2246 non-null   object
 8   birth_year           2246 non-null   int64 
dtypes: int64(3), object(6)
memory usage: 158.1+ KB

Estadísticas descriptivas:


Unnamed: 0,customer_id,home_store,customer_firstname,customer_email,customer_since,loyalty_card_number,birthdate,gender,birth_year
count,2246.0,2246.0,2246,2246,2246,2246,2246,2246,2246.0
unique,,,1640,2246,794,2246,1883,3,
top,,,Marny,Herrod@ultrices.gov,2017-11-03,241-906-4009,2001-04-09,F,
freq,,,6,1,8,1,6,977,
mean,4285.902048,4.956812,,,,,,,1978.385574
std,3088.088265,1.852562,,,,,,,14.925503
min,1.0,3.0,,,,,,,1950.0
25%,562.25,3.0,,,,,,,1965.0
50%,5323.5,5.0,,,,,,,1981.0
75%,5884.75,5.0,,,,,,,1991.0


------------------------------------------------------------

--- DataFrame: Objetivos de venta ---
Estructura (filas, columnas): (8, 7)
Número de variables: 7
Tipos de columnas:
sales_outlet_id      int64
year_month          object
beans_goal           int64
beverage_goal        int64
food_goal            int64
merchandise_goal     int64
total_goal           int64
dtype: object

Primeras filas:


Unnamed: 0,sales_outlet_id,year_month,beans_goal,beverage_goal,food_goal,merchandise_goal,total_goal
0,3,Apr-19,720,13500,3420,360,18000
1,4,Apr-19,720,13500,3420,360,18000
2,5,Apr-19,1000,18750,4750,500,25000
3,6,Apr-19,720,13500,3420,360,18000
4,7,Apr-19,720,13500,3420,360,18000



Info del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   sales_outlet_id   8 non-null      int64 
 1   year_month        8 non-null      object
 2   beans_goal        8 non-null      int64 
 3   beverage_goal     8 non-null      int64 
 4   food_goal         8 non-null      int64 
 5   merchandise_goal  8 non-null      int64 
 6   total_goal        8 non-null      int64 
dtypes: int64(6), object(1)
memory usage: 580.0+ bytes

Estadísticas descriptivas:


Unnamed: 0,sales_outlet_id,year_month,beans_goal,beverage_goal,food_goal,merchandise_goal,total_goal
count,8.0,8,8.0,8.0,8.0,8.0,8.0
unique,,1,,,,,
top,,Apr-19,,,,,
freq,,8,,,,,
mean,6.5,,777.5,14578.125,3693.125,388.75,19437.5
std,2.44949,,109.772492,2058.234225,521.419337,54.886246,2744.3123
min,3.0,,720.0,13500.0,3420.0,360.0,18000.0
25%,4.75,,720.0,13500.0,3420.0,360.0,18000.0
50%,6.5,,720.0,13500.0,3420.0,360.0,18000.0
75%,8.25,,765.0,14343.75,3633.75,382.5,19125.0


------------------------------------------------------------


#### Respuesta

- Fechas y horas en sales_receipts están como texto en lugar de datetime.

- instore_yn es texto, conviene pasarlo a booleano.

### b) Identifique y cuantifique los valores nulos en cada conjunto de datos y defina una estrategia para su tratamiento antes de continuar con el análisis.

In [43]:
print("\n--- Conteo de valores nulos por DataFrame ---")
for nombre, df in [
    ("Ventas (transacciones)", df_ventas),
    ("Clientes", df_clientes),
    ("Objetivos de venta", df_objetivos)
]:
    print(f"\nDataFrame: {nombre}")
    nulos_por_columna = df.isnull().sum()
    nulos_presentes = nulos_por_columna[nulos_por_columna > 0]
    if nulos_presentes.empty:
        print("No hay valores nulos.")
    else:
        print("Valores nulos por columna:")
nulos_presentes



--- Conteo de valores nulos por DataFrame ---

DataFrame: Ventas (transacciones)
No hay valores nulos.

DataFrame: Clientes
No hay valores nulos.

DataFrame: Objetivos de venta
No hay valores nulos.


Unnamed: 0,0


### c) Une las tablas relevantes (`201904 sales reciepts.csv` y `customer.csv`) en un único dataframe para un análisis conjunto.

In [44]:
df_ventas_clientes = df_ventas.merge(
    df_clientes,
    how='left',            # Mantenermos todas las transacciones
    on='customer_id'       # clave de unión
)

# print
print("Dimensiones del dataframe combinado:", df_ventas_clientes.shape)
print("Primeras filas del dataframe combinado:")
print(df_ventas_clientes.head())

Dimensiones del dataframe combinado: (49894, 22)
Primeras filas del dataframe combinado:
   transaction_id transaction_date transaction_time  sales_outlet_id  \
0               7       2019-04-01         12:04:43                3   
1              11       2019-04-01         15:54:39                3   
2              19       2019-04-01         14:34:59                3   
3              32       2019-04-01         16:06:04                3   
4              33       2019-04-01         19:18:37                3   

   staff_id  customer_id instore_yn  order  line_item_id  product_id  ...  \
0        12          558          N      1             1          52  ...   
1        17          781          N      1             1          27  ...   
2        17          788          Y      1             1          46  ...   
3        12          683          N      1             1          23  ...   
4        17           99          Y      1             1          34  ...   

   unit_price  

### d) Calcula el ingreso total generado por cada cliente

In [45]:
df_ingreso_por_cliente = (
    df_ventas_clientes
    .groupby('customer_id', as_index=False)['line_item_amount']
    .sum()
    .rename(columns={'line_item_amount': 'total_ingreso'})
)

# print
print("Clientes y su ingreso total generado:")
print(df_ingreso_por_cliente.head())

Clientes y su ingreso total generado:
   customer_id  total_ingreso
0            0      119312.72
1            1          29.20
2            2          90.35
3            3         188.90
4            4          28.75


### e) Analiza el comportamiento temporal de las compras utilizando la fecha y hora de transacción. Explora cómo se distribuyen las transacciones a lo largo de los días, semanas, días de la semana y horas del día.

In [46]:
print("Convirtiendo columnas de fecha y hora...")
df_ventas_clientes['fecha_hora_transaccion'] = pd.to_datetime(
    df_ventas_clientes['transaction_date'] + ' ' + df_ventas_clientes['transaction_time'],
    errors='coerce'
)
df_ventas_clientes.dropna(subset=['fecha_hora_transaccion'], inplace=True)
print("Columna 'fecha_hora_transaccion' creada.")

df_ventas_clientes['solo_fecha'] = df_ventas_clientes['fecha_hora_transaccion'].dt.date
df_ventas_clientes['dia_semana'] = df_ventas_clientes['fecha_hora_transaccion'].dt.day_name()
df_ventas_clientes['hora_dia'] = df_ventas_clientes['fecha_hora_transaccion'].dt.hour
df_ventas_clientes['semana_anio'] = df_ventas_clientes['fecha_hora_transaccion'].dt.isocalendar().week
print("Características temporales extraídas.")

# Transacciones por día
transacciones_por_dia = df_ventas_clientes.groupby('solo_fecha')['transaction_id'].count().reset_index()
fig_dia = px.line(transacciones_por_dia, x='solo_fecha', y='transaction_id', title='Número de Transacciones por Día')
fig_dia.show()

# Transacciones por día de la semana
dias_orden = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
transacciones_por_semana = df_ventas_clientes.groupby('dia_semana')['transaction_id'].count().reset_index()
transacciones_por_semana['dia_semana'] = pd.Categorical(transacciones_por_semana['dia_semana'], categories=dias_orden, ordered=True)
transacciones_por_semana = transacciones_por_semana.sort_values('dia_semana')
fig_semana = px.bar(transacciones_por_semana, x='dia_semana', y='transaction_id', title='Número de Transacciones por Día de la Semana')
fig_semana.show()

# Transacciones por hora del día
transacciones_por_hora = df_ventas_clientes.groupby('hora_dia')['transaction_id'].count().reset_index()
fig_hora = px.bar(transacciones_por_hora, x='hora_dia', y='transaction_id', title='Número de Transacciones por Hora del Día')
fig_hora.show()

# Transacciones por semana del año
transacciones_por_semana_anno = df_ventas_clientes.groupby('semana_anio')['transaction_id'].count().reset_index()
fig_semana_anno = px.bar(transacciones_por_semana_anno, x='semana_anio', y='transaction_id', title='Número de Transacciones por Semana del Año')
fig_semana_anno.show()

Convirtiendo columnas de fecha y hora...
Columna 'fecha_hora_transaccion' creada.
Características temporales extraídas.


#### Respuestas



- **Semanas:** Hay semanas con más de 11.000-12.000 transacciones, pero la última cae a unas 1.400, seguramente porque los datos están incompletos.

- **Días de la semana:** Lo normal es que haya más ventas los viernes y sábados, y menos los domingos o lunes.

- **Horas:** Los picos suelen ser por la mañana y la tarde; las horas con menos ventas suelen coincidir con cierres o baja demanda.

- **Días concretos:** Caídas puntuales pueden deberse a festivos, cierres o datos faltantes.

- **Ojo:** Mejor no tener en cuenta semanas incompletas como la última para análisis anuales.


### f) Examina cómo se distribuyen los ingresos generados por cada cliente para detectar patrones, identificar clientes con ingresos atípicos (outliers) y analizar la concentración de ingresos.

In [47]:
print("\nEstadísticas descriptivas del ingreso total por cliente:")
print(df_ingreso_por_cliente['total_ingreso'].describe())

# Histograma de ingresos
fig_hist_ingresos = px.histogram(df_ingreso_por_cliente, x='total_ingreso', nbins=100,
                                 title='Distribución de Ingresos Totales por Cliente')
fig_hist_ingresos.show()

# Boxplot de ingresos
fig_box_ingresos = px.box(df_ingreso_por_cliente, y='total_ingreso',
                          title='Boxplot de Ingresos Totales por Cliente')
fig_box_ingresos.show()

# Cálculo de outliers usando IQR
Q1 = df_ingreso_por_cliente['total_ingreso'].quantile(0.25)
Q3 = df_ingreso_por_cliente['total_ingreso'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

outliers = df_ingreso_por_cliente[
    (df_ingreso_por_cliente['total_ingreso'] < limite_inferior) |
    (df_ingreso_por_cliente['total_ingreso'] > limite_superior)
]
num_outliers = len(outliers)
print(f"\nLímite inferior para outliers (método IQR): {limite_inferior}")
print(f"Límite superior para outliers (método IQR): {limite_superior}")
print(f"Número de clientes con ingresos considerados outliers: {num_outliers}")
if len(df_ingreso_por_cliente) > 0:
    print(f"Porcentaje de clientes outliers: {(num_outliers / len(df_ingreso_por_cliente)) * 100:.2f}%")
print("\nClientes outlier (máximo 10):")
print(outliers.head(10))

# Concentración de ingresos
df_ingreso_ordenado = df_ingreso_por_cliente.sort_values(by='total_ingreso', ascending=False).reset_index(drop=True)
df_ingreso_ordenado['ingreso_acumulado'] = df_ingreso_ordenado['total_ingreso'].cumsum()
ingreso_total = df_ingreso_ordenado['total_ingreso'].sum()

if ingreso_total > 0:
    df_ingreso_ordenado['porc_ingreso_acum'] = (df_ingreso_ordenado['ingreso_acumulado'] / ingreso_total) * 100
    df_ingreso_ordenado['porc_clientes'] = (np.arange(1, len(df_ingreso_ordenado) + 1) / len(df_ingreso_ordenado)) * 100

    print("\nConcentración de ingresos (Top 10 clientes):")
    print(df_ingreso_ordenado[['customer_id', 'total_ingreso', 'porc_ingreso_acum', 'porc_clientes']].head(10))

    clientes_80_series = df_ingreso_ordenado[df_ingreso_ordenado['porc_ingreso_acum'] <= 80]
    if not clientes_80_series.empty:
        clientes_80 = clientes_80_series['porc_clientes'].max()
        print(f"Aproximadamente el {clientes_80:.2f}% de los clientes generan el 80% de los ingresos.")
    else:
        top_clientes_80 = df_ingreso_ordenado[df_ingreso_ordenado['porc_ingreso_acum'] >= 80]
        if not top_clientes_80.empty:
            clientes_80 = top_clientes_80['porc_clientes'].iloc[0]
            print(f"El {clientes_80:.2f}% de los clientes (los de mayor gasto) generan al menos el 80% de los ingresos.")
        else:
            print("No se pudo determinar el porcentaje de clientes para el 80% de ingresos.")

    # Curva de Lorenz
    fig_lorenz = px.line(df_ingreso_ordenado, x='porc_clientes', y='porc_ingreso_acum',
                         title='Curva de Lorenz para Concentración de Ingresos',
                         labels={'porc_clientes': 'Porcentaje Acumulado de Clientes',
                                 'porc_ingreso_acum': 'Porcentaje Acumulado de Ingresos'})
    fig_lorenz.add_shape(type='line', x0=0, y0=0, x1=100, y1=100, line=dict(dash='dash'))
    fig_lorenz.show()
else:
    print("El ingreso total es cero, no se puede analizar la concentración.")



Estadísticas descriptivas del ingreso total por cliente:
count      2248.000000
mean        103.930583
std        2515.509258
min           2.450000
25%          33.225000
50%          47.000000
75%          65.250000
max      119312.720000
Name: total_ingreso, dtype: float64



Límite inferior para outliers (método IQR): -14.812499999999993
Límite superior para outliers (método IQR): 113.2875
Número de clientes con ingresos considerados outliers: 41
Porcentaje de clientes outliers: 1.82%

Clientes outlier (máximo 10):
     customer_id  total_ingreso
0              0      119312.72
3              3         188.90
22            22         118.85
28            28         128.05
342          342         117.45
548          548         115.45
687          687         115.20
827         5026         168.75
834         5033         141.45
892         5091         131.40

Concentración de ingresos (Top 10 clientes):
   customer_id  total_ingreso  porc_ingreso_acum  porc_clientes
0            0      119312.72          51.067792       0.044484
1         8311         459.75          51.264572       0.088968
2            3         188.90          51.345424       0.133452
3         5026         168.75          51.417652       0.177936
4         8144         165.65       

#### Respuestas

- Distribución sesgada: La media es mucho mayor que la mediana, lo que indica que hay pocos clientes con ingresos muy altos.

- Outliers: Hay clientes con ingresos muy por encima del resto, conviene analizarlos aparte.

- Concentración: Los 10 principales clientes suman un porcentaje muy alto de los ingresos totales.

- Curva de Lorenz: Se confirma una fuerte desigualdad en la aportación de ingresos.

- Regla 80/20: Aproximadamente el 20 % de los clientes generan el 80 % de los ingresos.


### g) Explora las principales características demográficas de los clientes para entender mejor el perfil de compradores.

In [48]:
# 1) Obtener clientes únicos
df_customers_unique = df_ventas_clientes.drop_duplicates(subset=['customer_id'], keep='first').copy()
print(f"Clientes únicos: {df_customers_unique['customer_id'].nunique()}")

# 2) Distribución por género
df_customers_unique['gender'] = df_customers_unique['gender'].fillna('Unknown')
gender_counts = df_customers_unique['gender'].value_counts().reset_index()
gender_counts.columns = ['Género', 'Cantidad']
print("\nDistribución de clientes por género:")
print(gender_counts)
px.bar(gender_counts,
       x='Género',
       y='Cantidad',
       title='Distribución de Clientes por Género').show()

# 3) Cálculo de edad (en años, como float)
df_customers_unique['birthdate'] = pd.to_datetime(df_customers_unique['birthdate'], errors='coerce')
fecha_ref = df_ventas_clientes['fecha_hora_transaccion'].max()
df_customers_unique['edad'] = (
    (fecha_ref - df_customers_unique['birthdate']).dt.days / 365.25
)
print("\nEstadísticas de edad de clientes:")
print(df_customers_unique['edad'].describe())
px.histogram(df_customers_unique,
             x='edad',
             nbins=50,
             title='Distribución de Edades de los Clientes').show()

# 4) Distribución por grupo de edad
bins  = [0, 20, 30, 40, 50, 60, 70, np.inf]
labels= ['<20', '20-29', '30-39', '40-49', '50-59', '60-69', '70+']
df_customers_unique['grupo_edad'] = pd.cut(
    df_customers_unique['edad'],
    bins=bins,
    labels=labels,
    right=False
)
age_group_counts = df_customers_unique['grupo_edad'].value_counts().sort_index().reset_index()
age_group_counts.columns = ['Grupo de Edad', 'Cantidad']
print("\nClientes por grupo de edad:")
print(age_group_counts)
px.bar(age_group_counts,
       x='Grupo de Edad',
       y='Cantidad',
       title='Clientes por Grupo de Edad').show()

# 5) Antigüedad de cliente (tenure) en años como float
df_customers_unique['customer_since'] = pd.to_datetime(df_customers_unique['customer_since'], errors='coerce')
df_customers_unique['antiguedad_años'] = (
    (fecha_ref - df_customers_unique['customer_since']).dt.days / 365.25
)
print("\nEstadísticas de antigüedad de clientes (años):")
print(df_customers_unique['antiguedad_años'].describe())
px.histogram(df_customers_unique,
             x='antiguedad_años',
             nbins=30,
             title='Antigüedad de Clientes (Años)').show()

# 6) Distribución por tienda principal
df_customers_unique['home_store'] = df_customers_unique['home_store'].fillna('Unknown').astype(str)
store_counts = df_customers_unique['home_store'].value_counts().head(20).reset_index()
store_counts.columns = ['Tienda Principal', 'Cantidad']
print("\nTop 20 Tiendas Principales por número de clientes:")
print(store_counts)
px.bar(store_counts,
       x='Tienda Principal',
       y='Cantidad',
       title='Top 20 Tiendas Principales').show()


Clientes únicos: 2248

Distribución de clientes por género:
    Género  Cantidad
0        F       976
1        M       726
2        N       543
3  Unknown         3



Estadísticas de edad de clientes:
count    2245.000000
mean       40.433065
std        14.922991
min        18.053388
25%        27.334702
50%        37.875428
75%        53.352498
max        68.960986
Name: edad, dtype: float64



Clientes por grupo de edad:
  Grupo de Edad  Cantidad
0           <20       118
1         20-29       598
2         30-39       499
3         40-49       346
4         50-59       361
5         60-69       323
6           70+         0



Estadísticas de antigüedad de clientes (años):
count    2245.000000
mean        1.183986
std         0.653166
min         0.054757
25%         0.616016
50%         1.188227
75%         1.746749
max         2.316222
Name: antiguedad_años, dtype: float64



Top 20 Tiendas Principales por número de clientes:
  Tienda Principal  Cantidad
0              5.0       944
1              3.0       800
2              8.0       501
3          Unknown         3


#### Respuesta.

Claro, aquí tienes las conclusiones breves por punto:

---

**Género:**
Predominan las mujeres (\~43%), seguidas de hombres (\~32%) y “N” (\~24%). Solo 3 sin género.

**Edad:**
Mediana de 47 años. La mayoría entre 33 y 65, pocos muy jóvenes o mayores.

**Grupo de edad:**
Más clientes de 30–39 años, luego 20–29 y 40–49. Pocos menores de 20 o mayores de 70.

**Antigüedad:**
Mediana cerca de 1 año. La mayoría lleva menos de 2 años; pocos superan los 5 años.

**Tienda principal:**
La tienda 5 concentra el 42% de los clientes, la 3 el 35% y la 8 el 22%. El resto, cifras bajas.


### h) Evalúa si el uso de promociones ha tenido un efecto en la cantidad de compras o en el importe gastado por los clientes

In [50]:
# Cálculo de ingresos totales en promoción
revenue_by_promo = (
    df_ventas
      .groupby('promo_item_yn', as_index=False)['line_item_amount']
      .sum()
      .rename(columns={'line_item_amount': 'total_ingreso'})
)

print(revenue_by_promo)

# Gráfico comparativo con plotly.express
fig = px.bar(
    revenue_by_promo,
    x='promo_item_yn',
    y='total_ingreso',
    title='Ingresos Totales: Promoción vs No Promoción',
    labels={
        'promo_item_yn': 'Promoción (Y/N)',
        'total_ingreso': 'Ingresos (€)'
    }
)
fig.show()








       customer_id  total_ingreso
count  2248.000000    2248.000000
mean   4285.230872     103.930583
std    3088.871693    2515.509258
min       0.000000       2.450000
25%     561.750000      33.225000
50%    5322.500000      47.000000
75%    5884.250000      65.250000
max    8501.000000  119312.720000


Outliers (IQR):
      customer_id  total_ingreso
0               0      119312.72
3               3         188.90
22             22         118.85
28             28         128.05
342           342         117.45
548           548         115.45
687           687         115.20
827          5026         168.75
834          5033         141.45
892          5091         131.40
1570         5769         123.75
1749         8003         117.15
1765         8019         116.95
1782         8036         119.50
1794         8048         159.95
1817         8071         120.00
1845         8099         129.35
1847         8101         119.15
1855         8109         114.45
1864         8118         128.95
1884         8138         142.60
1890         8144         165.65
1893         8147         123.90
1938         8192         117.90
2013         8267         124.85
2031         8285         164.05
2035         8289         120.50
2043         8297         136.15
2056         8310         1

count    2245.000000
mean       40.433065
std        14.922991
min        18.053388
25%        27.334702
50%        37.875428
75%        53.352498
max        68.960986
Name: edad, dtype: float64


count    2245.000000
mean        1.183986
std         0.653166
min         0.054757
25%         0.616016
50%         1.188227
75%         1.746749
max         2.316222
Name: antiguedad, dtype: float64


### i) Analiza cómo se reparten las transacciones entre la compra en almacén (instore_yn == 'Y') y la compra online (instore_yn == 'N'). Evalúa si existen diferencias en el número de compras y en el valor medio de compra según el canal.

In [None]:
print("\n--- Activity 1i: In-Store vs. Online Channel Analysis ---")
# The instore_yn column might contain empty strings as seen from script output. Treat them as 'N' or a separate category.
# For simplicity, let's map empty strings to 'N' (Online/Unknown)
df_merged['instore_yn'] = df_merged['instore_yn'].replace('', 'N').fillna('N')

channel_analysis = df_merged.groupby('instore_yn').agg(
    total_line_item_revenue=('line_item_amount', 'sum'),
    total_unique_transactions=('transaction_id', 'nunique'),
    total_line_items=('line_item_id', 'count')
).reset_index()

channel_analysis['avg_transaction_value'] = channel_analysis['total_line_item_revenue'] / channel_analysis['total_unique_transactions']
channel_analysis['avg_items_per_transaction'] = channel_analysis['total_line_items'] / channel_analysis['total_unique_transactions']
print(channel_analysis)

fig_channel_revenue = px.bar(channel_analysis, x='instore_yn', y='total_line_item_revenue', title='Ingresos Totales por Canal', labels={'instore_yn': 'Canal (Y=Almacén, N=Online)'}, text_auto=True)
fig_channel_revenue.show()
fig_channel_revenue.write_html("pec4_scripts/plots/1i_channel_revenue.html")

fig_channel_transactions = px.bar(channel_analysis, x='instore_yn', y='total_unique_transactions', title='Número de Transacciones Únicas por Canal', labels={'instore_yn': 'Canal (Y=Almacén, N=Online)'}, text_auto=True)
fig_channel_transactions.show()
fig_channel_transactions.write_html("pec4_scripts/plots/1i_channel_transactions.html")

fig_channel_avg_value = px.bar(channel_analysis, x='instore_yn', y='avg_transaction_value', title='Valor Medio de Transacción por Canal', labels={'instore_yn': 'Canal (Y=Almacén, N=Online)'}, text_auto=True)
fig_channel_avg_value.show()
fig_channel_avg_value.write_html("pec4_scripts/plots/1i_channel_avg_transaction_value.html")

fig_channel_avg_items = px.bar(channel_analysis, x='instore_yn', y='avg_items_per_transaction', title='Número Medio de Items por Transacción por Canal', labels={'instore_yn': 'Canal (Y=Almacén, N=Online)'}, text_auto=True)
fig_channel_avg_items.show()
fig_channel_avg_items.write_html("pec4_scripts/plots/1i_channel_avg_items.html")

### j) Compara las ventas reales con los objetivos establecidos.

In [None]:
print("\n--- Activity 1j: Actual Sales vs. Targets Comparison ---")
df_merged['month_year_dt'] = pd.to_datetime(df_merged['t_date_only']).dt.to_period('M')
actual_sales_april_2019 = df_merged[df_merged['month_year_dt'] == pd.Period('2019-04')]['line_item_amount'].sum()
print(f"Total Actual Sales for April 2019: {actual_sales_april_2019:.2f}")

total_target_april_2019 = df_sales_targets['total_goal'].sum()
print(f"Total Target Sales for April 2019 (sum of all outlets): {total_target_april_2019:.2f}")

if total_target_april_2019 > 0:
    percentage_achievement_april_2019 = (actual_sales_april_2019 / total_target_april_2019) * 100
    variance_april_2019 = actual_sales_april_2019 - total_target_april_2019
    print(f"Variance (Actual - Target) for April 2019: {variance_april_2019:.2f}")
    print(f"Percentage Achievement for April 2019: {percentage_achievement_april_2019:.2f}%")
    comparison_data = pd.DataFrame({
        'Category': ['Actual Sales', 'Target Sales'],
        'Amount': [actual_sales_april_2019, total_target_april_2019]
    })
    fig_overall_comparison = px.bar(comparison_data, x='Category', y='Amount', title='Actual Sales vs. Total Target for April 2019', text_auto=True)
    fig_overall_comparison.show()
    fig_overall_comparison.write_html("pec4_scripts/plots/1j_april_sales_vs_target_overall.html")
else:
    print("Total target for April 2019 is zero or not available.")

## Actividad 2: Modelo predicción CLTV

### a) Ingeniería de características

In [None]:
from sklearn.cluster import KMeans
print("\n--- Activity 2a, Steps 1 & 2: RFM Calculation ---")
snapshot_date = df_merged['transaction_datetime'].max() + dt.timedelta(days=1)
print(f"Snapshot Date: {snapshot_date}")
df_merged_for_rfm = df_merged.dropna(subset=['customer_id'])
df_rfm = df_merged_for_rfm.groupby('customer_id').agg(
    Recency=('transaction_datetime', lambda x: (snapshot_date - x.max()).days),
    Frequency=('transaction_id', 'nunique'),
    Monetary=('line_item_amount', 'sum')
).reset_index()
print(df_rfm.head())
print(df_rfm[['Recency', 'Frequency', 'Monetary']].describe())

#### 3. Eliminar outliers de 'Monetary' basándose en el 95º percentil.

In [None]:
print("\n--- Activity 2a, Steps 3 & 4: Filter Monetary Outliers & Visualize RFM ---")
monetary_percentile_95 = df_rfm['Monetary'].quantile(0.95)
df_rfm_filtered = df_rfm[df_rfm['Monetary'] <= monetary_percentile_95].copy()
print(f"95th percentile for Monetary: {monetary_percentile_95:.2f}")
print(f"Customers before filtering: {len(df_rfm)}, after: {len(df_rfm_filtered)}")

fig_recency = px.histogram(df_rfm_filtered, x='Recency', nbins=50, title='Distribución de Recency (Monetary Filtrada)')
fig_recency.show()
fig_recency.write_html("pec4_scripts/plots/2a_recency_distribution.html")

fig_frequency = px.histogram(df_rfm_filtered, x='Frequency', nbins=50, title='Distribución de Frequency (Monetary Filtrada)')
fig_frequency.show()
fig_frequency.write_html("pec4_scripts/plots/2a_frequency_distribution.html")

fig_monetary = px.histogram(df_rfm_filtered, x='Monetary', nbins=50, title='Distribución de Monetary (Filtrada al 95ºp)')
fig_monetary.show()
fig_monetary.write_html("pec4_scripts/plots/2a_monetary_filtered_distribution.html")

#### 5. Aplicar el Elbow Method para determinar el número óptimo de clusters (k) para cada variable RFM.

In [None]:
print("\n--- Activity 2a, Step 5: Elbow Method for Optimal k --- ")
wcss = {}
k_range = range(1, 11)
rfm_features_for_elbow = ['Recency', 'Frequency', 'Monetary']
for feature in rfm_features_for_elbow:
    wcss[feature] = []
    for k_val in k_range:
        kmeans = KMeans(n_clusters=k_val, init='k-means++', random_state=42, n_init=10)
        kmeans.fit(df_rfm_filtered[[feature]])
        wcss[feature].append(kmeans.inertia_)
    fig_elbow = go.Figure(data=go.Scatter(x=list(k_range), y=wcss[feature], mode='lines+markers'))
    fig_elbow.update_layout(title=f'Elbow Method para {feature}', xaxis_title='Número de Clusters (k)', yaxis_title='WCSS')
    fig_elbow.show()
    fig_elbow.write_html(f"pec4_scripts/plots/2a_elbow_method_{feature.lower()}.html")

#### 6. Realizar clustering con KMeans (k=3) para cada medida, asignar etiquetas de cluster y mapearlas a resultados 1–3.

In [None]:
print("\n--- Activity 2a, Step 6: RFM Clustering and Scoring (k=3) ---")
k_clusters = 3

kmeans_r = KMeans(n_clusters=k_clusters, init='k-means++', random_state=42, n_init=10)
df_rfm_filtered['R_Cluster'] = kmeans_r.fit_predict(df_rfm_filtered[['Recency']])
r_cluster_means = df_rfm_filtered.groupby('R_Cluster')['Recency'].mean().reset_index().sort_values(by='Recency', ascending=True)
r_score_mapping = {cluster_id: k_clusters - i for i, cluster_id in enumerate(r_cluster_means['R_Cluster'])}
df_rfm_filtered['R_Score'] = df_rfm_filtered['R_Cluster'].map(r_score_mapping)

kmeans_f = KMeans(n_clusters=k_clusters, init='k-means++', random_state=42, n_init=10)
df_rfm_filtered['F_Cluster'] = kmeans_f.fit_predict(df_rfm_filtered[['Frequency']])
f_cluster_means = df_rfm_filtered.groupby('F_Cluster')['Frequency'].mean().reset_index().sort_values(by='Frequency', ascending=True)
f_score_mapping = {cluster_id: i + 1 for i, cluster_id in enumerate(f_cluster_means['F_Cluster'])}
df_rfm_filtered['F_Score'] = df_rfm_filtered['F_Cluster'].map(f_score_mapping)

kmeans_m = KMeans(n_clusters=k_clusters, init='k-means++', random_state=42, n_init=10)
df_rfm_filtered['M_Cluster'] = kmeans_m.fit_predict(df_rfm_filtered[['Monetary']])
m_cluster_means = df_rfm_filtered.groupby('M_Cluster')['Monetary'].mean().reset_index().sort_values(by='Monetary', ascending=True)
m_score_mapping = {cluster_id: i + 1 for i, cluster_id in enumerate(m_cluster_means['M_Cluster'])}
df_rfm_filtered['M_Score'] = df_rfm_filtered['M_Cluster'].map(m_score_mapping)

print(df_rfm_filtered[['customer_id', 'R_Score', 'F_Score', 'M_Score']].head())

#### 7. Calcular un TotalScore combinando las puntuaciones de Recency, Frequency y Monetary, y segmentar en 'Low', 'Medium' y 'High'.

In [None]:
print("\n--- Activity 2a, Steps 7, 8 & 9: TotalScore, Segmentation, and Analysis ---")
df_rfm_filtered['TotalScore'] = df_rfm_filtered['R_Score'] + df_rfm_filtered['F_Score'] + df_rfm_filtered['M_Score']
score_bins = [0, 5, 7, 9]
score_labels = ['Low', 'Medium', 'High']
df_rfm_filtered['Segment'] = pd.cut(df_rfm_filtered['TotalScore'], bins=score_bins, labels=score_labels, right=True)

print(df_rfm_filtered[['customer_id', 'TotalScore', 'Segment']].head(10))
print("\nDistribución de clientes por Segmento:")
print(df_rfm_filtered['Segment'].value_counts())

segment_summary = df_rfm_filtered.groupby('Segment', observed=False).agg(
    Mean_Recency=('Recency', 'mean'),
    Mean_Frequency=('Frequency', 'mean'),
    Mean_Monetary=('Monetary', 'mean'),
    Mean_R_Score=('R_Score', 'mean'),
    Mean_F_Score=('F_Score', 'mean'),
    Mean_M_Score=('M_Score', 'mean'),
    Mean_TotalScore=('TotalScore', 'mean'),
    Count=('customer_id', 'count')
).reset_index()
print("\nEstadísticas medias por segmento:")
print(segment_summary)

#### 9. Analiza los segmentos resultantes y proponer estrategias de retención

*(Esta sección se completará manualmente en el notebook después de analizar los outputs del script `activity_2a_step7_8_9_segmentation.py`)*

**Análisis de Segmentos y Estrategias de Retención Propuestas:**
...

### b) Predicción de la probabilidad de recompra y cálculo de CLTV con modelos de clasificación

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
import lightgbm as lgb
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc, accuracy_score
import matplotlib.pyplot as plt
import seaborn as sns
from lifetimes.utils import summary_data_from_transaction_data
import shap
from sklearn.tree import DecisionTreeClassifier, export_graphviz
import graphviz
from sklearn.inspection import PartialDependenceDisplay
import pickle

#### 1. Cargar y preprocesar datos

In [None]:
print("\n--- Activity 2b, Step 1: Load and Preprocess Data for Modeling ---")
df_sales_receipts_orig_2b = pd.read_csv(path_sales_receipts)
df_sales_receipts_proc = clean_col_names(df_sales_receipts_orig_2b.copy())

critical_sales_cols = ['customer_id', 'transaction_id', 'transaction_date', 'transaction_time', 'line_item_amount', 'quantity', 'unit_price']
df_sales_receipts_proc = df_sales_receipts_proc.dropna(subset=critical_sales_cols).copy()
df_sales_receipts_proc['transaction_datetime'] = pd.to_datetime(df_sales_receipts_proc['transaction_date'] + ' ' + df_sales_receipts_proc['transaction_time'], errors='coerce')
df_sales_receipts_proc = df_sales_receipts_proc.dropna(subset=['transaction_datetime'])
df_sales_receipts_proc = df_sales_receipts_proc.rename(columns={'line_item_amount': 'revenue'})
df_model_input = df_sales_receipts_proc[['customer_id', 'transaction_datetime', 'revenue', 'transaction_id']].copy()
print(df_model_input.head())
df_model_input.info()

#### 2. Definir período de calibración y ventana hold-out

In [None]:
print("\n--- Activity 2b, Step 2: Define Calibration/Hold-out and Generate Lifetimes RFM Summary ---")
min_date = df_model_input['transaction_datetime'].min()
max_date = df_model_input['transaction_datetime'].max()
total_duration_days = (max_date - min_date).days
holdout_days = int(total_duration_days * 0.20)
calibration_end_date = max_date - dt.timedelta(days=holdout_days)
print(f"Calibration end date: {calibration_end_date}")

df_rfm_calib = summary_data_from_transaction_data(
    transactions=df_model_input,
    customer_id_col='customer_id',
    datetime_col='transaction_datetime',
    monetary_value_col='revenue',
    observation_period_end=calibration_end_date,
    freq='D'
)
print(df_rfm_calib.head())

#### 3. Crear variable objetivo y dividir conjuntos

In [None]:
print("\n--- Activity 2b, Step 3: Create Target Variable and Split Datasets ---")
holdout_start_date = calibration_end_date + dt.timedelta(days=1)
df_holdout_transactions = df_model_input[
    (df_model_input['transaction_datetime'] >= holdout_start_date) &
    (df_model_input['transaction_datetime'] <= max_date)
]
customers_in_holdout = df_holdout_transactions['customer_id'].unique()
df_rfm_calib['target_purchased_in_holdout'] = df_rfm_calib.index.isin(customers_in_holdout).astype(int)
print(df_rfm_calib['target_purchased_in_holdout'].value_counts(normalize=True))

X = df_rfm_calib[['frequency', 'recency', 'T', 'monetary_value']]
y = df_rfm_calib['target_purchased_in_holdout']

X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.30, random_state=42, stratify=y)
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.20, random_state=42, stratify=y_train_val)

print(f"X_train: {X_train.shape}, X_val: {X_val.shape}, X_test: {X_test.shape}")

#### 4. Entrenar modelos y evaluar en validación

In [None]:
print("\n--- Activity 2b, Step 4: Train Models and Evaluate on Validation Set ---")
y_train_sum_0 = (y_train == 0).sum()
y_train_sum_1 = (y_train == 1).sum()
scale_pos_weight_xgb = y_train_sum_0 / y_train_sum_1 if y_train_sum_1 > 0 else 1

models = {
    "RandomForest": RandomForestClassifier(random_state=42, class_weight='balanced'),
    "XGBoost": xgb.XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss', scale_pos_weight=scale_pos_weight_xgb),
    "LightGBM": lgb.LGBMClassifier(random_state=42, class_weight='balanced')
}
model_results_dict = {} # Renamed from 'results' to avoid conflict
roc_plot_data = []

for model_name, model_instance in models.items(): # Renamed model to model_instance
    print(f"--- {model_name} ---")
    model_instance.fit(X_train, y_train)
    y_pred_val = model_instance.predict(X_val)
    y_proba_val = model_instance.predict_proba(X_val)[:, 1]

    accuracy = accuracy_score(y_val, y_pred_val)
    cm = confusion_matrix(y_val, y_pred_val)
    cr = classification_report(y_val, y_pred_val, zero_division=0)
    fpr, tpr, _ = roc_curve(y_val, y_proba_val)
    roc_auc = auc(fpr, tpr)

    model_results_dict[model_name] = {'accuracy': accuracy, 'cm': cm, 'cr': cr, 'roc_auc': roc_auc, 'model': model_instance}
    roc_plot_data.append({'fpr': fpr, 'tpr': tpr, 'auc': roc_auc, 'name': model_name})

    print(f"Accuracy: {accuracy:.4f}, AUC: {roc_auc:.4f}")
    print("Confusion Matrix:\n", cm)
    # Plotting CM
    plt.figure(figsize=(5,4))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False)
    plt.title(f'CM - {model_name} (Validation)')
    plt.xlabel('Predicted'); plt.ylabel('Actual')
    plt.savefig(f"pec4_scripts/plots/confusion_matrices/2b_cm_{model_name.lower()}_val.png")
    plt.show()
    print("Classification Report:\n", cr)

fig_roc = go.Figure()
for data in roc_plot_data:
    fig_roc.add_trace(go.Scatter(x=data['fpr'], y=data['tpr'], mode='lines', name=f"{data['name']} (AUC = {data['auc']:.2f})"))
fig_roc.add_shape(type='line', line=dict(dash='dash'), x0=0, x1=1, y0=0, y1=1)
fig_roc.update_layout(title='Curvas ROC (Validación)', xaxis_title='FPR', yaxis_title='TPR')
fig_roc.show()
fig_roc.write_html("pec4_scripts/plots/2b_roc_curves_validation.html")

#### 5. Explicabilidad del modelo final

In [None]:
print("\n--- Activity 2b, Step 5: Explain Final Model --- ")
# Assuming RandomForest was best, or choose based on actual results
final_model_name_for_explain = "RandomForest"
final_model_to_explain = model_results_dict[final_model_name_for_explain]['model']

if hasattr(final_model_to_explain, 'feature_importances_'):
    importances = final_model_to_explain.feature_importances_
    feature_names = X_train.columns
    importance_df = pd.DataFrame({'feature': feature_names, 'importance': importances}).sort_values(by='importance', ascending=False)
    plt.figure(figsize=(8, 5))
    sns.barplot(x='importance', y='feature', data=importance_df)
    plt.title(f'Feature Importances - {final_model_name_for_explain}')
    plt.tight_layout()
    plt.savefig("pec4_scripts/plots/explainability/2b_feature_importance.png")
    plt.show()

explainer = shap.TreeExplainer(final_model_to_explain)
shap_explanation_obj = explainer(X_val)
shap_values_class1 = shap_explanation_obj.values[:, :, 1] if isinstance(shap_explanation_obj.values, np.ndarray) and shap_explanation_obj.values.ndim == 3 else explainer.shap_values(X_val)[1]

plt.figure()
shap.summary_plot(shap_values_class1, X_val, plot_type="bar", show=False)
plt.title(f'SHAP Global Importance (Class 1) - {final_model_name_for_explain}')
plt.tight_layout()
plt.savefig("pec4_scripts/plots/explainability/2b_shap_summary_bar.png")
plt.show()

plt.figure()
shap.summary_plot(shap_values_class1, X_val, show=False)
plt.title(f'SHAP Summary (Beeswarm - Class 1) - {final_model_name_for_explain}')
plt.tight_layout()
plt.savefig("pec4_scripts/plots/explainability/2b_shap_summary_beeswarm.png")
plt.show()

mean_abs_shap = np.abs(shap_values_class1).mean(axis=0)
shap_importance_df = pd.DataFrame({'feature': X_val.columns, 'mean_abs_shap': mean_abs_shap}).sort_values(by='mean_abs_shap', ascending=False)
top_5_features_shap = shap_importance_df['feature'].head(5).tolist()
for feature in top_5_features_shap:
    plt.figure()
    shap.dependence_plot(feature, shap_values_class1, X_val, interaction_index='auto', show=False)
    plt.tight_layout()
    plt.savefig(f"pec4_scripts/plots/explainability/2b_shap_dependence_{feature}.png")
    plt.show()

pdp_features = [col for col in ['recency', 'frequency', 'T', 'monetary_value'] if col in X_val.columns]
if pdp_features:
    fig, ax = plt.subplots(figsize=(12, 8))
    PartialDependenceDisplay.from_estimator(final_model_to_explain, X_val, pdp_features, ax=ax, n_cols=2)
    plt.suptitle(f'Partial Dependence Plots - {final_model_name_for_explain}')
    plt.tight_layout(rect=[0, 0, 1, 0.96])
    plt.savefig("pec4_scripts/plots/explainability/2b_pdp.png")
    plt.show()

y_pred_final_model_val = final_model_to_explain.predict(X_val)
surrogate_tree = DecisionTreeClassifier(max_depth=3, random_state=42)
surrogate_tree.fit(X_val, y_pred_final_model_val)
dot_data = export_graphviz(surrogate_tree, out_file=None, feature_names=X_val.columns, class_names=['No Recompra', 'Recompra'], filled=True, rounded=True, special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('pec4_scripts/plots/explainability/2b_surrogate_tree', format="png", cleanup=True)
print("Surrogate tree plot saved.")
display(graph) # To show in notebook if run interactively

#### 6. Interpretación y mejoras

*(Esta sección se completará manualmente en el notebook después de analizar los outputs de los scripts de modelado y explicabilidad)*
...

## Actividad 3: Gobernanza

### Pregunta 1: ¿Qué prácticas implementaría para garantizar la calidad, trazabilidad y seguridad de los datos utilizados en el cálculo de CLTV y la predicción de recompra?

*(Respuesta teórica basada en buenas prácticas)*

### Pregunta 2: De acuerdo con la propuesta de la AI Act de la UE, ¿este sistema de predicción de recompra se consideraría de alto riesgo? Justifique su respuesta y proponga medidas de mitigación.

*(Respuesta teórica basada en la AI Act y buenas prácticas)*

### Pregunta 3: ¿Cómo aseguraría el cumplimiento del RGPD en el tratamiento de datos de clientes para entrenar estos modelos, especialmente con respecto al derecho de supresión y portabilidad?

*(Respuesta teórica basada en el RGPD)*