In [1]:
import pandas as pd

df_web_data = pd.read_csv('../02_DATA_LIMPIO/df_web_data_combinado_limpio.csv')
df_expanded = pd.read_csv('../02_DATA_LIMPIO/df_final_expanded_limpio.csv')

In [2]:
df_merged = pd.merge(df_web_data, df_expanded, on='client_id', how='inner')

In [3]:
# Creo una columna para marcar si el cliente completó el proceso
df_merged['finalizo'] = df_merged['process_step'] == 'confirm'

In [4]:
# Resumen estadístico de las variables de actividad digital
actividad_digital = df_merged[['finalizo', 'logons_6_mnth', 'calls_6_mnth']]
print("Resumen estadístico de la actividad digital:")
print(actividad_digital.groupby('finalizo').mean())

Resumen estadístico de la actividad digital:
          logons_6_mnth  calls_6_mnth
finalizo                             
False          6.269119      3.230670
True           6.313440      3.276484


In [5]:
# Correlación entre las variables de actividad digital y finalización
correlacion_logons = df_merged['finalizo'].astype(int).corr(df_merged['logons_6_mnth'])
correlacion_calls = df_merged['finalizo'].astype(int).corr(df_merged['calls_6_mnth'])

print(f"Correlación entre logins y finalización: {correlacion_logons:.2f}")
print(f"Correlación entre llamadas y finalización: {correlacion_calls:.2f}")

Correlación entre logins y finalización: 0.01
Correlación entre llamadas y finalización: 0.01


In [6]:
from scipy.stats import ttest_ind

# Divido grupos en finalizadores y no finalizadores
finalizadores = df_merged[df_merged['finalizo']]
no_finalizadores = df_merged[~df_merged['finalizo']]

# Prueba t para logons_6_mnth
t_logons, p_logons = ttest_ind(finalizadores['logons_6_mnth'], no_finalizadores['logons_6_mnth'])
print(f"Prueba t para logins: t={t_logons:.2f}, p={p_logons:.4f}")

# Prueba t para calls_6_mnth
t_calls, p_calls = ttest_ind(finalizadores['calls_6_mnth'], no_finalizadores['calls_6_mnth'])
print(f"Prueba t para llamadas: t={t_calls:.2f}, p={p_calls:.4f}")

Prueba t para logins: t=3.93, p=0.0001
Prueba t para llamadas: t=4.04, p=0.0001


**Conclusión**
- La actividad digital (logins y llamadas) tiene un efecto estadísticamente significativo, aunque no lineal, en la finalización del proceso.
- Los usuarios que completan el proceso muestran mayores valores promedio de logons_6_mnth y calls_6_mnth.