In [1]:
import pandas as pd

ruta_archivo = r"df_final_clients.csv"

df_clients = pd.read_csv(ruta_archivo, delimiter=',', encoding='utf-8')
df_clients

Unnamed: 0,client_id,clnt_tenure_yr,clnt_tenure_mnth,clnt_age,gender,num_accts,bal,calls_6_mnth,logons_6_mnth,variation
0,836976,6.0,73.0,60.5,U,2.0,45105.30,6.0,9.0,Test
1,2304905,7.0,94.0,58.0,U,2.0,110860.30,6.0,9.0,Control
2,1439522,5.0,64.0,32.0,U,2.0,52467.79,6.0,9.0,Test
3,1562045,16.0,198.0,49.0,M,2.0,67454.65,3.0,6.0,Test
4,5126305,12.0,145.0,33.0,F,2.0,103671.75,0.0,3.0,Control
...,...,...,...,...,...,...,...,...,...,...
70604,7993686,4.0,56.0,38.5,U,3.0,1411062.68,5.0,5.0,Not participant
70605,8981690,12.0,148.0,31.0,M,2.0,101867.07,6.0,6.0,Not participant
70606,333913,16.0,198.0,61.5,F,2.0,40745.00,3.0,3.0,Not participant
70607,1573142,21.0,255.0,68.0,M,3.0,475114.69,4.0,4.0,Not participant


In [2]:
#Comprender de los datos
print(df_clients.info())
print(df_clients.describe())
print(df_clients.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70609 entries, 0 to 70608
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   client_id         70609 non-null  int64  
 1   clnt_tenure_yr    70595 non-null  float64
 2   clnt_tenure_mnth  70595 non-null  float64
 3   clnt_age          70594 non-null  float64
 4   gender            70595 non-null  object 
 5   num_accts         70595 non-null  float64
 6   bal               70595 non-null  float64
 7   calls_6_mnth      70595 non-null  float64
 8   logons_6_mnth     70595 non-null  float64
 9   variation         70609 non-null  object 
dtypes: float64(7), int64(1), object(2)
memory usage: 5.4+ MB
None
          client_id  clnt_tenure_yr  clnt_tenure_mnth      clnt_age  \
count  7.060900e+04    70595.000000      70595.000000  70594.000000   
mean   5.004992e+06       12.052950        150.659367     46.442240   
std    2.877278e+06        6.871819         82.

In [3]:
df_clients.rename(columns={'gendr': 'gender'}, inplace=True)

In [4]:
#### ANÁLISIS DEMOGRÁFICO ####

# Resumen demográfico general
demographics_summary = df_clients[['clnt_age', 'clnt_tenure_yr', 'clnt_tenure_mnth', 'gender']].describe()
print("Resumen demográfico general:")
print(demographics_summary)

# Distribución por género
gender_distribution = df_clients['gender'].value_counts(normalize=True) * 100
print("\nDistribución porcentual por género:")
print(gender_distribution)

# Promedio de edad y antigüedad por género
age_tenure_by_gender = df_clients.groupby('gender')[['clnt_age', 'clnt_tenure_yr', 'clnt_tenure_mnth']].mean()
print("\nPromedio de edad y antigüedad por género:")
print(age_tenure_by_gender)


Resumen demográfico general:
           clnt_age  clnt_tenure_yr  clnt_tenure_mnth
count  70594.000000    70595.000000      70595.000000
mean      46.442240       12.052950        150.659367
std       15.591273        6.871819         82.089854
min       13.500000        2.000000         33.000000
25%       32.500000        6.000000         82.000000
50%       47.000000       11.000000        136.000000
75%       59.000000       16.000000        192.000000
max       96.000000       62.000000        749.000000

Distribución porcentual por género:
U    34.173808
M    33.605779
F    32.220412
Name: gender, dtype: float64

Promedio de edad y antigüedad por género:
         clnt_age  clnt_tenure_yr  clnt_tenure_mnth
gender                                             
F       49.520950       14.792491        183.423591
M       48.582364       14.882608        184.366886
U       41.435088        6.687378         86.620725


In [5]:
#### ANÁLISIS DEL COMPORTAMIENTO ####

# Distribución por número de cuentas y saldo promedio
accounts_balance_summary = df_clients[['num_accts', 'bal']].describe()
print("\nResumen del número de cuentas y saldos:")
print(accounts_balance_summary)

# Promedio de llamadas y logons por género
activity_by_gender = df_clients.groupby('gender')[['calls_6_mnth', 'logons_6_mnth']].mean()
print("\nPromedio de llamadas y logons por género:")
print(activity_by_gender)

# Análisis por pasos del proceso
if 'process_step' in df_clients.columns:
    process_activity = df_clients['process_step'].value_counts()
    print("\nDistribución de pasos del proceso digital:")
    print(process_activity)


Resumen del número de cuentas y saldos:
          num_accts           bal
count  70595.000000  7.059500e+04
mean       2.255528  1.474452e+05
std        0.534997  3.015087e+05
min        1.000000  1.378942e+04
25%        2.000000  3.734683e+04
50%        2.000000  6.333290e+04
75%        2.000000  1.375449e+05
max        8.000000  1.632004e+07

Promedio de llamadas y logons por género:
        calls_6_mnth  logons_6_mnth
gender                             
F           3.090785       5.287127
M           3.706837       5.885643
U           3.338528       5.516767


In [6]:

# Correlación entre antigüedad y actividad
correlations = df_clients[['clnt_tenure_yr', 'clnt_age', 'logons_6_mnth', 'calls_6_mnth', 'bal']].corr()
print("\nCorrelación entre antigüedad, edad, actividad y saldo:")
print(correlations)

# Segmentación por edad (jóvenes, adultos y mayores)
df_clients['age_group'] = pd.cut(df_clients['clnt_age'], bins=[0, 35, 60, 100], labels=['Joven', 'Adulto', 'Mayor'])
activity_by_age_group = df_clients.groupby('age_group')[['logons_6_mnth', 'calls_6_mnth', 'bal']].mean()
print("\nPromedio de actividad y saldo por grupo de edad:")
print(activity_by_age_group)




Correlación entre antigüedad, edad, actividad y saldo:
                clnt_tenure_yr  clnt_age  logons_6_mnth  calls_6_mnth  \
clnt_tenure_yr        1.000000  0.309372       0.048516      0.049919   
clnt_age              0.309372  1.000000       0.084683      0.026734   
logons_6_mnth         0.048516  0.084683       1.000000      0.822217   
calls_6_mnth          0.049919  0.026734       0.822217      1.000000   
bal                   0.203620  0.209549       0.165380      0.162165   

                     bal  
clnt_tenure_yr  0.203620  
clnt_age        0.209549  
logons_6_mnth   0.165380  
calls_6_mnth    0.162165  
bal             1.000000  

Promedio de actividad y saldo por grupo de edad:
           logons_6_mnth  calls_6_mnth            bal
age_group                                            
Joven           5.495761      3.438646   69439.283575
Adulto          5.405998      3.241980  155446.103351
Mayor           6.015676      3.613896  236171.604424


In [7]:
# Promedio de actividad por grupo de prueba
activity_by_variation = df_clients.groupby('variation')[['calls_6_mnth', 'logons_6_mnth']].mean()
print("\nPromedio de llamadas y logons por grupo de prueba:")
print(activity_by_variation)



Promedio de llamadas y logons por grupo de prueba:
                 calls_6_mnth  logons_6_mnth
variation                                   
Control              3.129213       6.166277
Not participant      4.108619       4.147710
Test                 3.061941       6.101851


In [8]:
# Distribución de género por grupo de prueba
gender_by_variation = df_clients.groupby(['variation', 'gender']).size().unstack(fill_value=0)
print("\nDistribución de género por grupo de prueba:")
print(gender_by_variation)



Distribución de género por grupo de prueba:
gender              F     M     U
variation                        
Control          7543  7970  8014
Not participant  6487  6777  6843
Test             8716  8977  9268


In [9]:
# Saldo promedio por grupo de prueba
balance_by_variation = df_clients.groupby('variation')['bal'].mean()
print("\nSaldo promedio por grupo de prueba:")
print(balance_by_variation)


Saldo promedio por grupo de prueba:
variation
Control            150147.326660
Not participant    142248.958795
Test               148962.605032
Name: bal, dtype: float64


In [10]:
# Edad promedio y distribución por grupo de prueba
age_by_variation = df_clients.groupby('variation')['clnt_age'].describe()
print("\nResumen de edades por grupo de prueba:")
print(age_by_variation)


Resumen de edades por grupo de prueba:
                   count       mean        std   min   25%   50%   75%   max
variation                                                                   
Control          23526.0  47.498427  15.521781  17.0  33.5  48.5  60.0  96.0
Not participant  20107.0  44.238773  15.555909  13.5  30.5  45.0  56.5  92.5
Test             26961.0  47.163922  15.514461  17.0  33.5  47.5  59.5  96.0


In [11]:
### RESULTADOS DE LA EXPERIENCIA ### 

# Todos los clientes de client_id_final aparecen en client_id_webdata, pero webdata tiene 
# info de clientes que no están en final


# Archivo separado por comas
df_webdata = pd.read_csv('df_webdata.csv')
df_final = pd.read_csv('df_final_clients.csv')

# Filtrar df_webdata para crear df_participants:
df_participants = df_webdata[df_webdata['variation'] != "Not participant"]

# Verificar las primeras filas del nuevo DataFrame
df_participants.head()




Unnamed: 0,client_id,visit_id,duration,start,step_1,step_2,step_3,confirm,variation
3,555,637149525_38041617439_716659,00:02:38,1,1,1,1,1,Test
4,647,40369564_40101682850_311847,00:06:17,1,1,1,1,1,Test
11,934,7076463_57954418406_971348,00:02:22,4,0,0,0,0,Test
12,1028,557292053_87239438319_391157,00:08:58,1,5,2,1,0,Control
14,1104,543158812_46395476577_767725,00:00:00,1,0,0,0,0,Control


In [12]:
# Filtrar los client_id que tienen confirm >= 1 y start >= 1
filtered_clients = df_participants[(df_participants['confirm'] >= 1) & (df_participants['start'] >= 1)]

# Contar los client_id únicos que cumplen los criterios, agrupados por variation
count_filtered_by_variation = filtered_clients.groupby('variation')['client_id'].nunique()

# Contar el total de client_id únicos por variation
total_clients_by_variation = df_participants.groupby('variation')['client_id'].nunique()

# Combinar ambos conteos en un DataFrame
result = pd.DataFrame({
    'filtered_count': count_filtered_by_variation,
    'total_count': total_clients_by_variation
}).fillna(0)

# Calcular proporciones
result['proportion'] = result['filtered_count'] / result['total_count']

# Mostrar el resultado
result

Unnamed: 0_level_0,filtered_count,total_count,proportion
variation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Control,14919,23532,0.633988
Test,17906,26968,0.663972


In [13]:
# Filtrar filas que no cumplan con la condición start >= step_1 >= step_2 >= step_3 >= confirm
filtered_df = df_participants[
    ~(df_participants['start'] >= df_participants['step_1']) |
    ~(df_participants['step_1'] >= df_participants['step_2']) |
    ~(df_participants['step_2'] >= df_participants['step_3']) |
    ~(df_participants['step_3'] >= df_participants['confirm'])
]

filtered_df

Unnamed: 0,client_id,visit_id,duration,start,step_1,step_2,step_3,confirm,variation
12,1028,557292053_87239438319_391157,00:08:58,1,5,2,1,0,Control
19,1197,71862471_21202285428_848395,00:01:35,1,1,2,2,1,Control
22,1336,614001770_19101025926_112779,00:01:22,0,0,0,0,2,Test
23,1346,27144337_83739845380_214282,00:08:15,5,2,1,2,0,Test
41,1702,243444359_78696078676_118990,00:00:00,0,0,0,0,1,Test
...,...,...,...,...,...,...,...,...,...
159043,9995295,944432037_72425410366_517931,00:02:53,2,3,3,1,0,Test
159072,9997391,84654768_90613632047_633963,00:03:43,1,1,3,3,0,Control
159078,9998156,254203981_1117450921_444839,00:02:46,2,1,2,2,1,Test
159081,9998346,189177304_69869411700_783154,00:12:28,1,2,4,3,1,Control


In [14]:
# Filtrar para encontrar si existe algún client_id con start igual a 0
clients_with_start_zero = df_participants[df_participants['start'] == 0]

clients_with_start_zero


Unnamed: 0,client_id,visit_id,duration,start,step_1,step_2,step_3,confirm,variation
22,1336,614001770_19101025926_112779,00:01:22,0,0,0,0,2,Test
41,1702,243444359_78696078676_118990,00:00:00,0,0,0,0,1,Test
42,1702,733093772_49185493415_662403,00:00:00,0,0,0,0,1,Test
43,1702,825109778_55379502512_27372,00:00:00,0,0,0,0,1,Test
84,4603,238673227_44979180689_959603,00:00:00,0,0,0,0,1,Test
...,...,...,...,...,...,...,...,...,...
158963,9990356,808105267_51394109255_961617,00:00:00,0,0,0,0,1,Test
158964,9990356,902964129_57525956793_906690,00:00:00,0,0,0,0,1,Test
159015,9994115,437239712_4408495127_320934,00:00:53,0,0,0,0,2,Test
159042,9995265,809603340_74941852314_828669,00:04:17,0,2,2,2,0,Control


In [15]:
# Convertir la columna 'duration' a formato de tiempo en segundos
df_participants['duration_seconds'] = pd.to_timedelta(df_participants['duration']).dt.total_seconds()

# Duración promedio por grupo de prueba
duration_by_variation = df_participants.groupby('variation')['duration_seconds'].mean()
print("\nDuración promedio de sesión por grupo de prueba:")
print(duration_by_variation)



Duración promedio de sesión por grupo de prueba:
variation
Control    280.510653
Test       315.455999
Name: duration_seconds, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [19]:
# Usuarios que completaron el proceso (confirm == 1)
completion_rate = df_participants.groupby('variation')['confirm'].mean() * 100
print("\nTasa de completación por grupo de prueba (%):")
print(completion_rate)



Tasa de completación por grupo de prueba (%):
variation
Control    53.766709
Test       68.809805
Name: confirm, dtype: float64


In [21]:
# Calcular los pasos completados
df_participants['steps_completed'] = df_participants[['step_1', 'step_2', 'step_3', 'confirm']].sum(axis=1)

# Relación tiempo-pasos completados por grupo
time_steps_corr = df_participants.groupby('variation')[['duration_seconds', 'steps_completed']].corr().iloc[0::2, 1]
print("\nCorrelación entre duración y pasos completados por grupo:")
print(time_steps_corr)



Correlación entre duración y pasos completados por grupo:
variation                  
Control    duration_seconds    0.388738
Test       duration_seconds    0.430397
Name: steps_completed, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [22]:
# Proporción de sesiones con duración 0 por grupo
zero_duration = df_participants[df_participants['duration_seconds'] == 0].groupby('variation').size() / df_participants.groupby('variation').size() * 100
print("\nProporción de sesiones con duración 0 por grupo (%):")
print(zero_duration)



Proporción de sesiones con duración 0 por grupo (%):
variation
Control    17.585212
Test       15.396194
dtype: float64


In [24]:
# Distribución del número de pasos completados por grupo
steps_distribution = df_participants.groupby(['variation', 'steps_completed']).size().unstack(fill_value=0)
print("\nDistribución de pasos completados por grupo:")
print(steps_distribution)



Distribución de pasos completados por grupo:
steps_completed    0     1     2     3      4     5     6    7    8    9   \
variation                                                                   
Control          7572  3583  2191  2322  11225  1769  1572  802  538  248   
Test             5082  5770  2938  2701  12955  3659  1717  953  519  350   

steps_completed  ...  20  21  22  23  25  26  27  28  32  57  
variation        ...                                          
Control          ...   1   1   0   0   0   1   1   0   1   0  
Test             ...   5   4   4   1   2   0   3   2   0   1  

[2 rows x 30 columns]


In [33]:
# Filtramos los usuarios que completaron todos los pasos y confirmaron
fully_completed = df_participants[
    (df_participants['step_1'] == 1) & 
    (df_participants['step_2'] == 1) & 
    (df_participants['step_3'] == 1) & 
    (df_participants['confirm'] == 1)
]

fully_completed_count = fully_completed.groupby('variation')['confirm'].count()
total_confirmed = df_participants[df_participants['confirm'] == 1].groupby('variation')['confirm'].count()

# Calcular el porcentaje de confirmaciones con pasos completos sobre el total de confirmaciones
percentage_fully_completed = (fully_completed_count / total_confirmed) * 100

# El resultado por cada grupo:
print("\nNúmero de usuarios que completaron todos los pasos y confirmaron por grupo de prueba:")
print(fully_completed_count)

print("\nPorcentaje de usuarios que completaron todos los pasos y confirmaron sobre el total de confirmados por grupo de prueba (%):")
print(percentage_fully_completed)



Número de usuarios que completaron todos los pasos y confirmaron por grupo de prueba:
variation
Control    10636
Test       12010
Name: confirm, dtype: int64

Porcentaje de usuarios que completaron todos los pasos y confirmaron sobre el total de confirmados por grupo de prueba (%):
variation
Control    69.416525
Test       63.173952
Name: confirm, dtype: float64
