In [11]:
import pandas as pd

ruta_archivo = r"df_final_clients.csv"

df_clients = pd.read_csv(ruta_archivo, delimiter=',', encoding='utf-8')
df_clients

Unnamed: 0,client_id,clnt_tenure_yr,clnt_tenure_mnth,clnt_age,gender,num_accts,bal,calls_6_mnth,logons_6_mnth,variation
0,836976,6.0,73.0,60.5,U,2.0,45105.30,6.0,9.0,Test
1,2304905,7.0,94.0,58.0,U,2.0,110860.30,6.0,9.0,Control
2,1439522,5.0,64.0,32.0,U,2.0,52467.79,6.0,9.0,Test
3,1562045,16.0,198.0,49.0,M,2.0,67454.65,3.0,6.0,Test
4,5126305,12.0,145.0,33.0,F,2.0,103671.75,0.0,3.0,Control
...,...,...,...,...,...,...,...,...,...,...
70604,7993686,4.0,56.0,38.5,U,3.0,1411062.68,5.0,5.0,Not participant
70605,8981690,12.0,148.0,31.0,M,2.0,101867.07,6.0,6.0,Not participant
70606,333913,16.0,198.0,61.5,F,2.0,40745.00,3.0,3.0,Not participant
70607,1573142,21.0,255.0,68.0,M,3.0,475114.69,4.0,4.0,Not participant


In [12]:
#Comprender de los datos
print(df_clients.info())
print(df_clients.describe())
print(df_clients.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70609 entries, 0 to 70608
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   client_id         70609 non-null  int64  
 1   clnt_tenure_yr    70595 non-null  float64
 2   clnt_tenure_mnth  70595 non-null  float64
 3   clnt_age          70594 non-null  float64
 4   gender            70595 non-null  object 
 5   num_accts         70595 non-null  float64
 6   bal               70595 non-null  float64
 7   calls_6_mnth      70595 non-null  float64
 8   logons_6_mnth     70595 non-null  float64
 9   variation         70609 non-null  object 
dtypes: float64(7), int64(1), object(2)
memory usage: 5.4+ MB
None
          client_id  clnt_tenure_yr  clnt_tenure_mnth      clnt_age  \
count  7.060900e+04    70595.000000      70595.000000  70594.000000   
mean   5.004992e+06       12.052950        150.659367     46.442240   
std    2.877278e+06        6.871819         82.

In [13]:
df_clients.rename(columns={'gendr': 'gender'}, inplace=True)

In [14]:
#### ANÁLISIS DEMOGRÁFICO ####

# Resumen demográfico general
demographics_summary = df_clients[['clnt_age', 'clnt_tenure_yr', 'clnt_tenure_mnth', 'gender']].describe()
print("Resumen demográfico general:")
print(demographics_summary)

# Distribución por género
gender_distribution = df_clients['gender'].value_counts(normalize=True) * 100
print("\nDistribución porcentual por género:")
print(gender_distribution)

# Promedio de edad y antigüedad por género
age_tenure_by_gender = df_clients.groupby('gender')[['clnt_age', 'clnt_tenure_yr', 'clnt_tenure_mnth']].mean()
print("\nPromedio de edad y antigüedad por género:")
print(age_tenure_by_gender)


Resumen demográfico general:
           clnt_age  clnt_tenure_yr  clnt_tenure_mnth
count  70594.000000    70595.000000      70595.000000
mean      46.442240       12.052950        150.659367
std       15.591273        6.871819         82.089854
min       13.500000        2.000000         33.000000
25%       32.500000        6.000000         82.000000
50%       47.000000       11.000000        136.000000
75%       59.000000       16.000000        192.000000
max       96.000000       62.000000        749.000000

Distribución porcentual por género:
U    34.173808
M    33.605779
F    32.220412
Name: gender, dtype: float64

Promedio de edad y antigüedad por género:
         clnt_age  clnt_tenure_yr  clnt_tenure_mnth
gender                                             
F       49.520950       14.792491        183.423591
M       48.582364       14.882608        184.366886
U       41.435088        6.687378         86.620725


In [15]:
#### ANÁLISIS DEL COMPORTAMIENTO ####

# Distribución por número de cuentas y saldo promedio
accounts_balance_summary = df_clients[['num_accts', 'bal']].describe()
print("\nResumen del número de cuentas y saldos:")
print(accounts_balance_summary)

# Promedio de llamadas y logons por género
activity_by_gender = df_clients.groupby('gender')[['calls_6_mnth', 'logons_6_mnth']].mean()
print("\nPromedio de llamadas y logons por género:")
print(activity_by_gender)

# Análisis por pasos del proceso
if 'process_step' in df_clients.columns:
    process_activity = df_clients['process_step'].value_counts()
    print("\nDistribución de pasos del proceso digital:")
    print(process_activity)


Resumen del número de cuentas y saldos:
          num_accts           bal
count  70595.000000  7.059500e+04
mean       2.255528  1.474452e+05
std        0.534997  3.015087e+05
min        1.000000  1.378942e+04
25%        2.000000  3.734683e+04
50%        2.000000  6.333290e+04
75%        2.000000  1.375449e+05
max        8.000000  1.632004e+07

Promedio de llamadas y logons por género:
        calls_6_mnth  logons_6_mnth
gender                             
F           3.090785       5.287127
M           3.706837       5.885643
U           3.338528       5.516767


In [16]:

# Correlación entre antigüedad y actividad
correlations = df_clients[['clnt_tenure_yr', 'clnt_age', 'logons_6_mnth', 'calls_6_mnth', 'bal']].corr()
print("\nCorrelación entre antigüedad, edad, actividad y saldo:")
print(correlations)

# Segmentación por edad (jóvenes, adultos y mayores)
df_clients['age_group'] = pd.cut(df_clients['clnt_age'], bins=[0, 35, 60, 100], labels=['Joven', 'Adulto', 'Mayor'])
activity_by_age_group = df_clients.groupby('age_group')[['logons_6_mnth', 'calls_6_mnth', 'bal']].mean()
print("\nPromedio de actividad y saldo por grupo de edad:")
print(activity_by_age_group)




Correlación entre antigüedad, edad, actividad y saldo:
                clnt_tenure_yr  clnt_age  logons_6_mnth  calls_6_mnth  \
clnt_tenure_yr        1.000000  0.309372       0.048516      0.049919   
clnt_age              0.309372  1.000000       0.084683      0.026734   
logons_6_mnth         0.048516  0.084683       1.000000      0.822217   
calls_6_mnth          0.049919  0.026734       0.822217      1.000000   
bal                   0.203620  0.209549       0.165380      0.162165   

                     bal  
clnt_tenure_yr  0.203620  
clnt_age        0.209549  
logons_6_mnth   0.165380  
calls_6_mnth    0.162165  
bal             1.000000  

Promedio de actividad y saldo por grupo de edad:
           logons_6_mnth  calls_6_mnth            bal
age_group                                            
Joven           5.495761      3.438646   69439.283575
Adulto          5.405998      3.241980  155446.103351
Mayor           6.015676      3.613896  236171.604424


In [17]:
# Promedio de actividad por grupo de prueba
activity_by_variation = df_clients.groupby('variation')[['calls_6_mnth', 'logons_6_mnth']].mean()
print("\nPromedio de llamadas y logons por grupo de prueba:")
print(activity_by_variation)



Promedio de llamadas y logons por grupo de prueba:
                 calls_6_mnth  logons_6_mnth
variation                                   
Control              3.129213       6.166277
Not participant      4.108619       4.147710
Test                 3.061941       6.101851


In [18]:
# Distribución de género por grupo de prueba
gender_by_variation = df_clients.groupby(['variation', 'gender']).size().unstack(fill_value=0)
print("\nDistribución de género por grupo de prueba:")
print(gender_by_variation)



Distribución de género por grupo de prueba:
gender              F     M     U
variation                        
Control          7543  7970  8014
Not participant  6487  6777  6843
Test             8716  8977  9268


In [19]:
# Saldo promedio por grupo de prueba
balance_by_variation = df_clients.groupby('variation')['bal'].mean()
print("\nSaldo promedio por grupo de prueba:")
print(balance_by_variation)


Saldo promedio por grupo de prueba:
variation
Control            150147.326660
Not participant    142248.958795
Test               148962.605032
Name: bal, dtype: float64


In [20]:
# Edad promedio y distribución por grupo de prueba
age_by_variation = df_clients.groupby('variation')['clnt_age'].describe()
print("\nResumen de edades por grupo de prueba:")
print(age_by_variation)


Resumen de edades por grupo de prueba:
                   count       mean        std   min   25%   50%   75%   max
variation                                                                   
Control          23526.0  47.498427  15.521781  17.0  33.5  48.5  60.0  96.0
Not participant  20107.0  44.238773  15.555909  13.5  30.5  45.0  56.5  92.5
Test             26961.0  47.163922  15.514461  17.0  33.5  47.5  59.5  96.0


In [21]:
# Correlación por grupo de prueba
for variation_group in df_clients['variation'].unique():
    print(f"\nCorrelación para el grupo {variation_group}:")
    correlation = df_clients[df_clients['variation'] == variation_group][['clnt_tenure_yr', 'clnt_age', 'bal', 'logons_6_mnth', 'calls_6_mnth']].corr()
    print(correlation)



Correlación para el grupo Test:
                clnt_tenure_yr  clnt_age       bal  logons_6_mnth  \
clnt_tenure_yr        1.000000  0.309586  0.197077       0.052190   
clnt_age              0.309586  1.000000  0.205159       0.059988   
bal                   0.197077  0.205159  1.000000       0.175337   
logons_6_mnth         0.052190  0.059988  0.175337       1.000000   
calls_6_mnth          0.047798  0.050715  0.169351       0.994089   

                calls_6_mnth  
clnt_tenure_yr      0.047798  
clnt_age            0.050715  
bal                 0.169351  
logons_6_mnth       0.994089  
calls_6_mnth        1.000000  

Correlación para el grupo Control:
                clnt_tenure_yr  clnt_age       bal  logons_6_mnth  \
clnt_tenure_yr        1.000000  0.312919  0.213724       0.053726   
clnt_age              0.312919  1.000000  0.210347       0.052477   
bal                   0.213724  0.210347  1.000000       0.175337   
logons_6_mnth         0.053726  0.052477  0.175337    