In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
## Data load & merge

In [None]:
# Read final web data dataframes
df_wd_1 = pd.read_csv("df_final_web_data_pt_1.txt")
df_wd_2 = pd.read_csv("df_final_web_data_pt_2.txt")

In [None]:
df_wd_1

In [None]:
df_wd_2

In [None]:
df_wd_merged = pd.concat([df_wd_1, df_wd_2])
df_wd_merged

In [None]:
""" # Merge final web data dataframes
df_wd_merged = pd.merge(df_wd_1, df_wd_2, on= "client_id")
df_wd_merged """

In [None]:
# Read final demo dataframe
df_demo= pd.read_csv("df_final_demo.txt")
df_demo

In [None]:
# Read final experiment clients dataframe
df_exp_clients= pd.read_csv("df_final_experiment_clients.txt")
df_exp_clients

In [None]:
# Convertir a conjuntos los client_id de ambos DataFrames
clients_demo = set(df_demo['client_id'])
clients_exp_clients = set(df_exp_clients['client_id'])

# Encontrar los client_id que están en df_demo pero no en df_exp_clients
clients_missing = clients_demo - clients_exp_clients

# Mostrar los client_id que faltan
if clients_missing:
    print(f"Client_id que están en df_demo pero no en df_exp_clients: {list(clients_missing)}")
else:
    print("Todos los client_id de df_demo están presentes en df_exp_clients.")


In [None]:
# Convertir a conjuntos los client_id de ambos DataFrames
clients_demo = set(df_demo['client_id'])
clients_exp_clients = set(df_exp_clients['client_id'])

# Encontrar los client_id que están en df_exp_clients pero no en df_demo
clients_extra = clients_exp_clients - clients_demo

# Mostrar los client_id que faltan en df_demo
if clients_extra:
    print(f"Client_id que están en df_exp_clients pero no en df_demo: {list(clients_extra)}")
else:
    print("Todos los client_id de df_exp_clients están presentes en df_demo.")

In [None]:
## Dataset discovery

In [None]:
# Show dataframe wed data info
df_wd_merged.info()

In [None]:
# Show dataframe demo info
df_demo.info()

In [None]:
# Show dataframe experiment clients info
df_exp_clients.info()

In [None]:
# Show dtypes numeric dataframe web data
df_wd_merged.select_dtypes("number").nunique()

In [None]:
# Show dtypes numeric dataframe demo
df_demo.select_dtypes("number").nunique()

In [None]:
# Show dtypes numeric dataframe experiment clients
df_exp_clients.select_dtypes("number").nunique()

In [None]:
# Checking for missing data in dataframe web data
df_wd_merged.isnull().sum().sort_values(ascending=False)

In [None]:
# Checking for missing data in dataframe demo
df_demo.isnull().sum().sort_values(ascending=False)

In [None]:
# Checking for missing data in dataframe experiment clients
df_exp_clients.isnull().sum().sort_values(ascending=False)

In [None]:
# Checking for missing data in dataframe experiment clients
df_exp_clients.isnull().sum().sort_values(ascending=False)

In [None]:
import matplotlib.pyplot as plt

# Reemplaza los NaN por una etiqueta y cuenta los valores
variation_counts = df_exp_clients['Variation'].fillna('NaN').value_counts()

# Crea el gráfico de barras
variation_counts.plot(kind='bar')
plt.title("Count of Variation Values (Including NaN)")
plt.xlabel("Variation")
plt.ylabel("Count")
plt.show()

In [None]:
# Drop NaN values
df_exp_clients_clean = df_exp_clients.dropna()
df_exp_clients_clean.nunique()

In [None]:
# Merge dataframe experiment clients with dataframe demo 
df_exp_clients_demo = pd.merge(df_exp_clients_clean, df_demo, on='client_id', how='inner')
df_exp_clients_demo

El dataframe "df_exp_clients_demo" es el resultante del dataframe de experiment clients junto al dataframe demo eliminando los clientes que no se han tenido en cuenta para participar en el test A/B.

In [None]:
df_wd_merged

In [None]:
df_wd_merged.client_id.nunique()

Aquí se ve el total de clientes de los cuales tenemos registro de su participación en el test A/B

In [None]:
import matplotlib.pyplot as plt

# Convertir a conjuntos los client_id de ambos DataFrames
clients_inscritos = set(df_exp_clients['client_id'])
clients_en_base_datos = set(df_demo['client_id'])

# 1. Clientes que están inscritos en la prueba y también en la base de datos (intersección)
clients_realized = clients_inscritos.intersection(clients_en_base_datos)

# 2. Clientes que están inscritos en la prueba pero no en la base de datos (diferencia)
clients_not_in_db = clients_inscritos - clients_en_base_datos

# 3. Clientes que están en la base de datos pero no inscritos en la prueba
clients_not_signed_up = clients_en_base_datos - clients_inscritos

# Crear un diccionario con los resultados
result = {
    'Inscritos en la prueba (en base de datos)': len(clients_realized),
    'Inscritos en la prueba (no en base de datos)': len(clients_not_in_db),
    'No inscritos en la prueba (en base de datos)': len(clients_not_signed_up)
}

# Función para formatear las etiquetas mostrando porcentaje y número total
def simple_autopct(pct):
    total = sum(result.values())
    absolute = int(round(pct * total / 100.0))
    return f'{pct:.1f}%\n({absolute:d})'

# Crear la gráfica de tarta
plt.figure(figsize=(7, 7))
plt.pie(result.values(), labels=result.keys(), autopct=simple_autopct, startangle=90, colors=['#66b3ff', '#ff9999', '#99ff99'])
plt.title('Distribución de clientes inscritos y en base de datos')
plt.show()


No coincide el total de clientes que han hecho la prueba y que tenemos datos. Por lo que necesitamos saber cuales clientes han hecho la prueba y no tenemos datos.


In [None]:
import matplotlib.pyplot as plt

# Función personalizada para mostrar el porcentaje y el número total
def func(pct, allvals):
    absolute = int(pct/100.*sum(allvals))
    return f"{pct:.1f}%\n({absolute:d})"

# Convertir a conjuntos los client_id de ambos DataFrames
clients_demo = set(df_exp_clients_demo['client_id'])
clients_wd_merged = set(df_wd_merged['client_id'])

# 1. Clientes que han realizado la prueba (con datos)
clients_realized = clients_demo.intersection(clients_wd_merged)

# 2. Clientes que han realizado la prueba pero no están en df_demo
clients_not_in_demo = clients_wd_merged - clients_demo

# Crear un diccionario con los resultados (solo los que han realizado la prueba)
result = {
    'Han realizado la prueba (con datos)': len(clients_realized),
    'Han realizado la prueba (sin datos)': len(clients_not_in_demo)
}

# Crear la gráfica de tarta
plt.figure(figsize=(7, 7))
plt.pie(result.values(), labels=result.keys(), autopct=lambda pct: func(pct, list(result.values())), 
        startangle=90, colors=['#66b3ff', '#99ff99'])
plt.title('Distribución de clientes que han realizado la prueba')
plt.show()

In [None]:
import pandas as pd
import plotly.express as px

# Convertir a conjuntos los client_id de ambos DataFrames
clients_demo = set(df_exp_clients_demo['client_id'])
clients_wd_merged = set(df_wd_merged['client_id'])

# 1. Clientes que han realizado la prueba (con datos)
clients_realized = clients_demo.intersection(clients_wd_merged)

# 2. Clientes que han realizado la prueba pero no están en df_demo
clients_not_in_demo = clients_wd_merged - clients_demo

# Filtrar el DataFrame para solo los clientes que han realizado la prueba
df_exp_clients_clean = df_exp_clients_clean[df_exp_clients_clean['client_id'].isin(clients_wd_merged)]

# Etiquetar clientes "con datos" o "sin datos" y Test/Control
df_exp_clients_clean['Test_Control'] = df_exp_clients_clean.apply(
    lambda row: f"Han realizado la prueba (con datos)" 
    if row['client_id'] in clients_realized 
    else f"Han realizado la prueba (sin datos)", axis=1)

# Crear un DataFrame con las categorías jerárquicas
df_exp_clients_clean['Category'] = df_exp_clients_clean['Test_Control']
df_exp_clients_clean['Subcategory'] = df_exp_clients_clean['Variation']  # Test o Control

# Crear el gráfico de Sunburst usando Plotly Express
fig = px.sunburst(
    df_exp_clients_clean, 
    path=['Category', 'Subcategory'],  # Definimos las jerarquías
    values=None,  # Cuenta los valores automáticamente
    title="Distribución de clientes que han realizado la prueba (Test y Control)"
)

# Mostrar la gráfica
fig.show()

In [None]:
# Convertir los client_id de ambos DataFrames en conjuntos
clients_demo = set(df_exp_clients_demo['client_id'])
clients_wd_merged = set(df_wd_merged['client_id'])

# Calcular los client_id que están en df_wd_merged pero no en df_exp_clients_demo
clients_not_in_demo = clients_wd_merged - clients_demo

# Mostrar el número de client_id que están en df_wd_merged pero no en df_exp_clients_demo
print(f"Número de client_id en df_wd_merged que no están en df_exp_clients_demo: {len(clients_not_in_demo)}")

In [None]:
# Agrupar por "visitor_id_x" y contar los valores únicos de "visit_id_x" para cada grupo
visitor_check = df_wd_merged.groupby('visitor_id')['visit_id'].nunique()

# Filtrar aquellos "visitor_id_x" que tienen más de un valor único en "visit_id_x"
inconsistent_visitors = visitor_check[visitor_check > 1]

# Mostrar los "visitor_id_x" que tienen valores diferentes en "visit_id_x"
print(inconsistent_visitors)

## Final clients in df_wd_merged with client data

In [None]:
# Create final dataframe of final clients with client data with A/B test
df_wd_client_data = pd.merge(df_wd_merged, df_exp_clients_demo, on='client_id', how='inner')
df_wd_client_data.client_id.nunique()

In [None]:
# Count occurrences of each process step
step_counts = df_wd_merged['process_step'].value_counts()

# Display the counts
print(step_counts)


## KPIs

In [None]:
# Pasos completados del proceso de prueba
step_counts = df_wd_client_data['process_step'].value_counts()

print(step_counts)


In [None]:
import matplotlib.pyplot as plt
step_counts = df_wd_client_data['process_step'].value_counts()
# Define a function for autopct (optional)
def func(pct, allvalues):
    absolute = int(pct / 100. * sum(allvalues))
    return f"{absolute} ({pct:.1f}%)"

# Create the pie chart
plt.figure(figsize=(7, 7))
plt.pie(
    step_counts,  # Use the step_counts Series directly
    labels=step_counts.index,  # Use the index for labels
    autopct=lambda pct: func(pct, step_counts.values),  # Pass values for absolute calculations
    startangle=90,
    colors=['#66b3ff', '#99ff99', '#ff9999', '#ffcc99', '#c2c2f0']  # Add more colors if needed
)
plt.title('Pasos completados')
plt.show()


## Edad del cliente y pasos completados en la prueba

In [None]:
# conteo de clientes por edad
cliente_edad = df_wd_client_data['clnt_age'].value_counts()

print(cliente_edad)

In [None]:
# Relación entre edad y pasos completados del proceso de prueba

edad_por_paso = df_wd_client_data.groupby('process_step')['clnt_age'].describe()
print(edad_por_paso)

In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Crear una lista de listas de edades por cada proceso
edades_por_paso = [df_wd_client_data[df_wd_client_data['process_step'] == step]['clnt_age'].dropna().tolist() 
                   for step in df_wd_client_data['process_step'].unique()]

# Comprobar la longitud de las listas de edades
print([len(edad) for edad in edades_por_paso])  # Deberías tener al menos 2 listas no vacías

# Verifica que haya al menos dos grupos antes de realizar ANOVA
if len(edades_por_paso) >= 2 and all(len(edad) > 0 for edad in edades_por_paso):
    # Realizar ANOVA
    f_statistic, p_value = stats.f_oneway(*edades_por_paso)
    print(f'Estadístico F: {f_statistic}, Valor p: {p_value}')
else:
    print("No hay suficientes grupos de datos para realizar ANOVA.")

# Visualización (opcional)
plt.figure(figsize=(10, 6))
sns.boxplot(x='process_step', y='clnt_age', data=df_wd_client_data)
plt.title('Distribución de Edades por Pasos Completados del Proceso')
plt.xlabel('Pasos del Proceso')
plt.ylabel('Edad')
plt.xticks(rotation=45)  # Rotar etiquetas si es necesario
plt.show()

In [None]:
# Verificar columnas
print(df_wd_client_data.columns)

In [None]:
df_time = df.sort_values(by='date_time')