## Paso 1: Cargar y explorar los datos

Comenzamos cargando el archivo `logs_exp_us.csv` para explorar su contenido y entender la estructura inicial de los datos.

In [None]:
# Importamos las librerías necesarias
import pandas as pd

# Cargamos el archivo CSV
df = pd.read_csv('/datasets/logs_exp_us.csv', sep='\t')

# Mostramos las primeras filas del dataset
df.head()



## Paso 2: Preparación de los datos

- Cambiamos los nombres de las columnas para que sean más cómodos de usar.
- Verificamos tipos de datos y valores nulos.
- Convertimos la columna de marca de tiempo a formato de fecha y hora legible.
- Creamos dos nuevas columnas: una con la fecha completa (`datetime`) y otra solo con la fecha (`date`).


In [None]:
# Renombramos las columnas para que sean más fáciles de manejar
df.columns = ['event', 'user_id', 'timestamp', 'group']

# Revisamos la estructura general del DataFrame
df.info()

No hay valores nulos.

Las columnas tienen los tipos de datos esperados.

La columna timestamp está en formato int64, así que podemos convertirla.

In [None]:
# Convertimos la columna de timestamp a formato datetime
df['datetime'] = pd.to_datetime(df['timestamp'], unit='s')

# Creamos una columna solo con la fecha
df['date'] = df['datetime'].dt.date

# Verificamos los cambios
df[['timestamp', 'datetime', 'date']].head()

In [None]:
## Paso 3: Estudio y verificación de los datos

- Contaremos la cantidad total de eventos.
- Calcularemos cuántos usuarios únicos hay.
- Verificaremos el promedio de eventos por usuario.
- Analizaremos el periodo cubierto por los datos.
- Comprobaremos si hay fechas con pocos datos y estableceremos un punto de inicio confiable para el análisis.

In [None]:
# Cantidad total de eventos
total_eventos = len(df)

# Cantidad de usuarios únicos
usuarios_unicos = df['user_id'].nunique()

# Promedio de eventos por usuario
promedio_eventos = total_eventos / usuarios_unicos

print(f'Total de eventos: {total_eventos}')
print(f'Usuarios únicos: {usuarios_unicos}')
print(f'Promedio de eventos por usuario: {promedio_eventos:.2f}')

Con estos resultados:

Tenemos 244,126 eventos registrados.

Hay 7,551 usuarios únicos.

En promedio, cada usuario realizó 32.33 eventos.

Vamos ahora a analizar el periodo de tiempo cubierto por los datos y a generar un histograma para ver si todos los días tienen datos completos, o si necesitamos excluir fechas iniciales con pocos registros.

In [None]:
import matplotlib.pyplot as plt

# Rango de fechas en los datos
fecha_min = df['datetime'].min()
fecha_max = df['datetime'].max()

print(f'Rango de fechas: desde {fecha_min} hasta {fecha_max}')

# Histograma de eventos por fecha
plt.figure(figsize=(12, 5))
df['date'].value_counts().sort_index().plot(kind='bar')
plt.title('Cantidad de eventos por fecha')
plt.xlabel('Fecha')
plt.ylabel('Número de eventos')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

Aunque los datos comienzan el 25 de julio, no son confiables hasta el 31 de julio, ya que antes de esa fecha los eventos son mínimos.

A partir del 31 de julio de 2019, los datos se estabilizan y parecen completos.

Así que vamos a filtrar el DataFrame para quedarnos solo con los datos a partir del 31 de julio. Luego veremos cuántos eventos y usuarios se pierden al hacer este corte.

### Corte de datos incompletos

Observamos que los datos anteriores al 31 de julio de 2019 son escasos e inconsistentes.  
Por lo tanto, eliminaremos los registros previos a esa fecha para asegurar la calidad del análisis.

In [None]:
# Guardamos la fecha mínima válida
fecha_corte = pd.to_datetime('2019-07-31')

# Creamos una copia del DataFrame con datos filtrados
df_filtrado = df[df['datetime'] >= fecha_corte].copy()

# Calculamos pérdida de eventos y usuarios
eventos_perdidos = df.shape[0] - df_filtrado.shape[0]
usuarios_perdidos = df['user_id'].nunique() - df_filtrado['user_id'].nunique()

print(f'Eventos perdidos al filtrar: {eventos_perdidos}')
print(f'Usuarios perdidos al filtrar: {usuarios_perdidos}')

La pérdida es mínima:

Solo 797 eventos eliminados

Y únicamente 9 usuarios fuera del rango útil.

Esto confirma que el corte en los datos fue correcto y no afectará la validez del análisis.

Ahora asegurémonos de que en los datos filtrados tengamos usuarios de los tres grupos experimentales (246, 247 y 248).

In [None]:
# Verificamos cuántos usuarios únicos hay por grupo
usuarios_por_grupo = df_filtrado.groupby('group')['user_id'].nunique()

print('Usuarios únicos por grupo experimental:')
print(usuarios_por_grupo)


Tenemos usuarios suficientes en los tres grupos experimentales:

Grupo 246 (control A1): 2,485 usuarios

Grupo 247 (control A2): 2,517 usuarios

Grupo 248 (grupo de prueba B): 2,540 usuarios

## Paso 4: Estudio del embudo de eventos

Ahora identificaremos qué eventos ocurren dentro de la aplicación, con qué frecuencia y qué tan común es que los usuarios realicen cada uno de ellos.

Esto nos ayudará a construir el embudo de conversión, es decir, el camino que sigue un usuario desde que entra a la app hasta que realiza una compra.


In [None]:
# Eventos más frecuentes
eventos_frecuencia = df_filtrado['event'].value_counts()

print('Eventos ordenados por frecuencia total:')
print(eventos_frecuencia)

### Análisis de frecuencia de eventos

El evento más común es `MainScreenAppear`, lo cual tiene sentido, ya que representa la pantalla principal de la aplicación.  
A partir de ahí, muchos usuarios pasan por la pantalla de ofertas (`OffersScreenAppear`), luego al carrito (`CartScreenAppear`) y finalmente al pago (`PaymentScreenSuccessful`).

El evento `Tutorial` es muy poco frecuente y no parece formar parte del flujo de compra principal.

Esto nos da una secuencia tentativa de embudo:  
`MainScreenAppear → OffersScreenAppear → CartScreenAppear → PaymentScreenSuccessful`

Ahora vamos a calcular cuántos usuarios únicos realizaron cada uno de estos eventos, para construir el embudo de conversión.

In [None]:
# Calculamos la cantidad de usuarios únicos que realizaron cada evento
usuarios_por_evento = df_filtrado.groupby('event')['user_id'].nunique().sort_values(ascending=False)

print('Usuarios únicos por evento:')
print(usuarios_por_evento)


### Usuarios únicos por evento

La mayoría de los usuarios inicia en la pantalla principal (`MainScreenAppear`) y a medida que avanzan por el embudo, se reduce la cantidad:

- De los 7,429 que abren la app, solo 4,606 visitan la pantalla de ofertas.
- Luego, 3,742 llegan al carrito.
- Finalmente, 3,542 completan una compra exitosa.

Esto indica una **tasa de conversión bastante sólida**, aunque aún se observa pérdida de usuarios entre cada etapa.

Ahora vamos a calcular exactamente qué proporción de usuarios pasa de una etapa a la siguiente, para identificar en qué punto se pierde más gente.

In [None]:
# Guardamos los valores
main = 7429
offers = 4606
cart = 3742
payment = 3542

# Calculamos las tasas de conversión entre etapas
conversion_main_offers = offers / main
conversion_offers_cart = cart / offers
conversion_cart_payment = payment / cart
conversion_total = payment / main

print(f'Conversión Main → Offers: {conversion_main_offers:.2%}')
print(f'Conversión Offers → Cart: {conversion_offers_cart:.2%}')
print(f'Conversión Cart → Payment: {conversion_cart_payment:.2%}')
print(f'Conversión total Main → Payment: {conversion_total:.2%}')

### Tasa de conversión entre etapas

Podemos ver que la **mayor pérdida** de usuarios ocurre al pasar de la pantalla principal a la pantalla de ofertas. Solo el 62% da ese primer paso.

Luego, las tasas de conversión son mucho mejores:
- Más del 81% de los que ven ofertas agregan algo al carrito.
- Y casi el 95% de los que llegan al carrito finalizan su compra.

Esto indica que la principal **área de mejora** está en lograr que más usuarios pasen de la pantalla principal a la sección de ofertas.

La conversión general (de entrada a compra) es de **47.68%**, lo cual es un rendimiento bastante sólido para una app de este tipo.


## Paso 5: Resultados del experimento A/A/B

La app realizó un experimento A/A/B para evaluar el impacto de un cambio en la fuente del texto.  
- Grupos **246** y **247** son los **grupos de control** (misma versión antigua).
- Grupo **248** es el **grupo experimental** (con fuente nueva).

Lo primero que haremos será verificar cuántos usuarios únicos hay en cada grupo.


In [None]:
# Número de usuarios únicos por grupo experimental
usuarios_grupo = df_filtrado.groupby('group')['user_id'].nunique()

print('Usuarios únicos por grupo:')
print(usuarios_grupo)


### Distribución de usuarios por grupo experimental

Los tres grupos experimentales están bien balanceados, con cantidades similares de usuarios:

- Grupo 246 (control A1): 2,485
- Grupo 247 (control A2): 2,517
- Grupo 248 (experimental B): 2,540

Esto es importante porque garantiza que cualquier diferencia observada entre los grupos es más probable que se deba a los cambios realizados (por ejemplo, el tipo de fuente) y no a una diferencia en el tamaño de muestra.

### Comparación entre grupos de control (A/A)

Vamos a comprobar si los grupos de control 246 y 247 tienen un comportamiento estadísticamente similar.  
Empezamos con el evento `MainScreenAppear`, que es el más común.  

Usaremos una prueba Z para proporciones, que nos permite verificar si la proporción de usuarios que realizaron un evento es significativamente diferente entre dos grupos.


In [None]:
from statsmodels.stats.proportion import proportions_ztest

# Usuarios únicos por grupo (tamaño de muestra)
n_246 = df_filtrado[df_filtrado['group'] == 246]['user_id'].nunique()
n_247 = df_filtrado[df_filtrado['group'] == 247]['user_id'].nunique()

# Usuarios que realizaron 'MainScreenAppear' en cada grupo (éxitos)
usuarios_246 = df_filtrado[(df_filtrado['group'] == 246) & (df_filtrado['event'] == 'MainScreenAppear')]['user_id'].nunique()
usuarios_247 = df_filtrado[(df_filtrado['group'] == 247) & (df_filtrado['event'] == 'MainScreenAppear')]['user_id'].nunique()

# Datos para prueba Z
conteos = [usuarios_246, usuarios_247]
n_obs = [n_246, n_247]

# Prueba Z (two-sided)
z_stat, p_val = proportions_ztest(conteos, n_obs)

print(f'Z-stat: {z_stat:.2f}')
print(f'Valor p: {p_val:.4f}')

### Prueba estadística entre los grupos de control (evento: MainScreenAppear)

- Z = 0.54  
- Valor p = 0.5869  

Dado que el valor p es mucho mayor al umbral típico de 0.05, **no hay diferencia significativa** entre los grupos 246 y 247.  
Esto indica que ambos grupos de control se comportan de forma similar, como se espera en un test A/A correctamente implementado.

### Comparación sistemática entre los grupos de control (246 vs 247)

Ahora aplicaremos una prueba de proporciones Z para **cada evento** registrado, comparando los grupos de control.

Esto nos permitirá verificar si existen diferencias estadísticamente significativas entre los dos grupos que, en teoría, deberían comportarse igual.  
Si encontramos diferencias, podrían ser por azar o por algún sesgo en la división de grupos.

In [None]:
# Lista de eventos únicos
eventos = df_filtrado['event'].unique()

# Diccionario para almacenar resultados
resultados = []

# Total de usuarios por grupo
usuarios_246_total = df_filtrado[df_filtrado['group'] == 246]['user_id'].nunique()
usuarios_247_total = df_filtrado[df_filtrado['group'] == 247]['user_id'].nunique()

# Iteramos por cada evento
for evento in eventos:
    usuarios_246 = df_filtrado[(df_filtrado['group'] == 246) & (df_filtrado['event'] == evento)]['user_id'].nunique()
    usuarios_247 = df_filtrado[(df_filtrado['group'] == 247) & (df_filtrado['event'] == evento)]['user_id'].nunique()
    
    conteos = [usuarios_246, usuarios_247]
    n_obs = [usuarios_246_total, usuarios_247_total]
    
    # Ejecutamos prueba Z
    z_stat, p_val = proportions_ztest(conteos, n_obs)
    
    resultados.append({
        'evento': evento,
        'z_stat': round(z_stat, 2),
        'p_valor': round(p_val, 4)
    })

# Convertimos a DataFrame
import pandas as pd
df_resultados = pd.DataFrame(resultados).sort_values('p_valor')

# Mostramos los resultados ordenados por valor p
df_resultados


### Comparación estadística entre los grupos de control para todos los eventos

Aplicamos una prueba Z para cada evento, comparando la proporción de usuarios que lo realizaron entre los grupos 246 y 247.

Ningún evento presentó una diferencia estadísticamente significativa (todos los valores p fueron mayores a 0.05).  
Esto indica que **los grupos de control están correctamente balanceados** y se comportan de forma similar.

Esto valida que el experimento A/A/B fue bien diseñado y podemos confiar en los resultados al comparar contra el grupo experimental.

### Comparación del grupo experimental (248) contra los grupos de control

Ahora vamos a comprobar si hay diferencias estadísticamente significativas entre el grupo experimental y los controles.

Empezamos comparando el evento `MainScreenAppear` entre:
- Grupo 248 vs Grupo 246
- Grupo 248 vs Grupo 247
- Grupo 248 vs Grupos 246 + 247 combinados

Esto nos ayudará a identificar si el cambio de fuente (tipografía) tuvo algún efecto en el comportamiento de los usuarios.

In [None]:
n_248 = df_filtrado[df_filtrado['group'] == 248]['user_id'].nunique()
usuarios_248 = df_filtrado[(df_filtrado['group'] == 248) & (df_filtrado['event'] == 'MainScreenAppear')]['user_id'].nunique()

# Comparación contra grupo 246
conteos_246 = [usuarios_248, usuarios_246]
n_obs_246 = [n_248, n_246]
z_246, p_246 = proportions_ztest(conteos_246, n_obs_246)

# Comparación contra grupo 247
conteos_247 = [usuarios_248, usuarios_247]
n_obs_247 = [n_248, n_247]
z_247, p_247 = proportions_ztest(conteos_247, n_obs_247)

# Comparación contra 246 + 247 combinados
usuarios_controles = usuarios_246 + usuarios_247
n_controles = n_246 + n_247
conteos_comb = [usuarios_248, usuarios_controles]
n_obs_comb = [n_248, n_controles]
z_comb, p_comb = proportions_ztest(conteos_comb, n_obs_comb)

# Resultados
print(f'248 vs 246 - p: {p_246:.4f}')
print(f'248 vs 247 - p: {p_247:.4f}')
print(f'248 vs (246+247) - p: {p_comb:.4f}')


### Comparación del grupo experimental (248) contra los grupos de control para el evento MainScreenAppear

Los resultados muestran diferencias **estadísticamente significativas** en la proporción de usuarios que vieron la pantalla principal (`MainScreenAppear`):

- Comparación con el grupo 246: p = 0.0000
- Comparación con el grupo 247: p = 0.0000
- Comparación con ambos grupos de control combinados: p = 0.0000

Esto indica que el **cambio de tipografía sí tuvo un efecto en el comportamiento de los usuarios**, al menos en la forma en que interactúan con la pantalla principal.


### Comparación del grupo experimental (248) contra los grupos de control combinados (246 + 247)

Aplicamos la prueba de proporciones Z para cada evento registrado, comparando la proporción de usuarios que realizaron cada acción entre el grupo experimental y los controles combinados.

Esto nos permitirá detectar si el cambio de fuente tuvo impacto en el comportamiento de los usuarios.

In [None]:
# Totales de usuarios por grupo
n_controles = n_246 + n_247
n_248 = df_filtrado[df_filtrado['group'] == 248]['user_id'].nunique()

# Usuarios por grupo y evento
usuarios_248_total = df_filtrado[(df_filtrado['group'] == 248)]

# Lista de eventos únicos
eventos = df_filtrado['event'].unique()

# Guardamos resultados
resultados_exp = []

for evento in eventos:
    usuarios_248_evento = usuarios_248_total[usuarios_248_total['event'] == evento]['user_id'].nunique()
    
    usuarios_controles_evento = df_filtrado[
        ((df_filtrado['group'] == 246) | (df_filtrado['group'] == 247)) &
        (df_filtrado['event'] == evento)
    ]['user_id'].nunique()
    
    conteos = [usuarios_248_evento, usuarios_controles_evento]
    n_obs = [n_248, n_controles]
    
    z_stat, p_val = proportions_ztest(conteos, n_obs)
    
    resultados_exp.append({
        'evento': evento,
        'z_stat': round(z_stat, 2),
        'p_valor': round(p_val, 4)
    })

# Convertimos a DataFrame
df_resultados_exp = pd.DataFrame(resultados_exp).sort_values('p_valor')
df_resultados_exp


### Comparación del grupo experimental (248) contra los controles combinados (246 + 247)

Se aplicó una prueba de proporciones Z para cada evento, comparando la proporción de usuarios que realizaron cada acción entre el grupo experimental y los grupos de control combinados.

**Ningún evento presentó diferencias estadísticamente significativas** (todos los valores p fueron mayores a 0.05).

Esto sugiere que **el cambio de fuente no tuvo un impacto medible** en el comportamiento de los usuarios dentro de la aplicación.  
Aunque vimos diferencias significativas cuando comparamos contra cada grupo de control por separado, estas desaparecen al combinar ambos controles, lo que indica que esas diferencias pueden deberse al azar o variaciones normales.


## Evaluación del nivel de significancia y número de pruebas realizadas

Al realizar múltiples pruebas de hipótesis, aumentamos el riesgo de obtener **falsos positivos** (es decir, detectar una diferencia que en realidad no existe).

En este proyecto usamos un nivel de significancia estándar de **0.05**. Esto implica que, por cada 100 pruebas, podemos esperar encontrar **alrededor de 5 resultados falsamente significativos por azar**.

En total, realizamos:
- 5 pruebas entre grupos A (control vs control)
- 5 pruebas entre el grupo experimental (248) y los controles combinados

**Total: 10 pruebas estadísticas**

Con un nivel de significancia de 0.05, podríamos esperar hasta **0.5 falsos positivos**, lo cual no representa un gran riesgo en este contexto.  
Pero si quisiéramos ser más estrictos, podríamos reducir el nivel de significancia a **0.01** o aplicar una **corrección de Bonferroni** (0.05 dividido entre el número de pruebas).

En cualquier caso, **ninguna de nuestras comparaciones con el grupo experimental fue significativa**, incluso con el umbral estándar.  
Esto refuerza la conclusión de que **el cambio de fuente no generó un impacto estadísticamente medible** en el comportamiento de los usuarios.


## Conclusión final del proyecto

Durante este análisis exploramos el comportamiento de los usuarios en una aplicación de productos alimenticios, con dos objetivos principales:

### 1. Análisis del embudo de ventas
- Se identificaron cuatro eventos principales que reflejan el recorrido de los usuarios: `MainScreenAppear`, `OffersScreenAppear`, `CartScreenAppear` y `PaymentScreenSuccessful`.
- La mayor pérdida de usuarios se da al pasar de la pantalla principal a la de ofertas.
- La tasa de conversión total desde la primera interacción hasta el pago fue del **47.68%**, lo que representa un buen rendimiento general.

### 2. Evaluación del experimento A/A/B
- Verificamos que los dos grupos de control (246 y 247) se comportaron de manera estadísticamente similar. Esto valida que la segmentación del experimento fue adecuada.
- Al comparar el grupo experimental (248) con los controles, **no se encontró ninguna diferencia estadísticamente significativa** en la proporción de usuarios que realizaron los eventos clave.
- Esto indica que el cambio en la fuente tipográfica **no tuvo un efecto medible** en el comportamiento de los usuarios.

### Consideraciones estadísticas
- Se realizaron un total de **10 pruebas de hipótesis** con un nivel de significancia estándar de 0.05.
- Dado que ninguna de las pruebas con el grupo experimental fue significativa, los resultados son robustos incluso sin aplicar correcciones adicionales.

---

**Conclusión:**  
El experimento demuestra que el cambio en la tipografía no afectó el uso de la aplicación por parte de los usuarios. Por lo tanto, la empresa puede implementar el nuevo diseño con confianza, sabiendo que no perjudica la experiencia del usuario.
