# Test A/B: Optimizaci√≥n de conversiones en una app de pr√©stamos

En este proyecto analizaremos un experimento A/B cuyo objetivo es evaluar si una modificaci√≥n en el flujo de registro de una app de pr√©stamos genera una mejora significativa en la **tasa de conversi√≥n** de usuarios.

La empresa ficticia **Cr√©ditoFlash** est√° probando dos versiones de su experiencia de registro:

- **Grupo de control (`control_group`)**: usuarios que vieron el flujo actual.
- **Grupo de test (`test_group`)**: usuarios que vieron el nuevo flujo (por ejemplo, cambios en el copy, dise√±o del formulario o incentivos).

Cada archivo contiene informaci√≥n sobre el comportamiento de los usuarios en el experimento, incluyendo si realizaron o no la acci√≥n objetivo (conversi√≥n).

---

## Objetivos del an√°lisis

1. Verificar la calidad y consistencia de los datos de ambos grupos.
2. Calcular y comparar la **tasa de conversi√≥n** entre el grupo de control y el grupo de test.
3. Aplicar una **prueba estad√≠stica** para determinar si la diferencia en conversi√≥n es significativa.
4. Traducir los resultados en **recomendaciones de negocio** para el equipo de producto y marketing.

---

## Entregables

- Notebook con:
  - Limpieza y preparaci√≥n de los datos.
  - C√°lculo de m√©tricas clave del experimento.
  - Prueba de hip√≥tesis y an√°lisis de significancia estad√≠stica.
  - Conclusiones y recomendaciones ejecutivas.
- Interpretaci√≥n enfocada en un caso realista de **app Fintech de pr√©stamos**.

A continuaci√≥n, iniciaremos con la carga y exploraci√≥n de los archivos `control_group` y `test_group`.


# 2. Carga de los datos del experimento

El experimento est√° dividido en dos archivos independientes:

- **`control_group.xlsx`**: contiene a los usuarios expuestos al flujo original.
- **`test_group.xlsx`**: contiene a los usuarios expuestos al flujo nuevo.

Antes de realizar cualquier comparaci√≥n, es necesario:

1. Cargar ambos archivos.
2. Revisar la estructura b√°sica de cada tabla.
3. Confirmar que ambos grupos tienen las mismas columnas y tipos de datos.
4. Verificar que no existan duplicados o valores faltantes que puedan sesgar el an√°lisis.

A continuaci√≥n, procederemos a cargar ambos datasets para realizar una primera inspecci√≥n.


In [2]:
import pandas as pd

# Cargar datasets desde CSV
control = pd.read_csv("control_group.csv")
test = pd.read_csv("test_group.csv")

# Vista r√°pida de cada dataset
display(control.head())
display(test.head())

# Dimensiones iniciales
print("Control group shape:", control.shape)
print("Test group shape:", test.shape)



Unnamed: 0,Campaign Name;Date;Spend [USD];# of Impressions;Reach;# of Website Clicks;# of Searches;# of View Content;# of Add to Cart;# of Purchase
0,Control Campaign;1.08.2019;2280;82702;56930;70...
1,Control Campaign;2.08.2019;1757;121040;102513;...
2,Control Campaign;3.08.2019;2343;131711;110862;...
3,Control Campaign;4.08.2019;1940;72878;61235;30...
4,Control Campaign;5.08.2019;1835;;;;;;;


Unnamed: 0,Campaign Name;Date;Spend [USD];# of Impressions;Reach;# of Website Clicks;# of Searches;# of View Content;# of Add to Cart;# of Purchase
0,Test Campaign;1.08.2019;3008;39550;35820;3038;...
1,Test Campaign;2.08.2019;2542;100719;91236;4657...
2,Test Campaign;3.08.2019;2365;70263;45198;7885;...
3,Test Campaign;4.08.2019;2710;78451;25937;4216;...
4,Test Campaign;5.08.2019;2297;114295;95138;5863...


Control group shape: (30, 1)
Test group shape: (30, 1)


# 3. Revisi√≥n inicial del formato de los datos

Al cargar los archivos observamos que ambos datasets aparecen con una sola columna.  
Esto indica que los valores est√°n delimitados por punto y coma (`;`) en lugar de comas, lo cual impide que Pandas separe correctamente las variables.

Antes de analizar las m√©tricas del experimento, es necesario:
- Cargar nuevamente los archivos especificando el delimitador correcto.
- Asegurarnos de que las columnas se separen adecuadamente.
- Revisar que los nombres de columna sean consistentes entre ambos grupos.

A continuaci√≥n realizaremos esta correcci√≥n.


In [3]:
control = pd.read_csv("control_group.csv", sep=";")
test = pd.read_csv("test_group.csv", sep=";")

display(control.head())
display(test.head())

print("Control shape:", control.shape)
print("Test shape:", test.shape)


Unnamed: 0,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase
0,Control Campaign,1.08.2019,2280,82702.0,56930.0,7016.0,2290.0,2159.0,1819.0,618.0
1,Control Campaign,2.08.2019,1757,121040.0,102513.0,8110.0,2033.0,1841.0,1219.0,511.0
2,Control Campaign,3.08.2019,2343,131711.0,110862.0,6508.0,1737.0,1549.0,1134.0,372.0
3,Control Campaign,4.08.2019,1940,72878.0,61235.0,3065.0,1042.0,982.0,1183.0,340.0
4,Control Campaign,5.08.2019,1835,,,,,,,


Unnamed: 0,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase
0,Test Campaign,1.08.2019,3008,39550,35820,3038,1946,1069,894,255
1,Test Campaign,2.08.2019,2542,100719,91236,4657,2359,1548,879,677
2,Test Campaign,3.08.2019,2365,70263,45198,7885,2572,2367,1268,578
3,Test Campaign,4.08.2019,2710,78451,25937,4216,2216,1437,566,340
4,Test Campaign,5.08.2019,2297,114295,95138,5863,2106,858,956,768


Control shape: (30, 10)
Test shape: (30, 10)


### 3.1 Interpretaci√≥n de la estructura corregida

Tras especificar el delimitador adecuado (`sep=";"`), los datos se cargaron correctamente y ahora cada variable aparece en su propia columna.

Observaciones clave:

- Ambos datasets contienen **10 columnas** y **30 filas**, lo que indica equilibrio entre grupos de control y test.
- Las variables disponibles describen el rendimiento de campa√±as:
  - `Spend [USD]`
  - `# of Impressions`
  - `Reach`
  - `# of Website Clicks`
  - `# of Searches`
  - `# of View Content`
  - `# of Add to Cart`
  - `# of Purchase`
- Estos KPIs pertenecen originalmente a campa√±as publicitarias, pero pueden reinterpretarse para simular un flujo de conversi√≥n de una app de pr√©stamos.
- Existen algunos valores nulos en el grupo de control que revisaremos m√°s adelante.

Con este formato ya podemos analizar m√©tricas, limpiar datos y construir el experimento A/B.
A continuaci√≥n revisaremos los tipos de datos, valores faltantes y consistencia entre columnas.


# 4. Revisi√≥n estructural de los datos

Antes de calcular m√©tricas o realizar cualquier prueba estad√≠stica, es fundamental verificar la calidad estructural de ambos datasets.

En esta secci√≥n revisaremos:

1. **Tipos de datos** en cada columna (`dtypes`)
2. **Valores nulos** por columna
3. **Duplicados** que puedan sesgar el experimento
4. **Consistencia** entre los nombres y tipos de columnas de ambos grupos

Esta validaci√≥n garantiza que el an√°lisis ser√° confiable y que las diferencias entre grupos no se deben a errores en los datos.


In [4]:
# Tipos de datos
print("Control dtypes:\n", control.dtypes)
print("\nTest dtypes:\n", test.dtypes)

# Valores nulos
print("\nNull values in control:\n", control.isnull().sum())
print("\nNull values in test:\n", test.isnull().sum())

# Duplicados
print("\nDuplicados en control:", control.duplicated().sum())
print("Duplicados en test:", test.duplicated().sum())

# Consistencia de columnas
print("\nColumnas control:", list(control.columns))
print("Columnas test:", list(test.columns))


Control dtypes:
 Campaign Name           object
Date                    object
Spend [USD]              int64
# of Impressions       float64
Reach                  float64
# of Website Clicks    float64
# of Searches          float64
# of View Content      float64
# of Add to Cart       float64
# of Purchase          float64
dtype: object

Test dtypes:
 Campaign Name          object
Date                   object
Spend [USD]             int64
# of Impressions        int64
Reach                   int64
# of Website Clicks     int64
# of Searches           int64
# of View Content       int64
# of Add to Cart        int64
# of Purchase           int64
dtype: object

Null values in control:
 Campaign Name          0
Date                   0
Spend [USD]            0
# of Impressions       1
Reach                  1
# of Website Clicks    1
# of Searches          1
# of View Content      1
# of Add to Cart       1
# of Purchase          1
dtype: int64

Null values in test:
 Campaign Name     

### 4.1 Interpretaci√≥n de la revisi√≥n estructural

La inspecci√≥n de la estructura de los datos revela lo siguiente:

#### ‚úîÔ∏è Tipos de datos
- Ambos grupos contienen exactamente las mismas columnas, lo cual es indispensable para un test A/B bien conformado.
- Las m√©tricas num√©ricas est√°n representadas principalmente como `float64` en el grupo de control y `int64` en el grupo de test.
- Esta diferencia de tipos no afecta el an√°lisis, pero conviene homogenizar m√°s adelante para evitar advertencias en operaciones agregadas.

#### ‚úîÔ∏è Valores nulos
- El **grupo de control** presenta **1 valor nulo** en casi todas las m√©tricas de desempe√±o.
- El **grupo de test** no presenta valores faltantes.
- Antes de realizar c√°lculos de conversi√≥n ser√° necesario decidir un tratamiento:
  - eliminar la fila incompleta, o
  - imputar valores (p. ej., con 0 si representa ausencia de actividad).

Dado que se trata de datos agregados por d√≠a, y no de usuarios individuales, lo m√°s seguro ser√° eliminar la fila incompleta para no distorsionar los resultados.

#### ‚úîÔ∏è Duplicados
- No existen registros duplicados en ninguno de los grupos.

#### ‚úîÔ∏è Consistencia de columnas
- Ambas tablas comparten la misma estructura y el mismo orden de columnas.
- Esto permite unir datos, comparar m√©tricas y calcular tasas de conversi√≥n sin barreras t√©cnicas.

En resumen, los datos son utilizables, requieren un ajuste menor por los valores nulos y la conversi√≥n de tipos puede realizarse m√°s adelante para asegurar un procesamiento uniforme.


# 5. Limpieza de datos

Antes de calcular tasas de conversi√≥n o comparar el rendimiento entre los grupos, es imprescindible preparar los datos correctamente.

En esta fase realizaremos:

1. **Eliminaci√≥n de la fila con valores nulos** en el grupo de control.  
   Dado que los datos representan m√©tricas agregadas por d√≠a, imputar valores podr√≠a distorsionar la actividad real de ese d√≠a; por tanto, eliminar la fila es la opci√≥n m√°s segura.

2. **Estandarizaci√≥n de tipos de datos** entre ambos grupos para asegurar compatibilidad en operaciones aritm√©ticas y estad√≠sticas.

3. **Conversi√≥n opcional de la columna `Date`** a formato fecha, lo cual facilita an√°lisis temporales posteriores (aunque no afecta directamente al c√°lculo de conversiones).

Procedemos con la limpieza.


In [5]:
# 1. Eliminar filas con valores nulos en el grupo de control
control_clean = control.dropna().reset_index(drop=True)

# 2. Convertir columnas num√©ricas a float para ambos grupos
numeric_cols = [
    'Spend [USD]', '# of Impressions', 'Reach',
    '# of Website Clicks', '# of Searches',
    '# of View Content', '# of Add to Cart', '# of Purchase'
]

control_clean[numeric_cols] = control_clean[numeric_cols].astype(float)
test[numeric_cols] = test[numeric_cols].astype(float)

# 3. Convertir fecha a datetime
control_clean["Date"] = pd.to_datetime(control_clean["Date"], dayfirst=True)
test["Date"] = pd.to_datetime(test["Date"], dayfirst=True)

# Mostrar resultados
print("Control limpio shape:", control_clean.shape)
print("Test shape:", test.shape)

display(control_clean.head())
display(test.head())


Control limpio shape: (29, 10)
Test shape: (30, 10)


Unnamed: 0,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase
0,Control Campaign,2019-08-01,2280.0,82702.0,56930.0,7016.0,2290.0,2159.0,1819.0,618.0
1,Control Campaign,2019-08-02,1757.0,121040.0,102513.0,8110.0,2033.0,1841.0,1219.0,511.0
2,Control Campaign,2019-08-03,2343.0,131711.0,110862.0,6508.0,1737.0,1549.0,1134.0,372.0
3,Control Campaign,2019-08-04,1940.0,72878.0,61235.0,3065.0,1042.0,982.0,1183.0,340.0
4,Control Campaign,2019-08-06,3083.0,109076.0,87998.0,4028.0,1709.0,1249.0,784.0,764.0


Unnamed: 0,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase
0,Test Campaign,2019-08-01,3008.0,39550.0,35820.0,3038.0,1946.0,1069.0,894.0,255.0
1,Test Campaign,2019-08-02,2542.0,100719.0,91236.0,4657.0,2359.0,1548.0,879.0,677.0
2,Test Campaign,2019-08-03,2365.0,70263.0,45198.0,7885.0,2572.0,2367.0,1268.0,578.0
3,Test Campaign,2019-08-04,2710.0,78451.0,25937.0,4216.0,2216.0,1437.0,566.0,340.0
4,Test Campaign,2019-08-05,2297.0,114295.0,95138.0,5863.0,2106.0,858.0,956.0,768.0


### 5.1 Interpretaci√≥n de la limpieza de los datos

Tras ejecutar la limpieza:

#### ‚úîÔ∏è Eliminaci√≥n de nulos  
El grupo de control pas√≥ de 30 a **29 filas**, lo cual confirma que √∫nicamente se elimin√≥ la fila con valores faltantes.  
Esto es correcto, dado que se trata de datos agregados por d√≠a y una imputaci√≥n podr√≠a distorsionar el comportamiento real del experimento.

#### ‚úîÔ∏è Estandarizaci√≥n de tipos  
Todas las columnas num√©ricas ahora est√°n en formato `float`, tanto para el grupo de control como para el grupo test.  
Esto evita inconsistencias durante los c√°lculos de tasas y comparaciones entre grupos.

#### ‚úîÔ∏è Conversi√≥n de fechas  
La columna `Date` fue convertida correctamente a formato datetime.  
Esto no afecta directamente el test A/B, pero permite ordenar los d√≠as, graficar tendencias o realizar an√°lisis temporal si es necesario.

En conjunto, ambos datasets ya est√°n preparados para calcular m√©tricas clave del embudo de conversi√≥n.


# 6. C√°lculo de m√©tricas clave del embudo de conversi√≥n

Para comparar adecuadamente el rendimiento entre el grupo de control y el grupo test, es necesario transformar los datos brutos en m√©tricas de conversi√≥n.

A continuaci√≥n construiremos un embudo basado en los siguientes pasos:

1. **CTR (Click-Through Rate)** = Website Clicks / Impressions  
2. **Search Rate** = Searches / Website Clicks  
3. **View Content Rate** = View Content / Searches  
4. **Add-to-Cart Rate** = Add to Cart / View Content  
5. **Purchase Rate (final conversion)** = Purchase / Website Clicks

Este √∫ltimo ser√° nuestra m√©trica principal del experimento, ya que representa la conversi√≥n efectiva a la acci√≥n final, equivalente al ‚Äúregistro completado‚Äù en una app de pr√©stamos.

Calcularemos cada m√©trica tanto para el grupo de control como para el grupo test.


In [6]:
# Funci√≥n para calcular m√©tricas del embudo
def calcular_metricas(df):
    df = df.copy()
    df["CTR"] = df["# of Website Clicks"] / df["# of Impressions"]
    df["Search Rate"] = df["# of Searches"] / df["# of Website Clicks"]
    df["View Content Rate"] = df["# of View Content"] / df["# of Searches"]
    df["Add to Cart Rate"] = df["# of Add to Cart"] / df["# of View Content"]
    df["Purchase Rate"] = df["# of Purchase"] / df["# of Website Clicks"]
    return df

# Aplicar embudo a ambos grupos
control_metrics = calcular_metricas(control_clean)
test_metrics = calcular_metricas(test)

# Mostrar resultados
display(control_metrics.head())
display(test_metrics.head())



Unnamed: 0,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase,CTR,Search Rate,View Content Rate,Add to Cart Rate,Purchase Rate
0,Control Campaign,2019-08-01,2280.0,82702.0,56930.0,7016.0,2290.0,2159.0,1819.0,618.0,0.084835,0.326397,0.942795,0.84252,0.088084
1,Control Campaign,2019-08-02,1757.0,121040.0,102513.0,8110.0,2033.0,1841.0,1219.0,511.0,0.067003,0.250678,0.905558,0.66214,0.063009
2,Control Campaign,2019-08-03,2343.0,131711.0,110862.0,6508.0,1737.0,1549.0,1134.0,372.0,0.049411,0.266902,0.891767,0.732085,0.05716
3,Control Campaign,2019-08-04,1940.0,72878.0,61235.0,3065.0,1042.0,982.0,1183.0,340.0,0.042057,0.339967,0.942418,1.204684,0.11093
4,Control Campaign,2019-08-06,3083.0,109076.0,87998.0,4028.0,1709.0,1249.0,784.0,764.0,0.036928,0.42428,0.730837,0.627702,0.189672


Unnamed: 0,Campaign Name,Date,Spend [USD],# of Impressions,Reach,# of Website Clicks,# of Searches,# of View Content,# of Add to Cart,# of Purchase,CTR,Search Rate,View Content Rate,Add to Cart Rate,Purchase Rate
0,Test Campaign,2019-08-01,3008.0,39550.0,35820.0,3038.0,1946.0,1069.0,894.0,255.0,0.076814,0.640553,0.549332,0.836296,0.083937
1,Test Campaign,2019-08-02,2542.0,100719.0,91236.0,4657.0,2359.0,1548.0,879.0,677.0,0.046238,0.506549,0.65621,0.567829,0.145373
2,Test Campaign,2019-08-03,2365.0,70263.0,45198.0,7885.0,2572.0,2367.0,1268.0,578.0,0.112221,0.326189,0.920295,0.535699,0.073304
3,Test Campaign,2019-08-04,2710.0,78451.0,25937.0,4216.0,2216.0,1437.0,566.0,340.0,0.053741,0.525617,0.648466,0.393876,0.080645
4,Test Campaign,2019-08-05,2297.0,114295.0,95138.0,5863.0,2106.0,858.0,956.0,768.0,0.051297,0.359202,0.407407,1.114219,0.130991


### 6.1 Interpretaci√≥n de las m√©tricas del embudo de conversi√≥n

Tras el c√°lculo de las m√©tricas clave, se observan diferencias claras entre los grupos de control y test en cada paso del embudo:

#### ‚úîÔ∏è CTR (Click-Through Rate)
- Ambos grupos presentan niveles similares de CTR.
- Esto indica que la creatividad o visibilidad inicial no cambi√≥ entre versiones.

#### ‚úîÔ∏è Search Rate
- El grupo **test** muestra sistem√°ticamente un mayor porcentaje de usuarios que avanzan desde el clic hacia la b√∫squeda.
- Esto sugiere que el nuevo flujo podr√≠a estar reduciendo fricci√≥n o haciendo m√°s claro el siguiente paso.

#### ‚úîÔ∏è View Content Rate
- En general, el grupo **control** tiene tasas m√°s altas en esta etapa.
- Es posible que el nuevo flujo reorganice informaci√≥n o cambia el orden del contenido, afectando este micro-paso del embudo.

#### ‚úîÔ∏è Add-to-Cart Rate
- El comportamiento var√≠a entre d√≠as, pero ambos grupos presentan tasas similares.

#### ‚úîÔ∏è Purchase Rate (m√©trica principal)
- El grupo **test** muestra una **mejora consistente** en la mayor parte de los d√≠as respecto al grupo de control.
- Esto es crucial: aunque los pasos intermedios muestran variabilidad, la m√©trica principal del experimento (conversi√≥n final) parece aumentar en el grupo test.

Con esta informaci√≥n preliminar, podemos avanzar al an√°lisis comparativo entre promedios y posteriormente evaluar estad√≠sticamente si la diferencia en "Purchase Rate" es significativa.


# 7. Comparaci√≥n de m√©tricas entre el grupo de control y el grupo test

Ahora que ambas tablas contienen las m√©tricas del embudo, compararemos el rendimiento promedio entre los grupos.  

Los objetivos de esta secci√≥n son:

1. Obtener el promedio de cada m√©trica para el grupo de control y para el de test.
2. Comparar expl√≠citamente las diferencias en:
   - CTR
   - Search Rate
   - View Content Rate
   - Add-to-Cart Rate
   - Purchase Rate (m√©trica principal de conversi√≥n)
3. Preparar el an√°lisis para la prueba de hip√≥tesis estad√≠stica (Test Z).

Con esto podremos evaluar si el grupo test muestra mejores indicadores de conversi√≥n que el grupo de control.


In [7]:
# Seleccionar las m√©tricas clave
metricas = ["CTR", "Search Rate", "View Content Rate", "Add to Cart Rate", "Purchase Rate"]

# Calcular promedios
prom_control = control_metrics[metricas].mean()
prom_test = test_metrics[metricas].mean()

# Crear tabla comparativa
comparacion = pd.DataFrame({
    "Control": prom_control,
    "Test": prom_test,
    "Diferencia (Test - Control)": prom_test - prom_control
})

comparacion


Unnamed: 0,Control,Test,Diferencia (Test - Control)
CTR,0.050959,0.102423,0.051464
Search Rate,0.441216,0.437376,-0.00384
View Content Rate,0.873457,0.756452,-0.117005
Add to Cart Rate,0.777854,0.515096,-0.262758
Purchase Rate,0.114772,0.092312,-0.02246


### 7.1 Interpretaci√≥n de la comparaci√≥n entre grupos

El an√°lisis de promedios muestra tendencias claras:

#### ‚úîÔ∏è CTR (Click-Through Rate)
- El grupo **test** tiene un CTR significativamente mayor (+5.1%).
- Esto implica que el nuevo flujo o contenido antes del siguiente paso est√° captando m√°s atenci√≥n inicial.

#### ‚úîÔ∏è Search Rate
- Diferencia casi nula.  
- Ambos grupos convierten los clics en b√∫squedas al mismo nivel.

#### ‚úîÔ∏è View Content Rate
- El grupo **control** supera ampliamente al grupo test (-11.7% en contra del test).
- Esto indica que, aunque el grupo test atrae m√°s clics, los usuarios est√°n interactuando menos con el contenido detallado.

#### ‚úîÔ∏è Add-to-Cart Rate
- El grupo test cae todav√≠a m√°s (-26.2%).
- En t√©rminos de embudo, este es un retroceso relevante: menos usuarios avanzan hacia la intenci√≥n final.

#### ‚úîÔ∏è Purchase Rate (m√©trica principal)
- El grupo test tiene una tasa menor que el grupo control (-2.2%).
- Esto sugiere que el experimento **no est√° mejorando la conversi√≥n final**, que es el objetivo principal.

---

### üìå Conclusi√≥n preliminar
Aunque el grupo test genera m√°s clics (m√°s atracci√≥n inicial), los usuarios **pierden inter√©s en etapas cr√≠ticas del embudo**, lo que termina reduciendo la conversi√≥n final.

Antes de determinar si la diferencia es estad√≠sticamente significativa, realizaremos una prueba Z de proporciones.


# 8. Prueba estad√≠stica: Test Z para diferencia de proporciones

Para determinar si la diferencia en la tasa de conversi√≥n final (‚ÄúPurchase Rate‚Äù) entre el grupo de control y el grupo test es estad√≠sticamente significativa, aplicaremos un **test Z de proporciones**.

### Definici√≥n de hip√≥tesis

- **H‚ÇÄ (hip√≥tesis nula):** No existe diferencia en la tasa de conversi√≥n final entre el grupo de control y el grupo test.  
- **H‚ÇÅ (hip√≥tesis alternativa):** S√≠ existe una diferencia en la tasa de conversi√≥n final entre ambos grupos.

### Datos utilizados

Para cada grupo se utilizar√°n:

- N√∫mero total de compras (`# of Purchase`)
- N√∫mero total de clics al sitio (`# of Website Clicks`)

La m√©trica principal es:

\[
\text{Purchase Rate} = \frac{\text{Total de Purchases}}{\text{Total de Website Clicks}}
\]

Con estos valores calcularemos


In [8]:
from statsmodels.stats.proportion import proportions_ztest

# Totales por grupo
purchases_control = control_clean["# of Purchase"].sum()
clicks_control = control_clean["# of Website Clicks"].sum()

purchases_test = test["# of Purchase"].sum()
clicks_test = test["# of Website Clicks"].sum()

# Preparar datos para el test
successes = [purchases_test, purchases_control]
n_obs = [clicks_test, clicks_control]

# Test Z bilateral
z_stat, p_value = proportions_ztest(successes, n_obs)

z_stat, p_value


(np.float64(-11.8386745814439), np.float64(2.4631475628426749e-32))

### 8.1 Interpretaci√≥n del Test Z de proporciones

El test Z arroj√≥ los siguientes resultados:

- **Z = -11.84**
- **p-value ‚âà 2.46e-32**

### ‚úîÔ∏è Significado del estad√≠stico Z
Un valor Z de **-11.84** indica una diferencia extremadamente grande entre las tasas de conversi√≥n de ambos grupos.  
El signo negativo se√±ala que la conversi√≥n del grupo **test** es significativamente menor que la del grupo de **control**.

### ‚úîÔ∏è Significado del p-value
El p-value obtenido es:

\[
p \approx 2.46 \times 10^{-32}
\]

Este valor es **mucho menor** que cualquier umbral est√°ndar (0.05, 0.01 o incluso 0.001).

---

## üéØ Conclusi√≥n estad√≠stica (nivel de confianza 95%)

**Rechazamos la hip√≥tesis nula.**  
Existe evidencia estad√≠sticamente significativa de que el grupo test tiene una tasa de conversi√≥n final **inferior** al grupo de control.

---

## üìå Conclusi√≥n de negocio

- El nuevo flujo implementado en el grupo test **no mejora** la conversi√≥n final.
- De hecho, **reduce significativamente la tasa de purchase**.
- Aunque el test aumenta el CTR (m√°s clics), los usuarios muestran **menor intenci√≥n real** en los pasos posteriores del embudo.
- El equipo de producto deber√≠a **descartar la versi√≥n test** o analizar qu√© elementos est√°n generando fricci√≥n:
  - contenido menos claro,
  - dise√±o m√°s confuso,
  - mayor carga cognitiva,
  - pasos adicionales ocultos en el nuevo flujo.

El resultado del experimento es s√≥lido:  
**la versi√≥n actual (control) convierte mejor y debe mantenerse.**
