# Sesión 06: ANOVA y Prueba Kruskal-Wallis

Una cadena de comida rápida planea agregar un nuevo producto a su menú, pero están indecisos entre tres posibles campañas de mercadotecnica. Como un experimento, el producto fue introducido en varias ubicaciones seleccionadas aleatoriamente utilizando diferentes campañas. Se registraron las ventas del nuevo producto por las primeras cuatro semanas. El archivo "b09_marketing.csv" contiene las siguientes variables:  
- MarketID: identificador del mercado
- MarketSize: tamaño del mercado de acuerdo a las ventas
- LocationID: identificador de la ubicación de la tienda
- AgeOfStore: antigüedad de la tienda en años
- Promotion: promoción (1 de 3) que fue probada
- week: semana en que se llevó a cabo la promoción.
- SalesInThousands: ventas para una ubicación específica (LocationID), promoción (Promotion) y semana (week).

In [None]:
df = pd.read_csv('data/b09_marketing.csv')

## Supuesto de igualdad de varianzas

In [None]:
from scipy.stats import levene

statistic, pvalue = levene(df.loc[df['Promotion'] == 1, "SalesInThousands"],
                           df.loc[df['Promotion'] == 2, "SalesInThousands"],
                           df.loc[df['Promotion'] == 3, "SalesInThousands"])
# Imprimir los resultados
print("Estadístico de prueba de Levene:", statistic)
print("Valor p:", p_value)

In [None]:
# Interpretar los resultados
alpha = 0.05
if p_value < alpha:
    print("Se rechaza la hipótesis nula: hay evidencia de diferencias significativas en las varianzas.")
else:
    print("No se puede rechazar la hipótesis nula: no se rechaza el supuesto de igualdad de varianzas.")

## Supuesto de normalidad

In [None]:
for group in list(df["Promotion"].unique()):
    pvalue = shapiro(df.loc[df["Promotion"] == group, "SalesInThousands"])[1]
    print(group, 'p-value: ', pvalue)

## ANOVA

In [None]:
from scipy.stats import f_oneway

# Aplicar la prueba ANOVA
statistic, p_value = f_oneway(df.loc[df['Promotion'] == 1, "SalesInThousands"],
                              df.loc[df['Promotion'] == 2, "SalesInThousands"],
                              df.loc[df['Promotion'] == 3, "SalesInThousands"])

# Imprimir los resultados
print("Estadístico de prueba de ANOVA:", statistic)
print("Valor p:", p_value)

In [None]:
# Interpretar los resultados
alpha = 0.05
if p_value < alpha:
    print("Se rechaza la hipótesis nula: hay al menos una diferencia significativa entre los grupos.")
else:
    print("No se puede rechazar la hipótesis nula: no hay suficiente evidencia para afirmar que hay diferencias significativas entre los grupos.")

In [None]:
from statsmodels.stats.multicomp import MultiComparison

comparison = MultiComparison(df["SalesInThousands"], df["Promotion"])
tukey = comparison.tukeyhsd(0.05)
print(tukey.summary())

## Prueba Kruskal-Wallis

In [None]:
from scipy.stats import kruskal
import pandas as pd

# Separar los valores para cada grupo
grupos = [datos_grupo for _, datos_grupo in df.groupby('Promotion')['SalesInThousands']]

# Aplicar la prueba de Kruskal-Wallis
statistic, p_value = kruskal(*grupos)

# Imprimir los resultados
print("Estadístico de prueba de Kruskal-Wallis:", statistic)
print("Valor p:", p_value)

In [None]:
# Interpretar los resultados
alpha = 0.05
if p_value < alpha:
    print("Se rechaza la hipótesis nula: hay evidencia de diferencias significativas entre los grupos.")
else:
    print("No se puede rechazar la hipótesis nula: no hay suficiente evidencia para afirmar diferencias significativas entre los grupos.")