Este es un ejercicio de **¡qué no hacer!**

# El impactante caso de la comida basura y el acné

Se le ha pedido que investigue un vínculo entre la comida basura y el acné.

Se le ha proporcionado un conjunto de datos, `junkfood.csv`, que contiene varias columnas. Primero, una columna numérica que representa un valor autoinformado de 0 a 10 de "¿Qué tan grave es el acné que presenta?", siendo 0 nada y 10 siempre presente y grave. Luego hay una columna que describe su contribución más significativa a la comida chatarra (es decir, comen chocolate, beben refrescos u otra cosa con más frecuencia), y la tercera columna detalla una estimación de cuántas veces al mes comen comida chatarra.

In [11]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("junkfood.csv")
df.head()

Unnamed: 0,Acne,Food,Frequency
0,5,Burgers,21
1,6,Chocolate,26
2,5,Ice cream,17
3,1,Ice cream,1
4,0,Cake,2


Busquemos un enlace global

In [12]:
df.corr()

Unnamed: 0,Acne,Frequency
Acne,1.0,0.018163
Frequency,0.018163,1.0


Parece que hay una pequeña correlación positiva entre la frecuencia de comer comida chatarra y tener acné grave. Veamos un subconjunto para comparar los extremos.

In [13]:
print(df.loc[df["Acne"] < 3, "Frequency"].mean())
print(df.loc[df["Acne"] > 7, "Frequency"].mean())

14.5357833655706
14.878205128205128


Sólo parece una pequeña relación.

Expresemos un poco mejor la hipótesis nula.

Hipótesis nula: *La frecuencia de la comida chatarra no causa (correlaciona) con el acné.*

Para probar esto, podemos usar la prueba de correlación de Pearson en scipy.

In [14]:
from scipy.stats import pearsonr
correlacion, pvalue = pearsonr(df["Acne"], df["Frequency"])
print(f"Correlacion es {correlacion:.3f}, con p-value of {pvalue:0.4f}")

Correlation is 0.018, with p-value of 0.5662


No es un valor p significativo, por lo que no podemos rechazar la hipótesis nula.

Pero espera, ¿qué pasa si preguntamos si algún alimento está relacionado? Revisemos cada alimento.

In [18]:
Comidas = df["Food"].unique()
alpha = 0.05
for Comida in Comidas:
    df2 = df.loc[df["Food"] == Comida]
    correlacion, pvalue = pearsonr(df2["Acne"], df2["Frequency"])
    if pvalue < alpha:
        print(f"Correlacion Significativa  (p-valor {pvalue:0.4f}) entre {Comida}: {correlacion:.3f}!!")
    else:
        print(f"Correlacion No Significativa para {Comida}")

No significant correlation for Burgers
No significant correlation for Chocolate
No significant correlation for Ice cream
Significant correlation (pvalue 0.0326) between Cake: 0.229!!
No significant correlation for Donuts
No significant correlation for Lollies
No significant correlation for Pure Sugar
No significant correlation for Cheese Pizza
No significant correlation for Brownies
No significant correlation for Milkshakes
No significant correlation for Soft Drink


**Maldito Pastel!**

Esto es simplemente inimaginable. ¿Cómo tomará el mundo esta devastadora noticia?

****

Correcto, entonces este es un ejemplo de búsqueda de significación. Al profundizar en nuestros datos cuando inicialmente no encontramos resultados y comparar una gran cantidad de hipótesis, eventualmente llamaremos a algo estadísticamente significativo. En este caso, los datos se generaron sin ninguna correlación, esto es solo una fluctuación estadística. Pero en un esfuerzo por encontrar resultados, podríamos publicar un artículo afirmando una correlación estadísticamente significativa entre el pastel y el acné, y luego los medios lo aceptarían, y todo sería ciencia basura.

*La moraleja de la historia aquí es que debe elegir su valor de $\alpha$ (en nuestro caso, 0.05) en función de la cantidad de pruebas para tratar de minimizar los falsos positivos.*

*Además*, tenga en cuenta que la próxima vez que vea medios sobre la correlación entre dos cosas, el chocolate y las enfermedades del corazón, el vino y la longevidad, etc., que el hecho de que tenga la fuerza en sus datos para determinar la correlación con la importancia no significa que *cantidad* de correlación es significancia.