In [5]:
from numpy.random import randn, seed
from scipy.stats import pearsonr
import numpy as np

# Introducción 

Los test de hipótesis estadísticos reportan la probabilidad de observar resultados dada una asunción. Los métodos effect size se refieren al conjunto de herramientas estadísticas para cuantificar en que medida afecta el resultado del test.

# ¿Qué es el Effect Size?

El Effect Size hace referencia al tamaño o magnitud de un efecto o resultado sobre una población. El Effect Size es estimado a partir de una muestra de datos. Los métodos Effect Size hacen referencia al conjunto de herramientas estadísticas usadas para calcular el Effect Size. Es común organizar estos métodos en grupos, dos de los grupos principales son:

* **Asociación:** métodos estadísticos para cuantificar una asociación entre variables.

* **Diferencia:** métodos estadísticos para cuantificar la diferencia entre variables.

El resultado del cálculo de un Effect Size debe ser interpretable, y esto depende del método específico usado. Una medida debe ser elegida basada en los objetivos de interpretación.

* **Resultado estandarizado:** el Effect Size tiene una escala estándar que permite generalmente ser interpretado, independientemente de la aplicación.

* **Resultado en unidades originales:** el Effect Size puede usar las unidades originales de la variable, que pueden ayudar a la interpretación dentro del dominio.

* **Resultado sin unidades:** el Effect Size podría no tener unidades.

Por lo tanto, el Effect Size puede referirse a la diferencia bruta entre medias en grupos, absoluta, así como a medidas estandarizadas, las cuales son calculadas para transformar el efecto en una escala facilmente interpretable. El Effect Size absoluto es especialmente útil cuando las variables estudiadas tienen un significado intrínseco.

Se debe tener claro que el Effect Size no reemplaza los resultados del test de hipótesis. En su lugar, lo que hace es complementar el test. Lo ideal es presentar los resultados del test de hipótesis y del Effect Size.

# Como calcular el Effect Size

El Effect Size podría ser calculado como la media de una muestra o la diferencia absoluta entre dos medias. También se podría calcular mediante cálculos estadísticos más sofisticados. Existen cientos de métodos que pueden ser usados para calcular el Effect Size.

# Calculando el Effect Size de asociación

La asociación entre variables es a menudo conocida en términos de Effect Size como la familia r. Este nombre se debe a que el método más común para calcular el Effect Size de asociación es el coeficiente de correlación de Pearson. La correlación de Pearson mide el grado de asociación lineal entre dos variables con valores reales. Es una medida sin unidades, y puede ser interpretada como sigue:

* **-1.0:**relación negativa perfecta.

* **-0.7:**relación negativa fuerte.

* **-0.5:**relación negativa moderada.

* **-0.3:**relación negativa débil.

* **0.0:**relación inexistente.

* **0.3:**relación positiva débil.

* **0.5:**relación positiva moderada.

* **0.7:**relación positiva fuerte.

* **1.0:**relación positiva perfecta.

Otro método muy popular para calcular el Effect Size en términos de asociación es la mededida r cuadrado, también conocido como coeficiente de determinación. Este resume la proporción de varianza en una variable explicada por otra.

El coeficiente de correlación de Pearson puede ser calculado a partir de la función **pearsonr()** de la librería SciPy. 

In [4]:
#Fijamos la semilla
seed(1)

#Nos creamos dos muestras fuertemente correladas
data1 = 10*randn(10000) + 50
data2 = data1 + (10*randn(10000) + 50)

#Calculamos el coeficiente de pearson entre las dos muesras
corr,_ = pearsonr(data1, data2)
print('El coeficiente de pearson entre las muestras es: %.3f' % corr)

El coeficiente de pearson entre las muestras es: 0.712


# Calculando el Effec Size de diferencia

La diferencia entre grupos es a menudo conocida en términos de Effect Size como la familia d. Este nombre se debe a que el método más común para calcular la diferencia entre la medida de grupos, es el conocido coeficiente de Cohen's d. Este es un coeficiente que resume la diferencia en términos del número de desviaciones estándar. Cohen's d mide la diferencia entre la media de dos variables con una distribución Gaussiana. Puesto que es un coeficiente cuyo resultado es estandarizado, existe una tabla para interpretar su resultado:

* **Small Effect Size:** d=0.20.

* **Medium Effect Size:** d=0.50.

* **Large Effect Size:** d=0.80.

El cálculo de este coeficiente no se encuentra implementado en Python, podemos calcular este coeficiente de forma anual:

$$d=\frac{\mu_{1} - \mu_{2}}{s}$$

Donde d es el coeficiente de Cohen's d, u1 es la media de la primera muestra, u2 es la media de la segunda muestra y s es la desviación estándar combinada de ambas muestras. La desviación estándar combinada para dos muestras independientes puede ser calculada como:

$$s = \sqrt{\frac{(n_{1}-1)*s_{1}^{2} + (n_{2}-1)*s_{1}^{2}}{n_{1} + n_{2} - 2}}$$

Donde s es la desviación estándar combinada, n1 y n2 son el tamaño de la primera y la segunda muestra respectivamente, y s1 y s2 son las varianzas de la primera y la segunda muestra respectivamente. Las diferencias son ajustes de los grados de libertad.

La siguiente función nos permite calcular el coefince de COhen's d

In [8]:
def cohens_d(data1, data2):
    '''Función que nos permite calcular el coeficiente de Cohend de dos muestras independientes'''
    
    #Calculamos la longitud de las muestras
    n1, n2 = len(data1), len(data2)
    #Calculamos la varianza de las muestras
    s1,s2 = np.var(data1), np.var(data2)
    #Calculamos la desviación estándar combinada
    s = np.sqrt(((n1 - 1) * s1 + (n2 - 1) * s2) / (n1 + n2 - 2))
    #Calculamos las medias de cada muestra
    u1, u2 = np.mean(data1), np.mean(data2)
    
    return (u1-u2)/s

In [9]:
#Ejemplo de coeficiente de Cohen's d

#Fijamos la semilla
seed(1)

#Preparamos los datos
data1 = 10 * randn(10000) + 60
data2 = 10 * randn(10000) + 55

#Calculamos el coeficiente de Cohen's d
cohen_cof = cohens_d(data1, data2)
print('El coeficiente de Cohen entre las muestras es: %.3f' % cohen_cof)

El coeficiente de Cohen entre las muestras es: 0.500


Otras dos medidas muy populares son:

* **Odds ratio:** mide el ratio de probabilidad de A en presencia de B y la probabilidad de A en ausencia de B. Intenta cuantificar la fuerza de asociación entre A y B. Si el coeficiente es mayor que 1, entonces es considerada que está asociada con B1 en el sentido que comparando con la ausencia de B, la presencia de B eleva la probabilidad de A. Esto no establece que B cause A.


* **Relative Risk Ratio:** relación entre la probabilidad de que se de una salida para un grupo expuesto y la probabilidad que se de una salida para un grupo no expuesto. Si el coeficiente es igual a 1 indica que la exposición no causa ningún tipo de efecto, si es menor que 1 implica que la probabilidad de salida se ve reducida con la exposición y si es mayor que 1 indica que la probabilidad de salida se ve incrementada con la exposición.