# Test paramétricos

Son aquellos test que *asumen* que los **datos** siguen una `distribución específica`, generalmente la distribución normal o gaussiana, y que las `varianzas son iguales` en las poblaciones comparadas.

![img_inicial](img/img6.webp)




Principales test paramétricos: 

1. **T-test** o t-Student: se utiliza para comparar las `medias` de `dos grupos independientes`.

2. **T-test pareada**: se utiliza para comparar las `medias` de `dos grupos dependientes`

2. Análisis de varianza **(ANOVA)**: se utiliza para comparar las `medias` de `tres o más grupos independientes`.

## T-test:

Compara las medias de `dos grupos independientes`. Se utiliza cuando se tiene una variable categórica con dos niveles (por ejemplo, hombres y mujeres) y una variable continua (por ejemplo, ingresos), y se desea evaluar si hay una diferencia significativa en las medias de la variable continua entre los dos grupos.

Condiciones o requerimientos para realizar el t-test con cierta fiabilidad:

- **Independencia de las observaciones**: cada observación debe ser independiente de las demás.

- **Normalidad**: las distribuciones de cada grupo deben ser normales.

- **Homogeneidad de varianzas**: la varianza de cada grupo debe ser igual.

### T-test: dos grupos independientes

Planteamiento de hipótesis: 

- `H0`: los `pesos medios` de los pingüinos machos son `iguales` a los pesos medios de las hembras

- H1: los pesos medios de hembra y macho si difieren

In [31]:
import seaborn as sns 
from scipy.stats import ttest_ind

penguins = sns.load_dataset("penguins").dropna()

In [32]:
penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male


In [33]:
male_penguins = penguins.loc[penguins.sex == "Male", "body_mass_g"]
female_penguins = penguins.loc[penguins.sex == "Female", "body_mass_g"]

In [34]:
# Selección del nivel de significación
alpha = 0.05 

In [35]:
# Calculo del estadístico y p-valor
stat, p = ttest_ind(male_penguins, female_penguins)
print(stat,p)

8.541720337994516 4.897246751596224e-16


In [52]:
# Decisión en función del p-valor y el nivel de significación

if p < alpha:
    print("Rechazar la hipótesis nula: hay una diferencia significativa entre los pesos medios (p-value: {:.4f})".format(p))
else:
    print("No se puede rechazar la hipótesis nula: no hay una diferencia significativa entre los pesos medios (p-value: {:.4f})".format(p))


Rechazar la hipótesis nula: hay una diferencia significativa entre los pesos medios (p-value: 0.0000)


### T-test: un grupo y valor de referencia

Planteamiento de hipótesis: 

- `H0`: las `notas medias` de la clase son `iguales` a 7

- H1: las notas medios de la clase difieren de 7

In [23]:
import numpy as np
from scipy.stats import ttest_1samp

In [24]:
# Muestra de calificaciones de un examen
calificaciones = np.array([6.7, 7.5, 7.8, 6.9, 7.2, 8.1, 7.3, 6.5, 7.7, 7.0])

In [6]:
# Hipótesis nula: la media es igual a 7
# Hipótesis alternativa: la media es diferente de 7
h0 = 7

# Selección del nivel de significación
alpha = 0.05

In [27]:
# Calculo del estadístico y p-valor
stat, p = ttest_1samp(calificaciones, h0)
print(stat,p)

1.674111239086955 0.12843342991267162


In [28]:
# Comprobar el valor p frente al nivel de significancia
if p < alpha:
    print("Rechazar la hipótesis nula: la media es significativamente diferente de 7")
else:
    print("No se puede rechazar la hipótesis nula: la media no es significativamente diferente de 7")


No se puede rechazar la hipótesis nula: la media no es significativamente diferente de 7


## T-test pareada: 

Compara las `medias de dos grupos relacionados o pareados`, como las mediciones antes y después de un tratamiento en el mismo grupo de sujetos. Se utiliza cuando se tiene un diseño experimental de medidas repetidas o pareadas y se desea evaluar si hay una diferencia significativa en las medias antes y después del tratamiento.

En el caso del t-test pareado, también se deben cumplir los supuestos de **normalidad** e **independencia**, pero no es necesario que se cumpla el supuesto de homogeneidad de varianzas, ya que se trabaja con las diferencias entre las observaciones pareadas y no con las observaciones en sí.

> Supongamos que queremos comparar la longitud del pico de los pingüinos macho antes y después de una cierta intervención.

Planteamiento de hipótesis: 

- `H0`: `no hay diferencia` en la longitud del pico `antes y después` del tratamiento

- H1: hay diferencia en la longitud del pico antes y después del tratamiento

In [3]:
from scipy.stats import ttest_rel

In [40]:
before = penguins.loc[penguins.species == "Adelie", "bill_length_mm"]
after = penguins.loc[penguins.species == "Adelie", "bill_depth_mm"]

paired_data = list(zip(before, after))

In [43]:
# Calculo del estadístico y p-valor
stat, p_value = ttest_rel(before, after)
print(stat,p_value)

100.41650563037696 6.4782416356389175e-136


In [44]:
# Comprobar el valor p frente al nivel de significancia
if p_value < alpha:
    print("Rechazar la hipótesis nula: hay diferencia en la longitud del pico antes y después del tratamiento")
else:
    print("No se puede rechazar la hipótesis nula: no hay una diferencia significativa en la longitud del pico antes y después del tratamiento")


Rechazar la hipótesis nula: hay diferencia en la longitud del pico antes y después del tratamiento


## ANOVA:

ANOVA (Análisis de Varianza) es una técnica estadística utilizada para comparar las `medias de más de dos grupos independientes`. 

En el análisis de varianza, se divide la variación total de los datos en dos componentes: la variación debida a las diferencias entre los grupos y la variación debida a las diferencias dentro de los grupos.

Condiciones y supuestos requeridos:

- **Independencia de las observaciones**: cada observación debe ser independiente de las demás.

- **Normalidad**: las distribuciones de cada grupo deben ser normales.

- **Homogeneidad de varianzas**: la varianza de cada grupo debe ser igual.


### ANOVA un factor (one-way)

> Comparar el promedio del largo del pico entre las tres especies de pingüinos, Gentoo, Adelie y Chinstrap

Planteamiento de hipótesis: 

- `H0`: `no hay diferencia` en la longitud del pico `entre las tres` especies

- H1: hay diferencia en la longitud del pico entre las tres especies

In [46]:
from scipy.stats import f_oneway

df = penguins.copy()
species = df['species'].unique()

In [47]:
sample1 = df.loc[df['species'] == species[0], 'bill_length_mm']
sample2 = df.loc[df['species'] == species[1], 'bill_length_mm']
sample3 = df.loc[df['species'] == species[2], 'bill_length_mm']

In [48]:
# Calculo del estadístico y p-valor
f, p = f_oneway(sample1, sample2, sample3)
print("One-way ANOVA")
print("F-value:", f)
print("p-value:", p)

One-way ANOVA
F-value: 397.29943741282835
p-value: 1.3809842053150027e-88


In [49]:
# Comprobar el valor p frente al nivel de significancia
if p < alpha:
    print("Rechazar la hipótesis nula: hay diferencia en la longitud del pico de las tres especies")
else:
    print("No se puede rechazar la hipótesis nula: no hay una diferencia significativa en la longitud del pico de las tres especies")


Rechazar la hipótesis nula: hay diferencia en la longitud del pico de las tres especies


### ANOVA multifactorial (two-way)

Comparamos la media de una variable numérica en función de dos variables categóricas que pueden interactuar entre sí


> Comparar el peso de los pingüinos en función de la especie y el sexo

In [50]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

df = penguins.copy()

In [51]:
# Calculo del estadístico y p-valor
model = ols('body_mass_g ~ species + sex + species:sex', data=df).fit()
table = sm.stats.anova_lm(model, typ=2)
print("Two-way ANOVA")
print(table)

Two-way ANOVA
                   sum_sq     df           F         PR(>F)
species      1.434016e+08    2.0  749.015666  8.144406e-123
sex          3.709026e+07    1.0  387.459976   1.902273e-57
species:sex  1.676557e+06    2.0    8.756997   1.973489e-04
Residual     3.130263e+07  327.0         NaN            NaN
