# Pruebas de hipótesis

Supongamos que nos tenemos una  muestra de calificaciónes de Matemáticas de niños de primero de primaria en una escuela X. 
En la muestra, el promedio de las calificaciónes de los niños es de 5 y el de las niñas es de 8 

Con esta información ¿Podemos garantizar que las niñas tienen mejores calificaciones que los niños?

In [19]:
# Importamos las librerías
import pandas as pd
import numpy as np
import scipy.stats as stats

In [21]:
# Leemos los datos
muestra = pd.read_csv(r"C:\Users\felip\Desktop\Cursos\Datos\calificaciones_muestra_peque.csv")

In [23]:
#Filtramos únicamente a las niñas (M) y tomamos el promedio de sus calificaciones
muestra_M = muestra[muestra["Genero"] == "M"]
print("El promedio de calificaciónes de niñas del dataframe es: ",  muestra_M["Calificacion Mate"].mean()  )

El promedio de calificaciónes de niñas del dataframe es:  8.0


In [25]:
#Filtramos únicamente a los niños (H) y tomamos el promedio de sus calificaciones
muestra_H = muestra[muestra["Genero"] == "H"]
print("El promedio de calificaciónes de niños del dataframe es: ",  muestra_H["Calificacion Mate"].mean()  )

El promedio de calificaciónes de niños del dataframe es:  5.0


**¿Podemos asegurar que, en promedio, los niños de esta escuela tienen menor calificación que las niñas?**

 *La ley de los grandes números*

Veamos como se ve la muestra que elegimos

In [28]:
muestra

Unnamed: 0,Genero,Calificacion Mate
0,H,10
1,H,0
2,M,9
3,M,7


## ¿Qué es una Prueba de Hipótesis?
Una prueba de hipótesis es un procedimiento estadístico que se utiliza para tomar decisiones sobre una población basándose en datos de una muestra. 

La prueba de hipótesis ayuda a determinar si hay suficiente evidencia en los datos de la muestra para apoyar una afirmación específica (hipótesis) sobre la población.

## Componentes de una prueba de hipótesis:

**Hipótesis nula (H₀)**: Es la hipótesis que se asume cierta inicialmente. Generalmente representa una afirmación de "no efecto" o "no diferencia". Por ejemplo, "la media de la población es igual a un valor específico" o "no hay diferencia entre los grupos".

**Hipótesis alternativa (H₁ o Ha)**: Es la hipótesis que se desea probar. Representa la afirmación que contradice a la hipótesis nula. Por ejemplo, "la media de la población es diferente de un valor específico" o "hay una diferencia entre los grupos".

**Nivel de significancia (α)**: Es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Un valor comúnmente usado es 0.05 (5%).

**Estadístico de prueba**: Es una cantidad calculada a partir de los datos de la muestra que se utiliza para decidir si se rechaza o no la hipótesis nula.

Algunos de los mas importantes son:

    - Prueba t de student -> Comparar las medias de dos grupos (muestras pequeñas y distribuciones normales).
    
    - Prueba z -> Similar a t pero se usa cuando hay muestras "grandes" (n > 30) ó si se conoce la desviación estandar de la población
    
    - Estadístico χ² (Chi-cuadrada): Se usa en pruebas de independencia. Es decir, prueba si existe una relación significativa entre dos variables categóricas.
    
    - Coeficiente de correlación de Pearson (r): Evalúa la relación entre dos variables continuas si se tienen datos lineales y normalmente distribuidos.
    
    - Coeficiente de correlación de Spearman (ρ): Evalúa la relación entre dos variables continuas si datos no paramétricos o distribuciones no normales.

**Valor p**: Es la probabilidad de observar un valor del estadístico de prueba tan extremo o más extremo que el observado, bajo la suposición de que la hipótesis nula es verdadera. Si el valor p es menor que el nivel de significancia, se rechaza la hipótesis nula. 

Responde a la pregunta ¿Que tan probable es que haya elegido una muestra que me haya dado datos extraños que casualmente me dan lo que quiero?

---

## Para nuestro caso:

    . H₀ = Las calificaciones promedio de los niños y las niñas son iguales.
    (La media de las calificaciones de los niños = La media de las calificaciones de las niñas)

    
    . H₁ = Las niñas tienen mejores calificaciones que los niños.
    (La media de las calificaciones de los niños < La media de las calificaciones de las niñas)

    .α =  0.05 (Este suele ser el estandar)

    Prueba t para dos muestras independientes

In [70]:
# Datos de las calificaciones
calificaciones_niños = list(muestra_H["Calificacion Mate"])
calificaciones_niñas = list(muestra_M["Calificacion Mate"])

In [76]:
print("Calificaciones de niños : ", calificaciones_niños)
print("Calificaciones de niños : ", calificaciones_niñas)

Calificaciones de niños :  [10, 0]
Calificaciones de niños :  [9, 7]


In [86]:
# Realizar la prueba t para dos muestras independientes (asumiendo varianzas iguales)
t_stat, p_value = stats.ttest_ind(calificaciones_niños, calificaciones_niñas, equal_var=True, alternative='less') #Revisar documentacion y explicar

print(f'Estadístico t: {t_stat}')
print(f'Valor p: {p_value}')

Estadístico t: -0.5883484054145521
Valor p: 0.307944680100656


In [88]:
#Comprobamos si es menor que la significancia para poder dar una respuesta
alpha = 0.05

if p_value < alpha:
    print("Rechazamos la hipótesis nula: Las niñas tienen mejores calificaciones que los niños.")
else:
    print("No rechazamos la hipótesis nula: No se puede garantizar que las niñas tengan mejores calificaciones que los niños.")


No rechazamos la hipótesis nula: No se puede garantizar que las niñas tengan mejores calificaciones que los niños.
