### Generación de datos

Se obtiene nombre, altura y sexo de los alumnos de la carrera de Software, y se organizan en un dataframe. 

In [43]:
import pandas as pd

nombres = ['Fer', 'Ale', 'Alex Muñoz', 'Gael', 'Erick', 'Angie', 'Karla', 'Angel', 
           'Derik', 'Jose Jacal', 'Leo Dorantes', 'Lalo', 'Antonio', 'Luis Hurtado']

estaturas = [180, 170, 170, 168, 165, 168, 170, 175, 174, 175, 171, 172, 170, 177]

sexo = ['Hombre', 'Hombre', 'Hombre', 'Hombre', 'Hombre', 'Mujer', 'Mujer', 'Hombre', 
        'Hombre', 'Hombre', 'Hombre', 'Hombre', 'Hombre', 'Hombre']

df = pd.DataFrame({'nombre': nombres, 'estatura (cm)': estaturas, 'sexo': sexo})

df


Unnamed: 0,nombre,estatura (cm),sexo
0,Fer,180,Hombre
1,Ale,170,Hombre
2,Alex Muñoz,170,Hombre
3,Gael,168,Hombre
4,Erick,165,Hombre
5,Angie,168,Mujer
6,Karla,170,Mujer
7,Angel,175,Hombre
8,Derik,174,Hombre
9,Jose Jacal,175,Hombre


## Pruebas de hipótesis



#### **`1. ¿Tienen los y las estudiantes una estatura media diferente de 175 cm?`**



**1.1 Planteamiento de la hipótesis nula y alternativa**:

La hipótesis nula es la que queremos desacreditar.

   - **Hipótesis nula ($H_0$)**: La estatura media de los estudiantes es igual a 175 cm. ( $H_0$: $\mu$ = 175 )

La hipótesis alternativa es la posible verdad si se rechaza la hipótesis nula. 

   - **Hipótesis alternativa ($H_1$)**: La estatura media de los estudiantes es diferente de 175 cm. ( $H_1$: $\mu$ $\neq$ 175 )

**1.2 Cálculo de la media y desviación estándar**:

Calculamos la media y desviación estándar de las estaturas, y el tamaño de la muestra para continuar con la prueba de hipótesis.


In [44]:
# Se calcula media y desviación estándar
media_estatura = df['estatura (cm)'].mean()
desviacion_estandar = df['estatura (cm)'].std()
# Se obtiene el tamaño de la muestra
n = len(df)

print('Media de la estutatura: ', round(media_estatura,2))
print('Desviación estándar de la estutatura: ', round(desviacion_estandar,2))
print('Tamaño de la muestra: ', n)

Media de la estutatura:  171.79
Desviación estándar de la estutatura:  4.0
Tamaño de la muestra:  14


**1.3 Prueba t de student**:

Aplicamos una **prueba t de Student** para una muestra, cuya fórmula es la siguiente:

$$
t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}
$$

Donde:
- $\bar{x}$ es la media muestral (en este caso, la media de las estaturas que hemos calculado).
- $\mu_0$ es la media teórica, que en este caso es 175 cm.
- $s$ es la desviación estándar de la muestra.
- $n$ es el tamaño de la muestra.

Esta fórmula nos da el valor del estadístico t, el cual se usa para determinar si hay una diferencia significativa entre la media muestral y la media teórica.




In [45]:
import numpy as np

mu_0 = 175
ts= (media_estatura - mu_0) / (desviacion_estandar / np.sqrt(n))

print('Estadístico t:',round(ts,4))

Estadístico t: -3.0041


**1.4 Grados de Libertad (df)**:

Representan el número de valores independientes que pueden variar sin restricciones en un análisis estadístico.
- En una prueba t de una muestra, se calcula como:

$$df = n - 1$$



In [46]:
grados_libertad = n-1

grados_libertad

13

**1.5 P_value**:

Mide la significancia estadística de los resultados de una prueba. Interpretación:

  - **Valor p bajo** (p < 0.05 ): suficiente evidencia para rechazar la hipótesis nula (la media muestral es significativamente diferente de la media teórica).
  - **Valor p alto**: no hay suficiente evidencia para rechazar la hipótesis nula (la media muestral podría ser similar a la media teórica).

Los grados de libertad afectan la distribución t utilizada para calcular el valor p, que ayuda a determinar la significancia de los resultados. 

In [47]:
# Librería para trabajar con la distribución t de Student
from scipy.stats import t

# Se multiplica por 2 para obtener el valor p en una prueba bilateral
p_value = 2 * (1 - t.cdf(np.abs(ts), grados_libertad))

print('Valor p:', round(p_value,4))


Valor p: 0.0102


**1.6 Interpretación del resultado**:

Con base en el valor p obtenido, tomamos una decisión sobre la hipótesis nula.

In [48]:
# Interpretación del valor p
if p_value < 0.05:
    print("Rechazamos la hipótesis nula: la estatura media es significativamente diferente de 175 cm.")
else:
    print("No rechazamos la hipótesis nula: no hay evidencia suficiente para decir que la estatura media es diferente de 175 cm.")


Rechazamos la hipótesis nula: la estatura media es significativamente diferente de 175 cm.


#### **`2. ¿Es la desviación estándar de su estatura igual a o menor que 10 cm?`**


**2.1 Planteamiento de la hipótesis nula y alternativa**:

- **Hipótesis nula ($H_0$)**: 
   - La hipótesis nula establece que la desviación estándar de la estatura de los estudiantes es **igual a 10 cm**. Es decir, no hay evidencia suficiente para suponer que la desviación estándar sea menor.
   - **$H_0$: $\sigma = 10$**

- **Hipótesis alternativa ($H_1$)**: 
   - La hipótesis alternativa sugiere que la desviación estándar de la estatura de los estudiantes es **menor que 10 cm**. Esta hipótesis es lo que intentamos demostrar si rechazamos la nula.
   - **$H_1$: $\sigma < 10$**


**2.2 Prueba de chi-cuadrado para la desviación estándar**

Para evaluar si la desviación estándar de las estaturas es igual o menor que 10 cm, utilizaremos la prueba de **chi-cuadrado**. Esta prueba compara la varianza observada de la muestra con una varianza teórica y nos permite determinar si la diferencia es significativa.


La fórmula para el estadístico de la prueba es:

$$
\chi^2 = \frac{(n-1) \cdot s^2}{\sigma_0^2}
$$

Donde:
- $n$ es el tamaño de la muestra.
- $s^2$ es la varianza muestral (calculada a partir de los datos).
- $\sigma_0^2$ es la varianza teórica (en este caso, $10^2 = 100$).

In [49]:
from scipy.stats import chi2

# 1. Calcular el tamaño de la muestra (n) y la varianza muestral (s^2)
n = len(estaturas)
varianza_muestral = np.var(estaturas, ddof=1)  # ddof=1 para calcular la varianza muestral

# 2. Definir la varianza teórica (sigma_0^2 = 100)
varianza_teorica = 10**2

# 3. Calcular el estadístico chi-cuadrado (χ²)
chi_square_statistic = (n - 1) * varianza_muestral / varianza_teorica

# Mostrar el resultado del estadístico chi-cuadrado
print(f'Estadístico chi-cuadrado: {round(chi_square_statistic,2)}')

# 4. Grados de libertad (n - 1)
gl = n - 1

# 5. Calcular el p-valor usando la distribución chi-cuadrado
p_value = chi2.cdf(chi_square_statistic, gl)

# Mostrar el p-valor
print(f'Valor p: {round(p_value,4)}')

Estadístico chi-cuadrado: 2.08
Valor p: 0.0003


**2.3 Interpretación del resultado**

- Si el **p-valor** es **menor** que 0.05, **rechazamos la hipótesis nula**, lo que indica que la desviación estándar de la estatura es significativamente menor que 10 cm.
- Si el **p-valor** es **mayor** que 0.05, no podemos rechazar la hipótesis nula y concluimos que la desviación estándar no es significativamente diferente de 10 cm.

In [50]:
# Interpretación del valor p
if p_value < 0.05:
    print("Rechazamos la hipótesis nula: la desviación estándar de la estatura es significativamente menor que 10 cm.")
else:
    print("No rechazamos la hipótesis nula: no hay evidencia suficiente para decir que la desviación estándar es menor que 10 cm.")


Rechazamos la hipótesis nula: la desviación estándar de la estatura es significativamente menor que 10 cm.



#### **`3. ¿Es diferente la estatura promedio de las mujeres comparada con la de los hombres?`**



**3.1 Planteamiento de la hipótesis nula y alternativa**:

- **Hipótesis nula ($H_0$)**: La estatura promedio de las mujeres es igual a la de los hombres. ($\mu_{mujeres} = \mu_{hombres}$)
- **Hipótesis alternativa ($H_1$)**: La estatura promedio de las mujeres es diferente a la de los hombres. ($\mu_{mujeres} \neq \mu_{hombres}$)


**3.2 Separar los datos por sexo**

Dividimos las estaturas de los estudiantes en dos grupos: hombres y mujeres. Ahora tenemos dos muestras independientes.


In [51]:
# Dividir los datos entre hombres y mujeres
mujeres = df[df['sexo'] == 'Mujer']['estatura (cm)']
hombres = df[df['sexo'] == 'Hombre']['estatura (cm)']

# Calcular y mostrar las estaturas medias de hombres y mujeres
media_mujeres = mujeres.mean()
media_hombres = hombres.mean()

print(f"Media de estatura de mujeres: {media_mujeres:.2f} cm")

print(f"Media de estatura de hombres: {media_hombres:.2f} cm")




Media de estatura de mujeres: 169.00 cm
Media de estatura de hombres: 172.25 cm


**3.3 Calcular el estadístico t**

Usamos la fórmula de la prueba t de Student para dos muestras independientes:
$$
t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
$$
Donde:
- $\bar{x}_1$ y $\bar{x}_2$ son las medias de los grupos (mujeres y hombres).
- $s_1^2$ y $s_2^2$ son las varianzas muestrales de ambos grupos.
- $n_1$ y $n_2$ son los tamaños de cada muestra.

Usaremos la función *ttest_ind* de **scipy** para calcular el estadístico t y el valor p.


In [52]:
from scipy.stats import ttest_ind

# Aplicar la prueba t de Student para dos muestras independientes
t_stat, p_value = ttest_ind(mujeres, hombres)

# Mostrar resultados
print(f'Estadístico t: {round(t_stat,2)}')
print(f'Valor p: {round(p_value,4)}')


Estadístico t: -1.07
Valor p: 0.3062


**3.4 Interpretación del resultado**:

Con base en el valor p obtenido, tomamos una decisión sobre la hipótesis nula.

In [53]:
# Interpretación del valor p
if p_value < 0.05:
    print("Rechazamos la hipótesis nula: la estatura promedio de hombres y mujeres es significativamente diferente.")
else:
    print("No rechazamos la hipótesis nula: no hay evidencia suficiente para decir que las estaturas promedio de hombres y mujeres son diferentes.")


No rechazamos la hipótesis nula: no hay evidencia suficiente para decir que las estaturas promedio de hombres y mujeres son diferentes.
