# Pruebas de Hipótesis

---

## Introducción a las Pruebas de Hipótesis

### ¿Qué es una prueba de hipótesis?
Una **prueba de hipótesis** es una herramienta estadística que se utiliza para tomar decisiones o llegar a conclusiones sobre una población basándonos en los datos de una muestra.

---

### Conceptos básicos para entender las pruebas

#### ¿Qué es una población?
Es el **conjunto completo de elementos** (personas, objetos, eventos) que estamos estudiando. Ejemplo: todos los clientes de una empresa.

#### ¿Qué es una muestra?
Es un **subconjunto representativo** de la población. Es más práctico y económico trabajar con muestras que con toda la población.

#### ¿Qué es el nivel de significancia ($\alpha$)?
Es la **probabilidad máxima permitida de cometer un error tipo I**, es decir, de rechazar la hipótesis nula cuando en realidad es verdadera. Comúnmente se usa $\alpha = 0.05$, lo que significa que aceptamos un 5% de probabilidad de equivocarnos.

#### ¿Qué es el valor p (p-value)?
Es la **probabilidad de obtener un resultado tan extremo como el observado**, si la hipótesis nula fuera cierta. Si el valor p es menor que $\alpha$, se rechaza H0.

#### Tipos de error:
- **Error tipo I ($ \alpha $)**: Rechazar H0 cuando es verdadera.
- **Error tipo II ($ \beta $)**: No rechazar H0 cuando es falsa.

---

### Pasos para una prueba de hipótesis
1. Formular **hipótesis nula** (H0) y **alternativa** (H1)
2. Elegir el **nivel de significancia** ($\alpha$)
3. Elegir el **tipo de prueba** (t, z, chi-cuadrado, etc.)
4. Calcular el **estadístico de prueba**
5. Obtener el **valor p**
6. Tomar decisión: rechazar o no rechazar H0

---

### Pruebas paramétricas
- Asumen que los datos siguen una distribución específica, generalmente normal (campana de Gauss).

- Usan parámetros como la media y la desviación estándar.

- Son más potentes (detectan diferencias más fácilmente) si se cumplen los supuestos.

- Ejemplos: t de Student, ANOVA, prueba z, prueba F.

### Pruebas no paramétricas
- No asumen distribución específica.

- Usan rangos u orden, no medias.

- Son más robustas cuando tienes pocos datos, valores extremos o violaciones de supuestos.

- Ejemplos: Mann-Whitney U, Wilcoxon, Kruskal-Wallis, Friedman.


### ¿Cuando usar cada tipo de prueba?
- ¿Tus datos son numéricos y normales? → Prueba paramétrica

- ¿Tus datos tienen muchos valores atípicos, son ordinales o no normales? → Prueba no paramétrica

- ¿Comparas medias? → Pruebas t, ANOVA, etc.

- ¿Comparas proporciones? → Pruebas z o chi-cuadrado

- ¿Tienes más de dos grupos? → ANOVA o Kruskal-Wallis

- ¿Tienes los mismos sujetos antes y después? → Prueba pareada o Wilcoxon

---

## Parte 2: Tipos de pruebas de hipótesis

### 1. **Prueba z para una media**
**Uso:** Cuando se conoce la desviación estándar poblacional y el tamaño muestral es grande (n > 30)

**Hipótesis:**

$
H_0: \mu = \mu_0 \\
H_1: \mu \neq \mu_0
$

**Estadístico:**
$
z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}
$

**Aplicación:**
Comparar la media de los ingresos de una muestra de empleados con el ingreso promedio nacional conocido.

---

### 2. **Prueba t para una media (t-student)**
**Uso:** Cuando NO se conoce la desviación estándar poblacional y el tamaño muestral es pequeño (n < 30)

**Requisitos:** datos cuantitativos, distribución aproximadamente normal

**Hipótesis:**
$
H_0: \mu = \mu_0
$

**Ejemplo:** ¿Los estudiantes de una escuela tienen un puntaje promedio de 500 en una prueba estandarizada?

---

### 3. **Prueba t para dos muestras independientes**
**Uso:** Comparar medias de dos grupos diferentes

**Hipótesis:**

$
H_0: \mu_1 = \mu_2 \\
H_1: \mu_1 \neq \mu_2
$

**Ejemplo:** Comparar el promedio de calificaciones entre hombres y mujeres

---

### 4. **Prueba t pareada (muestras relacionadas)**
**Uso:** Cuando los datos son dependientes (antes/después en los mismos sujetos)

**Hipótesis:**

$
H_0: \mu_d = 0 \\
H_1: \mu_d \neq 0
$

**Ejemplo:** Evaluar si una dieta redujo el peso de los participantes

---

### 5. **Prueba z de proporciones (una muestra)**
**Uso:** Comparar una proporción observada con un valor teórico

**Hipótesis:**
$
H_0: p = p_0
$

**Ejemplo:** ¿El 60% de los clientes prefiere el producto A?

---

### 6. **Prueba z de proporciones (dos muestras)**
**Uso:** Comparar proporciones entre dos grupos

**Hipótesis:**
$
H_0: p_1 = p_2
$

**Ejemplo:** ¿La proporción de clientes satisfechos es la misma entre dos tiendas?

---

### 7. **Prueba de chi-cuadrado de independencia (\( \chi^2 \))**
**Uso:** Evaluar si dos variables categóricas están relacionadas

**Hipótesis:**
$
H_0: \text{Las variables son independientes}
$

**Ejemplo:** ¿El nivel educativo influye en la preferencia de un producto?

---

### 8. **Prueba de chi-cuadrado de bondad de ajuste**
**Uso:** Comparar una distribución observada con una teórica esperada

**Hipótesis:**
$
H_0: \text{Los datos siguen la distribución esperada}
$

**Ejemplo:** ¿Los dados están cargados? (se espera distribución uniforme)

---

### 9. **Prueba F (Snedecor) para varianzas**
**Uso:** Comparar si dos poblaciones tienen la misma varianza

**Hipótesis:**
$
H_0: \sigma_1^2 = \sigma_2^2
$

**Ejemplo:** ¿Las calificaciones de dos profesores tienen igual dispersión?

---

### 10. **Prueba U de Mann-Whitney**
**Uso:** Comparar dos grupos independientes cuando los datos no siguen una distribución normal

**Hipótesis:**
$
H_0: \text{Las distribuciones son iguales}
$

**Ejemplo:** Comparar salarios entre dos departamentos con datos atípicos

---

### 11. **Prueba de Wilcoxon (pareada no paramétrica)**
**Uso:** Alternativa no paramétrica a la t pareada

**Hipótesis:**
$
H_0: \text{Mediana de las diferencias} = 0
$

**Ejemplo:** Evaluar efecto de un tratamiento en la presión arterial con pocos datos

---

### 12. **Prueba de Kruskal-Wallis**
**Uso:** Comparar más de dos grupos independientes sin asumir normalidad

**Hipótesis:**
$
H_0: \text{Las distribuciones son iguales}
$

**Ejemplo:** Comparar satisfacción entre tres regiones cuando los datos son ordinales

---

### 13. **Prueba de Friedman (ANOVA no paramétrica para datos pareados)**
**Uso:** Comparar más de dos tratamientos aplicados a los mismos sujetos

**Hipótesis:**
$
H_0: \text{Las medianas son iguales}
$

**Ejemplo:** Evaluar preferencia de sabores por los mismos catadores

---

| **Prueba**                        | **¿Qué compara?**                              | **Tipo de datos**  | **¿Paramétrica?** | **¿Cuándo usarla?**                                         | **Ejemplo real de uso**                                                                 |
|----------------------------------|--------------------------------------------------|---------------------|--------------------|-------------------------------------------------------------|-------------------------------------------------------------------------------------------|
| Z para una media                 | Una media vs valor conocido                     | Numérica            | Sí                 | Muestra grande y desviación estándar conocida (σ)          | Evaluar si el tiempo promedio de entrega es distinto a los 30 min prometidos             |
| t para una media                 | Una media vs valor conocido                     | Numérica            | Sí                 | Muestra pequeña y σ desconocida                            | Ver si los estudiantes duermen en promedio 7 horas por noche                             |
| t dos muestras independientes    | Medias de 2 grupos independientes               | Numérica            | Sí                 | Dos grupos, datos normales y varianzas similares           | Comparar salario promedio entre empleados de dos sucursales diferentes                   |
| t pareada                        | Promedios antes/después en los mismos sujetos   | Numérica            | Sí                 | Comparación repetida en mismos sujetos                     | Evaluar si una dieta disminuyó el peso de los mismos pacientes                           |
| z de proporciones (1 muestra)    | Proporción observada vs valor teórico           | Categórica          | Sí                 | Comparar proporción conocida con muestra grande            | Ver si más del 50% de clientes prefieren el nuevo empaque del producto                   |
| z de proporciones (2 muestras)   | Proporciones entre dos grupos                   | Categórica          | Sí                 | Comparar dos porcentajes (encuestas, preferencias)         | Comparar proporción de satisfacción entre clientes de dos ciudades                       |
| Chi-cuadrado independencia       | Asociación entre dos variables categóricas      | Categórica          | No                 | Ver si hay relación entre variables categóricas            | Ver si la preferencia por pizza varía entre hombres y mujeres                            |
| Chi-cuadrado bondad de ajuste    | Distribución observada vs distribución esperada | Categórica          | No                 | Ver si los datos siguen una distribución esperada          | Verificar si un dado es justo comparando frecuencias observadas con lo esperado          |
| Prueba F                         | Varianzas de dos grupos                         | Numérica            | Sí                 | Comparar dispersión o variabilidad                         | Comparar la variabilidad en calificaciones de dos profesores                             |
| Mann-Whitney U                   | Diferencias entre 2 grupos (sin normalidad)     | Ordinal/Numérica    | No                 | Alternativa a t independiente sin normalidad               | Comparar niveles de estrés en dos departamentos con respuestas ordinales                 |
| Wilcoxon                         | Diferencias antes/después (sin normalidad)      | Ordinal/Numérica    | No                 | Alternativa a t pareada sin normalidad                     | Ver si un curso de formación mejora la velocidad de ejecución de tareas                  |
| Kruskal-Wallis                   | 3 o más grupos independientes                   | Ordinal/Numérica    | No                 | Alternativa a ANOVA sin normalidad                         | Comparar satisfacción de clientes entre tres tiendas con puntuaciones no normales        |
| Friedman                         | 3 o más tratamientos sobre mismos sujetos       | Ordinal/Numérica    | No                 | Alternativa no paramétrica a ANOVA de medidas repetidas    | Comparar productividad de empleados bajo tres entornos de trabajo distintos              |


In [1]:
# Ejemplos prácticos en Python de pruebas de hipótesis (vida real y sencillos)

import numpy as np
import pandas as pd
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

# 1. Prueba Z para una media (con sigma conocida)
# Supongamos que el tiempo promedio de entrega prometido por una tienda es 30 minutos
# Se conoce que la desviación estándar poblacional es 5 min
muestra = np.array([28, 32, 30, 29, 27, 31, 33, 30, 28, 32])
mu_0 = 30
sigma = 5
n = len(muestra)

z = (np.mean(muestra) - mu_0) / (sigma / np.sqrt(n))
p = 2 * (1 - stats.norm.cdf(abs(z)))
print("1. Z para una media:", z, "p:", p)

1. Z para una media: 0.0 p: 1.0


In [None]:
# 2. Prueba t para una media (sigma desconocida)
# ¿El promedio de horas de sueño es 7 horas?
# H0: Promedio de horas = 7 H
# HA: Promedio de horas <> 7H

suenio = np.array([6.5, 7, 6.8, 7.2, 6.9, 7.1, 6.7, 7.3, 7])
t_stat, p_val = stats.ttest_1samp(suenio, 7)
print("2. t para una media:", t_stat, "p:", p_val)

2. t para una media: -0.6651901052377371 p: 0.5246382485100054


In [None]:
# 3. Prueba t para dos muestras independientes
# Comparar salarios en dos ciudades
ciudad_A = [3000, 3200, 3100, 3050, 2950]
ciudad_B = [2800, 2700, 2900, 2750, 2650]
t_stat, p_val = stats.ttest_ind(ciudad_A, ciudad_B)
print("3. t dos muestras independientes:", t_stat, "p:", p_val)

In [None]:
# 4. Prueba t pareada
# Peso antes y después de una dieta
antes = [80, 82, 78, 85, 90]
despues = [78, 80, 76, 84, 88]
t_stat, p_val = stats.ttest_rel(antes, despues)
print("4. t pareada:", t_stat, "p:", p_val)

# 5. Prueba z de proporciones (una muestra)
# Se espera que el 50% de clientes prefieran el producto A
n = 100
x = 60
stat, p_val = proportions_ztest(count=x, nobs=n, value=0.5)
print("5. z proporciones una muestra:", stat, "p:", p_val)

# 6. Prueba z de proporciones (dos muestras)
# 65 de 100 clientes prefieren A en Bogotá, 55 de 100 en Medellín
stat, p_val = proportions_ztest(count=[65, 55], nobs=[100, 100])
print("6. z proporciones dos muestras:", stat, "p:", p_val)

# 7. Chi-cuadrado de independencia
# Tabla: ¿Está relacionado el género con la preferencia por pizza?
observed = pd.DataFrame({"Sí": [30, 20], "No": [10, 40]}, index=["Hombres", "Mujeres"])
chi2, p, dof, expected = stats.chi2_contingency(observed)
print("7. Chi2 independencia:", chi2, "p:", p)

# 8. Chi-cuadrado bondad de ajuste
# ¿Un dado es justo? (Se lanza 60 veces)
observado = [8, 10, 9, 11, 12, 10]
esperado = [10, 10, 10, 10, 10, 10]
chi2, p = stats.chisquare(f_obs=observado, f_exp=esperado)
print("8. Chi2 bondad ajuste:", chi2, "p:", p)

# 9. Prueba F para varianzas
# ¿Tienen los salarios de dos áreas la misma varianza?
a = np.array([2500, 2600, 2700, 2550, 2650])
b = np.array([3000, 3100, 2900, 2800, 2950])
f_stat = np.var(a, ddof=1) / np.var(b, ddof=1)
dof1 = len(a) - 1
dof2 = len(b) - 1
p = 2 * min(stats.f.cdf(f_stat, dof1, dof2), 1 - stats.f.cdf(f_stat, dof1, dof2))
print("9. Prueba F varianzas:", f_stat, "p:", p)

# 10. Prueba U de Mann-Whitney
# ¿Nivel de estrés en dos departamentos?
dep1 = [3, 4, 5, 2, 3]
dep2 = [6, 7, 5, 6, 8]
stat, p = stats.mannwhitneyu(dep1, dep2)
print("10. Mann-Whitney U:", stat, "p:", p)

# 11. Wilcoxon (pareado no paramétrico)
# Tiempo en completar tarea antes y después de entrenamiento
antes = [30, 28, 32, 31, 29]
despues = [25, 27, 28, 26, 24]
stat, p = stats.wilcoxon(antes, despues)
print("11. Wilcoxon pareado:", stat, "p:", p)

# 12. Kruskal-Wallis
# Comparar satisfacción de clientes en 3 tiendas
store1 = [8, 9, 7]
store2 = [6, 5, 7]
store3 = [9, 10, 9]
stat, p = stats.kruskal(store1, store2, store3)
print("12. Kruskal-Wallis:", stat, "p:", p)

# ANOVA - Análisis de Varianza

ANOVA significa **Análisis de Varianza** (*Analysis of Variance*, en inglés). Es una técnica estadística usada para comparar **más de dos grupos** y determinar si hay **diferencias significativas** entre sus medias.

Por ejemplo:
- ¿Tres métodos de estudio generan rendimientos académicos distintos?
- ¿Diferentes campañas de marketing logran el mismo nivel de ventas?

ANOVA **no te dice entre qué grupos hay diferencia**, solo si al menos uno de ellos es diferente. Si se detecta diferencia, luego se realiza una **prueba post-hoc** para saber entre cuáles grupos.

---

## ¿Por qué no usar muchas pruebas t?
Supón que tienes 4 grupos. Podrías hacer varias pruebas t entre cada par, pero eso **aumenta el error tipo I** (la probabilidad de encontrar una diferencia falsa).

ANOVA evita este problema al comparar todos los grupos a la vez controlando el nivel de significancia.

---

## ¿Cuándo usar ANOVA?
Usa ANOVA cuando:
- Quieres comparar las **medias** de **tres o más grupos** independientes
- Tu variable dependiente es **cuantitativa** (números)
- Tu variable independiente (el grupo) es **categórica** (ej. "Grupo A", "Grupo B")

---

## Tipos de ANOVA
- **ANOVA de un factor (One-Way ANOVA):** Un solo criterio de clasificación (ej. tipo de dieta)
- **ANOVA de dos factores (Two-Way ANOVA):** Dos criterios (ej. tipo de dieta y género)
- **ANOVA con medidas repetidas:** Cuando se mide varias veces a los mismos sujetos (similar a la t pareada)

---

## Supuestos de ANOVA
Antes de aplicar ANOVA, debemos cumplir estos **supuestos**:

1. **Independencia de las observaciones**: Los datos de un grupo no dependen de los de otro
2. **Normalidad:** Las variables en cada grupo deben seguir una distribución normal
3. **Homogeneidad de varianzas (homocedasticidad):** Todos los grupos deben tener varianzas similares

### ¿Qué pasa si no se cumplen?
- Si hay **falta de normalidad** o **varianzas diferentes**, usa una prueba no paramétrica como **Kruskal-Wallis**

---

## Hipótesis en ANOVA
- Hipótesis nula (H0): Todas las medias son iguales
- Hipótesis alternativa (H1): Al menos una media es diferente

$
H_0: \mu_1 = \mu_2 = \dots = \mu_k \\
H_1: \text{Al menos una media es diferente}
$

---

## Cómo funciona ANOVA
ANOVA compara dos fuentes de variabilidad:

1. **Variación entre grupos:** Qué tanto difieren las medias de cada grupo entre sí
2. **Variación dentro de los grupos:** Qué tanto varían los datos dentro de cada grupo

El estadístico F se calcula así:

$
F = \frac{\text{Varianza entre grupos}}{\text{Varianza dentro de los grupos}} = \frac{MS_{entre}}{MS_{dentro}}
$

Si F es **grande**, indica que los grupos son muy diferentes entre sí.

---

## Tabla ANOVA típica
| Fuente de variación | Suma de cuadrados (SS) | Grados de libertad (df) | Cuadrado medio (MS) | Estadístico F |
|---------------------|------------------------|--------------------------|----------------------|----------------|
| Entre grupos        | SS\_entre              | k - 1                    | MS\_entre = SS\_entre / (k - 1) | F = MS\_entre / MS\_dentro |
| Dentro de grupos    | SS\_dentro             | N - k                    | MS\_dentro = SS\_dentro / (N - k) |                |
| Total               | SS\_total              | N - 1                    |                      |                |

---

## Ejemplo práctico en Python
```python
import pandas as pd
from scipy.stats import f_oneway

# Datos de ejemplo: calificaciones según tipo de clase
datos = {
    'Tradicional': [70, 68, 75, 71, 74],
    'Online': [65, 67, 64, 66, 63],
    'Híbrido': [80, 78, 85, 79, 82]
}

# Convertimos a DataFrame
df = pd.DataFrame(datos)

# Aplicamos ANOVA
f_stat, p_value = f_oneway(df['Tradicional'], df['Online'], df['Híbrido'])
print("Estadístico F:", f_stat)
print("Valor p:", p_value)
```

**Interpretación:**
- Si el valor p es menor que 0.05, rechazamos H0 → hay diferencia significativa entre grupos

---

## ¿Y después del ANOVA? (Post-hoc)
Si encontramos diferencias, hacemos una prueba post-hoc como **Tukey HSD** para saber **entre qué grupos** está la diferencia.

```python
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Reorganizamos los datos
df_melt = df.melt(var_name='Metodo', value_name='Nota')

# Prueba de Tukey
resultado = pairwise_tukeyhsd(df_melt['Nota'], df_melt['Metodo'])
print(resultado)
```

---

## Conclusión
- ANOVA es ideal para comparar más de 2 grupos
- Asegúrate de cumplir los supuestos
- Si hay diferencia, sigue con pruebas post-hoc
- Es una herramienta poderosa pero necesita un uso cuidadoso

---

In [3]:
# Una empresa quiere saber si tres métodos de capacitación distintos generan un 
# desempeño diferente en los empleados. Mide el puntaje promedio de una prueba 
# final (de 0 a 100) después de aplicar cada método.


#H0 (Hipótesis nula): Las medias de los tres grupos son iguales

#H1 (Hipótesis alternativa): Al menos una de las medias es diferente

import pandas as pd
from scipy.stats import f_oneway
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Datos
tradicional = [70, 68, 75, 71, 74]
online = [65, 67, 64, 66, 63]
hibrido = [80, 78, 85, 79, 82]

# ANOVA
f_stat, p_value = f_oneway(tradicional, online, hibrido)

print(f"Estadístico F: {f_stat}")
print(f"Valor p: {p_value}")

Estadístico F: 51.05945945945946
Valor p: 1.3518907093358138e-06


### Interpretación ANOVA

El valor p = 1.35e-06 es mucho menor que 0.05 (nuestro umbral típico de significancia).

Por lo tanto, rechazamos la hipótesis nula.

**Conclusión del ANOVA:**

Existen diferencias estadísticamente significativas entre los métodos de capacitación. Al menos uno de los grupos tiene un desempeño diferente.

In [4]:
# Datos para análisis post-hoc
df = pd.DataFrame({
    'Metodo': ['Tradicional']*5 + ['Online']*5 + ['Híbrido']*5,
    'Nota': tradicional + online + hibrido
})

# Prueba post-hoc de Tukey
resultado = pairwise_tukeyhsd(df['Nota'], df['Metodo'])
print(resultado)


#Si el valor p < 0.05, se rechaza H0 → al menos un grupo es diferente

#El test de Tukey muestra cuáles pares de métodos tienen diferencias significativas

  Multiple Comparison of Means - Tukey HSD, FWER=0.05   
 group1    group2   meandiff p-adj  lower  upper  reject
--------------------------------------------------------
Híbrido      Online    -15.8    0.0 -19.99 -11.61   True
Híbrido Tradicional     -9.2 0.0002 -13.39  -5.01   True
 Online Tradicional      6.6 0.0032   2.41  10.79   True
--------------------------------------------------------


### Interpretación Tukey

- group1 y group2: grupos comparados.

- meandiff: diferencia de medias (group1 - group2).

- p-adj: valor p ajustado (más preciso cuando se hacen muchas comparaciones).

- reject: True indica que sí hay diferencia significativa entre esos dos grupos.

**Interpretación final para no estadísticos:**
- Híbrido vs Online: hay una gran diferencia (15.8 puntos más en promedio en el grupo híbrido) → significativa.

- Híbrido vs Tradicional: también hay diferencia (9.2 puntos más en el híbrido) → significativa.

- Online vs Tradicional: el tradicional supera al online por 6.6 puntos → también significativa.


El método híbrido es claramente el más efectivo. Los empleados que recibieron capacitación híbrida obtuvieron puntajes significativamente más altos que los de los otros dos métodos. Además, el método tradicional fue mejor que el online. Por lo tanto, si la empresa quiere mejorar el rendimiento de su personal, debería implementar el método híbrido.