## 📌 1. ¿Qué es una hipótesis estadística?

Una **hipótesis estadística** es una suposición que hacemos sobre una característica de una población (por ejemplo, la media, la proporción, etc.).

---

## ✅ 2. Tipos de hipótesis

### **Hipótesis nula (H₀)**

Es la suposición por defecto, la que se quiere **probar o refutar**. Generalmente dice que *no hay efecto*, *no hay diferencia*, o que *todo es igual*.

Ejemplos:

* H₀: "La media de los salarios en el sector A es igual a la del sector B"
* H₀: "El nuevo fármaco no mejora el estado de salud comparado con el placebo"

### **Hipótesis alternativa (H₁ o Hₐ)**

Es lo que intentamos probar. Dice que *sí hay una diferencia o efecto*.

Ejemplos:

* H₁: "La media de los salarios en el sector A es distinta a la del sector B"
* H₁: "El nuevo fármaco sí mejora la salud"

---

## 🎯 3. ¿Qué es el **p-value**?

El **p-value** (valor p) es la **probabilidad** de obtener un resultado tan extremo como el observado (o más), **asumiendo que la hipótesis nula es cierta**.

### ➡️ ¿Cómo interpretarlo?

* Si **p-value < α** (por ejemplo, 0.05): Rechazamos la H₀.
* Si **p-value ≥ α**: No hay suficiente evidencia para rechazar H₀.

---

## 🧪 4. Ejemplo práctico con Python

### ✨ Pregunta: ¿Los estudiantes de dos cursos tienen el mismo promedio de notas?


In [None]:
import numpy as np
from scipy.stats import ttest_ind # pues voy a hacer el analisis en base a este valor
import matplotlib.pyplot as plt


In [None]:

# Simulamos los datos
np.random.seed(42)
curso_A = np.random.normal(7.3, 1, 30)  # media 7, desviación 1
curso_B = np.random.normal(7, 1.2, 60)  # media 6.5, desviación 1.2


In [None]:
import seaborn as sns

fig, axs = plt.subplots(2, 1, figsize=(10, 8), sharex=True)

# Histograma + KDE para Curso A
sns.histplot(curso_A, kde=True, stat='density', bins=20, color='blue', alpha=0.6, ax=axs[0])
axs[0].set_title('Distribución de notas - Curso A')
axs[0].set_ylabel('Densidad')


# Histograma + KDE para Curso B
sns.histplot(curso_B, kde=True, stat='density', bins=20, color='orange', alpha=0.6, ax=axs[1])
axs[1].set_title('Distribución de notas - Curso B')
axs[1].set_xlabel('Notas')
axs[1].set_ylabel('Densidad')

plt.tight_layout()
plt.show()


In [None]:
# Prueba de hipótesis: test t para muestras independientes
stat, p_value = ttest_ind(curso_A, curso_B)

print("Estadístico t:\t", round(stat, 4))
print("p-value:\t", round(p_value, 4))

if p_value < 0.05:
    print("➡️ Rechazamos la hipótesis nula: hay diferencia significativa en los promedios.")
else:
    print("✅ No se rechaza la hipótesis nula: no hay diferencia significativa.")


Comparar las **notas** (una **variable continua**) entre **dos grupos independientes** (`curso_A` y `curso_B`), por lo tanto la **prueba t** es la más habitual. Pero querés saber si podrías usar en su lugar:

| Test estadístico           | ¿Apropiado?                     | Justificación                                                                                                                 |
| -------------------------- | ------------------------------- | ----------------------------------------------------------------------------------------------------------------------------- |
| **t-test (independiente)** | ✅ **Sí**                        | Compara medias de dos grupos independientes con datos numéricos. Es **el test adecuado**.                                     |
| **ANOVA**                  | 🟡 **Sí, pero innecesario**     | Se usa para **3 o más grupos**. Funciona para 2, pero es redundante. El t-test es más directo.                                |
| **Chi-cuadrado (χ²)**      | ❌ **No**                        | Requiere **variables categóricas** (frecuencias). No compara medias ni trabaja con datos continuos.                           |
| **Z-test**                 | 🟡 **Teóricamente sí, pero...** | Similar al t-test, pero se usa cuando conocés la **desviación estándar poblacional**. En la práctica, **se prefiere t-test**. |

---

## ✅ Tabla comparativa

| Prueba     | ¿Sirve para comparar medias de dos grupos? | Tipo de variable      | ¿Cuándo usarla?                                                                         |
| ---------- | ------------------------------------------ | --------------------- | --------------------------------------------------------------------------------------- |
| **t-test** | ✅ Sí                                       | Cuantitativa continua | Cuando comparás medias entre **2 grupos independientes**.                               |
| **ANOVA**  | ✅ Sí (pero más para ≥ 3 grupos)            | Cuantitativa continua | Para comparar medias entre **3 o más grupos**.                                          |
| **Chi²**   | ❌ No                                       | Categórica            | Para verificar asociación entre **dos variables categóricas** (tablas de contingencia). |
| **Z-test** | 🟡 Sí (pero rara vez se usa en práctica)   | Cuantitativa continua | Similar al t-test, pero con **desviación estándar poblacional conocida**.               |

---

## 🔍 Conclusión

Para tu caso de **comparar las notas entre curso A y B**:

* ✔️ Usá **t-test de Student** (es el método más adecuado).
* ❌ **No usarías Chi²** porque estás comparando medias, no frecuencias categóricas.
* ❌ **Z-test** es teóricamente válido pero se evita si no se conoce σ poblacional.
* 🟡 **ANOVA** es válido pero se recomienda si tenés más de dos cursos (grupos).


In [None]:
from scipy.stats import f_oneway

f_stat, p_val_anova = f_oneway(curso_A, curso_B)
print(f"ANOVA: F = {f_stat:.3f}, p = {p_val_anova:.3f}")


In [None]:
from scipy.stats import ttest_ind

t_stat, p_val = ttest_ind(curso_A, curso_B)
print(f"T-test: t = {t_stat:.3f}, p = {p_val:.3f}")


In [None]:
from scipy.stats import chi2_contingency

# Categorizamos: aprobado si nota >= 6
curso_A_cat = ['aprobado' if nota >= 6 else 'desaprobado' for nota in curso_A]
curso_B_cat = ['aprobado' if nota >= 6 else 'desaprobado' for nota in curso_B]

# Tabla de contingencia
tabla = pd.crosstab(
    index=['Curso A'] * len(curso_A_cat) + ['Curso B'] * len(curso_B_cat),
    columns=curso_A_cat + curso_B_cat
)

chi2, p_val_chi2, _, _ = chi2_contingency(tabla)
print(f"Chi² test: chi² = {chi2:.3f}, p = {p_val_chi2:.3f}")


In [None]:
# Supongamos que conocemos sigma poblacional (solo como ejemplo)
sigma_A = 1
sigma_B = 1.2

from math import sqrt
from scipy.stats import norm

mean_A = np.mean(curso_A)
mean_B = np.mean(curso_B)

n_A = len(curso_A)
n_B = len(curso_B)

# Z-stat formula
z_stat = (mean_A - mean_B) / sqrt(sigma_A**2/n_A + sigma_B**2/n_B)
p_val_z = 2 * (1 - norm.cdf(abs(z_stat)))

print(f"Z-test: Z = {z_stat:.3f}, p = {p_val_z:.3f}")


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Simulación
np.random.seed(42)
curso_A = np.random.normal(7.3, 1, 30)
curso_B = np.random.normal(7, 1.2, 60)

# Unimos en un DataFrame para graficar mejor
df = pd.DataFrame({
    'nota': np.concatenate([curso_A, curso_B]),
    'curso': ['A'] * len(curso_A) + ['B'] * len(curso_B)
})

# === 1. Histogramas con KDE (lado a lado) ===
fig, axs = plt.subplots(1, 2, figsize=(14, 5), sharey=True)

sns.histplot(data=df[df['curso'] == 'A'], x='nota', kde=True, bins=15, ax=axs[0], color='skyblue')
axs[0].set_title('Distribución Curso A')
axs[0].axvline(df[df['curso'] == 'A']['nota'].mean(), color='blue', linestyle='--', label='Media A')
axs[0].legend()

sns.histplot(data=df[df['curso'] == 'B'], x='nota', kde=True, bins=15, ax=axs[1], color='salmon')
axs[1].set_title('Distribución Curso B')
axs[1].axvline(df[df['curso'] == 'B']['nota'].mean(), color='red', linestyle='--', label='Media B')
axs[1].legend()

plt.suptitle('Histogramas con KDE - Notas por Curso', fontsize=16)
plt.tight_layout()
plt.show()

# === 2. Boxplot comparativo ===
plt.figure(figsize=(8, 5))
sns.boxplot(data=df, x='curso', y='nota', hue='curso', palette={'A': 'skyblue', 'B': 'salmon'}, legend=False)
plt.title('Boxplot comparativo de notas')
plt.xlabel('Curso')
plt.ylabel('Nota')
plt.show()


# === 3. Visualización de diferencia de medias ===
media_A = df[df['curso'] == 'A']['nota'].mean()
media_B = df[df['curso'] == 'B']['nota'].mean()

plt.figure(figsize=(8, 5))
sns.kdeplot(curso_A, label='Curso A', fill=True, color='skyblue')
sns.kdeplot(curso_B, label='Curso B', fill=True, color='salmon')
plt.axvline(media_A, color='blue', linestyle='--', label=f'Media A: {media_A:.2f}')
plt.axvline(media_B, color='red', linestyle='--', label=f'Media B: {media_B:.2f}')
plt.title('Comparación de distribuciones y medias')
plt.xlabel('Nota')
plt.legend()
plt.show()


## 🧠 Interpretación del ejemplo

### Hipótesis

* **H₀**: La media de las notas de los dos cursos es igual.
* **H₁**: Las medias son diferentes.

Supongamos que el resultado del `p-value` es **0.0123**:

→ Como **0.0123 < 0.05**, **rechazamos la hipótesis nula** → sí hay una diferencia estadísticamente significativa entre los promedios de notas.

---

## 📚 Recomendaciones para estudiar mejor

| Concepto                   | ¿Qué recordar?                                          |
| -------------------------- | ------------------------------------------------------- |
| Hipótesis nula (H₀)        | No hay cambio o efecto                                  |
| Hipótesis alternativa      | Sí hay diferencia o efecto                              |
| p-value                    | Probabilidad de ver lo que vimos si H₀ fuera cierta     |
| α (nivel de significancia) | Umbral para decidir si rechazamos H₀ (típicamente 0.05) |
| Rechazo de H₀              | Si p-value < α                                          |



## 🧠 ¿Cómo se calcula el **p-value**?

El cálculo del **p-value** depende del **tipo de test estadístico** que estás haciendo y del **estadístico de prueba** que obtuviste.

### 🔹 Proceso general:

1. **Planteás H₀ y H₁**.
2. **Elegís el test estadístico** adecuado (z-test, t-test, chi², ANOVA, etc.).
3. Calculás el **estadístico de prueba** (por ejemplo, un valor t = 2.3).
4. Calculás el **p-value** como:

   * **Una cola**: Probabilidad de que el estadístico sea mayor (o menor) que el observado.
   * **Dos colas**: Probabilidad de que el estadístico sea más extremo en ambos sentidos.

---

## 📐 Ejemplo 1: Test t para diferencia de medias

### ✍️ Supongamos:

* Dos grupos: `grupo_A` y `grupo_B`, con notas de estudiantes.
* Queremos saber si sus promedios son **distintos**.

```python
import numpy as np
from scipy.stats import ttest_ind

# Creamos dos muestras simuladas
np.random.seed(0)
grupo_A = np.random.normal(7, 0.8, 30)
grupo_B = np.random.normal(6.5, 0.9, 30)

# Test t para muestras independientes
t_stat, p_value = ttest_ind(grupo_A, grupo_B)

print(f'Estadístico t: {t_stat:.3f}')
print(f'p-value: {p_value:.4f}')
```

### 🎯 ¿Qué está haciendo el `ttest_ind()`?

1. Calcula el **estadístico t**:

   $$
   t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
   $$

   Donde:

   * $\bar{X}_1, \bar{X}_2$: medias muestrales
   * $s_1^2, s_2^2$: varianzas muestrales
   * $n_1, n_2$: tamaños de muestra

2. Usa la **distribución t de Student** para encontrar el área bajo la curva (p-value).

---

## 📊 Ejemplo 2: Test z manual (cuando conocés la varianza poblacional)

Supongamos que:

* Población con media conocida: $\mu = 100$
* Una muestra da media $\bar{X} = 106$, desviación $\sigma = 15$, $n = 36$

```python
from scipy.stats import norm

mu = 100
x_bar = 106
sigma = 15
n = 36

# Cálculo del estadístico z
z = (x_bar - mu) / (sigma / np.sqrt(n))
print(f'Estadístico z: {z:.3f}')

# Cálculo del p-value para test bilateral
p_value = 2 * (1 - norm.cdf(z))  # dos colas
print(f'p-value: {p_value:.4f}')
```

---

## 🎯 Resumen: ¿Cómo se calcula un p-value?

| Test      | ¿Qué necesito?                                           | Distribución usada |
| --------- | -------------------------------------------------------- | ------------------ |
| Z-test    | Media poblacional conocida, desviación conocida          | Normal estándar    |
| T-test    | Media poblacional desconocida, muestras pequeñas         | t de Student       |
| Chi²-test | Datos categóricos (frecuencias observadas vs. esperadas) | Chi²               |
| ANOVA     | Comparar medias de más de 2 grupos                       | F de Fisher        |



In [None]:

## 🎓 Actividad sugerida para practicar

1. Compará las alturas de hombres y mujeres de un dataset (ej: [dataset de estudiantes](https://www.kaggle.com/datasets/mustafaali96/weight-height)).
2. Planteá hipótesis, hacé un test t y analizá el p-value.
3. Visualizá con histogramas y boxplots.


In [None]:
import pandas as pd

In [None]:
dataset_url = "./storage/peso_altura/weight-height.csv"
df = pd.read_csv(dataset_url)
df.head()

### Hipótesis 1: diferencia de medias

* **H₀**: No hay diferencia en la altura media entre hombres y mujeres → $\mu_{M} = \mu_{F}$
* **H₁**: Sí hay diferencia → $\mu_{M} \neq \mu_{F}$

### Hipótesis 2: hombres más altos en promedio

* **H₀**: La altura media masculina es igual o menor → $\mu_{M} \le \mu_{F}$
* **H₁**: La altura media masculina es mayor → $\mu_{M} > \mu_{F}$


## 📈 3. Test t y análisis de p-value


In [None]:

from scipy.stats import ttest_ind

hombres = df[df.Gender == 'Male']['Height']
mujeres = df[df.Gender == 'Female']['Height']

# Test bilateral (hipótesis 1)
t_stat, p_two = ttest_ind(hombres, mujeres, equal_var=False)
print("Test bilateral:")
print(f"  t = {t_stat:.3f}, p-value = {p_two:.4f}")
print("  Con α = 0.05 → " + ("rechazamos H₀" if p_two < 0.05 else "no rechazamos H₀"))

# Test unilateral (hipótesis 2): p = p_two / 2 si t > 0
p_one = p_two / 2 if t_stat > 0 else 1 - (p_two / 2)
print("\nTest unilateral (suponer M > F):")
print(f"  t = {t_stat:.3f}, p-value = {p_one:.4f}")
print("  Con α = 0.05 → " + ("rechazamos H₀" if p_one < 0.05 else "no rechazamos H₀"))


### 🔍 Interpretación del p-value:
* Si en el test bilateral `p_two < 0.05`, concluimos que las medias difieren.
* En el test unilateral, si `p_one < 0.05`, hay evidencia de que los hombres son más altos.






## 📊 4. Visualización: histogramas y boxplots

    

In [None]:

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))
sns.histplot(df, x='Height', hue='Gender', kde=True, stat='density', bins=30, alpha=0.6)
plt.title("Histograma+KDE: Alturas por género")
plt.xlabel("Altura (cm)")
plt.ylabel("Densidad")
plt.show()

plt.figure(figsize=(6, 6))
sns.boxplot(data=df, x='Gender', y='Height', hue='Gender',
            palette={'Male':'skyblue','Female':'salmon'}, legend=False)
plt.title("Boxplot comparativo de alturas")
plt.xlabel("Género")
plt.ylabel("Altura (cm)")
plt.show()


## 🧠 Interpretación conjunta

* El **histograma con KDE** muestra claramente desplazamiento a la derecha para los hombres.
* El **boxplot** confirma que la mediana y media masculina son mayores.
* El **test t bilateral** probablemente retorne p muy pequeño (< 0.001), rechaza H₀ → hay diferencia.
* El **test t unilateral** refuerza la idea de que los hombres son significativamente más altos que las mujeres (si p\_one < 0.05).

