## üìå 1. ¬øQu√© es una hip√≥tesis estad√≠stica?

Una **hip√≥tesis estad√≠stica** es una suposici√≥n que hacemos sobre una caracter√≠stica de una poblaci√≥n (por ejemplo, la media, la proporci√≥n, etc.).

---

## ‚úÖ 2. Tipos de hip√≥tesis

### **Hip√≥tesis nula (H‚ÇÄ)**

Es la suposici√≥n por defecto, la que se quiere **probar o refutar**. Generalmente dice que *no hay efecto*, *no hay diferencia*, o que *todo es igual*.

Ejemplos:

* H‚ÇÄ: "La media de los salarios en el sector A es igual a la del sector B"
* H‚ÇÄ: "El nuevo f√°rmaco no mejora el estado de salud comparado con el placebo"

### **Hip√≥tesis alternativa (H‚ÇÅ o H‚Çê)**

Es lo que intentamos probar. Dice que *s√≠ hay una diferencia o efecto*.

Ejemplos:

* H‚ÇÅ: "La media de los salarios en el sector A es distinta a la del sector B"
* H‚ÇÅ: "El nuevo f√°rmaco s√≠ mejora la salud"

---

## üéØ 3. ¬øQu√© es el **p-value**?

El **p-value** (valor p) es la **probabilidad** de obtener un resultado tan extremo como el observado (o m√°s), **asumiendo que la hip√≥tesis nula es cierta**.

### ‚û°Ô∏è ¬øC√≥mo interpretarlo?

* Si **p-value < Œ±** (por ejemplo, 0.05): Rechazamos la H‚ÇÄ.
* Si **p-value ‚â• Œ±**: No hay suficiente evidencia para rechazar H‚ÇÄ.

---

## üß™ 4. Ejemplo pr√°ctico con Python

### ‚ú® Pregunta: ¬øLos estudiantes de dos cursos tienen el mismo promedio de notas?


In [None]:
import numpy as np
from scipy.stats import ttest_ind # pues voy a hacer el analisis en base a este valor
import matplotlib.pyplot as plt


In [None]:

# Simulamos los datos
np.random.seed(42)
curso_A = np.random.normal(7.3, 1, 30)  # media 7, desviaci√≥n 1
curso_B = np.random.normal(7, 1.2, 60)  # media 6.5, desviaci√≥n 1.2


In [None]:
import seaborn as sns

fig, axs = plt.subplots(2, 1, figsize=(10, 8), sharex=True)

# Histograma + KDE para Curso A
sns.histplot(curso_A, kde=True, stat='density', bins=20, color='blue', alpha=0.6, ax=axs[0])
axs[0].set_title('Distribuci√≥n de notas - Curso A')
axs[0].set_ylabel('Densidad')


# Histograma + KDE para Curso B
sns.histplot(curso_B, kde=True, stat='density', bins=20, color='orange', alpha=0.6, ax=axs[1])
axs[1].set_title('Distribuci√≥n de notas - Curso B')
axs[1].set_xlabel('Notas')
axs[1].set_ylabel('Densidad')

plt.tight_layout()
plt.show()


In [None]:
# Prueba de hip√≥tesis: test t para muestras independientes
stat, p_value = ttest_ind(curso_A, curso_B)

print("Estad√≠stico t:\t", round(stat, 4))
print("p-value:\t", round(p_value, 4))

if p_value < 0.05:
    print("‚û°Ô∏è Rechazamos la hip√≥tesis nula: hay diferencia significativa en los promedios.")
else:
    print("‚úÖ No se rechaza la hip√≥tesis nula: no hay diferencia significativa.")


Comparar las **notas** (una **variable continua**) entre **dos grupos independientes** (`curso_A` y `curso_B`), por lo tanto la **prueba t** es la m√°s habitual. Pero quer√©s saber si podr√≠as usar en su lugar:

| Test estad√≠stico           | ¬øApropiado?                     | Justificaci√≥n                                                                                                                 |
| -------------------------- | ------------------------------- | ----------------------------------------------------------------------------------------------------------------------------- |
| **t-test (independiente)** | ‚úÖ **S√≠**                        | Compara medias de dos grupos independientes con datos num√©ricos. Es **el test adecuado**.                                     |
| **ANOVA**                  | üü° **S√≠, pero innecesario**     | Se usa para **3 o m√°s grupos**. Funciona para 2, pero es redundante. El t-test es m√°s directo.                                |
| **Chi-cuadrado (œá¬≤)**      | ‚ùå **No**                        | Requiere **variables categ√≥ricas** (frecuencias). No compara medias ni trabaja con datos continuos.                           |
| **Z-test**                 | üü° **Te√≥ricamente s√≠, pero...** | Similar al t-test, pero se usa cuando conoc√©s la **desviaci√≥n est√°ndar poblacional**. En la pr√°ctica, **se prefiere t-test**. |

---

## ‚úÖ Tabla comparativa

| Prueba     | ¬øSirve para comparar medias de dos grupos? | Tipo de variable      | ¬øCu√°ndo usarla?                                                                         |
| ---------- | ------------------------------------------ | --------------------- | --------------------------------------------------------------------------------------- |
| **t-test** | ‚úÖ S√≠                                       | Cuantitativa continua | Cuando compar√°s medias entre **2 grupos independientes**.                               |
| **ANOVA**  | ‚úÖ S√≠ (pero m√°s para ‚â• 3 grupos)            | Cuantitativa continua | Para comparar medias entre **3 o m√°s grupos**.                                          |
| **Chi¬≤**   | ‚ùå No                                       | Categ√≥rica            | Para verificar asociaci√≥n entre **dos variables categ√≥ricas** (tablas de contingencia). |
| **Z-test** | üü° S√≠ (pero rara vez se usa en pr√°ctica)   | Cuantitativa continua | Similar al t-test, pero con **desviaci√≥n est√°ndar poblacional conocida**.               |

---

## üîç Conclusi√≥n

Para tu caso de **comparar las notas entre curso A y B**:

* ‚úîÔ∏è Us√° **t-test de Student** (es el m√©todo m√°s adecuado).
* ‚ùå **No usar√≠as Chi¬≤** porque est√°s comparando medias, no frecuencias categ√≥ricas.
* ‚ùå **Z-test** es te√≥ricamente v√°lido pero se evita si no se conoce œÉ poblacional.
* üü° **ANOVA** es v√°lido pero se recomienda si ten√©s m√°s de dos cursos (grupos).


In [None]:
from scipy.stats import f_oneway

f_stat, p_val_anova = f_oneway(curso_A, curso_B)
print(f"ANOVA: F = {f_stat:.3f}, p = {p_val_anova:.3f}")


In [None]:
from scipy.stats import ttest_ind

t_stat, p_val = ttest_ind(curso_A, curso_B)
print(f"T-test: t = {t_stat:.3f}, p = {p_val:.3f}")


In [None]:
from scipy.stats import chi2_contingency

# Categorizamos: aprobado si nota >= 6
curso_A_cat = ['aprobado' if nota >= 6 else 'desaprobado' for nota in curso_A]
curso_B_cat = ['aprobado' if nota >= 6 else 'desaprobado' for nota in curso_B]

# Tabla de contingencia
tabla = pd.crosstab(
    index=['Curso A'] * len(curso_A_cat) + ['Curso B'] * len(curso_B_cat),
    columns=curso_A_cat + curso_B_cat
)

chi2, p_val_chi2, _, _ = chi2_contingency(tabla)
print(f"Chi¬≤ test: chi¬≤ = {chi2:.3f}, p = {p_val_chi2:.3f}")


In [None]:
# Supongamos que conocemos sigma poblacional (solo como ejemplo)
sigma_A = 1
sigma_B = 1.2

from math import sqrt
from scipy.stats import norm

mean_A = np.mean(curso_A)
mean_B = np.mean(curso_B)

n_A = len(curso_A)
n_B = len(curso_B)

# Z-stat formula
z_stat = (mean_A - mean_B) / sqrt(sigma_A**2/n_A + sigma_B**2/n_B)
p_val_z = 2 * (1 - norm.cdf(abs(z_stat)))

print(f"Z-test: Z = {z_stat:.3f}, p = {p_val_z:.3f}")


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Simulaci√≥n
np.random.seed(42)
curso_A = np.random.normal(7.3, 1, 30)
curso_B = np.random.normal(7, 1.2, 60)

# Unimos en un DataFrame para graficar mejor
df = pd.DataFrame({
    'nota': np.concatenate([curso_A, curso_B]),
    'curso': ['A'] * len(curso_A) + ['B'] * len(curso_B)
})

# === 1. Histogramas con KDE (lado a lado) ===
fig, axs = plt.subplots(1, 2, figsize=(14, 5), sharey=True)

sns.histplot(data=df[df['curso'] == 'A'], x='nota', kde=True, bins=15, ax=axs[0], color='skyblue')
axs[0].set_title('Distribuci√≥n Curso A')
axs[0].axvline(df[df['curso'] == 'A']['nota'].mean(), color='blue', linestyle='--', label='Media A')
axs[0].legend()

sns.histplot(data=df[df['curso'] == 'B'], x='nota', kde=True, bins=15, ax=axs[1], color='salmon')
axs[1].set_title('Distribuci√≥n Curso B')
axs[1].axvline(df[df['curso'] == 'B']['nota'].mean(), color='red', linestyle='--', label='Media B')
axs[1].legend()

plt.suptitle('Histogramas con KDE - Notas por Curso', fontsize=16)
plt.tight_layout()
plt.show()

# === 2. Boxplot comparativo ===
plt.figure(figsize=(8, 5))
sns.boxplot(data=df, x='curso', y='nota', hue='curso', palette={'A': 'skyblue', 'B': 'salmon'}, legend=False)
plt.title('Boxplot comparativo de notas')
plt.xlabel('Curso')
plt.ylabel('Nota')
plt.show()


# === 3. Visualizaci√≥n de diferencia de medias ===
media_A = df[df['curso'] == 'A']['nota'].mean()
media_B = df[df['curso'] == 'B']['nota'].mean()

plt.figure(figsize=(8, 5))
sns.kdeplot(curso_A, label='Curso A', fill=True, color='skyblue')
sns.kdeplot(curso_B, label='Curso B', fill=True, color='salmon')
plt.axvline(media_A, color='blue', linestyle='--', label=f'Media A: {media_A:.2f}')
plt.axvline(media_B, color='red', linestyle='--', label=f'Media B: {media_B:.2f}')
plt.title('Comparaci√≥n de distribuciones y medias')
plt.xlabel('Nota')
plt.legend()
plt.show()


## üß† Interpretaci√≥n del ejemplo

### Hip√≥tesis

* **H‚ÇÄ**: La media de las notas de los dos cursos es igual.
* **H‚ÇÅ**: Las medias son diferentes.

Supongamos que el resultado del `p-value` es **0.0123**:

‚Üí Como **0.0123 < 0.05**, **rechazamos la hip√≥tesis nula** ‚Üí s√≠ hay una diferencia estad√≠sticamente significativa entre los promedios de notas.

---

## üìö Recomendaciones para estudiar mejor

| Concepto                   | ¬øQu√© recordar?                                          |
| -------------------------- | ------------------------------------------------------- |
| Hip√≥tesis nula (H‚ÇÄ)        | No hay cambio o efecto                                  |
| Hip√≥tesis alternativa      | S√≠ hay diferencia o efecto                              |
| p-value                    | Probabilidad de ver lo que vimos si H‚ÇÄ fuera cierta     |
| Œ± (nivel de significancia) | Umbral para decidir si rechazamos H‚ÇÄ (t√≠picamente 0.05) |
| Rechazo de H‚ÇÄ              | Si p-value < Œ±                                          |



## üß† ¬øC√≥mo se calcula el **p-value**?

El c√°lculo del **p-value** depende del **tipo de test estad√≠stico** que est√°s haciendo y del **estad√≠stico de prueba** que obtuviste.

### üîπ Proceso general:

1. **Plante√°s H‚ÇÄ y H‚ÇÅ**.
2. **Eleg√≠s el test estad√≠stico** adecuado (z-test, t-test, chi¬≤, ANOVA, etc.).
3. Calcul√°s el **estad√≠stico de prueba** (por ejemplo, un valor t = 2.3).
4. Calcul√°s el **p-value** como:

   * **Una cola**: Probabilidad de que el estad√≠stico sea mayor (o menor) que el observado.
   * **Dos colas**: Probabilidad de que el estad√≠stico sea m√°s extremo en ambos sentidos.

---

## üìê Ejemplo 1: Test t para diferencia de medias

### ‚úçÔ∏è Supongamos:

* Dos grupos: `grupo_A` y `grupo_B`, con notas de estudiantes.
* Queremos saber si sus promedios son **distintos**.

```python
import numpy as np
from scipy.stats import ttest_ind

# Creamos dos muestras simuladas
np.random.seed(0)
grupo_A = np.random.normal(7, 0.8, 30)
grupo_B = np.random.normal(6.5, 0.9, 30)

# Test t para muestras independientes
t_stat, p_value = ttest_ind(grupo_A, grupo_B)

print(f'Estad√≠stico t: {t_stat:.3f}')
print(f'p-value: {p_value:.4f}')
```

### üéØ ¬øQu√© est√° haciendo el `ttest_ind()`?

1. Calcula el **estad√≠stico t**:

   $$
   t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
   $$

   Donde:

   * $\bar{X}_1, \bar{X}_2$: medias muestrales
   * $s_1^2, s_2^2$: varianzas muestrales
   * $n_1, n_2$: tama√±os de muestra

2. Usa la **distribuci√≥n t de Student** para encontrar el √°rea bajo la curva (p-value).

---

## üìä Ejemplo 2: Test z manual (cuando conoc√©s la varianza poblacional)

Supongamos que:

* Poblaci√≥n con media conocida: $\mu = 100$
* Una muestra da media $\bar{X} = 106$, desviaci√≥n $\sigma = 15$, $n = 36$

```python
from scipy.stats import norm

mu = 100
x_bar = 106
sigma = 15
n = 36

# C√°lculo del estad√≠stico z
z = (x_bar - mu) / (sigma / np.sqrt(n))
print(f'Estad√≠stico z: {z:.3f}')

# C√°lculo del p-value para test bilateral
p_value = 2 * (1 - norm.cdf(z))  # dos colas
print(f'p-value: {p_value:.4f}')
```

---

## üéØ Resumen: ¬øC√≥mo se calcula un p-value?

| Test      | ¬øQu√© necesito?                                           | Distribuci√≥n usada |
| --------- | -------------------------------------------------------- | ------------------ |
| Z-test    | Media poblacional conocida, desviaci√≥n conocida          | Normal est√°ndar    |
| T-test    | Media poblacional desconocida, muestras peque√±as         | t de Student       |
| Chi¬≤-test | Datos categ√≥ricos (frecuencias observadas vs. esperadas) | Chi¬≤               |
| ANOVA     | Comparar medias de m√°s de 2 grupos                       | F de Fisher        |



In [None]:

## üéì Actividad sugerida para practicar

1. Compar√° las alturas de hombres y mujeres de un dataset (ej: [dataset de estudiantes](https://www.kaggle.com/datasets/mustafaali96/weight-height)).
2. Plante√° hip√≥tesis, hac√© un test t y analiz√° el p-value.
3. Visualiz√° con histogramas y boxplots.


In [None]:
import pandas as pd

In [None]:
dataset_url = "./storage/peso_altura/weight-height.csv"
df = pd.read_csv(dataset_url)
df.head()

### Hip√≥tesis 1: diferencia de medias

* **H‚ÇÄ**: No hay diferencia en la altura media entre hombres y mujeres ‚Üí $\mu_{M} = \mu_{F}$
* **H‚ÇÅ**: S√≠ hay diferencia ‚Üí $\mu_{M} \neq \mu_{F}$

### Hip√≥tesis 2: hombres m√°s altos en promedio

* **H‚ÇÄ**: La altura media masculina es igual o menor ‚Üí $\mu_{M} \le \mu_{F}$
* **H‚ÇÅ**: La altura media masculina es mayor ‚Üí $\mu_{M} > \mu_{F}$


## üìà 3. Test t y an√°lisis de p-value


In [None]:

from scipy.stats import ttest_ind

hombres = df[df.Gender == 'Male']['Height']
mujeres = df[df.Gender == 'Female']['Height']

# Test bilateral (hip√≥tesis 1)
t_stat, p_two = ttest_ind(hombres, mujeres, equal_var=False)
print("Test bilateral:")
print(f"  t = {t_stat:.3f}, p-value = {p_two:.4f}")
print("  Con Œ± = 0.05 ‚Üí " + ("rechazamos H‚ÇÄ" if p_two < 0.05 else "no rechazamos H‚ÇÄ"))

# Test unilateral (hip√≥tesis 2): p = p_two / 2 si t > 0
p_one = p_two / 2 if t_stat > 0 else 1 - (p_two / 2)
print("\nTest unilateral (suponer M > F):")
print(f"  t = {t_stat:.3f}, p-value = {p_one:.4f}")
print("  Con Œ± = 0.05 ‚Üí " + ("rechazamos H‚ÇÄ" if p_one < 0.05 else "no rechazamos H‚ÇÄ"))


### üîç Interpretaci√≥n del p-value:
* Si en el test bilateral `p_two < 0.05`, concluimos que las medias difieren.
* En el test unilateral, si `p_one < 0.05`, hay evidencia de que los hombres son m√°s altos.






## üìä 4. Visualizaci√≥n: histogramas y boxplots

    

In [None]:

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))
sns.histplot(df, x='Height', hue='Gender', kde=True, stat='density', bins=30, alpha=0.6)
plt.title("Histograma+KDE: Alturas por g√©nero")
plt.xlabel("Altura (cm)")
plt.ylabel("Densidad")
plt.show()

plt.figure(figsize=(6, 6))
sns.boxplot(data=df, x='Gender', y='Height', hue='Gender',
            palette={'Male':'skyblue','Female':'salmon'}, legend=False)
plt.title("Boxplot comparativo de alturas")
plt.xlabel("G√©nero")
plt.ylabel("Altura (cm)")
plt.show()


## üß† Interpretaci√≥n conjunta

* El **histograma con KDE** muestra claramente desplazamiento a la derecha para los hombres.
* El **boxplot** confirma que la mediana y media masculina son mayores.
* El **test t bilateral** probablemente retorne p muy peque√±o (< 0.001), rechaza H‚ÇÄ ‚Üí hay diferencia.
* El **test t unilateral** refuerza la idea de que los hombres son significativamente m√°s altos que las mujeres (si p\_one < 0.05).

