In [None]:

## 📊 **1️⃣ Generación de datos y contexto del problema**

### 🧩 **CELDA MARKDOWN**

```markdown
# 📊 1️⃣ Generación de datos y contexto del problema

Vamos a simular un estudio sobre el rendimiento académico de estudiantes en función de las horas de estudio semanales.
```

### 💻 **CELDA DE CÓDIGO**

```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import math
from sklearn.linear_model import LinearRegression

# Semilla para reproducibilidad
np.random.seed(42)

# Generación de datos simulados
horas_estudio = np.random.normal(10, 3, 100)      # media 10 horas, desviación 3
puntaje_examen = 40 + horas_estudio * 4 + np.random.normal(0, 5, 100)  # relación con ruido

df = pd.DataFrame({
    'Horas_de_estudio': horas_estudio,
    'Puntaje_en_examen': puntaje_examen
})

df.head()
```

### 🧾 **CELDA MARKDOWN**

```markdown
## 🧾 Explicación

- Generamos una muestra de 100 estudiantes.
- La variable **Horas_de_estudio** sigue una distribución normal (media = 10, desviación estándar = 3).
- El **Puntaje_en_examen** depende de las horas de estudio con un poco de variación aleatoria (ruido).
- Esto representa una muestra, no toda la población estudiantil.
```

---

## 📈 **2️⃣ Estimación e Intervalo de Confianza**

### 🧩 **CELDA MARKDOWN**

```markdown
# 📈 2️⃣ Estimación e Intervalo de Confianza

Queremos estimar el promedio poblacional del puntaje con un **nivel de confianza del 95%**.
```

### 💻 **CELDA DE CÓDIGO**

```python
media = np.mean(puntaje_examen)
desv = np.std(puntaje_examen, ddof=1)
n = len(puntaje_examen)
confianza = 0.95
error = stats.t.ppf((1 + confianza) / 2, n - 1) * (desv / np.sqrt(n))

print(f"Media muestral: {media:.2f}")
print(f"Intervalo de confianza (95%): [{media - error:.2f}, {media + error:.2f}]")
```

### 🧾 **CELDA MARKDOWN**

```markdown
## 📘 Explicación e Interpretación

- Calculamos la **media muestral**, la **desviación estándar** y el **intervalo de confianza**.
- El intervalo indica el rango en el que probablemente se encuentra la media real poblacional.

**Ejemplo:**
Si la media muestral es 80.5 y el intervalo de confianza es [79.1, 81.9],
podemos decir con un 95% de confianza que el promedio real del puntaje poblacional está dentro de ese rango.
```

---

## 🧪 **3️⃣ Prueba de Hipótesis**

### 🧩 **CELDA MARKDOWN**

```markdown
# 🧪 3️⃣ Prueba de Hipótesis

Queremos comprobar si el puntaje promedio poblacional es igual a 80.
```

### 💻 **CELDA DE CÓDIGO**

```python
t_stat, p_value = stats.ttest_1samp(puntaje_examen, 80)
print(f"T-statistic: {t_stat:.3f}")
print(f"P-value: {p_value:.3f}")

if p_value < 0.05:
    print("❌ Se rechaza H₀: la media no es 80.")
else:
    print("✅ No se rechaza H₀: la media podría ser 80.")
```

### 🧾 **CELDA MARKDOWN**

```markdown
## 📘 Explicación e Interpretación

- **H₀ (hipótesis nula):** el promedio poblacional = 80
- **H₁ (alternativa):** el promedio es diferente de 80
- Si el **p-valor < 0.05**, se rechaza H₀.

**Ejemplo:**
Si el p-value = 0.12 → no hay evidencia suficiente para decir que la media es diferente de 80.
Por lo tanto, **se mantiene la hipótesis de que la media poblacional es 80.**
```

---

## 🔗 **4️⃣ Correlación y Covarianza**

### 🧩 **CELDA MARKDOWN**

```markdown
# 🔗 4️⃣ Correlación y Covarianza

Analizamos si aumentar las horas de estudio está relacionado con mejorar los puntajes.
```

### 💻 **CELDA DE CÓDIGO**

```python
correlacion = df.corr()
covarianza = np.cov(df['Horas_de_estudio'], df['Puntaje_en_examen'])

print("📈 Matriz de correlación:\n", correlacion, "\n")
print("📊 Matriz de covarianza:\n", covarianza)
```

### 🧾 **CELDA MARKDOWN**

```markdown
## 📘 Explicación e Interpretación

- La **correlación de Pearson** mide la fuerza y dirección de la relación (de -1 a 1).
- La **covarianza** indica si las variables cambian juntas, pero depende de las unidades.

**Ejemplo:**
Si la correlación es 0.85 → relación positiva fuerte: más horas de estudio → mayores puntajes.
La covarianza positiva también confirma esta tendencia.
```

---

## 📊 **5️⃣ Prueba de Normalidad (Shapiro-Wilk)**

### 🧩 **CELDA MARKDOWN**

```markdown
# 📊 5️⃣ Prueba de Normalidad (Shapiro-Wilk)

Verificamos si los datos siguen una distribución normal, requisito común en IA y estadística inferencial.
```

### 💻 **CELDA DE CÓDIGO**

```python
shap_horas = stats.shapiro(df['Horas_de_estudio'])
shap_puntaje = stats.shapiro(df['Puntaje_en_examen'])

print(f"P-valor Horas: {shap_horas.pvalue:.3f}")
print(f"P-valor Puntaje: {shap_puntaje.pvalue:.3f}")
```

### 🧾 **CELDA MARKDOWN**

```markdown
## 📘 Explicación e Interpretación

- **H₀:** los datos provienen de una distribución normal.
- Si **p < 0.05**, los datos **no son normales**.

**Ejemplo:**
Si p = 0.20 → no se rechaza H₀ → los datos pueden considerarse normales.
Esto permite aplicar métodos inferenciales como la **t de Student** o la **regresión lineal.**
```

---

## 📉 **6️⃣ Regresión Lineal**

### 🧩 **CELDA MARKDOWN**

```markdown
# 📉 6️⃣ Regresión Lineal

Construimos un modelo predictivo que relacione las horas de estudio con el puntaje en el examen.
```

### 💻 **CELDA DE CÓDIGO**

```python
X = df[['Horas_de_estudio']]
y = df['Puntaje_en_examen']

modelo = LinearRegression().fit(X, y)
pendiente = modelo.coef_[0]
intercepto = modelo.intercept_

print(f"Modelo: Puntaje = {intercepto:.2f} + {pendiente:.2f} * Horas_de_estudio")

df['Prediccion'] = modelo.predict(X)
df['Residuo'] = df['Puntaje_en_examen'] - df['Prediccion']

rmsd = math.sqrt(np.mean(df['Residuo']**2))
print(f"RMSD: {rmsd:.3f}")
```

### 🧾 **CELDA MARKDOWN**

```markdown
## 📘 Explicación e Interpretación

- Entrenamos un modelo lineal simple con **scikit-learn**.
- La **pendiente** indica cuánto aumenta el puntaje por cada hora adicional de estudio.
- El **RMSD (Root Mean Square Deviation)** mide el error promedio del modelo.

**Ejemplo:**
Si el modelo es: `Puntaje = 40.2 + 3.9 * Horas`,
cada hora adicional de estudio aumenta el puntaje en promedio 3.9 puntos.
Si RMSD = 4.8 → el error promedio del modelo es ±4.8 puntos.
```

---

## 🎨 **7️⃣ Visualización del modelo**

### 🧩 **CELDA MARKDOWN**

```markdown
# 🎨 7️⃣ Visualización del modelo

Graficamos los datos reales junto a la línea de regresión para visualizar el ajuste del modelo.
```

### 💻 **CELDA DE CÓDIGO**

```python
plt.figure(figsize=(8,6))
plt.scatter(df['Horas_de_estudio'], df['Puntaje_en_examen'], color='skyblue', label='Datos reales')
plt.plot(df['Horas_de_estudio'], df['Prediccion'], color='red', label='Regresión lineal')
plt.xlabel('Horas de estudio semanales')
plt.ylabel('Puntaje en el examen')
plt.title(f'Regresión lineal (RMSD = {rmsd:.2f})')
plt.legend()
plt.grid(True)
plt.show()
```

---

## 🧾 **Conclusiones**

### 🧩 **CELDA MARKDOWN**

```markdown
# 🧾 Conclusiones

- La **estadística inferencial** permitió estimar y verificar propiedades poblacionales (media, intervalos e hipótesis).
- Las **pruebas estadísticas** mostraron cómo validar supuestos de normalidad y relación entre variables.
- La **regresión lineal** sirvió como puente hacia el modelado predictivo, base de la **Inteligencia Artificial**.

Este ejercicio demuestra cómo la inferencia estadística se integra al **aprendizaje automático** para comprender patrones y tomar decisiones basadas en datos.
