# Introducción Detallada a la Regresión Lineal Simple para Enseñar Machine Learning

## Bienvenido a este Cuaderno de Google Colab

¡Hola! Este cuaderno está diseñado específicamente para **principiantes** en **Machine Learning (ML)** que desean aprender los fundamentos de la **regresión lineal simple** de manera **sumamente detallada**. Usaremos la biblioteca **Scikit-learn** (sklearn), una de las herramientas más populares y accesibles para implementar modelos de ML en Python.

### ¿Qué es Machine Learning?
Machine Learning es una rama de la inteligencia artificial que permite a las computadoras aprender patrones de datos sin ser programadas explícitamente para cada tarea. En lugar de reglas fijas, los algoritmos de ML "aprenden" de ejemplos (datos) para hacer predicciones o tomar decisiones. Hay tres tipos principales:
- **Aprendizaje Supervisado**: Usamos datos etiquetados (con respuestas conocidas) para entrenar el modelo. La regresión lineal es un ejemplo clásico.
- **Aprendizaje No Supervisado**: Datos sin etiquetas, para encontrar patrones ocultos.
- **Aprendizaje por Refuerzo**: El modelo aprende mediante ensayo y error, recibiendo recompensas.

En este cuaderno, nos enfocamos en **aprendizaje supervisado** con **regresión**, donde predecimos valores continuos (números reales, como precios o temperaturas).

### ¿Qué es la Regresión Lineal Simple?
La **regresión lineal simple** es el modelo más básico de ML para predecir una variable continua (llamada **variable dependiente** o **y**) basada en una sola variable predictora (llamada **variable independiente** o **x**). Se basa en la idea de que existe una **relación lineal** entre x e y, representada por la ecuación:

\[ y = \beta_0 + \beta_1 x + \epsilon \]

- **\(\beta_0\)**: Intercepto (valor de y cuando x=0).
- **\(\beta_1\)**: Pendiente (cuánto cambia y por cada unidad de cambio en x).
- **\(\epsilon\)**: Error aleatorio (ruido en los datos).

El objetivo es encontrar los valores óptimos de \(\beta_0\) y \(\beta_1\) que minimicen el error de predicción, usando el método de **mínimos cuadrados ordinarios (OLS)**.

### ¿Por Qué Empezar con Regresión Lineal Simple?
- Es **intuitiva**: Visualízala como una línea recta que "mejor ajusta" los puntos de datos.
- **Fácil de interpretar**: Los coeficientes \(\beta\) te dicen directamente la relación (e.g., "por cada año extra, el precio sube $5000").
- **Base para modelos avanzados**: Entenderla te prepara para regresión múltiple, redes neuronales, etc.
- **Rápida y eficiente**: Ideal para datasets pequeños y prototipado.

### Dataset Utilizado
Usaremos el dataset **Diabetes** de Scikit-learn (`load_diabetes`). Este es un dataset real de la librería:
- **Descripción**: Predice la progresión de la enfermedad diabetes en 442 pacientes. Usaremos solo **una feature** (bmi: Índice de Masa Corporal) para mantenerlo **simple** (regresión univariada).
- **Variables**:
  - x: bmi (una sola feature para simplicidad).
  - y: Progresión de la diabetes (valor continuo de 25 a 346).
- **Por qué este?**: Es nativo de sklearn, limpio y perfecto para ilustrar una relación lineal aproximada.

### Estructura del Cuaderno
1. **Glosario**: Definiciones clave.
2. **Puntos de Aprendizaje Clave**: Lo que aprenderás.
3. **Implementación Paso a Paso**: Código con explicaciones línea por línea.
4. **Visualizaciones y Evaluación**: Para entender el modelo.
5. **Ejercicios**: Para practicar.

**Instrucciones**:
- Ejecuta las celdas secuencialmente (Shift + Enter).
- Si eres nuevo en Colab, ve a File > New Notebook y copia este contenido.

¡Empecemos!

## Glosario de Términos

| Término | Definición |
|---------|------------|
| **Machine Learning (ML)** | Campo de la IA donde modelos aprenden de datos para predecir o clasificar. |
| **Regresión** | Tipo de ML para predecir valores continuos (e.g., precio de una casa). |
| **Variable Dependiente (y)** | La variable que queremos predecir (output). |
| **Variable Independiente (x)** | La variable predictora (input). |
| **Intercepto (\(\beta_0\))** | Valor de y cuando x = 0. |
| **Pendiente (\(\beta_1\))** | Cambio en y por cada unidad de cambio en x. |
| **Mínimos Cuadrados Ordinarios (OLS)** | Algoritmo que minimiza la suma de cuadrados de los errores residuales. |
| **Dataset** | Conjunto de datos con features (columnas) y targets (etiquetas). |
| **Feature** | Una columna de datos (e.g., bmi). |
| **Train/Test Split** | División del dataset en entrenamiento (80%) y prueba (20%) para evaluar el modelo. |
| **Coeficiente de Determinación (R²)** | Métrica que mide qué tan bien el modelo explica la variabilidad de y (0-1; 1 es perfecto). |
| **Residual** | Diferencia entre el valor real y predicho (error). |
| **Scikit-learn (sklearn)** | Biblioteca de Python para ML simple y eficiente. |
| **Fit** | Entrenar el modelo con datos. |
| **Predict** | Usar el modelo entrenado para hacer predicciones. |

## Puntos de Aprendizaje Clave

Al finalizar este cuaderno, podrás:
1. **Entender los fundamentos**: Explicar la ecuación de la regresión lineal y su interpretación.
2. **Cargar y explorar datos**: Usar sklearn para datasets built-in y visualizar relaciones.
3. **Preparar datos**: Dividir en train/test para evitar sobreajuste (overfitting).
4. **Implementar el modelo**: Usar `LinearRegression` de sklearn para fit y predict.
5. **Evaluar**: Calcular R² y visualizar la línea de regresión.
6. **Interpretar resultados**: Discutir limitaciones (e.g., asume linealidad) y extensiones (e.g., a múltiples features).
7. **Buenas prácticas**: Comentar código, usar Markdown para explicaciones.

**Consejo**: La regresión lineal asume linealidad, independencia de errores y homocedasticidad. Si no se cumplen, considera modelos no lineales.

## Implementación Paso a Paso

### Paso 1: Importar Librerías
**Explicación**: Importamos las herramientas necesarias. Cada línea se explica en los comentarios.

In [1]:
# Importamos las librerías esenciales para ML y visualización.
# numpy: Para arrays numéricos eficientes (e.g., matrices de datos).
# pandas: Para manejar datos en formato tabular (DataFrames).
# load_diabetes: Cargamos el dataset Diabetes de sklearn.
# train_test_split: Para dividir datos en train/test.
# LinearRegression: El modelo de regresión lineal.
# r2_score: Métrica R² para evaluar el modelo.
# matplotlib.pyplot: Para graficar (visualizar la línea de regresión).
# seaborn: Para estilos de gráficos más bonitos.
# %matplotlib inline: Asegura que los gráficos se muestren en el cuaderno.

import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### Paso 2: Cargar y Explorar el Dataset
**Explicación**: Cargamos los datos y los inspeccionamos para entender su estructura.

In [2]:
# Carga el dataset como un objeto Bunch (similar a dict).
# Extraemos solo la feature 'bmi' (índice 2) y la convertimos en 2D (sklearn requiere arrays 2D).
# diabetes.data: Todas las features (10 en total).
# [:, np.newaxis, 2]: Toma todas las filas, agrega dimensión, selecciona columna 2 (bmi).
# y: El target (progresión de diabetes).
# Creamos un DataFrame para fácil visualización.
# Mostramos las primeras 5 filas y estadísticas descriptivas.

diabetes = load_diabetes()
X = diabetes.data[:, np.newaxis, 2]  # Solo BMI (índice 2)
y = diabetes.target
df = pd.DataFrame(X, columns=["bmi"])
df["target"] = y
print("Primeras 5 filas:")
print(df.head())
print("\nEstadísticas descriptivas:")
print(df.describe())
print("\nForma de X:", X.shape)  # (442, 1)
print("Forma de y:", y.shape)    # (442,)

Primeras 5 filas:
        bmi  target
0  0.061696   151.0
1 -0.051474    75.0
2  0.044451   141.0
3 -0.011595   206.0
4 -0.036385   135.0

Estadísticas descriptivas:
                bmi      target
count  4.420000e+02  442.000000
mean  -2.245564e-16  152.133484
std    4.761905e-02   77.093005
min   -9.027530e-02   25.000000
25%   -3.422907e-02   87.000000
50%   -7.283766e-03  140.500000
75%    3.124802e-02  211.500000
max    1.705552e-01  346.000000

Forma de X: (442, 1)
Forma de y: (442,)


### Paso 3: Visualizar la Relación entre x e y
**Explicación**: Graficamos para ver si hay una relación lineal aproximada.

In [None]:
# Crea una figura de tamaño 8x6 pulgadas.
# Gráfico de dispersión con seaborn para ver la relación bmi-target.
# Agregamos etiquetas y título.
# Observación: Deberías ver puntos dispersos con una tendencia positiva leve (lineal aproximada).

plt.figure(figsize=(8,6))
sns.scatterplot(x="bmi", y="target", data=df)
plt.xlabel("BMI (Índice de Masa Corporal)")
plt.ylabel("Progresión de Diabetes")
plt.title("Relación entre BMI y Progresión de Diabetes")
plt.show()

### Paso 4: Dividir los Datos en Train y Test
**Explicación**: Dividimos los datos para evitar sobreajuste y evaluar el modelo imparcialmente.

In [None]:
# Dividimos en 80% train y 20% test.
# test_size=0.2: 20% para test.
# random_state=42: Semilla fija para reproducibilidad.
# Imprimimos formas para verificar.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Forma X_train:", X_train.shape)  # (353, 1)
print("Forma X_test:", X_test.shape)   # (89, 1)
print("Forma y_train:", y_train.shape)  # (353,)
print("Forma y_test:", y_test.shape)    # (89,)

### Paso 5: Crear y Entrenar el Modelo
**Explicación**: Instanciamos el modelo y lo ajustamos a los datos de entrenamiento.

In [None]:
# Creamos una instancia del modelo LinearRegression.
# Entrenamos: Calcula beta0 y beta1 minimizando errores (OLS).
# Imprimimos los coeficientes aprendidos.
# Interpretación: Si β1 ≈ 500, cada unidad de BMI aumenta la progresión ~500 unidades.

model = LinearRegression()
model.fit(X_train, y_train)
print("Intercepto (β0):", model.intercept_)
print("Pendiente (β1):", model.coef_[0])

### Paso 6: Hacer Predicciones
**Explicación**: Usamos el modelo entrenado para predecir en el conjunto de test.

In [None]:
# Predecimos y para X_test.
# Mostramos las primeras 5 predicciones y valores reales para comparar.

y_pred = model.predict(X_test)
print("Primeras 5 predicciones:", y_pred[:5].round(2))
print("Primeros 5 valores reales:", y_test[:5])

### Paso 7: Evaluar el Modelo
**Explicación**: Calculamos R² para medir qué tan bien el modelo explica los datos.

In [None]:
# Calculamos R² (0-1; 1 es perfecto).
# Interpretación: R²=0.18 significa que el 18% de la variabilidad en y se explica por x.
# Es bajo, pero esperado para una sola feature.

r2 = r2_score(y_test, y_pred)
print("Coeficiente de Determinación (R²):", round(r2, 4))

### Paso 8: Visualizar el Modelo Entrenado
**Explicación**: Graficamos la línea de regresión sobre los puntos de test.

In [None]:
# Graficamos puntos reales (azul) y la línea predicha (rojo).
# X_test ordenado implícitamente por plot.

plt.figure(figsize=(8,6))
plt.scatter(X_test, y_test, color="blue", label="Datos Reales")
plt.plot(X_test, y_pred, color="red", label="Línea de Regresión")
plt.xlabel("BMI")
plt.ylabel("Progresión de Diabetes")
plt.title("Regresión Lineal Simple: Ajuste del Modelo")
plt.legend()
plt.show()

## Conclusión y Limitaciones
¡Felicidades! Has implementado tu primera regresión lineal. Recuerda:
- **Fortalezas**: Simple, interpretable.
- **Limitaciones**: Asume linealidad; con más features, usa regresión múltiple.
- **Próximos Pasos**: Prueba con múltiples features o datasets como Iris para clasificación.

## Ejercicios para Practicar
1. Cambia la feature a otra (e.g., índice 0: age). ¿Mejora R²?
2. Aumenta test_size a 0.3. ¿Cambia el split?
3. Genera datos sintéticos con `sklearn.datasets.make_regression` y repite.

**Para Descargar**: En Colab, ve a File-dot- File > Download > .ipynb. Copia este contenido a un nuevo notebook para usarlo.

¡Gracias por aprender conmigo! Si tienes dudas, comenta abajo. 😊