# Receta para Implementar Regresión Lineal Simple con Scikit-learn

¡Bienvenido! Esta guía te permitirá implementar un modelo de **regresión lineal simple** en cualquier dataset con una variable predictora numérica (x) y una variable objetivo continua (y), usando **Scikit-learn**. Los pasos son genéricos para que puedas replicarlos en ejercicios similares, con explicaciones detalladas línea por línea.

## Introducción
La **regresión lineal simple** es el modelo más básico de Machine Learning (ML) para predecir una variable continua (y) basada en una sola variable predictora (x). Se basa en la ecuación:

\[ y = \beta_0 + \beta_1 x + \epsilon \]

- **\(\beta_0\)**: Intercepto (valor de y cuando x = 0).
- **\(\beta_1\)**: Pendiente (cambio en y por unidad de x).
- **\(\epsilon\)**: Error aleatorio.

El objetivo es encontrar \(\beta_0\) y \(\beta_1\) que minimicen el error usando **mínimos cuadrados ordinarios (OLS)**. Esta receta es ideal para principiantes, ya que es intuitiva, interpretable y sirve como base para modelos más complejos.

## Ingredientes
- **Dataset**: Un conjunto de datos con una variable predictora numérica (x) y un target continuo (y).
  - Ejemplo: `load_diabetes` (x: bmi, y: progresión de diabetes).
  - Alternativas: `fetch_california_housing` (x: ingreso medio, y: precio de casa), CSV propio (e.g., horas de estudio vs. nota), o datos sintéticos con `make_regression`.
- **Librerías**:
  - `numpy`: Para arrays numéricos.
  - `pandas`: Para datos tabulares.
  - `scikit-learn`: Para modelo, división de datos, métricas, y datasets.
  - `matplotlib` y `seaborn`: Para visualizaciones.
- **Entorno**: Google Colab o Jupyter Notebook.
- **Conocimientos**: Python básico (variables, funciones) y nociones de estadística (media, correlación).

## Glosario
| Término | Definición |
|---------|------------|
| **Regresión Lineal Simple** | Modelo que predice y usando x con la ecuación \( y = \beta_0 + \beta_1 x + \epsilon \). |
| **Variable Independiente (x)** | Variable predictora (input, e.g., edad). |
| **Variable Dependiente (y)** | Variable a predecir (output, e.g., salario). |
| **Intercepto (\(\beta_0\))** | Valor de y cuando x = 0. |
| **Pendiente (\(\beta_1\))** | Cambio en y por cada unidad de x. |
| **Mínimos Cuadrados (OLS)** | Método que minimiza la suma de los errores al cuadrado. |
| **R²** | Métrica (0-1) que mide qué tan bien el modelo explica la variabilidad de y. |
| **Train/Test Split** | División de datos en entrenamiento (train) y prueba (test) para evaluar generalización. |
| **Scikit-learn** | Biblioteca de Python para ML. |

## Puntos de Aprendizaje Clave
Al finalizar, podrás:
1. Cargar y preparar cualquier dataset para regresión.
2. Visualizar la relación x-y para confirmar linealidad.
3. Dividir datos en entrenamiento y prueba.
4. Entrenar y evaluar un modelo de regresión lineal.
5. Interpretar coeficientes (\(\beta_0\), \(\beta_1\)) y métricas (R²).
6. Visualizar el ajuste del modelo.
7. Adaptar el proceso a nuevos datasets.

**Nota**: La regresión lineal asume una relación lineal, errores independientes, y homocedasticidad. Si no se cumplen, considera transformar datos o usar modelos no lineales.

## Paso a Paso

### Paso 1: Configurar el Entorno
**Qué hacer**: Importa las librerías necesarias.
**Por qué**: Estas herramientas permiten manejar datos, modelar, y visualizar resultados.
**Cómo**: Ejecuta las importaciones y configura gráficos.

In [None]:
# Importamos librerías para ML y visualización.
# numpy: Para arrays numéricos.
# pandas: Para datos tabulares (DataFrames).
# load_diabetes: Ejemplo de dataset (puedes cambiarlo).
# train_test_split: Divide datos en train/test.
# LinearRegression: Modelo de regresión lineal.
# r2_score: Métrica para evaluar el modelo.
# matplotlib/seaborn: Para gráficos.
# %matplotlib inline: Muestra gráficos en el cuaderno.

import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes  # Cambia por otro dataset si deseas
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### Paso 2: Cargar y Explorar el Dataset
**Qué hacer**: Carga el dataset y selecciona x (feature) e y (target).
**Por qué**: Necesitamos entender los datos y confirmar que son numéricos y aptos para regresión lineal.
**Cómo**: Usa un dataset de sklearn, CSV propio, o datos sintéticos.

In [None]:
# Ejemplo con dataset de sklearn (load_diabetes).
# Alternativas: fetch_california_housing, pd.read_csv('ruta.csv'), o make_regression.
# Seleccionamos una feature (bmi, índice 2) y el target.
# X debe ser 2D (n_samples, 1), y es 1D (n_samples,).
# Creamos un DataFrame para inspección.

diabetes = load_diabetes()  # Cambia por tu dataset
X = diabetes.data[:, np.newaxis, 2]  # Selecciona una feature (bmi)
y = diabetes.target  # Target continuo
df = pd.DataFrame(X, columns=["x"])  # Cambia 'x' por el nombre de tu feature
df["y"] = y  # Cambia 'y' por el nombre de tu target
print("Primeras 5 filas:")
print(df.head())
print("\nEstadísticas descriptivas:")
print(df.describe())
print("\nForma de X:", X.shape)  # (n_samples, 1)
print("Forma de y:", y.shape)    # (n_samples,)

# Para dataset propio:
# df = pd.read_csv('ruta.csv')
# X = df[['columna_x']].values
# y = df['columna_y'].values

### Paso 3: Visualizar la Relación x-y
**Qué hacer**: Crea un gráfico de dispersión.
**Por qué**: Confirma si la relación entre x e y es aproximadamente lineal.
**Cómo**: Usa seaborn o matplotlib.

In [None]:
# Gráfico de dispersión para ver la relación x-y.
# Busca una tendencia lineal (ascendente/descendente).
# Si no es lineal, considera transformar x (e.g., log(x)).

plt.figure(figsize=(8,6))
sns.scatterplot(x="x", y="y", data=df)  # Cambia 'x' y 'y' por nombres de columnas
plt.xlabel("Variable Predictora (x)")  # Cambia por nombre descriptivo
plt.ylabel("Variable Objetivo (y)")    # Cambia por nombre descriptivo
plt.title("Relación entre x e y")
plt.show()

### Paso 4: Dividir los Datos
**Qué hacer**: Divide en entrenamiento (train) y prueba (test).
**Por qué**: Entrenamos en train y evaluamos en test para medir generalización.
**Cómo**: Usa train_test_split.

In [None]:
# Dividimos en 80% train, 20% test.
# random_state asegura reproducibilidad.
# Verificamos formas de los conjuntos.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Forma X_train:", X_train.shape)
print("Forma X_test:", X_test.shape)
print("Forma y_train:", y_train.shape)
print("Forma y_test:", y_test.shape)

### Paso 5: Crear y Entrenar el Modelo
**Qué hacer**: Instancia y entrena el modelo.
**Por qué**: Ajusta la línea \( y = \beta_0 + \beta_1 x \) a los datos.
**Cómo**: Usa LinearRegression.

In [None]:
# Creamos y entrenamos el modelo.
# Imprimimos coeficientes para interpretación.
# β1: Cambio en y por unidad de x.
# β0: Valor base de y cuando x = 0.

model = LinearRegression()
model.fit(X_train, y_train)
print("Intercepto (β0):", model.intercept_)
print("Pendiente (β1):", model.coef_[0])

### Paso 6: Hacer Predicciones
**Qué hacer**: Predice en el conjunto de test.
**Por qué**: Evalúa cómo generaliza el modelo.
**Cómo**: Usa model.predict.

In [None]:
# Predecimos y comparamos con valores reales.

y_pred = model.predict(X_test)
print("Primeras 5 predicciones:", y_pred[:5].round(2))
print("Primeros 5 valores reales:", y_test[:5])

### Paso 7: Evaluar el Modelo
**Qué hacer**: Calcula R².
**Por qué**: Mide qué tan bien el modelo explica los datos (0-1).
**Cómo**: Usa r2_score.

In [None]:
# Calculamos R².
# R² > 0.7: Buen ajuste; < 0.3: Relación débil o falta de features.

r2 = r2_score(y_test, y_pred)
print("Coeficiente de Determinación (R²):", round(r2, 4))

### Paso 8: Visualizar el Ajuste
**Qué hacer**: Grafica datos de test y la línea de regresión.
**Por qué**: Visualiza cuán bien la línea ajusta los puntos.
**Cómo**: Usa scatter y plot.

In [None]:
# Graficamos puntos reales (azul) y línea predicha (rojo).

plt.figure(figsize=(8,6))
plt.scatter(X_test, y_test, color="blue", label="Datos Reales")
plt.plot(X_test, y_pred, color="red", label="Línea de Regresión")
plt.xlabel("Variable Predictora (x)")  # Cambia por nombre descriptivo
plt.ylabel("Variable Objetivo (y)")    # Cambia por nombre descriptivo
plt.title("Regresión Lineal Simple: Ajuste del Modelo")
plt.legend()
plt.show()

## Conclusión y Mejoras
**Resultados**:
- **Fortalezas**: Modelo simple e interpretable.
- **Limitaciones**: Asume linealidad. Si R² es bajo, la relación puede no ser lineal o faltan features.
- **Interpretación**: Revisa β1 (¿es positiva/negativa?), β0, y R².

**Mejoras**:
- Prueba otra feature del dataset.
- Usa regresión múltiple para más features.
- Transforma x o y (e.g., log(x)) si no es lineal.
- Escala datos con StandardScaler si los rangos son muy diferentes.

## Ejercicios para Practicar
1. Cambia la feature x por otra del dataset. ¿Mejora R²?
2. Ajusta test_size a 0.3. ¿Cómo afecta la evaluación?
3. Usa otro dataset (e.g., fetch_california_housing) o genera datos con make_regression.
4. Aplica StandardScaler antes de entrenar. ¿Cambia el modelo?

## Notas
- **Asunciones**: Relación lineal, errores independientes, homocedasticidad.
- **Problemas**: Si X no es 2D, usa np.newaxis o .reshape(-1, 1).
- **Descarga**: File > Download > .ipynb.

¡Gracias por aprender! Adapta esta receta a tu dataset y experimenta. 😊