# Regresión Lineal en Python - Paso a Paso

En este notebook aprenderemos a realizar **Regresión Lineal** usando Python y la librería **scikit-learn**.

## Contenido
1. ¿Qué es la Regresión Lineal?
2. Importar librerías necesarias
3. Generar datos de ejemplo
4. Exploración y visualización de datos
5. División en entrenamiento y prueba
6. Entrenar el modelo de Regresión Lineal
7. Evaluar el modelo
8. Visualizar la recta de mejor ajuste
9. Realizar predicciones con nuevos datos
10. Interpretación de los Betas

---

## 1. ¿Qué es la Regresión Lineal?

La **regresión lineal** es un método estadístico que busca modelar la relación entre una **variable dependiente** (Y) y una o varias **variables independientes** (X):

- **Regresión Lineal Simple**: Cuando solo hay una variable explicativa (X).
- **Regresión Lineal Múltiple**: Cuando hay dos o más variables explicativas (X1, X2, ...).

La forma **simple** de la regresión lineal asume que:

\[Y = \beta_0 + \beta_1 X + \varepsilon\]

donde:
- \(\beta_0\) es la intersección (intercept) con el eje Y.
- \(\beta_1\) es la pendiente (slope).
- \(\varepsilon\) es un término de error.

## 2. Importar librerías necesarias

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (8, 6)

## 3. Generar datos de ejemplo

En este ejemplo crearemos datos sintéticos para ilustrar la **Regresión Lineal Simple**:
- Asumiremos que la verdadera relación entre X e Y es: \(Y = 2 + 3X + \text{ruido}\).

In [None]:
# Fijamos una semilla para reproducibilidad
np.random.seed(42)

# Generamos 100 valores de X en el rango [0, 10]
X = 10 * np.random.rand(100, 1)

# Generamos la relación verdadera + ruido
# Y = 2 + 3X + ruido
y = 2 + 3 * X[:, 0] + np.random.randn(100)

# Convertimos en un DataFrame
df = pd.DataFrame({
    'X': X[:, 0],
    'Y': y
})

df.head()

## 4. Exploración y visualización de los datos

In [None]:
# Resumen estadístico
df.describe()

In [None]:
# Gráfico de dispersión para ver la relación entre X y Y
plt.figure(figsize=(8, 6))
sns.scatterplot(x='X', y='Y', data=df, color='blue')
plt.title("Relación entre X y Y")
plt.show()

## 5. División en entrenamiento y prueba

Dividimos el conjunto de datos en **entrenamiento** y **prueba** para evaluar la capacidad de generalización del modelo.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    df[['X']],  # Asegurar 2D para sklearn
    df['Y'],
    test_size=0.2,
    random_state=42
)

print(f"Entrenamiento: {X_train.shape[0]} muestras")
print(f"Prueba: {X_test.shape[0]} muestras")

## 6. Entrenar el modelo de Regresión Lineal

Usamos la clase `LinearRegression` de **scikit-learn** para crear y ajustar el modelo.

In [None]:
# Crear instancia del modelo
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Extraer los coeficientes
intercept = model.intercept_
coef = model.coef_[0]

print(f"Intercept (beta_0): {intercept:.2f}")
print(f"Coeficiente (beta_1): {coef:.2f}")

## 7. Evaluar el modelo

Calculamos dos métricas fundamentales:
- **MSE (Mean Squared Error)** o Error Cuadrático Medio
- **R^2 (Coeficiente de Determinación)**

In [None]:
# Predicciones en entrenamiento y prueba
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# MSE y R^2 en entrenamiento
mse_train = mean_squared_error(y_train, y_pred_train)
r2_train = r2_score(y_train, y_pred_train)

# MSE y R^2 en prueba
mse_test = mean_squared_error(y_test, y_pred_test)
r2_test = r2_score(y_test, y_pred_test)

print("Conjunto de Entrenamiento:")
print(f"MSE: {mse_train:.2f}")
print(f"R^2: {r2_train:.2f}")
print("\nConjunto de Prueba:")
print(f"MSE: {mse_test:.2f}")
print(f"R^2: {r2_test:.2f}")

## 8. Visualizar la recta de mejor ajuste

Graficamos la línea de regresión superpuesta a los datos de entrenamiento y prueba.

In [None]:
# Creamos un rango de valores de X para trazar la línea del modelo
X_line = np.linspace(df['X'].min(), df['X'].max(), 100).reshape(-1, 1)
y_line = model.predict(X_line)

plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_train['X'], y=y_train, color='blue', label='Entrenamiento')
sns.scatterplot(x=X_test['X'], y=y_test, color='red', label='Prueba')
plt.plot(X_line, y_line, color='black', linewidth=2, label='Modelo')
plt.title("Regresión Lineal - Recta de Mejor Ajuste")
plt.legend()
plt.show()

## 9. Realizar predicciones con nuevos datos

Supongamos que queremos estimar el valor de `Y` para valores de `X` que no están en nuestro dataset.

In [None]:
# Nuevos valores de X (por ejemplo, 2, 5, 7.5, 10)
X_new = np.array([2.0, 5.0, 7.5, 10.0]).reshape(-1, 1)

# Predicciones del modelo
y_new_pred = model.predict(X_new)

print("Nuevos valores de X:", X_new.flatten())
print("Predicciones de Y:", y_new_pred.round(2))

## 10. Interpretación de los Betas

En la regresión lineal simple:
- \(\beta_0\) (Intercept) es el valor promedio de Y cuando \(X = 0\).
- \(\beta_1\) (Coeficiente) representa cómo cambia Y en promedio por cada **unidad** que aumenta X.

Por ejemplo, si \(\beta_1 = 3.05\), significa que por **cada aumento de 1 en X**, Y aumenta en aproximadamente **3.05 unidades** (manteniendo constantes las demás variables, aunque en este caso solo hay una variable).

El valor que obtuvimos como intercept (`beta_0`) nos indica el punto en el que la recta de regresión cruza el eje Y cuando X=0.

---
### Conclusión
En este notebook:
- Generamos un dataset sintético.
- Entrenamos un modelo de Regresión Lineal Simple.
- Evaluamos el modelo con MSE y R^2.
- Visualizamos la recta ajustada.
- Hicimos predicciones con datos nuevos.
- Interpretamos brevemente los coeficientes (betas).

¡Así de sencillo es empezar con la regresión lineal en Python!