# Receta para Implementar RegresiÃ³n Lineal Simple con Scikit-learn

Â¡Bienvenido! Esta guÃ­a te permitirÃ¡ implementar un modelo de **regresiÃ³n lineal simple** en cualquier dataset con una variable predictora numÃ©rica (x) y una variable objetivo continua (y), usando **Scikit-learn**. Los pasos son genÃ©ricos para que puedas replicarlos en ejercicios similares, con explicaciones detalladas lÃ­nea por lÃ­nea.

## IntroducciÃ³n
La **regresiÃ³n lineal simple** es el modelo mÃ¡s bÃ¡sico de Machine Learning (ML) para predecir una variable continua (y) basada en una sola variable predictora (x). Se basa en la ecuaciÃ³n:

\[ y = \beta_0 + \beta_1 x + \epsilon \]

- **\(\beta_0\)**: Intercepto (valor de y cuando x = 0).
- **\(\beta_1\)**: Pendiente (cambio en y por unidad de x).
- **\(\epsilon\)**: Error aleatorio.

El objetivo es encontrar \(\beta_0\) y \(\beta_1\) que minimicen el error usando **mÃ­nimos cuadrados ordinarios (OLS)**. Esta receta es ideal para principiantes, ya que es intuitiva, interpretable y sirve como base para modelos mÃ¡s complejos.

## Ingredientes
- **Dataset**: Un conjunto de datos con una variable predictora numÃ©rica (x) y un target continuo (y).
  - Ejemplo: `load_diabetes` (x: bmi, y: progresiÃ³n de diabetes).
  - Alternativas: `fetch_california_housing` (x: ingreso medio, y: precio de casa), CSV propio (e.g., horas de estudio vs. nota), o datos sintÃ©ticos con `make_regression`.
- **LibrerÃ­as**:
  - `numpy`: Para arrays numÃ©ricos.
  - `pandas`: Para datos tabulares.
  - `scikit-learn`: Para modelo, divisiÃ³n de datos, mÃ©tricas, y datasets.
  - `matplotlib` y `seaborn`: Para visualizaciones.
- **Entorno**: Google Colab o Jupyter Notebook.
- **Conocimientos**: Python bÃ¡sico (variables, funciones) y nociones de estadÃ­stica (media, correlaciÃ³n).

## Glosario
| TÃ©rmino | DefiniciÃ³n |
|---------|------------|
| **RegresiÃ³n Lineal Simple** | Modelo que predice y usando x con la ecuaciÃ³n \( y = \beta_0 + \beta_1 x + \epsilon \). |
| **Variable Independiente (x)** | Variable predictora (input, e.g., edad). |
| **Variable Dependiente (y)** | Variable a predecir (output, e.g., salario). |
| **Intercepto (\(\beta_0\))** | Valor de y cuando x = 0. |
| **Pendiente (\(\beta_1\))** | Cambio en y por cada unidad de x. |
| **MÃ­nimos Cuadrados (OLS)** | MÃ©todo que minimiza la suma de los errores al cuadrado. |
| **RÂ²** | MÃ©trica (0-1) que mide quÃ© tan bien el modelo explica la variabilidad de y. |
| **Train/Test Split** | DivisiÃ³n de datos en entrenamiento (train) y prueba (test) para evaluar generalizaciÃ³n. |
| **Scikit-learn** | Biblioteca de Python para ML. |

## Puntos de Aprendizaje Clave
Al finalizar, podrÃ¡s:
1. Cargar y preparar cualquier dataset para regresiÃ³n.
2. Visualizar la relaciÃ³n x-y para confirmar linealidad.
3. Dividir datos en entrenamiento y prueba.
4. Entrenar y evaluar un modelo de regresiÃ³n lineal.
5. Interpretar coeficientes (\(\beta_0\), \(\beta_1\)) y mÃ©tricas (RÂ²).
6. Visualizar el ajuste del modelo.
7. Adaptar el proceso a nuevos datasets.

**Nota**: La regresiÃ³n lineal asume una relaciÃ³n lineal, errores independientes, y homocedasticidad. Si no se cumplen, considera transformar datos o usar modelos no lineales.

## Paso a Paso

### Paso 1: Configurar el Entorno
**QuÃ© hacer**: Importa las librerÃ­as necesarias.
**Por quÃ©**: Estas herramientas permiten manejar datos, modelar, y visualizar resultados.
**CÃ³mo**: Ejecuta las importaciones y configura grÃ¡ficos.

In [None]:
# Importamos librerÃ­as para ML y visualizaciÃ³n.
# numpy: Para arrays numÃ©ricos.
# pandas: Para datos tabulares (DataFrames).
# load_diabetes: Ejemplo de dataset (puedes cambiarlo).
# train_test_split: Divide datos en train/test.
# LinearRegression: Modelo de regresiÃ³n lineal.
# r2_score: MÃ©trica para evaluar el modelo.
# matplotlib/seaborn: Para grÃ¡ficos.
# %matplotlib inline: Muestra grÃ¡ficos en el cuaderno.

import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes  # Cambia por otro dataset si deseas
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### Paso 2: Cargar y Explorar el Dataset
**QuÃ© hacer**: Carga el dataset y selecciona x (feature) e y (target).
**Por quÃ©**: Necesitamos entender los datos y confirmar que son numÃ©ricos y aptos para regresiÃ³n lineal.
**CÃ³mo**: Usa un dataset de sklearn, CSV propio, o datos sintÃ©ticos.

In [None]:
# Ejemplo con dataset de sklearn (load_diabetes).
# Alternativas: fetch_california_housing, pd.read_csv('ruta.csv'), o make_regression.
# Seleccionamos una feature (bmi, Ã­ndice 2) y el target.
# X debe ser 2D (n_samples, 1), y es 1D (n_samples,).
# Creamos un DataFrame para inspecciÃ³n.

diabetes = load_diabetes()  # Cambia por tu dataset
X = diabetes.data[:, np.newaxis, 2]  # Selecciona una feature (bmi)
y = diabetes.target  # Target continuo
df = pd.DataFrame(X, columns=["x"])  # Cambia 'x' por el nombre de tu feature
df["y"] = y  # Cambia 'y' por el nombre de tu target
print("Primeras 5 filas:")
print(df.head())
print("\nEstadÃ­sticas descriptivas:")
print(df.describe())
print("\nForma de X:", X.shape)  # (n_samples, 1)
print("Forma de y:", y.shape)    # (n_samples,)

# Para dataset propio:
# df = pd.read_csv('ruta.csv')
# X = df[['columna_x']].values
# y = df['columna_y'].values

### Paso 3: Visualizar la RelaciÃ³n x-y
**QuÃ© hacer**: Crea un grÃ¡fico de dispersiÃ³n.
**Por quÃ©**: Confirma si la relaciÃ³n entre x e y es aproximadamente lineal.
**CÃ³mo**: Usa seaborn o matplotlib.

In [None]:
# GrÃ¡fico de dispersiÃ³n para ver la relaciÃ³n x-y.
# Busca una tendencia lineal (ascendente/descendente).
# Si no es lineal, considera transformar x (e.g., log(x)).

plt.figure(figsize=(8,6))
sns.scatterplot(x="x", y="y", data=df)  # Cambia 'x' y 'y' por nombres de columnas
plt.xlabel("Variable Predictora (x)")  # Cambia por nombre descriptivo
plt.ylabel("Variable Objetivo (y)")    # Cambia por nombre descriptivo
plt.title("RelaciÃ³n entre x e y")
plt.show()

### Paso 4: Dividir los Datos
**QuÃ© hacer**: Divide en entrenamiento (train) y prueba (test).
**Por quÃ©**: Entrenamos en train y evaluamos en test para medir generalizaciÃ³n.
**CÃ³mo**: Usa train_test_split.

In [None]:
# Dividimos en 80% train, 20% test.
# random_state asegura reproducibilidad.
# Verificamos formas de los conjuntos.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Forma X_train:", X_train.shape)
print("Forma X_test:", X_test.shape)
print("Forma y_train:", y_train.shape)
print("Forma y_test:", y_test.shape)

### Paso 5: Crear y Entrenar el Modelo
**QuÃ© hacer**: Instancia y entrena el modelo.
**Por quÃ©**: Ajusta la lÃ­nea \( y = \beta_0 + \beta_1 x \) a los datos.
**CÃ³mo**: Usa LinearRegression.

In [None]:
# Creamos y entrenamos el modelo.
# Imprimimos coeficientes para interpretaciÃ³n.
# Î²1: Cambio en y por unidad de x.
# Î²0: Valor base de y cuando x = 0.

model = LinearRegression()
model.fit(X_train, y_train)
print("Intercepto (Î²0):", model.intercept_)
print("Pendiente (Î²1):", model.coef_[0])

### Paso 6: Hacer Predicciones
**QuÃ© hacer**: Predice en el conjunto de test.
**Por quÃ©**: EvalÃºa cÃ³mo generaliza el modelo.
**CÃ³mo**: Usa model.predict.

In [None]:
# Predecimos y comparamos con valores reales.

y_pred = model.predict(X_test)
print("Primeras 5 predicciones:", y_pred[:5].round(2))
print("Primeros 5 valores reales:", y_test[:5])

### Paso 7: Evaluar el Modelo
**QuÃ© hacer**: Calcula RÂ².
**Por quÃ©**: Mide quÃ© tan bien el modelo explica los datos (0-1).
**CÃ³mo**: Usa r2_score.

In [None]:
# Calculamos RÂ².
# RÂ² > 0.7: Buen ajuste; < 0.3: RelaciÃ³n dÃ©bil o falta de features.

r2 = r2_score(y_test, y_pred)
print("Coeficiente de DeterminaciÃ³n (RÂ²):", round(r2, 4))

### Paso 8: Visualizar el Ajuste
**QuÃ© hacer**: Grafica datos de test y la lÃ­nea de regresiÃ³n.
**Por quÃ©**: Visualiza cuÃ¡n bien la lÃ­nea ajusta los puntos.
**CÃ³mo**: Usa scatter y plot.

In [None]:
# Graficamos puntos reales (azul) y lÃ­nea predicha (rojo).

plt.figure(figsize=(8,6))
plt.scatter(X_test, y_test, color="blue", label="Datos Reales")
plt.plot(X_test, y_pred, color="red", label="LÃ­nea de RegresiÃ³n")
plt.xlabel("Variable Predictora (x)")  # Cambia por nombre descriptivo
plt.ylabel("Variable Objetivo (y)")    # Cambia por nombre descriptivo
plt.title("RegresiÃ³n Lineal Simple: Ajuste del Modelo")
plt.legend()
plt.show()

## ConclusiÃ³n y Mejoras
**Resultados**:
- **Fortalezas**: Modelo simple e interpretable.
- **Limitaciones**: Asume linealidad. Si RÂ² es bajo, la relaciÃ³n puede no ser lineal o faltan features.
- **InterpretaciÃ³n**: Revisa Î²1 (Â¿es positiva/negativa?), Î²0, y RÂ².

**Mejoras**:
- Prueba otra feature del dataset.
- Usa regresiÃ³n mÃºltiple para mÃ¡s features.
- Transforma x o y (e.g., log(x)) si no es lineal.
- Escala datos con StandardScaler si los rangos son muy diferentes.

## Ejercicios para Practicar
1. Cambia la feature x por otra del dataset. Â¿Mejora RÂ²?
2. Ajusta test_size a 0.3. Â¿CÃ³mo afecta la evaluaciÃ³n?
3. Usa otro dataset (e.g., fetch_california_housing) o genera datos con make_regression.
4. Aplica StandardScaler antes de entrenar. Â¿Cambia el modelo?

## Notas
- **Asunciones**: RelaciÃ³n lineal, errores independientes, homocedasticidad.
- **Problemas**: Si X no es 2D, usa np.newaxis o .reshape(-1, 1).
- **Descarga**: File > Download > .ipynb.

Â¡Gracias por aprender! Adapta esta receta a tu dataset y experimenta. ðŸ˜Š