<a href="https://colab.research.google.com/github/financieras/math_for_ai/blob/main/estadistica/200_regresion_lineal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresión Lineal para Data Science con Python

## Contenido

**1. Introducción**
   - Importancia de la regresión lineal en Data Science
   - ¿Qué problema resuelve el método de mínimos cuadrados?

**2. Fundamento Matemático**
   - Formulación del problema: minimizar el error cuadrático
   - Derivación de la solución analítica (ecuaciones normales)
   - Notación matricial

**3. Implementación desde Cero en Python**
   - Dataset sintético de ejemplo
   - Cálculo manual con NumPy
   - Visualización con Matplotlib

**4. Comparación con Scikit-learn**
   - Uso de `LinearRegression()`
   - Verificación de resultados

**5. Métricas de Evaluación**
   - MSE, RMSE, R²
   - Interpretación práctica

**6. Mínimos Cuadrados vs. Descenso del Gradiente**
   - Convexidad de la función de coste en regresión lineal
   - Solución analítica vs. solución iterativa
   - Cuándo usar Descenso del Gradiente: funciones no convexas y múltiples mínimos locales
   - Relevancia en Deep Learning y modelos complejos

**7. Limitaciones y Consideraciones**
   - Supuestos del modelo
   - Cuándo usar (y no usar) regresión lineal

**8. Conclusiones**
   - Aplicaciones en proyectos reales de Data Science

# 1. Introducción

Si estás empezando en Data Science, probablemente hayas escuchado que la regresión lineal es uno de los algoritmos más fundamentales. Pero ¿por qué sigue siendo tan relevante en la era del machine learning avanzado y las redes neuronales?

La respuesta es simple: **efectividad y interpretabilidad**. Mientras que modelos más complejos pueden actuar como "cajas negras", la regresión lineal nos permite entender exactamente cómo cada variable afecta a nuestro resultado. Es nuestro punto de partida natural para cualquier problema de predicción numérica.

## ¿Qué problema resuelve realmente?

Imagina que tienes datos históricos de precios de viviendas y quieres predecir cuánto costará una nueva casa. Tienes variables como metros cuadrados, número de habitaciones, ubicación... La regresión lineal te permite encontrar una relación matemática entre estas características y el precio.

**El método de mínimos cuadrados** es la magia detrás de esto: encuentra la línea (o hiperplano) que mejor se ajusta a nuestros datos, minimizando la distancia total entre los puntos reales y nuestras predicciones.

```python
# Un vistazo rápido de lo que haremos
import matplotlib.pyplot as plt
import numpy as np

# Datos de ejemplo: tamaño de casa vs precio
tamaño = np.array([50, 60, 70, 80, 90, 100])
precio = np.array([150000, 180000, 210000, 240000, 270000, 300000])

plt.scatter(tamaño, precio)
plt.xlabel('Tamaño (m²)')
plt.ylabel('Precio (€)')
plt.title('Relación tamaño-precio de viviendas')
plt.show()
```

En este artículo no solo entenderás la teoría, sino que implementarás la regresión lineal desde cero y verás cómo aplicarla en proyectos reales de Data Science. Empezaremos con los fundamentos matemáticos, pasando por la implementación práctica, hasta las consideraciones avanzadas que todo data scientist debe conocer.

**¿Preparado para dominar uno de los algoritmos más versátiles del machine learning?** Vamos allá.

## 1. Introducción

La regresión lineal es, sin duda, uno de los primeros algoritmos que cualquier *data scientist* aprende —y con razón. A pesar de su aparente simplicidad, sigue siendo una herramienta poderosa, interpretable y sorprendentemente útil en una amplia gama de problemas del mundo real: desde predecir ventas hasta estimar precios de viviendas o modelar tendencias en series temporales.

### ¿Por qué mínimos cuadrados?

En esencia, la regresión lineal busca modelar la relación entre una variable dependiente \( y \) y una o más variables independientes \( X \) mediante una línea (o hiperplano) recto. Pero, ¿cómo decidimos cuál es la “mejor” línea? Aquí entra el **método de los mínimos cuadrados**: minimiza la suma de los errores al cuadrado entre los valores observados y los predichos. Esta estrategia no solo tiene una solución analítica elegante, sino que también sienta las bases para entender técnicas más avanzadas como la regularización o el descenso del gradiente.

En este artículo, veremos cómo implementar regresión lineal desde cero en Python, compararla con `scikit-learn`, evaluar su rendimiento y discutir cuándo —y cuándo no— usarla en tus proyectos de Data Science.

## 1. Introducción

La regresión lineal es, sin duda, uno de los algoritmos más fundamentales en Data Science. Aunque pueda parecer simple comparado con las redes neuronales o los ensemble methods de hoy en día, entender su funcionamiento es esencial para cualquier profesional del área.

**¿Por qué es tan importante?** Porque establece las bases de cómo modelamos relaciones entre variables y cómo optimizamos funciones de coste. Además, muchos algoritmos modernos son extensiones o variaciones de estos conceptos básicos.

El **método de mínimos cuadrados** (Ordinary Least Squares, OLS) resuelve un problema aparentemente sencillo: dada una nube de puntos, queremos encontrar la línea (o hiperplano en dimensiones superiores) que mejor se ajuste a los datos. "Mejor" aquí significa minimizar la suma de los errores cuadráticos entre las predicciones y los valores reales.

Matemáticamente, buscamos los parámetros $\boldsymbol{\theta}$ que minimizan:

$$J(\boldsymbol{\theta}) = \frac{1}{2m} \sum_{i=1}^{m} (h_{\boldsymbol{\theta}}(\mathbf{x}^{(i)}) - y^{(i)})^2$$

donde $h_{\boldsymbol{\theta}}(\mathbf{x}) = \boldsymbol{\theta}^T \mathbf{x}$ es nuestra hipótesis lineal.

En este artículo implementaremos este método desde cero en Python, compararemos con scikit-learn, y reflexionaremos sobre cuándo usar mínimos cuadrados frente a métodos iterativos como el descenso del gradiente.