## Fundamentos Matemáticos de la Regresión Lineal

La **regresión lineal** es un modelo estadístico que busca encontrar la mejor relación lineal entre una variable dependiente \( y \) y una o más variables independientes \( X \).

El modelo se expresa como:

$$ y = \beta_0 + \beta_1 X + \epsilon $$

Donde:
- \( y \) es la variable dependiente.
- \( X \) es la variable independiente.
- \( beta_0 \) es el intercepto (término independiente).
- \( beta_1 \) es la pendiente del modelo.
- \( epsilon \) es un término de error aleatorio (opcional).

El objetivo de la regresión lineal es encontrar los valores óptimos de \( beta_0 \) y \( beta_1 \) que minimicen la diferencia entre los valores predichos y los valores reales.

ϵ es el término de error o residuo, que representa la diferencia entre los valores reales 
𝑦
y y los valores predichos por el modelo.

# Intercepto y Pendiente en Regresión Lineal

En la **regresión lineal**, la relación entre una variable dependiente \( y \) y una variable independiente \( X \) se modela con la ecuación:

$$
y = \beta_0 + \beta_1 X + \epsilon
$$

Donde:

- \( y \) es la variable dependiente (lo que queremos predecir).
- \( X \) es la variable independiente (predictor).
- \( \beta_0 \) es el **intercepto**.
- \( \beta_1 \) es la **pendiente**.
- \( \epsilon \) es el **error**.

---

## **1️⃣ Intercepto \( beta_0 \)**

El **intercepto** representa el valor de \( y \) cuando \( X = 0 \). Es el punto donde la línea de regresión cruza el eje \( y \).

Si el modelo es:

$$
y = 5 + 2X
$$

- Cuando \( X = 0 \), entonces \( y = 5 \).
- Esto significa que si la variable independiente es cero, la variable dependiente tendrá un valor de **5**.

### **Ejemplo Real**
Si estamos prediciendo el salario en función de los años de experiencia:

$$
\text{Salario} = 20,000 + 3,000 \times \text{Años de experiencia}
$$

Aquí:
- **El intercepto \( 20,000 \)** significa que una persona con **0 años de experiencia** tendrá un salario base de **20,000**.

---

## **2️⃣ Pendiente \( beta_1 \)**

La **pendiente** indica cuánto cambia \( y \) cuando \( X \) aumenta en una unidad.

$$
\beta_1 = \frac{\Delta y}{\Delta X}
$$

Si el modelo es:

$$
y = 5 + 2X
$$

- La pendiente es **2**, lo que significa que **por cada aumento de 1 en \( X \)**, \( y \) **aumenta en 2**.

### **Ejemplo Real**
En el modelo de salario:

$$
\text{Salario} = 20,000 + 3,000 \times \text{Años de experiencia}
$$

- **La pendiente \( 3,000 \)** significa que **por cada año adicional de experiencia**, el salario esperado **aumenta en 3,000**.

---


## Función de Costo en Regresión Lineal

Para encontrar los coeficientes óptimos \( beta_0 \) y \( beta_1 \), utilizamos una función de costo que mida el error entre las predicciones del modelo y los valores reales.

La función de costo más común es la de **mínimos cuadrados**, que se define como:

$$ J(\mathbf{\beta}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 X_i))^2 $$

Esta función representa el error cuadrático medio entre los valores observados \( y_i \) y los valores predichos por el modelo 
$$ y_i - (\beta_0 + \beta_1 X_i) $$

Minimizar esta función nos permite encontrar los valores óptimos de $$ \mathbf{\beta} $$ que mejor se ajustan a los datos.

## Solución por Mínimos Cuadrados

La minimización de la función de costo se puede hacer de manera analítica utilizando la ecuación normal:

$$ \mathbf{\beta} = (X^T X)^{-1} X^T y $$

El vector de coeficientes beta es igual al inverso del producto de la transpuesta de X por X, multiplicado por la transpuesta de X y luego por el vector de respuestas y

Donde:
- \( X \) es la matriz de diseño que contiene las variables independientes (con una columna de unos para el intercepto).
- \( y \) es el vector de valores observados.
- \( beta \) es el vector de coeficientes estimados.

Este método nos da una solución cerrada para los coeficientes de la regresión. Sin embargo, también podemos resolver el problema utilizando **optimización numérica** con `scipy.optimize.minimize`.

## Función de Costo y Optimización en Regresión Lineal

En un problema de regresión lineal, buscamos los coeficientes óptimos minimizando una función de costo. La más común es la de **mínimos cuadrados**:

$$ J(\beta) = \frac{1}{n} \sum_{i=1}^{n} (Y_i - X_i \beta)^2 $$

En esta actividad, implementaremos un modelo que minimice esta función utilizando `scipy.optimize.minimize` y validaremos los resultados contra `sklearn.linear_model.LinearRegression`.

### Visualización de Datos

Antes de entrenar el modelo, analizamos visualmente la relación entre las variables.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Generar datos sintéticos
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Visualización
plt.scatter(X, y, alpha=0.6)
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Visualización de Datos')
plt.show()

### Solución a igualar

In [None]:
# Validación con sklearn
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)
print(f'Ecuación de sklearn: y = {lin_reg.intercept_[0]:.2f} + {lin_reg.coef_[0][0]:.2f}X')

In [None]:
# Mostrando gráfico
plt.scatter(X,y,color='red')
plt.plot(X,lin_reg.predict(X),color='green')
plt.title('Simple Linear Regression')
plt.xlabel('X') # Funciona como variable independiente
plt.ylabel('y') # Variable a predecir o independiente
plt.show()

## Ejercicio 1: Implementación de Regresión Lineal con scipy.optimize.minimize
Observa que 
- Ya tienes definida X e y.
- Te ayudé con la definición de tu beta inicial.

Qué harás?
- Define la función de costo

In [None]:
import numpy as np
from scipy.optimize import minimize

# Generar datos sintéticos
np.random.seed(42)
X=np.random.uniform(-np.pi*3/4,np.pi,100)
X.sort()
y=np.sin(X)+np.random.uniform(-0.5,0.5,100)

# Agregar columna de unos para el intercepto
X_b = np.c_[np.ones((X.shape[0], 1)), X]

# Definir la función de costo
def criterio_opt(beta, X, y):
    # completa esta función y su retorno
    return

# Estimación de parámetros con optimización
beta_inicial = np.zeros(X_b.shape[1])
resultado = minimize(criterio_opt, beta_inicial, args=(X_b, y), method='BFGS')

# Coeficientes óptimos obtenidos
beta_optimo = resultado.x
print(f'Coeficientes óptimos: Intercepto = {beta_optimo[0]:.4f}, Pendiente = {beta_optimo[1]:.7f}')
print(f'Ecuación y = {beta_optimo[0]:.2f} + {beta_optimo[1]:.7f}X')

In [None]:
X_b

In [None]:
# Observa la forma de beta inicial
beta_inicial

In [None]:
# Solución visual
plt.scatter(X,y,s=5)
f=# Completa f para visualizar los datos
plt.plot(X,f,'r')
plt.grid()

## Ejercicio 2: Implementación de Regresión Lineal con scipy.optimize.minimize abstrayendo el concepto en una clase. 

Implementa la siguiente clase `RegresionLineal`, donde debes:

1. **Definir la función de costo** basada en mínimos cuadrados.
2. **Implementar el método `fit()` usando `scipy.optimize.minimize`**. El método debe encontrar los coeficientes óptimos.
3. **Incluir un método `visualizar()` para graficar la recta ajustada**.
4. **Implementar un método `predecir()`** para realizar predicciones.
5. **Definir un método `mostrar_ecuacion()`** para imprimir la ecuación ajustada.
6. **Comparar los resultados con `sklearn.linear_model.LinearRegression`**.
7. Prueba todos los métodos con X e y definidos anterioremente. 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import minimize

class RegresionLineal:
    def __init__(self, X, y):
        self.X = np.c_[np.ones((X.shape[0], 1)), X]  # Agregar columna de 1s
        self.y = y
        self.theta = None

    def funcion_costo(self, theta):
        """Función de costo basada en mínimos cuadrados."""
        #Completa la función de costo
        return

    def fit(self):
        """Ajusta los coeficientes usando scipy.optimize.minimize."""
        theta_inicial = np.zeros(self.X.shape[1])
        resultado = minimize(self.funcion_costo, theta_inicial, method='BFGS')
        self.theta = resultado.x

    def visualizar(self):
        """Grafica los datos junto con la recta ajustada."""
        # Completa el código para gráficar

    def predecir(self, X_nuevo):
        """Realiza una predicción para nuevos valores de entrada."""
        # Completa el código para realizar una predicción de nuevos valores

    def mostrar_ecuacion(self):
        """Imprime la ecuación de la regresión lineal."""
        # Completa el código para mostrar la ecuación

### Prueba tu clase!

In [None]:
# Generar datos sintéticos para probar la clase RegresionLineal

# Crear datos simulados
# Generar datos sintéticos
np.random.seed(42)
X=np.random.uniform(-np.pi*3/4,np.pi,100)
X.sort()
y=np.sin(X)+np.random.uniform(-0.5,0.5,100)


In [None]:
# Crear una instancia de la clase
modelo = RegresionLineal(X, y)

# Ajustar el modelo
modelo.fit()
modelo.theta

In [None]:
# Mostrar la ecuación obtenida
modelo.mostrar_ecuacion()

In [None]:
# Visualizar el ajuste del modelo
modelo.visualizar()

In [None]:
# Hacer predicciones con nuevos valores
X_nuevo = np.array([[0], [1.5], [2]])
y_pred = modelo.predecir(X_nuevo)

# Mostrar predicciones
list(zip(X_nuevo.flatten(), y_pred.flatten()))

## Ejercicio 3: Aplicación a Datos de Kaggle

Busca tres conjuntos de datos en Kaggle donde puedas aplicar regresión lineal. 

Sugerencias 
### Boston Housing 🏠

Búscalo en Kaggle o en repositorios de datos de código abierto.

### Auto MPG 🚗

Lo puedes descargar desde el UCI Machine Learning Repository buscando "Auto MPG dataset".
También está en Kaggle.

### Wine Quality 🍷

Búscalo en el UCI Machine Learning Repository o en Kaggle con el nombre "Wine Quality Dataset".
Salary Dataset 💰

### En Kaggle puedes buscar "Salary Prediction Dataset" o "Experience vs Salary".

## Para cada conjunto de datos, debes:

1. Cargar los datos.
2. Entrenar el modelo usando la clase `RegresionLineal`.
3. Comparar los resultados con `sklearn.LinearRegression`.
4. Visualizar la relación entre las variables.
5. Mostrar la ecuación de regresión obtenida.
6. Realizar predicciones con datos nuevos.

## Ejercicio 4
Analiza la precisión del modelo en cada caso y comparte tus conclusiones (Busca como hacerlo)
- Coeficiente de Determinación (R^2)
- MSE
- RMSE
- MAE

Concluye qué tan bueno es cada modelo. 