# Big Data y Machine Learning (UBA) 2025
## Clase 10 - Regresion lineal

**Objetivo:** Correr regresiones lineales. Estimar polinomios y encontrar el ECM.

Veremos:
- Regresión lineal simple y múltiple
- Estadísticas (similares a stata o R) con nuevo módulo 
- Encontrar el ECM

In [None]:
# Instalar modulo de statsmodels 
# !pip install statsmodels

In [None]:
# Importamos paquetes
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import statsmodels.api as sm

## Regresión Simple
Sea el modelo de regresión simple con un predictores ($p=1$):
$$
y_i = \beta_0 + \beta_1 \times x_{1i}  + \epsilon
$$
donde $\epsilon$ es el error no sistemático del modelo.

In [None]:
# Creamos unos datos de ejemplo
x = np.array([5, 15, 25, 35, 45, 55]) # Predictor
y = np.array([5, 20, 14, 32, 22, 38]) # Variable de interés a predecir

print(x)
print(y)
# Ambos son vectores fila

In [None]:
# Repasamos el Reshape para transformar x en un vector columna
x = x.reshape((-1, 1))   # El -1 indica el largo del array
# Es equivalente a: x = x.reshape((6, 1))

print(x)
print(y)

#### Regresión lineal con skit-learn
Ahora utilizaremos la función [LinearRegression()](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) del paquete scikit-learn.
    
Se pueden proveer muchos parámetros opcionales para esta función:

- **fit_intercept**: Booleano que decide si calcular el intercepto (True) o considerarlo igual a cero (False) ($\beta_0$). Por default es True.
- **normalize**: Booleano que decide si normalizar las variables input (True) o no (False). Es False por default.
- **copy_X**: Booleano que decide si copiar (True) o sobreescribir las variables input (False). Es True por default.

In [None]:
# Primero, estimar el modelo. Lo hacemos con fit():
model = LinearRegression().fit(x, y)

In [None]:
# Veamos ahora los resultados por MCO

# El intercepto
intercepto = model.intercept_
print('\nIntercepto:', intercepto)

# La pendiente
pendiente = model.coef_
print('\nPendiente:', pendiente)


In [None]:
# Hacemos un scatter plot
plt.plot(x, y, 'o')
plt.plot(x, pendiente*x + intercepto)


Supongamos que ahora queremos predecir con este modelo $\hat{Y}$. Para ellos, usamos la funcion de `.predict()`y los valores del regresor en el modelo estimado y obtenemos la correspondiente respuesta predicha $\hat{Y}$.

In [None]:
# Predicción Y_hat
y_pred = model.predict(x)
print('Respuesta predicha:\n', y_pred)

# Recordemos cómo era nuestro vector y
print('\nEl vector de y:', y)

# Recordemos cómo era nuestro vector x
print('\nEl vector de x:', x)

### Precisión del modelo
Recordamos que definimos el $R^2$ como:
$$
R^2 = \frac{TSS-RSS}{TSS} = 1- \frac{RSS}{TSS}
$$
donde $TSS= \Sigma (y_i - \bar{y} )^2$ y $RSS=\Sigma (y_i - \hat{y} )^2$

In [None]:
# Calculamos el R2 (Alternativa 1)
r2 = model.score(x, y)
print('Coeficiente de determinación:', r2)

# Con la y predicha podemos calcular el R^2 de esta otra forma (Alternativa 2)
r2_new = r2_score(y, y_pred)
print("\nResultado alternativo para R2:", r2_new)

#### Predicción Afuera de la Muestra
Supongamos tenemos nuevos datos y queremos ver qué tan buenos somos para predecir con los nuevos datos

In [None]:
# Si quiero probar valores nuevos de x (no los que usé para estimar el modelo):
x_new = np.arange(start=10, stop=20, step=2).reshape((-1, 1))   # Generamos valores entre [10, 20), con saltos de 2 en 2
print(x_new)

y_pred_new = model.predict(x_new)
print('\nNueva respuesta predicha:\n', y_pred_new)

## Regresión Multiple
Sea el modelo de regresión múltiple con dos predictores ($p=2$):
$$
y_i = \beta_0 + \beta_1 \times x_{1i} + + \beta_2 \times x_{2i} + \epsilon
$$

In [None]:
# Armamos un vector para la variable dependiente y una matriz de regresores:
x = np.array([[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]])

y =  np.array([4, 5, 20, 14, 32, 22, 38, 43])

print(x)
print(y)


In [None]:
# Estimamos el modelo
model = LinearRegression().fit(x, y)
r2 = model.score(x, y)

# Miramos resultados
print('Coeficiente de determinación:', r2)
print('\nIntercepto:', model.intercept_)
print('\nCoeficientes:', model.coef_)

In [None]:
# Vemos la respuesta predicha para los valores originales de los regresores
y_pred = model.predict(x)
print('Respuesta predicha:', y_pred, sep='\n')

In [None]:
# Vemos la predicción para nuevos valores de X
x_new = np.arange(start=1, stop=31, step=3).reshape((-1, 2))   # Matriz con 2 columnas y tantas filas como tenga el array
print(x_new)
y_new = model.predict(x_new)
print('Nueva respuesta predicha:', y_new, sep='\n')

### Imitando a Stata con statsmodels

[statsmodels](https://www.statsmodels.org/stable/index.html) proporciona clases y funciones para la estimación de modelos estadísticos, para realizar pruebas estadísticas y para explorar datos estadísticos.

In [None]:
x = [[0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)

x = sm.add_constant(x)
print(x)
print(y)

In [None]:
# Especificamos el modelo
model = sm.OLS(y, x)
# Ajustamos el modelo
results = model.fit()

print(results.summary())

In [None]:
# Si solo queremos ver los coeficientes
print(results.params)

In [None]:
# También lo podemos imprimir los resultados para un excel
print(results.summary().as_csv())

Se puede obtener la respuesta predicha con los valores de x para estimar el modelo con `.predict()` o `.fittedvalues`:

In [None]:
print('predicted response:\n', results.predict(x)) 

In [None]:
print('predicted response:\n', results.fittedvalues) #equivalente: results.predict(x)

##     ERROR CUADRÁTICO MEDIO

Ahora veamos algunas métricas de evaluación usuales para los problemas de regresión en Machine Learning.

Vamos a observar los valores de las siguientes métricas:

**Error Cuadrático Medio / Mean Squared Error**

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{f}(x_i))^2$

**Raíz del Error Cuadrático Medio / Root Mean Squared Error**

$RMSE = \sqrt{MSE}$

**Error Absoluto Medio / Mean Absolute Error**

$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{f}(x_i)|$


In [None]:
# Generamos un dataset aleatorio
np.random.seed(0)
x = np.random.rand(100)  # Array de la forma (100, 1) con nros aleatorios entre [0, 1) de una distribución uniforme
epsilon = np.random.normal(0,1,100) # error no sistematico

y = 2 + 3*x + epsilon
print("x:\n", x)
print("y:\n", y)
print("epsilon:\n", epsilon)

In [None]:
print("Forma de x:", x.shape)
print("Forma de y:", y.shape)

print("Dimensiones de x:", x.ndim)
print("Dimensiones de y:", y.ndim)

In [None]:
# Graficamos
plt.scatter(x, y, s=10)  # s indica el tamaño de los puntos del scatter.
plt.plot(x, 2+3*x, color='red')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

In [None]:
x_con = sm.add_constant(x)
model = sm.OLS(y, x_con)
results = model.fit()
print(results.summary())

In [None]:
# Predecimos las y
y_pred = results.predict(x_con)
y_pred

print("Forma de y_pred:", y_pred.shape)
print("Dimensiones de y:", y_pred.ndim)

In [None]:
# Graficamos
plt.scatter(x, y, s=10)  # s indica el tamaño de los puntos del scatter.
plt.plot(x, 2+3*x, color='red')
plt.plot(x, y_pred, color='blue')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

### Regresion, Numero de predictores y medidas de bondad de ajuste

In [None]:
# Creamos un segundo predictor
x2 = np.random.normal(5,4,100)  # Array de la forma (100, 1) de una distribución normal con media 5 y desvio estandar 4.
X = np.column_stack((x, x2)) # Armamos la matriz con los dos predictores
#print(X)

In [None]:
x_con2 = sm.add_constant(X)
model2 = sm.OLS(y, x_con2)
results2 = model2.fit()
print(results2.summary())
# Estima y predicho
y_pred2 = results2.predict(x_con2)

Ahora armemos un tercer predictor NO relacionado con $Y$, y veamos que pasa.


In [None]:
# Creamos un tercer predictor
x3 = np.random.normal(10,2,100)  # Array de la forma (100, 1) de una distribución normal con media 5 y desvio estandar 4.
X = np.column_stack((x, x2,x3)) # Armamos la matriz con los dos predictores
#print(X)

In [None]:
x_con3 = sm.add_constant(X)
model3 = sm.OLS(y, x_con3)
results3 = model3.fit()
print(results3.summary())
# Estima y predicho
y_pred3 = results3.predict(x_con3)

#### Modelo mal especificado

In [None]:
# Creamos un tercer predictor
X_mal = np.column_stack((x2,x3)) # Armamos la matriz con los dos predictores
#print(X)

In [None]:
x_con_mal = sm.add_constant(X_mal)
model4 = sm.OLS(y, x_con_mal)
results4 = model4.fit()
print(results4.summary())
# Estima y predicho
y_pred4 = results4.predict(x_con_mal)

In [None]:
# Media de y?
np.mean(y)

In [None]:
# Graficamos
plt.scatter(y_pred, y_pred4, s=10)  # s indica el tamaño de los puntos del scatter.
plt.xlabel('Y_hat modelo 1')
plt.ylabel('Y_hat modelo malo')
plt.show()

#### MSE con datos de entrenamiento (dentro de la muestra)

In [None]:
# Usando MSE de scikit-learn
mse1 = mean_squared_error(y, y_pred)
print(mse1)

# Usando la formula manualmente
mse2 = np.square(np.subtract(y, y_pred)).mean()
print(mse2)

In [None]:
# También podemos ver el RMSE y el MAE
rmse = np.sqrt(mean_squared_error(y, y_pred))
print(rmse)
mae = mean_absolute_error(y, y_pred)
print(mae)

In [None]:
# tenemos las predicciones de los 3 modelos
y_pred = [y_pred2, y_pred3, y_pred4]

# Creamos una lista para armar los resultados de error de pronóstico de Y
resultados = []

# Itera sobre los modelos
for i, y_pred in enumerate(y_pred):
    
    # Calcula las medidas de error
    mse = mean_squared_error(y, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y, y_pred)
    
    # Guarda los resultados
    resultados.append({
        'Modelo': f'Modelo {i+2}',
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae
    })

# Crea un DataFrame con los resultados
df_resultados = pd.DataFrame(resultados)

# Muestra la tabla con los resultados
print(df_resultados)

### MSE con datos de testeo (afuera de la muestra)


In [None]:
# Generamos un nuevo dataset aleatorio para testear nuestor modelo estimado
np.random.seed(0)
x_new = np.random.rand(10)  # Array de la forma (100, 1) con nros aleatorios entre [0, 1) de una distribución uniforme
epsilon_new = np.random.normal(0,1,10) # error no sistematico

y_new = 2 + 3*x_new + epsilon_new
print("x:\n", x_new)
print("y:\n", y_new)
print("epsilon:\n", epsilon_new)

In [None]:
# Nueva Predeccion las y
x_new_con = sm.add_constant(x_new) # agregamos constante
y_pred_new = results.predict(x_new_con)

print("Forma de y_pred:", y_pred_new.shape)
print("Dimensiones de y:", y_pred_new.ndim)

Ahora si veamos la predicción afuera de la muestra



In [None]:
# Usando MSE testeo de scikit-learn
mse_test = mean_squared_error(y_new, y_pred_new)
print(mse_test)

In [None]:
# También podemos ver el RMSE y el MAE
rmse_test = np.sqrt(mean_squared_error(y_new, y_pred_new))
print(rmse_test)
mae_test = mean_absolute_error(y_new, y_pred_new)
print(mae_test)