# Regresión multivariable*
*Ignacio Díaz Blanco, Universidad de Oviedo, 2023*


Ejemplo básico de regresión multivariable utilizando el método `Ridge()` de `scikit-learn`


In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### Generación de datos de ejemplo

Generamos datos de ejemplo de un modelo con tres variables independientes $x_1, x_2, x_3$, un término afín independiente $b$
$$
y = a_1 x_1 + a_2 x_2 + a_3 x_3 + b + \epsilon
$$
al cual se le ha añadido ruido de distribución normal $\epsilon$ que representa la incertidumbre en los datos (ej. ruidos en los sensores)

In [2]:
N = 1000

x1 = np.random.randn(N)
x2 = np.random.randn(N)
x3 = np.random.randn(N)

# ruido del sensor y
epsilon = 0.2*np.random.randn(N)

[a1, a2, a3, b] = [1.5, -2.1, 3.2, 0.7]

X = np.column_stack((x1,x2,x3))
y = a1*x1 + a2*x2 + a3*x3 + b + epsilon

# visualizamos los datos en una tabla
df = pd.DataFrame(np.column_stack((X,y)),columns=('x1','x2','x3','y'))
print(df)

           x1        x2        x3         y
0   -1.928360  0.476789 -0.454038 -4.752045
1    0.123474  0.171010 -0.114277 -0.098481
2    1.309195 -0.079462 -0.430700  1.022957
3   -1.202699 -0.577795  0.012150  0.095312
4   -1.725458  0.860119 -0.651133 -5.525536
..        ...       ...       ...       ...
995  0.991364  1.100156  0.586287  2.129023
996 -0.365740 -1.100810  0.818424  5.222305
997 -0.425985 -0.062838 -2.133374 -6.947235
998 -0.208539  0.131205 -0.407686 -1.294868
999  0.148687 -0.826139 -0.405152  1.557843

[1000 rows x 4 columns]


### Entrenamiento de un modelo lineal (Ridge regression)

In [3]:
from sklearn.linear_model import Ridge

# creamos el modelo
modelo = Ridge(alpha=0.0001)

# ajustamos el modelo a los datos
modelo.fit(X,y)

# imprimimos los parámetros del modelo
print(f'         coeficientes  =  {modelo.coef_}')
print(f'término independiente  =  {modelo.intercept_}')

         coeficientes  =  [ 1.51075088 -2.10102356  3.19883125]
término independiente  =  0.7035606638563388


los coeficientes y el término independiente se aproximan bastante bien a los reales

### Inferencia del modelo y validación con los datos reales

In [4]:
N = 10

# datos de test para las tres variables independientes (sensores)
x1test = np.random.randn(N)
x2test = np.random.randn(N)
x3test = np.random.randn(N)

# valores que daría el modelo ideal
ytest = a1*x1test + a2*x2test + a3*x3test + b

# datos de entrada al modelo
Xtest = np.column_stack((x1test,x2test,x3test))

# predicción del modelo
ypred = modelo.predict(Xtest)

# diferencia entre el valor ideal y la predicción
error = ytest - ypred

# mostramos los datos en una tabla
df = pd.DataFrame(np.column_stack((ytest,ypred,error)),columns=['ytest','ypred','error'])
print(df)

       ytest      ypred     error
0  -3.514107  -3.503369 -0.010738
1   4.400954   4.418140 -0.017186
2  -2.430481  -2.429292 -0.001188
3  -0.464476  -0.469826  0.005350
4  12.859777  12.882714 -0.022936
5   2.651422   2.659778 -0.008356
6  -2.526897  -2.516653 -0.010244
7   4.526007   4.517918  0.008089
8  -3.650731  -3.660199  0.009468
9  -3.320770  -3.325019  0.004249
