Gabriel Enzo trabalha na empresa ABC tools. Em um de seus processos, a temperatura y de certo equipamento só está facilmente disponível em condições controladas de operação. Sendo assim, em condições normais, a empresa precisa prever essa temperatura com base em 4 sensores distintos (x1, x2, x3 e x4).

No entanto, suspeita-se que nem todos os sensores contribuem corretamente para a previsão. Assim, Gabriel Enzo é incubido com a tarefa de identificar quais sensores são os mais apropriados para a predição da temperatura.

Ele, então, decide usar um modelo linear com regularização LASSO.

In [49]:
import numpy as np
from sklearn.linear_model import Lasso

np.random.seed(42)
n = 15

# Dados de 15 medições dos sensores
X = np.random.randn(n, 4)
X = np.round(X, 8)

# Verdadeiro modelo: y = 1 + 2*x1 + 3*x3 
theta = np.array([1, 2, 0, 3, 0])  # θ2 = θ4 = 0
y = theta[0] + np.matmul(X, theta[1:]) + np.random.normal(0, 0.3, n) # y medido
y = np.round(y, 8)

print("Matriz X (medição dos sensores, x1, x2, x3, x4):\n", X)
print("\nVetor y (temperatura medida em operação controlada):\n", y)

Matriz X (medição dos sensores, x1, x2, x3, x4):
 [[ 0.49671415 -0.1382643   0.64768854  1.52302986]
 [-0.23415337 -0.23413696  1.57921282  0.76743473]
 [-0.46947439  0.54256004 -0.46341769 -0.46572975]
 [ 0.24196227 -1.91328024 -1.72491783 -0.56228753]
 [-1.01283112  0.31424733 -0.90802408 -1.4123037 ]
 [ 1.46564877 -0.2257763   0.0675282  -1.42474819]
 [-0.54438272  0.11092259 -1.15099358  0.37569802]
 [-0.60063869 -0.29169375 -0.60170661  1.85227818]
 [-0.01349722 -1.05771093  0.82254491 -1.22084365]
 [ 0.2088636  -1.95967012 -1.32818605  0.19686124]
 [ 0.73846658  0.17136828 -0.11564828 -0.3011037 ]
 [-1.47852199 -0.71984421 -0.46063877  1.05712223]
 [ 0.34361829 -1.76304016  0.32408397 -0.38508228]
 [-0.676922    0.61167629  1.03099952  0.93128012]
 [-0.83921752 -0.30921238  0.33126343  0.97554513]]

Vetor y (temperatura medida em operação controlada):
 [ 3.79274165  5.21363403 -1.66110234 -4.04969094 -3.50597673  4.54075415
 -3.56334922 -1.70533734  3.5491311  -2.76036688  2.2384

In [50]:
# Treina o LASSO
lasso = Lasso(alpha=0.1, fit_intercept=True)
lasso.fit(X, y)

print("Coeficientes verdadeiros:", theta)
print("Coeficientes estimados (LASSO):", np.concatenate(([lasso.intercept_], lasso.coef_)))

Coeficientes verdadeiros: [1 2 0 3 0]
Coeficientes estimados (LASSO): [ 0.97557271  1.81075833  0.          2.94130844 -0.        ]


Dessa forma, dados dos sensores 2 e 4, que não contribuem efetivamente para a predição, são automaticamente filtrados pelo modelo.

Exercício alternativo, sem mostrar como y foi construído, só com dados brutos está abaixo.

In [None]:
import numpy as np
from sklearn.linear_model import Lasso

np.random.seed(42)
n = 15

# Dados de 15 medições dos sensores
X = np.array([
 [ 0.49671415, -0.1382643,   0.64768854,  1.52302986],
 [-0.23415337, -0.23413696,  1.57921282,  0.76743473],
 [-0.46947439,  0.54256004, -0.46341769, -0.46572975],
 [ 0.24196227, -1.91328024, -1.72491783, -0.56228753],
 [-1.01283112,  0.31424733, -0.90802408, -1.4123037 ],
 [ 1.46564877, -0.2257763,   0.0675282,  -1.42474819],
 [-0.54438272,  0.11092259, -1.15099358,  0.37569802],
 [-0.60063869, -0.29169375, -0.60170661,  1.85227818],
 [-0.01349722, -1.05771093,  0.82254491, -1.22084365],
 [ 0.2088636,  -1.95967012, -1.32818605,  0.19686124],
 [ 0.73846658,  0.17136828, -0.11564828, -0.3011037 ],
 [-1.47852199, -0.71984421, -0.46063877,  1.05712223],
 [ 0.34361829, -1.76304016,  0.32408397, -0.38508228],
 [-0.676922,    0.61167629,  1.03099952,  0.93128012],
 [-0.83921752, -0.30921238,  0.33126343,  0.97554513]
])

# Temperatura y medida em operação controlada
y = np.array([
  3.79274165,  5.21363403, -1.66110234, -4.04969094, -3.50597673,
  4.54075415, -3.56334922, -1.70533734,  3.5491311,  -2.76036688,
  2.238407,   -2.87754932,  2.64874068,  3.20854766, -0.47056828
])  

# Treina o LASSO
lasso = Lasso(alpha=0.1, fit_intercept=True)
lasso.fit(X, y)

print("Coeficientes estimados (LASSO):", np.concatenate(([lasso.intercept_], lasso.coef_)))

Coeficientes verdadeiros: [1 2 0 3 0]
Coeficientes estimados (LASSO): [ 0.97557271  1.81075833  0.          2.94130844 -0.        ]


In [25]:
# Treina o LASSO
lasso = Lasso(alpha=0.1, fit_intercept=True)
lasso.fit(X, y)

print("Coeficientes verdadeiros:", theta)
print("Coeficientes estimados (LASSO):", np.concatenate(([lasso.intercept_], lasso.coef_)))

Coeficientes verdadeiros: [1 2 0 3 0]
Coeficientes estimados (LASSO): [ 1.23605044e+01 -1.15233049e+00 -2.59636721e+00 -1.00122376e-02
 -4.97922956e-02]
