# Regressão Polinomial Multivariada

Supor a função multivariada de segundo grau:

$f(x, y) = w_01 + w_1x + w_2y + w_3x^2 + w_4y^2 + w_5xy$

Vimos em aula a regressão do tipo:

$h(a) = w_0g_0(a) + w_1g_1(a) + w_2g_2(a) + \dots + w_{n-1}g_{n-1}(a) + w_{n}g_{n}(a)$


Considere que $a$ é um vetor e que suas componentes representas as variáveis de entrada, por exemplo $a = (x, y)$.
Se definirmos as funções $g$ da forma:
- $g_0(x, y) = 1$
- $g_1(x, y) = x$
- $g_2(x, y) = y$
- $g_3(x, y) = x^2$
- $g_4(x, y) = y^2$
- $g_5(x, y) = xy$

Então ao realizar regressão em $h(a)$, estaremos encontrando determinando os coeficientes da $f(x, y)$. 

---

A classe **sklearn.preprocessing.PolynomialFeatures** é utilizada para definir as funções $g$ de forma automática. 

Suponha como exemplo a $f(x,y)$ acima, com $x=x_0$ e $y=x_1$ por conveniência e as observações $O=\{(1, 0), (3, 26), (7,35), (9, 1), (11, 82), (1, 31)\}$ de $x_0,x_1$, :


In [20]:
from sklearn.preprocessing import PolynomialFeatures
import numpy as np

# 6 observações de 2 variáveis
O = np.array([[1, 0],
              [3, 26],
              [7, 35],
              [9, 1],
              [11, 82],
              [1, 31]])

# Utilizando um polinomio de grau 2
p = PolynomialFeatures(degree=2)

# Definindo o número de variáveis do polinômio:
p.fit(O)

# Printando as funções g
print(p.get_feature_names())

# Aplicando as funções g no nosso conjunto O e imprimindo o seu valor:
O_transf = p.transform(O)
print(O_transf)


['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2']
[[1.000e+00 1.000e+00 0.000e+00 1.000e+00 0.000e+00 0.000e+00]
 [1.000e+00 3.000e+00 2.600e+01 9.000e+00 7.800e+01 6.760e+02]
 [1.000e+00 7.000e+00 3.500e+01 4.900e+01 2.450e+02 1.225e+03]
 [1.000e+00 9.000e+00 1.000e+00 8.100e+01 9.000e+00 1.000e+00]
 [1.000e+00 1.100e+01 8.200e+01 1.210e+02 9.020e+02 6.724e+03]
 [1.000e+00 1.000e+00 3.100e+01 1.000e+00 3.100e+01 9.610e+02]]


Para gerar valores para a regressão, vamos considerar que nossa $f$ possui  $w=( 3, 2, -4, 5, 0, 1)$ e $g=(1, x_0, x_1, x_0^2, x_1^2, x_0x_1) $. Dessa forma temos que  $f(x_0, x_1)= 3 + 2x_0 - 4x_1 + 5x_0^2 + x_0x_1$ . 

Aplicando-a no nosso conjunto $O$ obtemos os valores:
- $f(1, 0) = 10$
- $f(3, 26) =  28$
- $f(7, 35) = 367$
- $f(9, 1) = 431$
- $f(11, 82) = 1204$
- $f(1, 31) = -83$

Tomando $Y=\{ 10,28,367,431,1204,-83 \}$, basta fazer a regressão:

In [31]:
from sklearn.linear_model import LinearRegression

# Definindo Y
Y = np.array([[10],   
              [28],  
              [367],  
              [431], 
              [1204],  
              [-83]])

# Fazemos a regressão nos conjuntos O_transf e Y. Obs: Colocamos 
# fit_intercept=False pois a nossa g_0 é igual à 1 (ou seja, já 
# estamos incorporando o termo independente)
model = LinearRegression(fit_intercept=False)
model.fit(O_transf, Y)

# Printando novamente as funções g
print(p.get_feature_names())

# Printando os coeficientes (w) das funções g. Obs: Arredonda-se
# nas primeiras 10 casas para facilitar a leitura
print(model.coef_.round(10))


['1', 'x0', 'x1', 'x0^2', 'x0 x1', 'x1^2']
[[ 3.  2. -4.  5.  1.  0.]]


Como podemos ver, a regressão estimou corretamente os coeficientes $w$.