# Método analítico vs imperativo

O que vamos fazer?

- Resolver a regressão linear pelo método analítico

In [6]:
import numpy as np

## Resolver o modelo pelo método analítico

Nesta ocasião, vamos resolver ou formar o modelo usando a equação normal.

A equação normal tem a seguinte forma:

$\Theta = (X^T \times X)^{-1} \times X^T \times Y$

### Tarefa 1: gerar um dataset sintético, sem termo de erro

In [7]:
from sklearn.datasets import make_regression

#  TODO: Gerar um dataset sintético, sem termo de erro, sob a forma que escolher
m = 500
n = 3

X, Y, Theta_verd = make_regression(n_samples=m,  # Número de amostras
                              n_features=n,  # Número de variáveis independentes (features)
                              noise=0,       # Sem ruído
                              coef=True,     # Retorna os coeficientes verdadeiros
                              random_state=42)  # Para resultados reprodutíveis

# Comprovar os valores e dimensões (forma ou "shape") dos vetores
print("Theta shape:", Theta_verd.shape)
print("Theta:", Theta_verd)
print()
print('X:\n', X[:10])  # Primeiras 10 linhas e até 5 colunas de X
print()
print('Y:\n', Y[:10])  # Primeiros 10 valores de Y
print()
print()

print('Dimensões de X e Y:') 
print("X shape:", X.shape)
print("Y shape:", Y.shape)

Theta shape: (3,)
Theta: [49.82556823 82.50494102 26.98207201]

X:
 [[-0.009119    0.02818116 -0.89846798]
 [-0.05576908 -0.70501186  0.41901901]
 [ 0.61277391 -1.03990593  1.10818282]
 [-1.18759842  2.14514913 -0.83534705]
 [-0.86041337  0.04739867 -0.65183611]
 [ 1.89679298  0.82206016  0.41278093]
 [-0.08828205 -1.36980298 -0.55749179]
 [-0.23894805 -0.05023811  0.27045683]
 [-0.24869113  0.28257995 -0.16712171]
 [ 1.75227044 -1.11057585 -0.77781669]]

Y:
 [ -22.37180225  -49.63968647  -25.3645006    95.27324186  -56.54784905
  173.47049788 -132.45650075   -8.75312892    6.41377536  -25.30722997]


Dimensões de X e Y:
X shape: (500, 3)
Y shape: (500,)


### Tarefa 2: implementar a equação normal

Implementar a seguinte função para resolver o modelo de regressão linear, otimizando os seus coeficientes Theta, completando a 
seguinte célula:

In [8]:
#  TODO: Implementar a função que resolve a equação normal

def normal_equation(x, y):
    """ Calcular o theta ótimo usando a equação normal para regressão linear multivariável
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    
    Devolver:
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) """
    
    a = np.linalg.inv(np.dot(X.T, X))
    b = np.dot(X.T, y)

    theta = np.dot(a, b)
    
    return theta

## Tarefa 3: comprovar a implementação

Usar o dataset sintético que criou anteriormente para comprovar que a sua implementação devolve o mesmo valor de Theta original. 

Tentar comprovar várias vezes modificando o número de exemplos e o número de características.

Acrescentar também uma vez mais um termo de erro ao Y. Neste caso, o Theta inicial e o final podem não corresponder exatamente, 
pois introduzimos erro ou “ruído” no dataset de formação.

Em algumas ocasiões, a equação normal não é reversível, pelo que pode encontrar com esse erro. Neste caso, não se preocupe, é uma limitação do método analítico e não da sua implementação específica, se funcionar nos outros casos

In [11]:
theta = normal_equation(X, Y)
print(theta)

[49.82556823 82.50494102 26.98207201]


In [13]:
y_pred = np.dot(X, theta)
print(y_pred.shape)
print(y_pred)

(500,)
[ -22.37180225  -49.63968647  -25.3645006    95.27324186  -56.54784905
  173.47049788 -132.45650075   -8.75312892    6.41377536  -25.30722997
  -94.7967788   188.02276142  -53.95235553  -35.76260887   52.56521185
  -23.48393934   27.99838853  -16.9771564   -83.07770254  -68.57674364
 -212.76960145   48.67400075  159.95405401   75.01442782   63.95142992
  103.78313263  -48.49796543 -105.57475463  -31.40746804    4.15120601
  132.22014604   41.49747172  128.33512568   15.48034391   47.78826595
  -80.52075597   62.79730636   11.95218188 -115.04592975   91.58523742
  -17.60183723   -1.59895366  154.43623128   -7.09675421  249.32457094
  -51.61077204   56.29155218  -72.89567422   59.10890999 -134.81514447
  -79.982464     69.32140083  136.06538155  -53.59005251   89.04380132
  309.83748431  235.03383154 -124.84443704  -75.52647725  -44.71608106
   81.25927168   46.94772516  -18.40715085   82.48853113  -40.67188646
  -60.5848171   203.20732912   66.98095018   30.71124568   95.45637306