# Imports

In [1]:
import numpy as np

# Reading Data

In [2]:
pressao_data = np.genfromtxt('./data/pressao.txt', delimiter=',', skip_header=1)
pressao_data[:5, :]

array([[ 39., 144.],
       [ 47., 220.],
       [ 45., 138.],
       [ 47., 145.],
       [ 65., 162.]])

In [3]:
peixe_data = np.genfromtxt('./data/peixe.txt', delimiter=',')
peixe_data[:5, :]

array([[  14.,   25.,  620.],
       [  28.,   25., 1315.],
       [  41.,   25., 2120.],
       [  55.,   25., 2600.],
       [  69.,   25., 3110.]])

# Functions

## Normalization
Dado um conjunto de dados $\boldsymbol{X} = [\boldsymbol{x}_1, \boldsymbol{x}_1, \ldots, \boldsymbol{x}_N]$, a normalização por escore-Z é dada por:
$$\tilde{\boldsymbol{x_i}} = \frac{\boldsymbol{x_i} - \boldsymbol{\mu}}{\boldsymbol{\sigma}}$$


In [4]:
def z_score_norm(data):
    
    mean = data.mean(axis=0)
    std = data.std(axis=0)
    norm_data = (data - mean) / std

    return norm_data, mean, std

peixe_norm_data, peixe_mean, peixe_std = z_score_norm(peixe_data)
peixe_norm_data[:5, :]

array([[-1.5718109 , -1.34164079, -1.893348  ],
       [-1.2537309 , -1.34164079, -1.36433777],
       [-0.9583709 , -1.34164079, -0.75159932],
       [-0.6402909 , -1.34164079, -0.38623974],
       [-0.32221091, -1.34164079,  0.00195481]])

## Denormalization
A "desnormalização" pode ser feita por:
$$\boldsymbol{x_i} = \boldsymbol{\sigma}\tilde{\boldsymbol{x_i}} + \boldsymbol{\mu}$$

In [5]:
def z_score_denorm(norm_data, mean, std):

    original_data = (norm_data * std) + mean

    return original_data

peixe_denorm_data = z_score_denorm(peixe_norm_data, peixe_mean, peixe_std)
peixe_denorm_data[:5, :]

array([[  14.,   25.,  620.],
       [  28.,   25., 1315.],
       [  41.,   25., 2120.],
       [  55.,   25., 2600.],
       [  69.,   25., 3110.]])

In [7]:
peixe_data[:5,:]

array([[  14.,   25.,  620.],
       [  28.,   25., 1315.],
       [  41.,   25., 2120.],
       [  55.,   25., 2600.],
       [  69.,   25., 3110.]])

In [10]:
# Including columns with ones of intercept
X = np.hstack([np.ones((len(peixe_data), 1)), peixe_data[:, [0, 1]]])
y = peixe_data[:, 2]

np.poly1d(np.polyfit(X, y, 3))

TypeError: expected 1D vector for x

## Regressão linear via mínimos quadrados ordinários (OLS)

Como visto na aula de regressão linear, dado o seguinte problema:
$$\begin{aligned}
\hat{\boldsymbol{y}} = \boldsymbol{X}\boldsymbol{w}\\
\text{Queremos encontrar:}\\
\hat{\boldsymbol{w}} = \arg\min_{\boldsymbol{w}} ||\boldsymbol{y} - \boldsymbol{X}\boldsymbol{w}||^2
\end{aligned}$$

Como visto, sabemos que:
$$\hat{\boldsymbol{w}} = (\boldsymbol{X}^{\top}\boldsymbol{X})^{-1} \boldsymbol{X}^{\top}\boldsymbol{y}$$

Obtenha um modelo linear para predizer o comprimento de um peixe a partir de sua idade e da temperatura da água. Para isso, encontre o $\hat{\boldsymbol{w}}$ pro dataset `peixe` onde:
$$\boldsymbol{X} = [\mathbf{1}^{\top} \;,\; \mathtt{peixe\underline{}dataset[:,[0,1]}]\\
\boldsymbol{y} = \mathtt{peixe\underline{}dataset[:,[2]]}$$

Sem utilizar estrutura de repetição alguma, calcule a raíz do erro quadrático médio:
$$\mathrm{RMSE} = \sqrt{\frac{1}{n}\sum_i^n (\boldsymbol{y} - \hat{\boldsymbol{y}})^2}$$

In [30]:
# Including columns with ones of intercept
X = np.hstack([np.ones((len(peixe_data), 1)), peixe_data[:, [0, 1]]])
y = peixe_data[:, 2]

In [26]:
# Including columns with ones of intercept
X = np.hstack([np.ones((len(peixe_norm_data), 1)), peixe_norm_data[:, [0, 1]]])
y = peixe_norm_data[:, 2]

In [31]:
def linear_regression_ols(X, y):
    w_hat = (np.linalg.inv(X.T @ X) @ X.T) @ y
    return w_hat

In [32]:
w_hat = linear_regression_ols(X, y)

print('w_hat (coeficients regression):')
for i in range(len(w_hat)):
    if i == 0:
        print('Intercept:\t{:.2f}'.format(w_hat[i]))
    else:
        print('X({}):    \t{:.2f}'.format(i, w_hat[i]))



w_hat (coeficients regression):
Intercept:	3904.27
X(1):    	26.24
X(2):    	-106.41


In [29]:
def r

array([ 121.91421289,   29.96773982, 4263.55314659])