# Aula 7 -  Estimation Models 

## Regression Models - General Linear Models

---




Como funcionam os modelos de estimação: 

Considere-se o seguinte dataset com empréstimos. A Classe define se o pedido de empréstimo vai ou não entrar em default (não pagar).

<img src="images/class_2.png" style="width:40%"/>

### A pergunta a que qualquer modelo de classificação (ou regressão) deve responder é:

> Conhecendo vários exemplares com a respectiva classificação (train_data ,train_target) quais são as classes de exemplares ainda desconhecidos?

<img src="images/classification.png" style="width:60%"/>

> Um modelo de Regressão com estes mesmos dados poderia estudar por exemplo qual o rendimento de uma pessoa, mediante um conjunto relevante de Features. Neste caso, os dados de Annual Income seriam o **target**, e as features (talvez insuficientes e até desajustados ao problema) seriam os restantes campos. 

> **Mas o modelo de estimação seria semelhante.**



## Métodos de regressão que vamos estudar:

[ESTA AULA]

- Linear Models for Regression
- Generelized Linear Models for Regression

----

## Métodos de classificação que vamos estudar:

[PROXIMAS AULAS]

- Linear Model for Classification
- Árvores de Decisão;

[PROXIMAS AULAS]

- Random Forrest;
- Naive Bays (Bayesian Methods)
- KNN
- Kernel Methods


# Contexto Geral da Regressão

---


Considere-se que temos um conjunto de $N$ registos, cada um chamado de $r_i$. Cada registo é composto por $D$ features :

$$r_i = \{(x_1)_i, (x_2)_i,(x_3)_i..., (x_D)_i\}$$

Para cada $r_i$ existe um valor para o seu target $y_i$, pertencente a $\mathbb{R}$ (números reais).

Se quisermos criar um modelo que estime o target de um registo consoante as suas features, podemos genericamente defini-lo como:

$$ M(r) =\hat{y}$$

onde $\hat{y}_i$ é a estimativa de $y_i$ feita pelo nosso modelo $M$. Este modelo terá que ter algum tipo de parametros para que se possa ajustar aos dados. Vamos chamar a esse conjunto de parâmetros (que para já não sabemos os seus valores nem quantos são) de $w = {w_0, w_1, w_2,...}$:


$$ M(w, r) =\hat{y}$$

Por exemplo, $M$ pode ser dado por

$$M = w_0 + w_1x_1+w_2x_2 +... $$

e a sua o aplicação a um novo $r_k  = [x_1, x_2, ... x_m]$ nos dará uma estimativa $\hat{y}_k$.

---

Podemos dizer que um modelo estimador que funcione bem deve minimizar a soma de todos os erros encontrados entre o modelo e as features reais. Ou seja, minimizar a soma das diferenças entre os verdadeiros valores do target ($y_i$) e as estimativas encotradas pelo modelo ($M(r_i) = \hat{y}_i$). 

Escrevendo isto numa formução matemática esta função a minimizar, chamada de função de erro do nosso modelo, obtemos:

$$\sum_i^N{|\hat{y}_i-y_i|}$$

Se em vez de um módulo usarmos o quadrado do erro de cada registo, obtemos

$$Cost = \sum_i^N{(\Delta{e})^2} = \sum_i^N{(\hat{y}_i-y_i)^2}$$

Que é vulgarmente chamada de *Cost Function* (função de custo).

---

Finalmente podemos escrever o nosso problema de forma genérica, ou seja, para qualquer que seja o nosso estimador $M$:

$$\hat{w} = \underset{w}{\text{min}} \space\space \frac{1}{2}\sum_i^N{(M(w,r_i)-y_i)^2}$$

Ou seja, o nosso objectivo é 

> **Determinar os $w$ que melhor adaptam o resultado modelo $M$ aos dados de target $y_i$. Os $w$ funcionam como pesos que nos permitem adaptar o modelo $M$ aos dados recebidos ($y_i$).**

O valor 1/2 foi adicionado para simplificar as contas mais à frente, mas nada muda no problema de optimzização (porque?)


---

# Regressão Linear
---
Vamos começar por avaliar o modelo mais simples de Regressão: a regressão linear com uma só feature e com um modelo tipo $y = mx+b$. 

> No entanto, é importante saber que a regressão diz-se linear porque é linear em relação aos parâmetros $w$.

O modelo de Regressão Linear considera que existe a dependência linear das diversas features, ou seja, do tipo $M(w,r) = wr$. Vamos considerar, para simplificar que temos 1 só feature ou seja, $r_i = x_i$. O nosso modelo $M$, fica:

$$ \hat{y} = M(w, r) = w_0 + w_1x$$

> Que com certeza que vos faz lembrar o famoso $y=mx+b$. 

Estamos a dizer que o nosso modelo M estima $\hat{y}_i$ a partir de uma relação linear com as features, neste caso, $x$. Como foi dito, para determinarmos os $w's$ temos que resolver o problema:

$$\hat{w} = \underset{w}{\text{min}} \space\space \frac{1}{2}\sum_i^N{(M(w,r_i)-y_i)^2}$$ 

onde, neste caso, temos

$$\hat{w} = \underset{w}{\text{min}} \space\space \frac{1}{2}\sum_i^N{(w_0 + w_1x_i-y_i)^2}$$ 

Um problema de optimização deste deve ser resolvido procurando o ponto em que a derivada em função dos parametros para os parametros $w_0$ e $w_1$ é nula. (uma vez que o mínimo será o mínimo dos quadrados). As expressões das derivadas iguais a zero são:

$$\frac{dCost}{dw_0} = 0: \sum_i^N{(w_0 + w_1x_i - y_i)} = 0$$

e

$$\frac{dCost}{dw_1} = 0: \sum_i^N{(w_0 + w_1x_i - y_i)x_i} = 0$$

---

quer dizer que podemos obter os parâmetros $w_0$ e $w_1$ resolvendo as seguintes equações:

$$\hat{w}_0 = \mathbb{E}(y)-\hat{w}_1\mathbb{E}(x)$$

$$\sum_i^N{(w_0x_i + \hat{w}_1x_i^2)} = \sum_i^N{y_ix_i}$$


onde $$\mathbb{E}(x) = 1/N\sum_i^N{x_i}$$

---
$$\hat{w}_0 = \mathbb{E}(y)-\hat{w}_1\mathbb{E}(x)$$

$$\frac{1}{N}(\sum_i^N{(\mathbb{E}(y)x_i-\hat{w}_1\mathbb{E}(x)x_i + \hat{w}_1x_i^2)}) = \frac{1}{N}(\sum_i^N{y_ix_i})$$

---

$$\hat{w}_0 = \mathbb{E}(y)-\hat{w}_1\mathbb{E}(x)$$

$$\hat{w}_1 = \frac{\mathbb{E}(yx)-\mathbb{E}(y)\mathbb{E}(x)}{\mathbb{E}(x^2)-\mathbb{E}(x)^2} $$

---

Por curiosidade, esta última expressão pode ser escrita da forma


$$\hat{w}_1 = \frac{COV(y,x)}{VAR(x)} $$

### Mas que expressão devemos usar???

---

As expressões anteriores, apesar de correctas são complexas. Existe uma forma mais simples de resolver este problema: usando a descrição matricial do problema.

$$ \hat{y} = M(w, r) = \textbf{r}^T\textbf{w}$$


Matricialmente, podemos escrever o sistema da seguinte forma:

$$Cost = \frac{1}{2} ||\textbf{Rw}-\textbf{y}||^2 = \frac{1}{2} (\textbf{Rw}-\textbf{y})^T(\textbf{Rw}-\textbf{y})$$

ou seja, derivando em ordem a w, e igualando a 0 obtemos:

$$(\textbf{R}(\textbf{Rw}-\textbf{y})^T + \textbf{R}^T(\textbf{Rw}-\textbf{y}))$$

$$\textbf{R}^T(\textbf{Rw}-\textbf{y}) = 0$$

$$\textbf{R}^T\textbf{R w} = \textbf{R}^T\textbf{y}$$



O resultado corresponde a:

$$\textbf{w} = (\textbf{R}^T\textbf{R})^{-1}\textbf{R}^T\textbf{y}$$

Vamos verificar como aplicar esta expressão para os w's com um exemplo:


$$\hat{y} = \textbf{r}^T (\textbf{R}^T \textbf{R})^{-1} \textbf{R}^T \textbf{y} $$



> **A solução é única - quer isto dizer que é muito rápida de determinar - o problema é que não funciona para relações muito complexas...**

---
## Exemplo Regressão Linear

Vamos tomar o seguinte exemplo:

In [5]:
%matplotlib notebook
import numpy as np
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt

fig = plt.figure()

x = (np.random.random([100,1])*100).reshape(-1,1)
m = 5;
b = 40
y= m*(x) + b
y = y+y.mean()*0.2*(np.random.random((y.shape))-0.5)

plt.plot(x,y,".")
plt.show()

<IPython.core.display.Javascript object>

In [6]:
R = np.hstack([np.ones((x.shape)).reshape(-1,1),x])

#w_fit = (R^TR)^{-1}R^Ty
y_intermediate = np.matmul(R.T,y)
w_fit = np.matmul(np.linalg.inv(np.matmul(R.T,R)),y_intermediate)

y_fit = w_fit[0]+w_fit[1]*x

fig = plt.figure()
plt.plot(x,y,".")
plt.plot(x,y_fit,"-")
plt.show()

print("----")
print("m = ", m)
print("w_1 = ", w_fit[1])
print("b = ", b)
print("w_0 = ", w_fit[0])

<IPython.core.display.Javascript object>

----
m =  5
w_1 =  [ 5.0579468]
b =  40
w_0 =  [ 38.4453842]


Agora usando o sklearn:

In [7]:
import sklearn.linear_model as lm

lr = lm.LinearRegression()
data=lr.fit(x,y)
w_fit = []
w_fit.append(data.intercept_)
w_fit.append(data.coef_)

print("----")
print("m = ", m)
print("w_1 = ", w_fit[1])
print("b = ", b)
print("w_0 = ", w_fit[0])

----
m =  5
w_1 =  [[ 5.0579468]]
b =  40
w_0 =  [ 38.4453842]


---

# Multi-Linear Regression
---

O modelo de Regressão Linear considera que existe numa primeira aproximação, uma dependência linear das diversas features. Mas como temos $D$ features, a nossa nova função $M$, fica:

$$ M(w, r) = w_0 + w_1x_1 + w_2x_2 + ... + w_Dx_D$$

ou seja, linear para cada feature.

Vamos ver um exemplo com $D=2$

In [8]:
x = np.random.random_sample([1000,2])*20-10
x[:10,:5]


array([[ 0.89933099,  1.5439735 ],
       [ 0.67848815,  5.65748562],
       [ 5.30211643, -5.50672931],
       [ 8.21185485, -7.40635734],
       [ 0.88771215, -9.99967908],
       [ 0.3822177 , -1.89033823],
       [ 4.96781338,  0.42420441],
       [ 5.92884498,  1.88662961],
       [-6.45875202, -0.20825442],
       [-2.5472087 , -1.99366283]])

In [9]:
x_with_offset = np.hstack([np.ones((x.shape[0],1)),x])

w = [10,5,-3]#, -8, 1, -6,12,3,9,2]

y = np.dot(x_with_offset,w)

# 30% Error!!!
y = y+.3*y.mean()*(np.random.random(y.shape)-0.5)
#print(y.shape)


In [10]:

fig = plt.figure()
ax = fig.gca(projection='3d')
ax.scatter(x[:,0],x[:,1], y, c="black", s=1)
plt.show()

<IPython.core.display.Javascript object>

In [11]:
lr = lm.LinearRegression()
data=lr.fit(x,y)
w_fit = np.array(data.coef_)
w_fit = np.concatenate([np.array([data.intercept_]),w_fit]).reshape(-1,3)


In [12]:
print("----")
print("w original = ", w)
print("w_fit = ", w_fit)

----
w original =  [10, 5, -3]
w_fit =  [[ 9.96139063  5.00113199 -2.99137348]]


In [13]:
y_fit = w_fit[0,0] + np.matmul(w_fit[:,1:],x.T)
y_fit.shape

(1, 1000)

### Vamos visualizar o fit que encontrámos:
---

In [14]:

X = np.arange(-10, 10, 0.25)
Y = np.arange(-10, 10, 0.25)
X,Y = np.meshgrid(X, Y)
S = np.concatenate([X.reshape(-1,1),Y.reshape(-1,1)], axis=1)
S.shape

Y_FIT = w_fit[0,0] + np.matmul(w_fit[:,1:],S.T)


In [15]:
fig = plt.figure()
ax = fig.gca(projection='3d')
ax.scatter(x[:,0],x[:,1], y, c="black", s=1)
surf = ax.plot_wireframe(X, Y, Y_FIT.reshape(X.shape), rstride=3, cstride=3)
plt.show()

<IPython.core.display.Javascript object>

### Como medir o erro?


O erro pode medir-se com o valor da função de custo:

$$Cost = \underset{w}{\text{min}} \space\space \frac{1}{2}\sum_i^N{(\hat{y}_i-y_i)^2}$$ 

ou seja, calculando de facto a soma dos erros para os diversos pontos de treino ou mesmo para um conjunto de pontos de teste.

Neste último caso teríamos, usando a descrição matricial, por exemplo o erro em fase de treino dado por - Root Mean Square Error:


$$RMSE_{train} = \space\space \sqrt{\frac{{||\textbf{R} \textbf{w}-\textbf{y}||^2}}{N}}$$ 

In [16]:
S = (((y-y_fit)**2).sum()/y.shape[0])**0.5
S

1.0007545020759989



# General Linear Regression (Regressão Linear Geral)
---






Vamos usar um polinómio de 3ª ordem para fazer fit de uma função coseno, ou seja, o modelo $M$ é dado por algo como:


$$ M(w, r) = w_0 + w_1x_1 + ... + w_2(x_1)^2 + ... +  w_j(x_D)^2 + w_{j+1}(x_1)^3 + ...  $$

$$ M(w, z) = w_0 + w_1z_1 + w_3z_2 + ... +  w_jz_3 + w_{j+1}z_4 + ...  $$

repare-se que a lógica linear em termos dos parâmetros $w$ se mantém.



In [39]:
x = np.random.random_sample([100,1])*4-2

y= 3*(np.cos(x)+0.0*(np.random.random((x.shape[0],1))-0.5)).reshape(-1,1)

fig = plt.figure()

plt.plot(x,y,".")
plt.show

<IPython.core.display.Javascript object>

<function matplotlib.pyplot.show>

In [40]:
lr = lm.LinearRegression()

x_2 = x**2
x_3 = x**3
X = np.concatenate([x,x_2,x_3], axis=1)

In [54]:
lr.fit (X,y)
lr.coef_


y_fit = np.matmul(X, lr.coef_.T) + lr.intercept_

A = [(x_,y_f_, y_) for x_,y_f_,y_ in zip(x,y_fit,y)]

A = sorted(A, key=lambda a: a[0])
x = [a[0] for a in A]
y = [a[2] for a in A]
y_fit = [a[1] for a in A]


In [43]:
fig = plt.figure()

plt.plot(x,y,".")

plt.plot(x,y_fit,".")
plt.show()

<IPython.core.display.Javascript object>

# Linear Regression - TPC 2


Considere o seguinte um data set com 1000 registos com 2 features ($x_1$ e $x_2$), dado por X (definido em baixo) e respectivos target values dados por 

$y = 3cos(x_0)cos(5x_1) + noise(30 \%)$

Encontre o melhor fit (y_fit) com polinómios até à 6 ordem.
Mostre o valor do erro do fit (RMSE) do seu modelo $M$.


In [49]:
X = np.random.random_sample([1000,2])*5-1
X
X.shape

array([[ 0.6016546 ,  0.50160263],
       [ 0.5892693 ,  0.24043173],
       [ 0.05942341,  0.96928637],
       ..., 
       [ 0.95627191,  0.62491055],
       [ 0.13914696,  0.14642072],
       [ 0.72369262,  0.40621827]])

In [53]:
y= (3*(np.cos(X[:,0]))*np.cos(2*X[:,1])).reshape(-1,1)

# add noise
y = y+0.03*abs(y).mean()*np.random.random((X.shape[0],1)).reshape(-1,1)
y.shape

(1000, 1)

Utilize o seguinte código para desenhar x, y, e y_fit

In [62]:
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure()
ax = fig.gca(projection='3d')

X_ = np.arange(0, 5, 0.1)
Y_ = np.arange(0, 5, 0.1)
X_, Y_ = np.meshgrid(X_, Y_)

y= (3*(np.cos(X_))*np.cos(2*Y_))

# add noise
y = y+0.3*abs(y).max()*np.random.random(y.shape)
Z = y

X_.shape
Z.shape


surf = ax.plot_surface(X_, Y_, Z)
plt.show()

[1, 2, 3, 4, 5]