# Regressão linear: Exemplo de taxação de habitações

## O que vamos fazer?

- Formar um modelo de regressão linear multivariável
- Criar um dataset sintético seguindo uma estrutura de dataset real

In [2]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Set de dados de taxação de habitações sintético

Nesta ocasião vamos explorar como criar um dataset sintético, mas que siga a estrutura que queremos, para simular um dataset real.

Neste caso, vamos utilizar um dataset imobiliário como exemplo, com o objetivo de formar um dataset imobiliário.

Vamos criar um dataset com as seguintes características: 

Variável objetiva ou dependente
- Preço de venda (int)

Características, variáveis explicativas ou independentes:
- Superfície útil (int)
- Localização (int, representando a vizinhança)
- Tipo de habitação (int representando apartamento, chalé, casa geminada, penthouse, etc)
- Nº de divisões (int)
- N.º de quartos de banho (int)
- Garagem (int, 0/1 representando se tem ou não uma) 
- Superfície de áreas comuns (int)
- Ano de construção (int)

O nosso modelo tentará aproximar uma função linear multivariável que nos permite interpretar o mercado habitacional e fazer previsões sobre o preço de venda de novas habitações, com base na função linear:

$Y = h_\Theta(x) = X \times \Theta^T$
Onde $h_\Theta(x)$ é a hipótese linear.

### Criação do dataset sintético

Primeiro, vamos criar um exemplo de uma casa com dados conhecidos, com os valores das suas características e o preço de venda:

In [3]:
x_ej1 = np.asarray([100, 4, 2, 2, 1, 0, 30, 10]) 
y_ej1 = np.asarray([80000])

print('Preço de venda da habitação:', y_ej1[0]) 
print('Superfície útil:', x_ej1[0]) 
print('Localização:', x_ej1[1])
print('Tipo de habitação:', x_ej1[2]) 
print('N.º de quartos:', x_ej1[3]) 
print('N.º de casas de banho:', x_ej1[4]) 
print('Garagem (sim/não):', x_ej1[5])
print('Superfície de zonas comuns:', x_ej1[6])
print('Antiguidade:', x_ej1[7])

Preço de venda da habitação: 80000
Superfície útil: 100
Localização: 4
Tipo de habitação: 2
N.º de quartos: 2
N.º de casas de banho: 1
Garagem (sim/não): 0
Superfície de zonas comuns: 30
Antiguidade: 10


Desta forma, podemos criar novos exemplos com os valores que desejamos, como desejamos. 

Modificar os valores da habitação anterior para gerar outras habitações manualmente.

Da mesma forma que criámos um exemplo de casa manualmente, vamos criar múltiplos exemplos aleatórios 
automaticamente:

Nota: Por uma questão de simplicidade ao gerar números aleatórios com código, utilizamos float em vez de int nas mesmas gamas lógicas para as características das habitações.

In [6]:
m = 100          # nº de exemplos de habitações
n = len(x_ej1)   # nº de características de cada casa

X = np.random.rand(m, n)

print('Primeiros 10 exemplos de X:') 
print(X[:10,:])
print('Tamanho da matriz de exemplos:') 
print(X.shape)

Primeiros 10 exemplos de X:
[[0.37690517 0.60233122 0.48426421 0.32070805 0.7543396  0.78871677
  0.93948556 0.65803187]
 [0.1675403  0.89531427 0.96192597 0.34025859 0.74110481 0.74284175
  0.6636341  0.07619775]
 [0.07549999 0.8606109  0.24502205 0.34322255 0.24601274 0.65605788
  0.27835417 0.63261552]
 [0.42254652 0.66055956 0.88394942 0.59032014 0.69405834 0.79315045
  0.4907168  0.71152748]
 [0.6265914  0.03738934 0.86419462 0.9669103  0.52453549 0.53028953
  0.98645771 0.93752546]
 [0.43331271 0.41518423 0.15036807 0.30312812 0.66694144 0.23422889
  0.62992327 0.87895343]
 [0.1155821  0.1289977  0.65895722 0.54897135 0.30639528 0.36666834
  0.14913157 0.32360678]
 [0.36499305 0.96440025 0.39825234 0.64280112 0.84536415 0.14721599
  0.25439603 0.01548675]
 [0.92601011 0.72181151 0.71321712 0.70776589 0.96182293 0.56677957
  0.44842234 0.76845757]
 [0.22944147 0.32835475 0.43153601 0.45764245 0.39211321 0.87636688
  0.84659072 0.09856484]]
Tamanho da matriz de exemplos:
(100, 8)


**Como podemos criar o vetor Y dos preços de venda do nosso conjunto de dados sintéticos, para que este siga a relação linear que queremos aproximar?**

Para o fazer, devemos partir de um Theta_verd, como em exercícios anteriores.

Por vezes, o problema é obter um Y no intervalo que desejamos, modificando cada valor do Theta_verd, o que pode ser bastante enfadonho.

Em outros casos, uma alternativa seria criar X e Y manualmente, e depois calcular o Theta_verd correspondente a essas matrizes.

Neste caso, iremos criar Theta_verd à mão para que possamos interpretar os seus valores:

In [None]:
x  = X[0,:]

print('Ex. de habit. com características aleatórias:') 
print(x)

Theta_verd = np.asarray([1000.,-500,10000,5000,2500,6000,50,-1500])

print('\nEx. de pesos de características criados manualmente:') 
print(Theta_verd)

print('\nO preço de venda de uma hab. é determinado pelas suas características::') 
print('Por cada m2 de superfície útil:', Theta_verd[0])
print('Por cada km de distância ao centro:', Theta_verd[1]) 
print('Segundo o tipo de habitação:', Theta_verd[2]) 
print('Segundo o nº de habitações:', Theta_verd[3]) 
print('Segundo o nº de casas de banho:', Theta_verd[4]) 
print('Segundo se tem garagem:', Theta_verd[5])
print('Por cada m2 de superfície de zonas comuns:', Theta_verd[6]) 
print('Por cada ano de antiguidade:', Theta_verd[7])

Cada um destes pesos irá multiplicar a sua característica correspondente, somando o restante ao preço total da casa.

No entanto, o nosso set de dados sintético e ideal falta um termo muito importante, o bias ou intercept: O bias é o termo b de qualquer reta $y = m * x \times b$, e o que representa a soma de todas as constantes que afetam o nosso modelo ou o preço base, antes de ver-se modificado pelo resto de características.

Este bias é muito importante porque um modelo não deve apenas poder aproximar pesos ou coeficientes que multipliquem as características dadas, mas também a valores constantes que não dependam das características concretas de cada exemplo.

Ou o que é o mesmo: preço = coeficientes * características + bias.

P. ex., no caso de habitações, seria o preço de partida de todas as habitações, se o tiver, independentemente das suas características, as quais somam ou restam a partir do mesmo. No caso de um estúdio sem quartos independentes, WC partilhado, sem garagem, etc., etc., onde todas as suas características foram 0, nos iria permitir determinar o seu preço de venda, que não seria de 0 € seguramente.

Adicionamos a theta_verd um bias ou preço de partida de

In [None]:
# Cuidado! Ao que executamos esta célula estamos a adicionar uma coluna
# de 1s a Theta_verd e X, pelo que apenas devemos executá-la uma vez

Theta_verd = np.insert(Theta_verd, 0, 25000)   # 25 000 € de preço de partida = theta[0]
X = np.insert(X, 0, np.ones(m), axis=1)


print('Theta verdadeiro e 10 primeiros exemplos (filas) de X:')
print(Theta_verd) 
print(X[:10,:])
print('Tamanhos de X e Tetha verdadeiro:') 
print(X.shape)

Contando com esse Theta_verd, podemos estabelecer o vetor Y dos preços de venda para os nossos exemplos:

In [None]:
# TODO: Modificar o seguinte código para adicionar um termo de erro aleatório a Y

error = 0.1

Y = np.matmul(X, Theta_verd)

print('Preços de venda:') 
print(Y)
print(Y.shape)

*Nota*: Como não foram finalmente utilizados valores int, os preços de venda são também valores float

## Formação do modelo

Assim que o nosso conjunto de dados de formação estiver pronto, vamos formar o modelo de regressão linear.

Para tal, copiar as células correspondentes dos últimos exercícios para formar o modelo com estes dados e avaliar o seu comportamento:

In [9]:
# TODO: Copiar as células correspondentes para treinar um modelo de regressão linear e avaliar a sua formação.


## Previsões 

Assim, se criarmos manualmente uma nova casa de exemplo com características aleatórias, podemos fazer uma previsão sobre o seu preço de venda:

In [None]:
# TODO: Criar uma nova casa com características aleatórias e calcula o Y previsto
# Recordar adicionar a X um termo de bias
x_pred = [...]

y_pred = np.matmul(x_pred, theta)

print('Ej. de casa aleatório') 
print(x_pred)

print('Preço previsto para essas habitações:')
print(y_pred)

E o nosso dataset sintético original? Que preço de venda teria? E que resíduos teria o nosso modelo sobre eles?

In [None]:
# TODO: Calcular e representar graficamente os resíduos do modelo

Y_pred = [...]

resíduos = [...] 

plt.figure()

# Dar um título à gráfica e etiquetas aos seus eixos

plt.show()