# Regressão linear: Exemplo de taxação de habitações

## O que vamos fazer?

- Formar um modelo de regressão linear multivariável
- Criar um dataset sintético seguindo uma estrutura de dataset real

In [13]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Set de dados de taxação de habitações sintético

Nesta ocasião vamos explorar como criar um dataset sintético, mas que siga a estrutura que queremos, para simular um dataset real.

Neste caso, vamos utilizar um dataset imobiliário como exemplo, com o objetivo de formar um dataset imobiliário.

Vamos criar um dataset com as seguintes características: 

Variável objetiva ou dependente
- Preço de venda (int)

Características, variáveis explicativas ou independentes:
- Superfície útil (int)
- Localização (int, representando a vizinhança)
- Tipo de habitação (int representando apartamento, chalé, casa geminada, penthouse, etc)
- Nº de divisões (int)
- N.º de quartos de banho (int)
- Garagem (int, 0/1 representando se tem ou não uma) 
- Superfície de áreas comuns (int)
- Ano de construção (int)

O nosso modelo tentará aproximar uma função linear multivariável que nos permite interpretar o mercado habitacional e fazer previsões sobre o preço de venda de novas habitações, com base na função linear:

$Y = h_\Theta(x) = X \times \Theta^T$
Onde $h_\Theta(x)$ é a hipótese linear.

### Criação do dataset sintético

Primeiro, vamos criar um exemplo de uma casa com dados conhecidos, com os valores das suas características e o preço de venda:

In [23]:
x_ej1 = np.asarray([100, 4, 2, 2, 1, 0, 30, 10]) 
y_ej1 = np.asarray([80000])

print('Preço de venda da habitação:', y_ej1[0]) 
print('Superfície útil:', x_ej1[0]) 
print('Localização:', x_ej1[1])
print('Tipo de habitação:', x_ej1[2]) 
print('N.º de quartos:', x_ej1[3]) 
print('N.º de casas de banho:', x_ej1[4]) 
print('Garagem (sim/não):', x_ej1[5])
print('Superfície de zonas comuns:', x_ej1[6])
print('Antiguidade:', x_ej1[7])

Preço de venda da habitação: 80000
Superfície útil: 100
Localização: 4
Tipo de habitação: 2
N.º de quartos: 2
N.º de casas de banho: 1
Garagem (sim/não): 0
Superfície de zonas comuns: 30
Antiguidade: 10


Desta forma, podemos criar novos exemplos com os valores que desejamos, como desejamos. 

Modificar os valores da habitação anterior para gerar outras habitações manualmente.

Da mesma forma que criámos um exemplo de casa manualmente, vamos criar múltiplos exemplos aleatórios 
automaticamente:

Nota: Por uma questão de simplicidade ao gerar números aleatórios com código, utilizamos float em vez de int nas mesmas gamas lógicas para as características das habitações.

In [24]:
m = 100          # nº de exemplos de habitações
n = len(x_ej1)   # nº de características de cada casa

X = np.random.rand(m, n)

print('Primeiros 10 exemplos de X:') 
print(X[:10,:])
print('Tamanho da matriz de exemplos:') 
print(X.shape)

Primeiros 10 exemplos de X:
[[0.69374678 0.76872322 0.88215455 0.70033371 0.59099408 0.18182648
  0.07222152 0.40364943]
 [0.12816815 0.27550071 0.62563443 0.62252281 0.82334241 0.6661668
  0.47974794 0.26210813]
 [0.59465446 0.41770642 0.48572732 0.59230399 0.12603457 0.09170832
  0.56811577 0.02110624]
 [0.17745966 0.55294684 0.13396297 0.82515016 0.66311426 0.26041241
  0.47420401 0.08253547]
 [0.49600432 0.52745513 0.81242758 0.9866503  0.79885649 0.83117044
  0.09654589 0.33914625]
 [0.77542241 0.40228853 0.37595951 0.03013618 0.60338203 0.59303593
  0.14476764 0.1717688 ]
 [0.6409828  0.281471   0.9038894  0.18807627 0.09527054 0.92240136
  0.71204879 0.26959088]
 [0.31911002 0.28756126 0.91473908 0.82905782 0.29191406 0.02811932
  0.9657391  0.52372915]
 [0.40783158 0.6387597  0.56425422 0.4329529  0.86052472 0.17331494
  0.04104741 0.98106801]
 [0.67947571 0.13914537 0.6125531  0.17359611 0.01404411 0.21365634
  0.17871987 0.7799703 ]]
Tamanho da matriz de exemplos:
(100, 8)


**Como podemos criar o vetor Y dos preços de venda do nosso conjunto de dados sintéticos, para que este siga a relação linear que queremos aproximar?**

Para o fazer, devemos partir de um Theta_verd, como em exercícios anteriores.

Por vezes, o problema é obter um Y no intervalo que desejamos, modificando cada valor do Theta_verd, o que pode ser bastante enfadonho.

Em outros casos, uma alternativa seria criar X e Y manualmente, e depois calcular o Theta_verd correspondente a essas matrizes.

Neste caso, iremos criar Theta_verd à mão para que possamos interpretar os seus valores:

In [25]:
x  = X[0,:]

print('Ex. de habit. com características aleatórias:') 
print(x)

Theta_verd = np.asarray([1000.,-500,10000,5000,2500,6000,50,-1500])

print('\nEx. de pesos de características criados manualmente:') 
print(Theta_verd)

print('\nO preço de venda de uma hab. é determinado pelas suas características::') 
print('Por cada m2 de superfície útil:', Theta_verd[0])
print('Por cada km de distância ao centro:', Theta_verd[1]) 
print('Segundo o tipo de habitação:', Theta_verd[2]) 
print('Segundo o nº de habitações:', Theta_verd[3]) 
print('Segundo o nº de casas de banho:', Theta_verd[4]) 
print('Segundo se tem garagem:', Theta_verd[5])
print('Por cada m2 de superfície de zonas comuns:', Theta_verd[6]) 
print('Por cada ano de antiguidade:', Theta_verd[7])

Ex. de habit. com características aleatórias:
[0.69374678 0.76872322 0.88215455 0.70033371 0.59099408 0.18182648
 0.07222152 0.40364943]

Ex. de pesos de características criados manualmente:
[ 1000.  -500. 10000.  5000.  2500.  6000.    50. -1500.]

O preço de venda de uma hab. é determinado pelas suas características::
Por cada m2 de superfície útil: 1000.0
Por cada km de distância ao centro: -500.0
Segundo o tipo de habitação: 10000.0
Segundo o nº de habitações: 5000.0
Segundo o nº de casas de banho: 2500.0
Segundo se tem garagem: 6000.0
Por cada m2 de superfície de zonas comuns: 50.0
Por cada ano de antiguidade: -1500.0


Cada um destes pesos irá multiplicar a sua característica correspondente, somando o restante ao preço total da casa.

No entanto, o nosso set de dados sintético e ideal falta um termo muito importante, o bias ou intercept: O bias é o termo b de qualquer reta $y = m * x \times b$, e o que representa a soma de todas as constantes que afetam o nosso modelo ou o preço base, antes de ver-se modificado pelo resto de características.

Este bias é muito importante porque um modelo não deve apenas poder aproximar pesos ou coeficientes que multipliquem as características dadas, mas também a valores constantes que não dependam das características concretas de cada exemplo.

Ou o que é o mesmo: preço = coeficientes * características + bias.

P. ex., no caso de habitações, seria o preço de partida de todas as habitações, se o tiver, independentemente das suas características, as quais somam ou restam a partir do mesmo. No caso de um estúdio sem quartos independentes, WC partilhado, sem garagem, etc., etc., onde todas as suas características foram 0, nos iria permitir determinar o seu preço de venda, que não seria de 0 € seguramente.

Adicionamos a theta_verd um bias ou preço de partida de

In [26]:
# Cuidado! Ao que executamos esta célula estamos a adicionar uma coluna
# de 1s a Theta_verd e X, pelo que apenas devemos executá-la uma vez
print(Theta_verd.shape)
Theta_verd = np.insert(Theta_verd, 0, 25000)   # 25 000 € de preço de partida = theta[0]
X = np.insert(X, 0, np.ones(m), axis=1)

print('Theta verdadeiro e 10 primeiros exemplos (filas) de X:')
print(Theta_verd) 
print(X[:10,:])
print('Tamanhos de X e Tetha verdadeiro:') 
print(X.shape)

(8,)
Theta verdadeiro e 10 primeiros exemplos (filas) de X:
[25000.  1000.  -500. 10000.  5000.  2500.  6000.    50. -1500.]
[[1.         0.69374678 0.76872322 0.88215455 0.70033371 0.59099408
  0.18182648 0.07222152 0.40364943]
 [1.         0.12816815 0.27550071 0.62563443 0.62252281 0.82334241
  0.6661668  0.47974794 0.26210813]
 [1.         0.59465446 0.41770642 0.48572732 0.59230399 0.12603457
  0.09170832 0.56811577 0.02110624]
 [1.         0.17745966 0.55294684 0.13396297 0.82515016 0.66311426
  0.26041241 0.47420401 0.08253547]
 [1.         0.49600432 0.52745513 0.81242758 0.9866503  0.79885649
  0.83117044 0.09654589 0.33914625]
 [1.         0.77542241 0.40228853 0.37595951 0.03013618 0.60338203
  0.59303593 0.14476764 0.1717688 ]
 [1.         0.6409828  0.281471   0.9038894  0.18807627 0.09527054
  0.92240136 0.71204879 0.26959088]
 [1.         0.31911002 0.28756126 0.91473908 0.82905782 0.29191406
  0.02811932 0.9657391  0.52372915]
 [1.         0.40783158 0.6387597  0.564254

Contando com esse Theta_verd, podemos estabelecer o vetor Y dos preços de venda para os nossos exemplos:

In [27]:
# TODO: Modificar o seguinte código para adicionar um termo de erro aleatório a Y

error = 0.1

print(X.shape, Theta_verd.shape)

Y = np.matmul(X, Theta_verd)

print('Preços de venda:') 
print(Y)
print(Y.shape)

(100, 9) (9,)
Preços de venda:
[39599.18017944 40045.55818677 34066.67716001 33486.53389965
 44770.07579862 34300.81004267 40883.32331711 38629.20362063
 34617.41019114 32759.44347291 40487.8326841  31515.64605592
 30383.07180476 31981.38045652 38119.99082792 31784.01161593
 43857.12421494 35985.55173408 33683.76687574 32056.9276005
 31191.03477327 36619.49407218 40710.12779393 42015.69489561
 32426.87161715 37790.1857441  36720.84929884 36871.56754641
 34468.97813804 29730.75002772 32000.33610586 42980.69686229
 42578.51681732 38918.88714678 43530.92583181 33223.50804344
 41721.37230057 36127.96387257 37318.62682346 32902.01474912
 33854.57395065 29632.6347953  35343.53391812 31210.91157288
 38047.48879994 38082.42207866 33232.21977912 35560.44765067
 35483.8826284  34415.56529968 36015.77638374 40703.06323991
 34357.17169415 37146.77038655 40490.96210277 36064.57359001
 31203.03182945 42742.0255408  42805.49594592 32695.28023598
 36729.84338433 31201.85915794 39709.41195472 36700.796

*Nota*: Como não foram finalmente utilizados valores int, os preços de venda são também valores float

## Formação do modelo

Assim que o nosso conjunto de dados de formação estiver pronto, vamos formar o modelo de regressão linear.

Para tal, copiar as células correspondentes dos últimos exercícios para formar o modelo com estes dados e avaliar o seu comportamento:

In [9]:
# TODO: Copiar as células correspondentes para treinar um modelo de regressão linear e avaliar a sua formação.


## Previsões 

Assim, se criarmos manualmente uma nova casa de exemplo com características aleatórias, podemos fazer uma previsão sobre o seu preço de venda:

In [None]:
# TODO: Criar uma nova casa com características aleatórias e calcula o Y previsto
# Recordar adicionar a X um termo de bias
x_pred = [...]

y_pred = np.matmul(x_pred, theta)

print('Ej. de casa aleatório') 
print(x_pred)

print('Preço previsto para essas habitações:')
print(y_pred)

E o nosso dataset sintético original? Que preço de venda teria? E que resíduos teria o nosso modelo sobre eles?

In [None]:
# TODO: Calcular e representar graficamente os resíduos do modelo

Y_pred = [...]

resíduos = [...] 

plt.figure()

# Dar um título à gráfica e etiquetas aos seus eixos

plt.show()