# Modelo Simples para Prever o Valor de um Imóvel

    * Extraído do mini-curso de introdução a machine-learn do site Kaggle.

In [1]:
# importando biblioteca pandas para manipulação dos dados
import pandas as pd

In [2]:
# importando os dados para uma variável. Os dados correspondem o caminho ao qual está o dataset com os valores
# de imóveis de Melbourne
FILE_PATH = 'dados/melb_data.csv'

# carregando os arquivos com o método read_csv do pandas

# dataframe = df

df = pd.read_csv(FILE_PATH)

In [3]:
# obtendo os primeiros resultados estatísticos dos dados carregados
df.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [4]:
# visualizando os nomes das colunas do dataframe df
df.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [5]:
# verificando a existência de dados faltantes - missing values
df.isnull().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price               0
Method              0
SellerG             0
Date                0
Distance            0
Postcode            0
Bedroom2            0
Bathroom            0
Car                62
Landsize            0
BuildingArea     6450
YearBuilt        5375
CouncilArea      1369
Lattitude           0
Longtitude          0
Regionname          0
Propertycount       0
dtype: int64

In [6]:
# eliminando os dados faltantes
df = df.dropna(axis=0)

### Selecionando o Alvo de Predição

In [7]:
# por convenção o alvo é chamado de y, isto é o valor do imóvel.

y = df.Price

In [8]:
y.describe()

count    6.196000e+03
mean     1.068828e+06
std      6.751564e+05
min      1.310000e+05
25%      6.200000e+05
50%      8.800000e+05
75%      1.325000e+06
max      9.000000e+06
Name: Price, dtype: float64

In [9]:
# selecionando as features que serão as colunas usadas para determinar o valor do imóvel
# por convenção será chamado de X.

features = 'Rooms Bathroom Landsize Lattitude Longtitude'.split()

X = df[features]

In [10]:
# sumário das features

X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [11]:
# 5 primeiras linhas de X

X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


### Construindo o Modelo

As etapas para construir e usar um modelo são:

    *Definir: que tipo de modelo será? Uma árvore de decisão? Algum outro tipo de modelo? Alguns outros parâmetros do tipo de modelo também são especificados.
    
    *Ajuste: captura os padrões dos dados fornecidos. Este é o cerne da modelagem.
    
    *Prever: exatamente o que parece
    
    *Avalie: determine o quão precisas são as previsões do modelo.

In [12]:
from sklearn.tree import DecisionTreeRegressor

In [13]:
data_model = DecisionTreeRegressor(random_state=1)

data_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

In [14]:
print('Fazendo previsões para as 5 casas a seguir:')
print(X.head())
print('As previsões são:')
print(data_model.predict(X.head()))

Fazendo previsões para as 5 casas a seguir:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
As previsões são:
[1035000. 1465000. 1600000. 1876000. 1636000.]


### Erro Médio Absoluto

Uma forma de medir a qualidade do modelo

Na maioria dos aplicativos (embora não em todos), a medida relevante da qualidade do modelo é a **precisão preditiva**.

O erro de previsão para cada casa é:

    erro = valor real - valor previsto
    
Portanto, se uma casa custar 150.000 e você previu que custaria 100.000, o erro será 50.000.

Com a métrica MAE(Erro Médio Absoluto), pegamos o valor absoluto de cada erro. Isso converte cada erro em um número positivo. Em seguida, calculamos a média desses erros absolutos, de modo que se tem uma média x de erro nas previsões

Calculando o MAE (Erro Médio Absoluto)

In [15]:
from sklearn.metrics import mean_absolute_error

In [16]:
predicted_home_prices = data_model.predict(X)

mean_absolute_error(y, predicted_home_prices)

1115.7467183128902

#### Por que isto aconteceu ?

Usamos uma única "amostra" de casas tanto para construir o modelo quanto para avaliá-lo.

O trabalho do modelo é encontrar padrões que prevejam os preços.

Como esse padrão foi derivado dos dados de treinamento, o modelo parecerá preciso nos dados de treinamento.

Mas se esse padrão não se mantiver quando o modelo vê novos dados, o modelo seria muito impreciso quando usado na prática.

Uma vez que o valor prático dos modelos vem de fazer previsões sobre novos dados, medimos o desempenho em dados que não foram usados para construir o modelo. A maneira mais direta de fazer isso é excluir alguns dados do processo de construção do modelo e, em seguida, usá-los para testar a precisão do modelo em dados que ele nunca viu antes. Esses dados são chamados de dados de validação.

### Validação do Modelo

A biblioteca scikit-learn tem uma função train_test_split para dividir os dados em duas partes.

Usaremos alguns desses dados como dados de treinamento para ajustar o modelo e usaremos os outros dados como dados de validação para calcular mean_absolute_error.

In [17]:
from sklearn.model_selection import train_test_split

In [18]:
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=0)

data_model = DecisionTreeRegressor()

data_model.fit(train_X, train_y)

val_predictions = data_model.predict(val_X)

print('Erro Médio Absoluto:')
mean_absolute_error(val_y, val_predictions)

Erro Médio Absoluto:


270060.754680439

O erro da amostra foi de 1115.74 enquanto que fora da amostra foi de 270.854

O valor médio de um imóvel conforme demonstrado em y.describe() é cerca 1.068.828

Logo o erro médio absoluto fora da amostra é em torno de 25% do valor médio dos imóveis.

### Melhorando o modelo de predição

O valor do erro médio absoluto diminue na medida em que os resultados de predição se aproximam dos valores reais.
Isso acontece devido a quantidade nós, que são elementos condicionantes para que se encontre um resultado satisfatório.
O problema é quando há uma quantidade insuficiente de nós para o cálculo, o que afetaria na predições e do mesmo modo, 
se há uma quantidade elevada de nós, o resultado das predições é comprometido.

Isso é o que se chama de Overfitting = quando há uma quantidade elevada de nós e Underfitting = quando a quantidade de nós 
é abaixo do necessário.

É necessário encontrar um ponto de equilíbrio pra que o modelo possa ser ajustado de tal maneira que ao receber novos dados, 
os resultados sejam satisfatórios.

Vamos criar uma função para obter o erro médio absoluto com base na quantidade de nós estipulada.

É um experimento, vamos informar os valores 5, 25, 50, 100, 250 para quantidade "folhas nos nós" e vamos testar o modelo.

Então poderemos verificar qual a quantidade ideal de nós para que o modelo seja preciso nas previsões

In [19]:
def get_mae(max_leaf_nodes, train_X, train_y, val_X, val_y):
    
    # definindo o modelo
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    
    #ajustando o modelo
    model.fit(train_X, train_y)
    
    #predições de valores
    val_preds = model.predict(val_X)
    
    #erro médio absoluto
    mae = mean_absolute_error(val_preds, val_y)
    
    return mae

In [20]:
max_leaf_nodes = [5, 25, 50, 100, 250]

In [21]:
for max_leaf_node in max_leaf_nodes:
    
    mymae = get_mae(max_leaf_node, train_X, train_y, val_X, val_y)
    
    print(f'Máximo de folhas por nó: {max_leaf_node}\t\t MAE: {mymae:.0f}')

Máximo de folhas por nó: 5		 MAE: 385697
Máximo de folhas por nó: 25		 MAE: 307920
Máximo de folhas por nó: 50		 MAE: 279795
Máximo de folhas por nó: 100		 MAE: 269192
Máximo de folhas por nó: 250		 MAE: 269945


In [22]:
best_leaf_node = 100

In [26]:
final_model = DecisionTreeRegressor(max_leaf_nodes=best_leaf_node, random_state=1)

final_model.fit(X, y)

final_predict = final_model.predict(X)

final_mae = mean_absolute_error(final_predict, y)

for p in final_predict[0:5]:
    print(f'Predições finais: {p:.0f}\t\t MAE: {final_mae:.0f}')

Predições finais: 1106883		 MAE: 209584
Predições finais: 1396789		 MAE: 209584
Predições finais: 1728365		 MAE: 209584
Predições finais: 1396789		 MAE: 209584
Predições finais: 1106883		 MAE: 209584


In [25]:
print('Comparando com os valores reais:\n')

for p in y.head():
    print(p)

Comparando com os valores reais:

1035000.0
1465000.0
1600000.0
1876000.0
1636000.0


Agora temos um valor menor de Erro Médio Absoluto, 209.584.

Valor Médio do Imóvel é de 1.068,828, então temos que MAE equivale a 19% do valor médio do imóvel.

Temos então 81% de acerto nas previsões.

# Random Forest

Uma forma de melhoria considerável no modelo de árvore de decisão é o modelo Random Forest.

