## Previsão do preço de uma casa com base em seus recursos, como tamanho e número de quartos

In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error


In [None]:
# Carregando os dados
#data = pd.read_csv('dados_imoveis.csv')
dt = [
    {"area": 1200, "quartos": 3, "localizacao": "Centro", "idade": 5, "preco": 250000},
    {"area": 800, "quartos": 2, "localizacao": "Subúrbio", "idade": 10, "preco": 180000},
    {"area": 1500, "quartos": 4, "localizacao": "Periferia", "idade": 8, "preco": 320000},
    {"area": 1000, "quartos": 2, "localizacao": "Centro", "idade": 2, "preco": 200000},
    {"area": 900, "quartos": 3, "localizacao": "Subúrbio", "idade": 15, "preco": 190000},
    {"area": 1100, "quartos": 3, "localizacao": "Centro", "idade": 7, "preco": 240000},
    {"area": 700, "quartos": 1, "localizacao": "Periferia", "idade": 12, "preco": 170000},
    {"area": 1300, "quartos": 4, "localizacao": "Subúrbio", "idade": 3, "preco": 280000},
    {"area": 950, "quartos": 2, "localizacao": "Centro", "idade": 6, "preco": 210000},
    {"area": 850, "quartos": 2, "localizacao": "Periferia", "idade": 9, "preco": 195000}
]
data = pd.DataFrame(dt)
data

In [None]:
from sklearn.preprocessing import OrdinalEncoder
data['cod_location'] = OrdinalEncoder().fit_transform([[i] for i in data['localizacao'].to_list()])
data

In [4]:
map = {i:data.loc[data['localizacao'] == i]['cod_location'].head(1).item() for i in data['localizacao'].unique()}
map

{'Centro': 0.0, 'Subúrbio': 2.0, 'Periferia': 1.0}

In [5]:
# Separando os dados em variáveis de entrada (X) e saída (y)
X = data.drop(columns=['preco', 'localizacao'], axis=1)
y = data['preco']

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando o modelo de regressão com árvore de decisão
regression_tree = DecisionTreeRegressor()

# Treinando o modelo
regression_tree.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = regression_tree.predict(X_test)

In [None]:
# Avaliando o desempenho do modelo usando o erro médio quadrático (RMSE)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
print('RMSE:', rmse)

O `mean_squared_error` (erro médio quadrático) é uma métrica comumente usada para avaliar o desempenho de modelos de regressão. Ele mede a média dos erros quadrados entre as previsões do modelo e os valores reais dos dados de teste. Quanto menor o valor do MSE, melhor é o desempenho do modelo.

No exemplo acima, o `mean_squared_error` é calculado da seguinte maneira:

```python
mse = mean_squared_error(y_test, y_pred)
```

- `y_test` são os valores reais dos preços dos imóveis no conjunto de teste.
- `y_pred` são as previsões feitas pelo modelo para os preços dos imóveis no conjunto de teste.

Após calcular o MSE, a linha de código `rmse = mse ** 0.5` realiza a operação `mse ** 0.5` para obter a raiz quadrada do MSE. Isso é feito para obter o erro médio, em vez do erro quadrático médio. A raiz quadrada do MSE é chamada de RMSE (erro médio quadrático), que é uma métrica comumente usada e mais interpretável, pois está na mesma unidade que a variável de destino (no caso, os preços dos imóveis).

O cálculo do RMSE é útil porque ele fornece uma medida do desvio padrão dos erros do modelo. Valores menores de RMSE indicam que o modelo tem uma capacidade melhor de prever os preços dos imóveis com base nas características fornecidas. Ou seja: RMSE é uma métrica para avaliar a precisão de um modelo de regressão, onde um valor menor indica um melhor desempenho.

In [None]:
# Fazendo uma previsão para um novo imóvel
new_house = pd.DataFrame({"area": 1500, "quartos": 3, "idade": 10, "cod_location": map['Centro']}, index=[0])
predicted_price = regression_tree.predict(pd.DataFrame(new_house))
print(f"Previsão de valor para a casa com tamanho {new_house.area.item()} e com {new_house.quartos.item()} quartos:")
print("R$ {:,.2f}".format(predicted_price[0]).replace(",", "v").replace(".", ",").replace("v", "."))