<a href="https://colab.research.google.com/github/daniel-usp/MachineLearning/blob/main/04%20-%20DecisionTrees/DecisionTreeRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Avaliando Imóveis: A Jornada Estratégica do Investidor 🏢🌳

## O Desafio do Investidor

Um investidor, atento às oportunidades do mercado imobiliário de São Paulo, decide embarcar em uma missão: identificar propriedades subvalorizadas. Para atingir este objetivo, ele escolhe uma ferramenta específica - o Decision Tree Regressor - uma abordagem analítica para prever o valor dos imóveis e encontrar aqueles que estão sendo vendidos por um preço abaixo do seu valor estimado.

## O Conjunto de Dados

O investidor utiliza um conjunto de dados contendo informações detalhadas sobre os imóveis:

- `valor_total`: O preço de venda do imóvel.
- `area_util`: A área útil do imóvel em metros quadrados.
- `quartos`: Número de quartos do imóvel.
- `vagas`: Quantidade de vagas de estacionamento disponíveis.
- `condominio`: Valor do condomínio.
- `suites`: Número de suítes.
- `banheiros`: Número total de banheiros.
- `piscina`: Indica se o imóvel possui piscina.
- `academia`: Indica se o imóvel tem acesso a uma academia.
- `quadra`: Presença de quadra esportiva.
- `media_idh`: Índice de Desenvolvimento Humano da região.
- `media_gini`: Coeficiente de Gini da área.
- `renda_percapita`: Renda per capita da região.
- `dist_metro`: Distância até a estação de metrô mais próxima.

## A Abordagem: Decision Tree Regressor

O investidor opta pelo Decision Tree Regressor para analisar os dados. Este modelo é conhecido por sua capacidade de capturar relações não-lineares e por ser facilmente interpretável, o que é crucial para entender as variáveis que mais influenciam os preços dos imóveis.

## Execução e Análise

Utilizando o Decision Tree Regressor, o investidor processa os dados, treinando o modelo com as variáveis selecionadas. O objetivo é que o modelo aprenda a complexa dinâmica do mercado imobiliário e seja capaz de prever o valor de um imóvel com base em suas características.

## Identificação de Oportunidades

Após a modelagem e a avaliação do modelo, o investidor compara os valores previstos com os preços de mercado. Os imóveis cujo valor previsto é significativamente maior que o preço de venda são identificados como subvalorizados - as oportunidades que o investidor buscava.

## Conclusão

Com a aplicação do Decision Tree Regressor, o investidor não apenas consegue identificar imóveis subvalorizados mas também ganha insights valiosos sobre quais características são mais determinantes para o valor de um imóvel em São Paulo. Esta abordagem estratégica e baseada em dados é um passo fundamental para tomar decisões de investimento informadas.


In [1]:
import pandas as pd
import numpy as np

dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/DecisionTreeRegressor.xlsx')
dados.head()

#Declaração de Variáveis
y = dados['valor_total']
X = dados.drop('valor_total', axis =1)

# Separe os dados em treino e teste

# Iniciar e treinar o algoritmo DecisonTreeRegressor

# # Calcular o R2 escore e outras medidas de Acurácia




Unnamed: 0,valor_total,area_util,quartos,vagas,condominio,suites,banheiros,piscina,academia,quadra,media_idh,media_gini,renda_percapita,dist_metro
0,189900,32,2,1,180,0,1,0,1,0,0.697182,0.410909,559.668182,6822.823684
1,221110,43,2,1,250,0,1,0,0,1,0.697182,0.410909,559.668182,4682.709841
2,219990,43,1,1,300,0,1,1,0,0,0.697182,0.410909,559.668182,4579.311123
3,219990,43,2,1,300,0,1,1,0,0,0.697182,0.410909,559.668182,4579.311123
4,220000,41,2,1,300,0,1,1,1,1,0.697182,0.410909,559.668182,3313.918703


In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/DecisionTreeRegressor.xlsx')
dados.head()

#Declaração de Variáveis
y = dados['valor_total']
X = dados.drop('valor_total', axis =1)

# Separar os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Iniciar e treinar o algoritmo DecisionTreeRegressor
regressor = DecisionTreeRegressor()
regressor.fit(X_train, y_train)

# Fazer previsões nos dados de teste
y_pred = regressor.predict(X_test)

# Calcular o R2 Score e outras medidas de precisão
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print("R2 Score:", r2)
print("Mean Squared Error:", mse)
print("Mean Absolute Error:", mae)


R2 Score: 0.804822991702039
Mean Squared Error: 54483361767.34292
Mean Absolute Error: 124364.05973451327


## Ajustando os Hiperparâmetros

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.model_selection import GridSearchCV

dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/DecisionTreeRegressor.xlsx')
dados.head()

#Declaração de Variáveis
y = dados['valor_total']
X = dados.drop('valor_total', axis =1)

# Separar os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Definindo os valores que serão testados em DecisionTree:
minimos_split = np.array([2,3,4,5,6,7])
maximo_nivel = np.array([3,4,5,6,7,9,11])
algoritmo = ['mse', 'friedman_mse', 'mae']
valores_grid = {'min_samples_split': minimos_split, 'max_depth': maximo_nivel, 'criterion': algoritmo}

#Criação do Modelo DecisionTreeRegressor


#Criando os grids a partir do GridSearchCV

#Imprimindo os melhores parâmetros


#Ajustar o modelo (fit) com os melhores parâmetros

In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.model_selection import GridSearchCV

dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/DecisionTreeRegressor.xlsx')
dados.head()

#Declaração de Variáveis
y = dados['valor_total']
X = dados.drop('valor_total', axis =1)

# Separar os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Definindo os valores que serão testados em DecisionTree:
minimos_split = np.array([2,3,4,5,6,7])
maximo_nivel = np.array([3,4,5,6,7,9,11])
algoritmo = ['mse', 'friedman_mse', 'mae']
valores_grid = {'min_samples_split': minimos_split, 'max_depth': maximo_nivel, 'criterion': algoritmo}

# Criação do Modelo DecisionTreeRegressor
modelo = DecisionTreeRegressor()

# Criando os grids a partir do GridSearchCV
grid = GridSearchCV(estimator=modelo, param_grid=valores_grid, cv=5)
grid.fit(X_train, y_train)

# Imprimindo os melhores parâmetros
print('Melhores Parâmetros:', grid.best_params_)

# Ajustar o modelo (fit) com os melhores parâmetros
modelo_otimizado = DecisionTreeRegressor(**grid.best_params_)
modelo_otimizado.fit(X_train, y_train)

# Fazer previsões com o modelo otimizado e calcular métricas
y_pred_otimizado = modelo_otimizado.predict(X_test)
r2_otimizado = r2_score(y_test, y_pred_otimizado)
mse_otimizado = mean_squared_error(y_test, y_pred_otimizado)
mae_otimizado = mean_absolute_error(y_test, y_pred_otimizado)

print("R2 Score (Otimizado):", r2_otimizado)
print("Mean Squared Error (Otimizado):", mse_otimizado)
print("Mean Absolute Error (Otimizado):", mae_otimizado)


Melhores Parâmetros: {'criterion': 'friedman_mse', 'max_depth': 5, 'min_samples_split': 7}
R2 Score (Otimizado): 0.8194627795616126
Mean Squared Error (Otimizado): 50396687496.0956
Mean Absolute Error (Otimizado): 128525.32168931872


420 fits failed out of a total of 630.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
210 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/sklearn/model_selection/_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 1247, in fit
    super().fit(
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 177, in fit
    self._validate_params()
  File "/usr/local/lib/python3.10/dist-packages/sklearn/base.py", line 600, in _validate_params
    validate_parameter_constraints(
  File "/usr/local/lib/python3.10/dist-packages/sklear

## 15 Imóveis com maior Potencial de Valorização

In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.model_selection import GridSearchCV

dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/DecisionTreeRegressor.xlsx')
dados.head()

#Declaração de Variáveis
y = dados['valor_total']
X = dados.drop('valor_total', axis =1)

# Separar os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#Definindo os valores que serão testados em DecisionTree:
minimos_split = np.array([2,3,4,5,6,7])
maximo_nivel = np.array([3,4,5,6,7,9,11])
algoritmo = ['mse', 'friedman_mse', 'mae']
valores_grid = {'min_samples_split': minimos_split, 'max_depth': maximo_nivel, 'criterion': algoritmo}

# Criação do Modelo DecisionTreeRegressor
modelo = DecisionTreeRegressor()

# Criando os grids a partir do GridSearchCV
grid = GridSearchCV(estimator=modelo, param_grid=valores_grid, cv=5)
grid.fit(X_train, y_train)

# Imprimindo os melhores parâmetros
print('Melhores Parâmetros:', grid.best_params_)

# Ajustar o modelo (fit) com os melhores parâmetros
modelo_otimizado = DecisionTreeRegressor(**grid.best_params_)
modelo_otimizado.fit(X_train, y_train)

# Fazer previsões com o modelo otimizado e calcular métricas
y_pred_otimizado = modelo_otimizado.predict(X_test)
r2_otimizado = r2_score(y_test, y_pred_otimizado)
mse_otimizado = mean_squared_error(y_test, y_pred_otimizado)
mae_otimizado = mean_absolute_error(y_test, y_pred_otimizado)

print("R2 Score (Otimizado):", r2_otimizado)
print("Mean Squared Error (Otimizado):", mse_otimizado)
print("Mean Absolute Error (Otimizado):", mae_otimizado)

# Com base no modelo otimizado, prever o valor_total dos imóveis de toda a base dados (X e y) para verificar mostrar os 15 imóveis
#com maior potencial de valorização

Melhores Parâmetros: {'criterion': 'friedman_mse', 'max_depth': 5, 'min_samples_split': 7}
R2 Score (Otimizado): 0.8194627795616126
Mean Squared Error (Otimizado): 50396687496.0956
Mean Absolute Error (Otimizado): 128525.32168931872


420 fits failed out of a total of 630.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
210 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/sklearn/model_selection/_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 1247, in fit
    super().fit(
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 177, in fit
    self._validate_params()
  File "/usr/local/lib/python3.10/dist-packages/sklearn/base.py", line 600, in _validate_params
    validate_parameter_constraints(
  File "/usr/local/lib/python3.10/dist-packages/sklear

In [8]:
# Fazer previsões para toda a base de dados
y_pred_total = modelo_otimizado.predict(X)

# Adicionando as previsões e o valor real ao DataFrame
dados['valor_predito'] = y_pred_total
dados['diferenca'] = dados['valor_predito'] - dados['valor_total']

# Ordenando os imóveis pelo potencial de valorização (maiores diferenças)
imoveis_potencial_valorizacao = dados.sort_values(by='diferenca', ascending=False).head(15)

# Exibir os 15 imóveis com maior potencial de valorização
imoveis_potencial_valorizacao


Unnamed: 0,valor_total,area_util,quartos,vagas,condominio,suites,banheiros,piscina,academia,quadra,media_idh,media_gini,renda_percapita,dist_metro,valor_predito,diferenca
990,890000,150,3,0,1300,1,3,0,0,0,0.933333,0.536667,4627.33,336.208299,2135750.0,1245750.0
1319,950000,362,4,4,4000,2,1,0,1,0,0.789125,0.47375,3105.08,1326.969392,2038750.0,1088750.0
1322,1000000,362,4,4,3696,2,5,1,1,0,0.789125,0.47375,3105.08,1326.969392,2038750.0,1038750.0
177,1170000,142,2,2,3640,1,3,0,0,0,0.94125,0.5475,6616.06,490.277288,2135750.0,965749.9
999,1225000,220,1,1,1718,1,3,0,0,0,0.933333,0.536667,4627.33,319.370142,2135750.0,910749.9
1591,1290337,136,3,2,990,3,4,0,0,0,0.8884,0.48,2799.944,811.14857,2042723.0,752386.4
1903,1530000,236,4,4,2000,4,7,1,1,0,0.7873,0.488,1947.468,1776.80089,2258500.0,728500.0
2123,1350000,157,4,3,2500,2,5,0,1,0,0.901714,0.512857,4411.871429,885.142874,2042723.0,692723.4
993,1450000,140,3,1,2200,1,3,0,0,0,0.933333,0.536667,4627.33,354.845668,2135750.0,685749.9
888,900000,180,4,2,1234,3,5,1,1,1,0.732143,0.425,863.321429,6654.092707,1572727.0,672727.3


## Rodar um Cluster para Avaliar as características dos Imóveis com maior potencial de valorização

In [None]:
dados = imoveis_potencial_valorizacao

#Com base no K ótimo, determinar os clusters K-Modes com os dados padronizados (não padronizar as colunas que tenham variáveis categóricas)

#Mostrar os resultados dos centróides