<a href="https://colab.research.google.com/github/daniel-usp/MachineLearning/blob/main/04%20-%20DecisionTrees/DecisionTreeRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Avaliando Imóveis: A Jornada Estratégica do Investidor 🏢🌳

## O Desafio do Investidor

Um investidor, atento às oportunidades do mercado imobiliário de São Paulo, decide embarcar em uma missão: identificar propriedades subvalorizadas. Para atingir este objetivo, ele escolhe uma ferramenta específica - o Decision Tree Regressor - uma abordagem analítica para prever o valor dos imóveis e encontrar aqueles que estão sendo vendidos por um preço abaixo do seu valor estimado.

## O Conjunto de Dados

O investidor utiliza um conjunto de dados contendo informações detalhadas sobre os imóveis:

- `valor_total`: O preço de venda do imóvel.
- `area_util`: A área útil do imóvel em metros quadrados.
- `quartos`: Número de quartos do imóvel.
- `vagas`: Quantidade de vagas de estacionamento disponíveis.
- `condominio`: Valor do condomínio.
- `suites`: Número de suítes.
- `banheiros`: Número total de banheiros.
- `piscina`: Indica se o imóvel possui piscina.
- `academia`: Indica se o imóvel tem acesso a uma academia.
- `quadra`: Presença de quadra esportiva.
- `media_idh`: Índice de Desenvolvimento Humano da região.
- `media_gini`: Coeficiente de Gini da área.
- `renda_percapita`: Renda per capita da região.
- `dist_metro`: Distância até a estação de metrô mais próxima.

## A Abordagem: Decision Tree Regressor

O investidor opta pelo Decision Tree Regressor para analisar os dados. Este modelo é conhecido por sua capacidade de capturar relações não-lineares e por ser facilmente interpretável, o que é crucial para entender as variáveis que mais influenciam os preços dos imóveis.

## Execução e Análise

Utilizando o Decision Tree Regressor, o investidor processa os dados, treinando o modelo com as variáveis selecionadas. O objetivo é que o modelo aprenda a complexa dinâmica do mercado imobiliário e seja capaz de prever o valor de um imóvel com base em suas características.

## Identificação de Oportunidades

Após a modelagem e a avaliação do modelo, o investidor compara os valores previstos com os preços de mercado. Os imóveis cujo valor previsto é significativamente maior que o preço de venda são identificados como subvalorizados - as oportunidades que o investidor buscava.

## Conclusão

Com a aplicação do Decision Tree Regressor, o investidor não apenas consegue identificar imóveis subvalorizados mas também ganha insights valiosos sobre quais características são mais determinantes para o valor de um imóvel em São Paulo. Esta abordagem estratégica e baseada em dados é um passo fundamental para tomar decisões de investimento informadas.


In [None]:
import pandas as pd
import numpy as np

dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/DecisionTreeRegressor.xlsx')
dados.head()




Unnamed: 0,valor_total,area_util,quartos,vagas,condominio,suites,banheiros,piscina,academia,quadra,media_idh,media_gini,renda_percapita,dist_metro
0,189900,32,2,1,180,0,1,0,1,0,0.697182,0.410909,559.668182,6822.823684
1,221110,43,2,1,250,0,1,0,0,1,0.697182,0.410909,559.668182,4682.709841
2,219990,43,1,1,300,0,1,1,0,0,0.697182,0.410909,559.668182,4579.311123
3,219990,43,2,1,300,0,1,1,0,0,0.697182,0.410909,559.668182,4579.311123
4,220000,41,2,1,300,0,1,1,1,1,0.697182,0.410909,559.668182,3313.918703


In [3]:
dados.columns

Index(['valor_total', 'area_util', 'quartos', 'vagas', 'condominio', 'suites',
       'banheiros', 'piscina', 'academia', 'quadra', 'media_idh', 'media_gini',
       'renda_percapita', 'dist_metro'],
      dtype='object')

In [5]:
#Declaração de Variáveis
y = dados['valor_total']
X = dados.drop('valor_total', axis =1)


In [6]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

# Split the data into training and test sets
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize and train the RandomForestRegressor
rf = DecisionTreeRegressor(random_state=42)
rf.fit(X_train, Y_train)

# Make predictions on the test set
Y_pred = rf.predict(X_test)

# Calculate the R^2 score
r2 = r2_score(Y_test, Y_pred)
r2


0.7927094303636292

In [7]:
import numpy as np
from sklearn.model_selection import GridSearchCV

#Definindo os valores que serão testados em DecisionTree:
minimos_split = np.array([2,3,4,5,6,7])
maximo_nivel = np.array([3,4,5,6,7,9,11])
algoritmo = ['mse', 'friedman_mse', 'mae']
valores_grid = {'min_samples_split': minimos_split, 'max_depth': maximo_nivel, 'criterion': algoritmo}

#Criação do Modelo
modelo = DecisionTreeRegressor()

#Criando os grids
gridDecisionTree = GridSearchCV(estimator = modelo, param_grid = valores_grid, cv = 5)
gridDecisionTree.fit(x,y)

#Imprimindo os melhores parâmetros
print("Mínimo split: ", gridDecisionTree.best_estimator_.min_samples_split)
print("Máxima profundidade: ", gridDecisionTree.best_estimator_.max_depth)
print("Critério: ", gridDecisionTree.best_estimator_.criterion)
print("Coef. R2: ", gridDecisionTree.best_score_)

Mínimo split:  2
Máxima profundidade:  3
Critério:  friedman_mse
Coef. R2:  0.7836623544703302


420 fits failed out of a total of 630.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
210 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/sklearn/model_selection/_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 1247, in fit
    super().fit(
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 177, in fit
    self._validate_params()
  File "/usr/local/lib/python3.10/dist-packages/sklearn/base.py", line 600, in _validate_params
    validate_parameter_constraints(
  File "/usr/local/lib/python3.10/dist-packages/sklear

In [8]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold


#Criação do modelo:
modelo = DecisionTreeRegressor(min_samples_split = 5, max_depth = 11, criterion = 'friedman_mse')
resultado = cross_val_score(modelo,x,y,cv = 5, scoring='r2')

#Imprimindo o coef. R2:
print('Coeficiente de determinação R2: ', resultado.mean())

Coeficiente de determinação R2:  0.717463013524678
