<a href="https://colab.research.google.com/github/daniel-usp/MachineLearning/blob/main/04%20-%20DecisionTrees/DecisionTreeRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Avaliando Im√≥veis: A Jornada Estrat√©gica do Investidor üè¢üå≥

## O Desafio do Investidor

Um investidor, atento √†s oportunidades do mercado imobili√°rio de S√£o Paulo, decide embarcar em uma miss√£o: identificar propriedades subvalorizadas. Para atingir este objetivo, ele escolhe uma ferramenta espec√≠fica - o Decision Tree Regressor - uma abordagem anal√≠tica para prever o valor dos im√≥veis e encontrar aqueles que est√£o sendo vendidos por um pre√ßo abaixo do seu valor estimado.

## O Conjunto de Dados

O investidor utiliza um conjunto de dados contendo informa√ß√µes detalhadas sobre os im√≥veis:

- `valor_total`: O pre√ßo de venda do im√≥vel.
- `area_util`: A √°rea √∫til do im√≥vel em metros quadrados.
- `quartos`: N√∫mero de quartos do im√≥vel.
- `vagas`: Quantidade de vagas de estacionamento dispon√≠veis.
- `condominio`: Valor do condom√≠nio.
- `suites`: N√∫mero de su√≠tes.
- `banheiros`: N√∫mero total de banheiros.
- `piscina`: Indica se o im√≥vel possui piscina.
- `academia`: Indica se o im√≥vel tem acesso a uma academia.
- `quadra`: Presen√ßa de quadra esportiva.
- `media_idh`: √çndice de Desenvolvimento Humano da regi√£o.
- `media_gini`: Coeficiente de Gini da √°rea.
- `renda_percapita`: Renda per capita da regi√£o.
- `dist_metro`: Dist√¢ncia at√© a esta√ß√£o de metr√¥ mais pr√≥xima.

## A Abordagem: Decision Tree Regressor

O investidor opta pelo Decision Tree Regressor para analisar os dados. Este modelo √© conhecido por sua capacidade de capturar rela√ß√µes n√£o-lineares e por ser facilmente interpret√°vel, o que √© crucial para entender as vari√°veis que mais influenciam os pre√ßos dos im√≥veis.

## Execu√ß√£o e An√°lise

Utilizando o Decision Tree Regressor, o investidor processa os dados, treinando o modelo com as vari√°veis selecionadas. O objetivo √© que o modelo aprenda a complexa din√¢mica do mercado imobili√°rio e seja capaz de prever o valor de um im√≥vel com base em suas caracter√≠sticas.

## Identifica√ß√£o de Oportunidades

Ap√≥s a modelagem e a avalia√ß√£o do modelo, o investidor compara os valores previstos com os pre√ßos de mercado. Os im√≥veis cujo valor previsto √© significativamente maior que o pre√ßo de venda s√£o identificados como subvalorizados - as oportunidades que o investidor buscava.

## Conclus√£o

Com a aplica√ß√£o do Decision Tree Regressor, o investidor n√£o apenas consegue identificar im√≥veis subvalorizados mas tamb√©m ganha insights valiosos sobre quais caracter√≠sticas s√£o mais determinantes para o valor de um im√≥vel em S√£o Paulo. Esta abordagem estrat√©gica e baseada em dados √© um passo fundamental para tomar decis√µes de investimento informadas.


In [None]:
import pandas as pd
import numpy as np

dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/DecisionTreeRegressor.xlsx')
dados.head()




Unnamed: 0,valor_total,area_util,quartos,vagas,condominio,suites,banheiros,piscina,academia,quadra,media_idh,media_gini,renda_percapita,dist_metro
0,189900,32,2,1,180,0,1,0,1,0,0.697182,0.410909,559.668182,6822.823684
1,221110,43,2,1,250,0,1,0,0,1,0.697182,0.410909,559.668182,4682.709841
2,219990,43,1,1,300,0,1,1,0,0,0.697182,0.410909,559.668182,4579.311123
3,219990,43,2,1,300,0,1,1,0,0,0.697182,0.410909,559.668182,4579.311123
4,220000,41,2,1,300,0,1,1,1,1,0.697182,0.410909,559.668182,3313.918703


In [3]:
dados.columns

Index(['valor_total', 'area_util', 'quartos', 'vagas', 'condominio', 'suites',
       'banheiros', 'piscina', 'academia', 'quadra', 'media_idh', 'media_gini',
       'renda_percapita', 'dist_metro'],
      dtype='object')

In [5]:
#Declara√ß√£o de Vari√°veis
y = dados['valor_total']
X = dados.drop('valor_total', axis =1)


In [6]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

# Split the data into training and test sets
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize and train the RandomForestRegressor
rf = DecisionTreeRegressor(random_state=42)
rf.fit(X_train, Y_train)

# Make predictions on the test set
Y_pred = rf.predict(X_test)

# Calculate the R^2 score
r2 = r2_score(Y_test, Y_pred)
r2


0.7927094303636292

In [7]:
import numpy as np
from sklearn.model_selection import GridSearchCV

#Definindo os valores que ser√£o testados em DecisionTree:
minimos_split = np.array([2,3,4,5,6,7])
maximo_nivel = np.array([3,4,5,6,7,9,11])
algoritmo = ['mse', 'friedman_mse', 'mae']
valores_grid = {'min_samples_split': minimos_split, 'max_depth': maximo_nivel, 'criterion': algoritmo}

#Cria√ß√£o do Modelo
modelo = DecisionTreeRegressor()

#Criando os grids
gridDecisionTree = GridSearchCV(estimator = modelo, param_grid = valores_grid, cv = 5)
gridDecisionTree.fit(x,y)

#Imprimindo os melhores par√¢metros
print("M√≠nimo split: ", gridDecisionTree.best_estimator_.min_samples_split)
print("M√°xima profundidade: ", gridDecisionTree.best_estimator_.max_depth)
print("Crit√©rio: ", gridDecisionTree.best_estimator_.criterion)
print("Coef. R2: ", gridDecisionTree.best_score_)

M√≠nimo split:  2
M√°xima profundidade:  3
Crit√©rio:  friedman_mse
Coef. R2:  0.7836623544703302


420 fits failed out of a total of 630.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
210 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/sklearn/model_selection/_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 1247, in fit
    super().fit(
  File "/usr/local/lib/python3.10/dist-packages/sklearn/tree/_classes.py", line 177, in fit
    self._validate_params()
  File "/usr/local/lib/python3.10/dist-packages/sklearn/base.py", line 600, in _validate_params
    validate_parameter_constraints(
  File "/usr/local/lib/python3.10/dist-packages/sklear

In [8]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold


#Cria√ß√£o do modelo:
modelo = DecisionTreeRegressor(min_samples_split = 5, max_depth = 11, criterion = 'friedman_mse')
resultado = cross_val_score(modelo,x,y,cv = 5, scoring='r2')

#Imprimindo o coef. R2:
print('Coeficiente de determina√ß√£o R2: ', resultado.mean())

Coeficiente de determina√ß√£o R2:  0.717463013524678
