In [None]:
# Importação das bibliotecas principais usadas para manipulação de dados (Pandas) e operações numéricas (NumPy).

import pandas as pd
import numpy as np

In [None]:
# Carrega o dataset original contendo dados de imóveis de São Paulo.

df = pd.read_csv("sao-paulo-properties-april-2019.csv")

In [None]:
# Visualiza as 5 primeiras linhas do dataset para entender sua estrutura inicial.

df.head()

Unnamed: 0,Price,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,New,District,Negotiation Type,Property Type,Latitude,Longitude
0,930,220,47,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.543138,-46.479486
1,1000,148,45,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.550239,-46.480718
2,1000,100,48,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.542818,-46.485665
3,1000,200,48,2,2,1,1,0,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.547171,-46.483014
4,1300,410,55,2,2,1,1,1,0,0,0,Artur Alvim/São Paulo,rent,apartment,-23.525025,-46.482436


In [None]:
# Conta quantas entradas existem para cada tipo de negociação (sale/rent).

df["Negotiation Type"].value_counts()

Negotiation Type
rent    7228
sale    6412
Name: count, dtype: int64

In [None]:
# Filtra apenas os imóveis com negociação do tipo 'rent' (aluguel).
# Em seguida, confirma se o filtro foi aplicado corretamente.

df_rent = df[df["Negotiation Type"] == "rent"]

df_rent["Negotiation Type"].value_counts()

Negotiation Type
rent    7228
Name: count, dtype: int64

In [None]:
# Remove colunas irrelevantes para o modelo

df_cleaned = df_rent.drop(["New", "Negotiation Type", "Property Type"], axis=1)

df_cleaned

Unnamed: 0,Price,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,District,Latitude,Longitude
0,930,220,47,2,2,1,1,0,0,0,Artur Alvim/São Paulo,-23.543138,-46.479486
1,1000,148,45,2,2,1,1,0,0,0,Artur Alvim/São Paulo,-23.550239,-46.480718
2,1000,100,48,2,2,1,1,0,0,0,Artur Alvim/São Paulo,-23.542818,-46.485665
3,1000,200,48,2,2,1,1,0,0,0,Artur Alvim/São Paulo,-23.547171,-46.483014
4,1300,410,55,2,2,1,1,1,0,0,Artur Alvim/São Paulo,-23.525025,-46.482436
...,...,...,...,...,...,...,...,...,...,...,...,...,...
11205,3700,595,73,1,2,1,1,0,0,1,Brooklin/São Paulo,-23.617682,-46.694963
11206,21000,3000,208,4,4,3,3,1,1,1,Brooklin/São Paulo,-23.606891,-46.695934
11207,3800,710,55,1,1,0,1,0,1,1,Brooklin/São Paulo,0.000000,0.000000
11208,5000,2354,205,3,2,1,2,1,0,0,Brooklin/São Paulo,-23.612287,-46.681482


In [None]:
# Aplica One-Hot Encoding na coluna categórica 'District'.
# 'one_hot' contém as colunas dummies para cada distrito.
# Em seguida, remove a coluna original 'District' do dataframe principal.

one_hot = pd.get_dummies(df_cleaned["District"])

df = df_cleaned.drop("District", axis=1)
df = df.join(one_hot)

In [None]:
# Exibe o dataframe final após a limpeza inicial.

df

Unnamed: 0,Price,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,...,Vila Jacuí/São Paulo,Vila Leopoldina/São Paulo,Vila Madalena/São Paulo,Vila Maria/São Paulo,Vila Mariana/São Paulo,Vila Matilde/São Paulo,Vila Olimpia/São Paulo,Vila Prudente/São Paulo,Vila Sônia/São Paulo,Água Rasa/São Paulo
0,930,220,47,2,2,1,1,0,0,0,...,False,False,False,False,False,False,False,False,False,False
1,1000,148,45,2,2,1,1,0,0,0,...,False,False,False,False,False,False,False,False,False,False
2,1000,100,48,2,2,1,1,0,0,0,...,False,False,False,False,False,False,False,False,False,False
3,1000,200,48,2,2,1,1,0,0,0,...,False,False,False,False,False,False,False,False,False,False
4,1300,410,55,2,2,1,1,1,0,0,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11205,3700,595,73,1,2,1,1,0,0,1,...,False,False,False,False,False,False,False,False,False,False
11206,21000,3000,208,4,4,3,3,1,1,1,...,False,False,False,False,False,False,False,False,False,False
11207,3800,710,55,1,1,0,1,0,1,1,...,False,False,False,False,False,False,False,False,False,False
11208,5000,2354,205,3,2,1,2,1,0,0,...,False,False,False,False,False,False,False,False,False,False


In [None]:
# Separa a variável alvo (y = preço do imóvel) das features (X = demais variáveis).

y = df["Price"]

X = df.loc[:, df.columns != "Price"]

In [None]:
# Divide os dados em treino (70%) e teste (30%).

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
# Visualiza o conjunto de treino das features (X_train).
# Confirmar se a divisão foi feita corretamente

X_train

Unnamed: 0,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,Latitude,...,Vila Jacuí/São Paulo,Vila Leopoldina/São Paulo,Vila Madalena/São Paulo,Vila Maria/São Paulo,Vila Mariana/São Paulo,Vila Matilde/São Paulo,Vila Olimpia/São Paulo,Vila Prudente/São Paulo,Vila Sônia/São Paulo,Água Rasa/São Paulo
87,374,65,2,2,1,1,1,0,1,-23.534905,...,False,False,False,False,False,False,False,False,False,False
4440,506,64,2,1,0,1,0,0,1,-23.557266,...,False,False,False,False,False,False,False,False,False,False
235,2800,250,4,6,4,4,1,0,1,-23.583577,...,False,False,False,False,False,False,False,False,False,False
5296,800,70,2,2,1,1,0,0,0,-23.592542,...,False,False,False,False,False,False,True,False,False,False
4468,390,51,2,1,0,1,0,0,1,-23.549229,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3286,570,78,3,1,0,1,1,0,1,-23.582500,...,False,False,False,False,False,False,False,True,False,False
2437,1556,110,3,2,1,1,1,0,0,-23.569334,...,False,False,False,False,False,False,False,False,False,False
3087,0,50,2,1,0,1,0,0,0,-23.552218,...,False,False,False,False,False,False,False,False,False,False
3996,2716,186,3,2,1,2,0,0,1,-23.646286,...,False,False,False,False,False,False,False,False,False,False


In [None]:
# Visualiza a variável alvo de treino (y_train).

y_train

87       2300
4440     1500
235     20000
5296     2900
4468     1200
        ...  
3286     1950
2437     2900
3087     1200
3996     7506
4702     4500
Name: Price, Length: 5059, dtype: int64

In [None]:
# Treina um modelo de Regressão Linear simples usando os dados de treino.
# primeiro modelo base para avaliar performance.

from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()

lin_reg.fit(X_train, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [None]:
# Realiza previsões usando o modelo treinado.
# 'alguns_dados' deve ser um subconjunto estruturado igual ao X_train.


alguns_dados = X_train.iloc[:5] 
algumas_label = y_train.iloc[:5]

pred = lin_reg.predict(alguns_dados)

print("Predições:", pred)
print("Labels:", algumas_label.values)

Predições: [ 1288.37129822  1314.25471652 15793.54269153  4466.32232954
   931.52990884]
Labels: [ 2300  1500 20000  2900  1200]


In [None]:
# Importa a métrica de erro quadrático médio (MSE) usada para avaliar regressão.

from sklearn.metrics import mean_squared_error

In [None]:
# Calcula o erro RMSE (Root Mean Squared Error) da regressão linear sobre o conjunto de treino.

preds = lin_reg.predict(X_train)
lin_mse = mean_squared_error(y_train, preds)

lin_rmse = np.sqrt(lin_mse)
lin_rmse

np.float64(1997.972906175467)

In [None]:
# Treina um modelo de árvore de decisão para regressão.
# Este modelo tende a sofrer overfitting sem regularização.

from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor()
tree_reg.fit(X_train, y_train)

0,1,2
,criterion,'squared_error'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [None]:
# Previsão utilizando a árvore de decisão.

alguns_dados = X_test.iloc[10:15] 
algumas_label = y_test.iloc[10:15]

pred = tree_reg.predict(alguns_dados)

print("Predições:", pred)
print("Labels:", algumas_label.values)

Predições: [7000. 2830. 1000. 1600. 3700.]
Labels: [5500 3600 1000 1600 4393]


In [None]:
# Avalia o modelo de árvore de decisão usando RMSE no conjunto de teste.

preds = tree_reg.predict(X_test)
lin_mse = mean_squared_error(y_test, preds)

lin_rmse = np.sqrt(lin_mse)
lin_rmse

np.float64(2000.6962719164612)

In [None]:
# Aplica validação cruzada com 10 folds para avaliar a estabilidade do modelo de regressão linear.
# O scoring negativo do MSE é convertido para RMSE para facilitar a interpretação.

from sklearn.model_selection import cross_val_score

scores = cross_val_score(lin_reg, X_train, y_train, scoring="neg_mean_squared_error", cv=10)
lin_rmse_scores = np.sqrt(-scores)

def display_scores(scores):
    print("Scores:", scores)
    print("\nMean:", scores.mean())
    print("\nStandard deviation:", scores.std())

display_scores(lin_rmse_scores)

Scores: [1822.37789145 2158.40945918 1752.47922787 1797.49554734 1621.72827561
 2054.99019134 1819.08450535 1744.35639121 2608.12250943 2767.81897059]

Mean: 2014.686296937287

Standard deviation: 368.8247999542922


In [None]:
# Aplica cross-validation para avaliar o modelo de árvore de decisão usando RMSE.
    
scores = cross_val_score(tree_reg, X_train, y_train, scoring="neg_mean_squared_error", cv=10)
tree_rmse_scores = np.sqrt(-scores)

def display_scores(scores):
    print("Scores:", scores)
    print("\nMean:", scores.mean())
    print("\nStandard deviation:", scores.std())

display_scores(tree_rmse_scores)

Scores: [2654.93776806 2517.81489368 2200.31862977 1732.50336667 2141.08495882
 3003.14979015 2875.81115967 2273.78526576 3379.25902694 2905.67870542]

Mean: 2568.434356492585

Standard deviation: 465.66178467551583


In [None]:
# Treina um modelo de Random Forest Regressor.
# Random Forest combina diversas árvores de decisão para reduzir overfitting 
# e melhorar a performance preditiva.

from sklearn.ensemble import RandomForestRegressor

rf_reg = RandomForestRegressor()
rf_reg.fit(X_train, y_train)

0,1,2
,n_estimators,100
,criterion,'squared_error'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,1.0
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [None]:
# Avalia o modelo de Random Forest calculando o RMSE sobre o conjunto de treino.
# Nota: Avaliar apenas no treino tende a gerar valores muito baixos 
# devido ao risco de overfitting. A avaliação real deve usar X_test.

preds = rf_reg.predict(X_train)
rf_mse = mean_squared_error(y_train, preds)

rf_rmse = np.sqrt(rf_mse)
rf_rmse

np.float64(702.8517900814276)

In [None]:
# Realiza validação cruzada (10 folds) no Random Forest para avaliar 
# a estabilidade do modelo e medir o desempenho médio.
# O scoring usa MSE negativo (padrão do sklearn), então convertemos para RMSE.

scores = cross_val_score(rf_reg, X_train, y_train, scoring="neg_mean_squared_error", cv=10)
rf_rmse_scores = np.sqrt(-scores)

def display_scores(scores):
    print("Scores:", scores)
    print("\nMean:", scores.mean())
    print("\nStandard deviation:", scores.std())

display_scores(rf_rmse_scores)

Scores: [1733.41674637 2021.60923908 1538.6169169  1329.66810393 1380.86795907
 1889.20166652 2085.59787278 1400.82677    2792.88185644 2173.5202998 ]

Mean: 1834.6207430903728

Standard deviation: 433.70001698509407


### Avaliação do modelo

In [None]:
# Define uma grade de hiperparâmetros para testar no Random Forest.
# - n_estimators: número de árvores
# - max_features: número de features consideradas por split
# - bootstrap: ativa/desativa o bootstrap
#
# O GridSearchCV testa todas as combinações usando validação cruzada (cv=5)
# e escolhe o modelo com melhor desempenho (menor RMSE).

from sklearn.model_selection import GridSearchCV

param_grid = [
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
]
forest_reg = RandomForestRegressor()

grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                           scoring='neg_mean_squared_error')

grid_search.fit(X_train, y_train)

0,1,2
,estimator,RandomForestRegressor()
,param_grid,"[{'max_features': [2, 4, ...], 'n_estimators': [3, 10, ...]}, {'bootstrap': [False], 'max_features': [2, 3, ...], 'n_estimators': [3, 10]}]"
,scoring,'neg_mean_squared_error'
,n_jobs,
,refit,True
,cv,5
,verbose,0
,pre_dispatch,'2*n_jobs'
,error_score,
,return_train_score,False

0,1,2
,n_estimators,30
,criterion,'squared_error'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,6
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [None]:
# Exibe os melhores hiperparâmetros encontrados pelo GridSearchCV.

grid_search.best_params_

{'max_features': 6, 'n_estimators': 30}

In [None]:
# Avalia o melhor modelo encontrado pelo GridSearch usando o conjunto de teste.
# Aqui calculamos o RMSE final, que indica o erro médio das previsões em unidades do preço.

final_model = grid_search.best_estimator_
final_model_predictions = final_model.predict(X_test)

final_mse = mean_squared_error(y_test, final_model_predictions)
print(np.sqrt(final_mse))

1697.0116111780455


In [None]:
# Usa Plotly para visualizar a comparação entre os valores reais (y_test)
# e as previsões do melhor modelo de Random Forest.
# Cada ponto no gráfico representa uma amostra. A proximidade das duas linhas
# indica quão bem o modelo está conseguindo aprender.

import plotly.graph_objects as go

fig = go.Figure(data=[go.Scatter(y=y_test.values), go.Scatter(y=final_model_predictions)])

fig.show()