In [None]:
import numpy as np 
import pandas as pd 

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
# Carregando os dados
df = pd.read_csv('/kaggle/input/brasilian-houses-to-rent/houses_to_rent_v2.csv')

df.shape

In [None]:
# Verificando os dados
df.info()

In [None]:
# Olhando os dados
df.head()

* city: cidade em que se aluga a propriedade
* area: área da casa/apartamento
* rooms: quantos quartos 
* bathroom: quantos banheiros 
* parking spaces: quantas vagas
* floor: qual o andar
* animal: se pode ter animal na propriedade
* furniture: mobilhada ou não
* hoa:
* rent amount: valor do aluguel
* proprety tax: valor da taxa 
* fire insurance: quanto é o valor do seguro incendio
* dtotal:'hoa'+'rent amount'+'property tax'+'fire insurance'

In [None]:
df.isnull().sum()

In [None]:
# Olhando a coluna city
df['city'].value_counts()

In [None]:
# Verificando a distribuição do valor do aluguel por cidade
df[df['city'] == 'São Paulo']['rent amount (R$)'].plot.hist(bins=50)

In [None]:
# Verificando os 10 maiores valores de aluguel em São Paulo
df[df['city'] == 'São Paulo'].nlargest(10, 'rent amount (R$)')

In [None]:
# Verificando os 10 maiores valores de aluguel em Porto Alegre
df[df['city'] == 'Porto Alegre'].nlargest(10, 'rent amount (R$)')

In [None]:
# Verificando os 10 maiores valores de aluguel em Belo Horizonte
df[df['city'] == 'Belo Horizonte'].nlargest(10, 'rent amount (R$)')

In [None]:
# Distribuição dos dados sobre quartos
df['rooms'].value_counts()

In [None]:
# Distribuição dos dados sobre banheiros
df['bathroom'].value_counts()

In [None]:
# Distribuição dos dados sobre garagem
df['parking spaces'].value_counts()

In [None]:
# Distribuição dos dados sobre o valor do aluguel
df['rent amount (R$)'].value_counts()

In [None]:
# Distribuição dos dados sobre o valor da taxa do imóvel
df['property tax (R$)'].value_counts()

In [None]:
# Dsitribuição dos dados sobre o valor do seguro incendio
df['fire insurance (R$)'].value_counts()

In [None]:
# Verificando o imovel com 13 quartos
df[df['rooms'] == 13]

In [None]:
# Olhando a correlação das variáveis
import seaborn as sns

sns.heatmap(df.corr(), annot=True, linewidths=0.5)

In [None]:
# Tratamento de dados

# Convertendo a coluna floor
df[df['floor'] == '-'] = '0'
df['floor'] = df['floor'].astype(int)

# Convertendo as colunas categóricas
for col in df.columns:
    if df[col].dtype == 'object':
        df[col] = df[col].astype('category').cat.codes

In [None]:
df.info()

In [None]:
# Distribuição de todas as variáveis
df.describe()

In [None]:
from sklearn.preprocessing import LabelEncoder
la = LabelEncoder()
df['animal'] = la.fit_transform(df['animal'])
df['furniture'] =la.fit_transform(df['furniture'])
df['city'] =la.fit_transform(df['city'])

In [None]:
df['animal'].value_counts()

In [None]:
df['city'].value_counts()

In [None]:
# Importando as bibliotecas
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

In [None]:
# Divisão dos dados
train, test = train_test_split(df)

train.shape, test.shape

In [None]:
feats = [col for col in df.columns if col not in ['total (R$)']]

dt = DecisionTreeRegressor()
dt.fit(train[feats], train['total (R$)'])
preds0 = dt.predict(test[feats])
print(mean_squared_error(test['total (R$)'], preds0))

In [None]:
from xgboost import XGBRegressor
feats = [col for col in df.columns if col not in ['total (R$)']]

xgb = XGBRegressor()
xgb.fit(train[feats], train['total (R$)'])
preds3 = xgb.predict(test[feats])
print(mean_squared_error(test['total (R$)'], preds3))

In [None]:
feats = [col for col in df.columns if col not in ['total (R$)']]

gbr = GradientBoostingRegressor()
gbr.fit(train[feats], train['total (R$)'])
preds4 = dt.predict(test[feats])
print(mean_squared_error(test['total (R$)'], preds4))

In [None]:
from sklearn import linear_model
feats = [col for col in df.columns if col not in ['total (R$)']]

lm = linear_model.LinearRegression()
lm.fit(train[feats], train['total (R$)'])
preds5 = lm.predict(test[feats])
print(mean_squared_error(test['total (R$)'], preds5))

In [None]:
# Usando Random Forest
# Sem remover a coluna Rent Amount

# Features
feats = [col for col in df.columns if col not in ['total (R$)']]

# Instanciar o modelo
rf1 = RandomForestRegressor(random_state=42, n_estimators=200, oob_score=True)

# Treinar o modelo
rf1.fit(train[feats], train['total (R$)'])

# Previsões usando o modelo
preds1 = rf1.predict(test[feats])

# Avaliar o desempenho
print(mean_squared_error(test['total (R$)'], preds1))

In [None]:
# Usando Random Forest
# Removendo a coluna Rent Amount

# Features
feats = [col for col in df.columns if col not in ['rent amount (R$)', 'total (R$)']]

# Instanciar o modelo
rf2 = RandomForestRegressor(random_state=42, n_estimators=200, oob_score=True)

# Treinar o modelo
rf2.fit(train[feats], train['total (R$)'])

# Previsões usando o modelo
preds2 = rf2.predict(test[feats])

# Avaliar o desempenho
print(mean_squared_error(test['total (R$)'], preds2))

In [None]:
# Atividade para 17/09/2020

# - Melhorar tratamento dos dados
# - Possibilidade de feature engineering
# - Utilização de outros algoritimos
# - OBJETIVO: Melhorar o desempenho da previsão