# Projeto 2 de Ciência dos Dados

Integrantes:
- Barbara Martins Damasceno
- Daniel Costa Delattre 
- Guilherme Augusto Carvalho

## Objetivo 
**Pergunta que queremos responder**
Qual é o preço de uma casa de acordo com suas características?

Carregando algumas bibliotecas:

In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
import os, csv, string, re
import statsmodels.api as sm
from mpl_toolkits.mplot3d import Axes3D
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

In [None]:
### Função utilitária para fazer a regressão com constante adicionada
def regress(X,Y):
    '''
    X: coluna(s) do DataFrame que serão utilizadas como variável(is) preditoras/explicativas (independente(s))
    Y: coluna do DataFrame que será utilizada como variável resposta (dependente)
    '''
    X_cp = sm.add_constant(X)
    model = sm.OLS(Y,X_cp)
    results = model.fit()
    return results

Verificando o diretório

In [None]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Carregando a base de dados de teste e de treino:

In [None]:
dados= pd.read_csv('datacasas.csv')
#dadosteste = pd.read_csv('t1.xlsx', sheet_name='Teste')

Verificando se não existe linhas sem dados/informação

In [None]:
np.sum(dados.isnull())

In [None]:
dados.columns

In [None]:
len(dados.columns)

In [None]:
dados.head(5)

In [None]:
plt.boxplot(dados['price'])
plt.show()

In [None]:
#Plotando as informações em gráficos
fig = plt.figure(figsize=(15, 30))

plt.subplot(4, 2, 1)
plt.hist(dados.price,bins=100,density=True)
plt.title('Histograma do preço')

plt.subplot(4, 2, 2)
faixa_aleatoria = np.arange(0,len(dados.price),1)
plt.scatter(faixa_aleatoria,dados.price)
plt.title('Distribuição do preço')

plt.subplot(4,2,3)
plt.scatter(dados.price, dados.bedrooms)
plt.title('Preço x Número de quartos')
plt.xlabel('Preço')
plt.ylabel('Número de quartos')

plt.subplot(4,2,4)
plt.scatter(dados.price, dados.bathrooms)
plt.title('Preço x Número de banheiros')
plt.xlabel('Preço')
plt.ylabel('Número de banheiros')

plt.subplot(4,2,5)
plt.scatter(dados.price, dados.sqft_living)
plt.title('Preço x Área da casa')
plt.xlabel('Preço')
plt.ylabel('Área da casa')

plt.subplot(4,2,6)
plt.scatter(dados.price, dados.sqft_lot)
plt.title('Preço x Área do terreno')
plt.xlabel('Preço')
plt.ylabel("Área do terreno")

plt.subplot(4,2,7)
plt.scatter(dados.bedrooms, dados.bathrooms)
plt.title('Relação entre quartos e banheiros')
plt.xlabel('Número de quatros')
plt.ylabel('Número de banheiros')



In [None]:
X = dados[['bedrooms', 'bathrooms', 'sqft_living','waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'lat', 'long']]
Y = dados['price']

In [None]:
Y.max

In [None]:
X.corr()

In [None]:
results = regress(X,Y)
results.summary()

In [None]:
resultado_reg = results.resid

y_predict = results.predict(sm.add_constant(X))

fig1 = plt.figure(figsize=(10, 3))
plt.subplot(1,2,1)
plt.scatter(y_predict,resultado_reg)
plt.title("Homocedasticidade")

plt.subplot(1,2,2)
stats.probplot(resultado_reg,dist='norm',plot=plt)
plt.show()

In [None]:
features = ['bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'sqft_living15', 'sqft_lot15',
       'lat', 'long',]

In [None]:
y = dados.price
x = dados[features]

xtreino,xvalidacao,ytreino,yvalidacao = train_test_split(x, y, random_state=1)

In [None]:
# Especificando o modelo
modelo_decisiontree = DecisionTreeRegressor()
# Fit do modelo 
modelo_decisiontree.fit(xtreino, ytreino)

In [None]:
# Faz a previsão do preço das casas e calcula a média dos erros com base 
val_predictions = modelo_decisiontree.predict(xvalidacao)
val_mae = mean_absolute_error(val_predictions, yvalidacao)
print(f'MAE: {val_mae:.2f}')

In [49]:
#modelo usando random forest 
modelo_randomforest = RandomForestRegressor(random_state=1, criterion='mae',n_jobs=4,n_estimators=4)
modelo_randomforest.fit(xtreino, ytreino)
rf_predict = modelo_randomforest.predict(xvalidacao)
rf_mae = mean_absolute_error(rf_predict, yvalidacao)

print(f'Random Forest MAE: {rf_mae:.2f}')

Random Forest MAE: 82788.47


In [None]:
fig1 = plt.figure(figsize=(10, 5))
plt.scatter(val_predictions,yvalidacao)
plt.title("Titulo")
plt.show()

In [None]:
for i in range(len(yvalidacao.tolist())):
    a = yvalidacao.tolist()[i]
    b = val_predictions[i]
    print(a,b)
    print(f'erro: {a-b}')
    print('')
    

In [None]:
val_predictions[0]

In [None]:
aaa = yvalidacao.tolist()
aaa[0]

In [None]:
aaa[0]-val_predictions[0]