# **MACHINE LEARNING - PRECIFICAÇÃO DE IMÓVEIS**

*Definindo o problema:* Deseja-se entender quais características tem uma 
maior interferência no preço de um imóvel, bem como deseja-se construir um modelo que seja capaz de prever o valor de imóvel a partir de determinadas características. 

*Atributos:*
1. id - ID exclusivo para cada casa vendida
2. data - Data da venda da casa
3. price - preço de cada casa vendida
4. bedrooms - número de quartos
5. bathrooms - Número de banheiros, em que 0,5 representa um quarto com um banheiro, mas sem chuveiro
6. sqft_living - metragem quadrada do espaço interno do apartamento
7. sqft_lot - metragem quadrada do espaço terrestre
8. floors - Número de andares
9. waterfront - Uma variável para saber se o apartamento estava com vista para a beira-mar ou não
10. view - Um índice de 0 a 4 de quão boa foi a visualização da propriedade
11. condition - um índice de 1 a 5 na condição do apartamento,
12. grade - Um índice de 1 a 13, onde 1-3 fica aquém da construção e design dos edifícios, 7 tem um nível médio de construção e design e 11-13 têm um alto nível de qualidade de construção e design.
13. sqft_above - A metragem quadrada do espaço interno da habitação que está acima do nível do solo
14. sqft_basement - a metragem quadrada do espaço interno da habitação que fica abaixo do nível do solo
15. yr_built - O ano em que a casa foi construída inicialmente
16. yr_renovated - O ano da última reforma da casa
17. zipcode - Em que área da casa está o CEP
18. lat - Lattitude
19. long - Longitude
20. sqft_living15 - A metragem quadrada do espaço interno da habitação para os 15 vizinhos mais próximos
21. sqft_lot15 - A metragem quadrada dos lotes dos 15 vizinhos mais próximos


In [1]:
#Package import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set(style="white", color_codes=True)

  import pandas.util.testing as tm


## **Data Loading**

In [0]:
#Data Loading
missing_values = ['n/D', 'N/D', 'NA','',  'na', '-', '?',' ? ', ' ', 'isnan']
dfs = pd.read_csv('/content/house_prices.csv', na_values = missing_values);

In [0]:
#Info basics
dfs.info();

In [19]:
dfs.head(3)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,age_imovel
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,2020,98178,47.5112,-122.257,1340,5650,65
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639,69
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,2020,98028,47.7379,-122.233,2720,8062,87


In [0]:
#New Feature
dfs['age_imovel']=2020-dfs['yr_built']

In [0]:
#Describe 
description = dfs.describe()

In [23]:
#Correlations Data
correlation = dfs.corr()
correlation.loc[['price'], :]

Unnamed: 0,id,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,age_imovel
price,-0.016762,1.0,0.30835,0.525138,0.702035,0.089661,0.256794,0.266369,0.397293,0.036362,0.667434,0.605567,0.323816,0.054012,-0.081594,-0.053203,0.307003,0.021626,0.585379,0.082447,-0.054012


In [0]:
'sqft_lot', 'condition', 'zipcode', 'long', 'sqft_lot15', 'age_imovel'

## **ETL's**

In [0]:
#Remove columns desnecessarys
dfs = dfs.drop(columns=['id', 'date', 'yr_renovated', 'yr_built'], axis=1)

In [0]:
#Analisando relação entre quantidade de quartos com preço
dfs['bedrooms'].value_counts()
sns.barplot(x='bedrooms', y='price', data=dfs);

In [0]:
#Analisando relação entre quantidade de banheiros com preço
dfs['bathrooms'].value_counts()
sns.barplot(x='bathrooms', y='price', data=dfs);

In [0]:
#Analisando relação entre quantidade de andares com preço
dfs['floors'].value_counts()
sns.barplot(x='floors', y='price', data=dfs);

In [0]:
#Analisando relação entre ter/ou ter vista para o mar com preço
dfs['waterfront'].value_counts()
sns.barplot(x='waterfront', y='price', data=dfs); #Ordinal

In [0]:
#Analisando relação entre qualidade da visão do imóvel com preço
dfs['view'].value_counts()
sns.barplot(x='view', y='price', data=dfs); #Ordinal

In [0]:
#Analisando relação entre a condição do imóvel com preço
dfs['condition'].value_counts()
sns.barplot(x='condition', y='price', data=dfs); #Ordinal

In [0]:
#Analisando relação entre a condição do imóvel com preço
sns.jointplot(x="age_imovel", y="price", data=dfs, kind="reg"); 

In [0]:
#Analisando relação entre a condição do imóvel com preço
dfs['grade'].value_counts()
sns.barplot(x='grade', y='price', data=dfs); #Ordem/peso

In [0]:
#Transformar features
bins = [0, 3, 6.9, 7, 10, np.inf]
labels = ['ruim', 'satisfatorio', 'medio', 'otimo', 'excelente']
#dfs['grade_value'] = pd.cut(dfs['grade'], bins=bins, labels=labels)

In [0]:
df=dfs[['price', 'bedrooms', 'bathrooms', 'sqft_living',
    'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
    'sqft_above', 'sqft_basement', 'zipcode',
    'lat', 'long', 'sqft_living15', 'sqft_lot15']]

h = df.hist(bins=25, figsize=(16,16), xlabelsize='10', ylabelsize='10', xrot=-15)
sns.despine(left=True, bottom=True)
[x.title.set_size(12) for x in h.ravel()];
[x.yaxis.tick_left() for x in h.ravel()];

In [0]:
data = dfs

---------------------------------------------------------------

## **Data sharing: features and target**

In [0]:
features = ['bedrooms', 'bathrooms', 'sqft_living', 
            'waterfront', 'view', 'floors', 'grade', 'sqft_lot','sqft_above', 
            'condition', 'sqft_basement', 'zipcode', 'long', 'sqft_lot15', 'age_imovel']

## **Data sharing: training and testing**

In [0]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size=0.2, random_state=3)

##**Preprocessing of data**


In [0]:
#Padronizar dos Dados 
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
train = scaler.fit_transform(train)

## **Models Machile Learning**

In [137]:
from sklearn.linear_model import LinearRegression
linear_regres = LinearRegression()
linear_regres.fit(train[features], train['price'])

print(float(format(linear_regres.score(train[features], train['price']),'.5f')))

0.65353


In [0]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
pred = linear_regres.predict(test[features])
mean_absolute_error(test['price'], pred)

A Validação Cruzada é uma forma que testar como o modelo se comporta diante de dados que não foram usados no treinamento.

In [176]:
from sklearn.model_selection import cross_val_score
resultado = cross_val_score(linear_regres, test[features], test['price'], cv = 10)
print(resultado.mean())

0.6497311092885811


### **Model Ridge**

In [177]:
from sklearn.linear_model import Ridge
ridge_regres = Ridge(alpha=1)
ridge_regres.fit(train[features], train['price'])

print(float(format(ridge_regres.score(train[features], train['price']),'.5f')))

0.65353


In [180]:
from sklearn.model_selection import cross_val_score
resultado = cross_val_score(ridge_regres, test[features], test['price'], cv = 10)
print(resultado.mean())

0.6498594910560686


### **Model Polynomial**

In [178]:
from sklearn.preprocessing import PolynomialFeatures
poly_features = PolynomialFeatures(degree=2)
trainpoly = poly_features.fit_transform(train[features])
poly_regres = LinearRegression().fit(trainpoly, train['price'])

print(float(format(poly_regres.score(trainpoly, train['price']),'.5f')))

0.75535


In [181]:
from sklearn.model_selection import cross_val_score
resultado = cross_val_score(poly_regres, test[features], test['price'], cv = 10)
print(resultado.mean())

0.6497311092885811
