## Trabalho Final Disciplina: Inteligencia Artificial

#### Discentes: 
##### Lucas Carvalho Souza - 201511331
##### Bruno de Souza Mercês - 2017208081
#### Yanes Costa Nascimento - 2020124564

O conjunto de dados utilizado para este trabalho é originado do site Kaggle.com, proveniente de uma competição onde o foco é encontrar o valor para imóveis a partir de dados previamente catalogados por uma corretora contendo informações sobre o imovel e seu local, que podem contribuir para a variação do preço de venda.
Alguns dados abordados neste dataset é: 
Zona, se é comercial, agricultura, industrial, entre outros;
Area do loteamento;
Tipo de rua, se é pavimentada, calçada, terra;
Tamanho da propriedade, se é regular, moderada, irregular;
Curvatura do terreno, se é curvo, plano, planalto;
Localização fisica, nome de bairros;
Condição, se é proximo a avenidas, ruas movimentadas, estradas conhecidas;
Tipo da residencia, se é para uma familia, mais que uma familia, entre outros;
E diversos outros parametros.

O trabalho será realizado utilizando bibliotecas basicas para análise de dados como NumPy, Pandas, Matplotlib e Sklean.

Importação das Bibliotecas Necessárias para a execução do projeto

In [1]:
# Biblioteca de algebra linear e manipulação de vetores
import numpy as np
# Biblioteca de manipulação de dados com Series e DataFrames
import pandas as pd
# Biblioteca para plot de gráficos
import matplotlib.pyplot as plt
# Bibliotecas para aprendizagem de maquina
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
# Biblioteca para fazer separação do dataset em treino e teste
from sklearn.model_selection import train_test_split
# Bibliotecas de metricas
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.model_selection import cross_val_score
# Biblioteca para ignorar avisos
import warnings
warnings.filterwarnings('ignore')

### Primeira Parte - Exploração de Dados

Lê o arquivo csv com a tabela de dados utilizando o Pandas

In [2]:
data_train = pd.read_csv("train.csv")

Primeiramente é realizado algumas inspeções nos dados para familiarizar com as colunas e suas informações

In [3]:
# Mostra as primeiras 5 linhas do dataset e suas respectivas colunas
data_train.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [4]:
# Mostra as informações do dataset: Numero de linhas não nulas por coluna, e o tipo do dado da coluna
data_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
Id               1460 non-null int64
MSSubClass       1460 non-null int64
MSZoning         1460 non-null object
LotFrontage      1201 non-null float64
LotArea          1460 non-null int64
Street           1460 non-null object
Alley            91 non-null object
LotShape         1460 non-null object
LandContour      1460 non-null object
Utilities        1460 non-null object
LotConfig        1460 non-null object
LandSlope        1460 non-null object
Neighborhood     1460 non-null object
Condition1       1460 non-null object
Condition2       1460 non-null object
BldgType         1460 non-null object
HouseStyle       1460 non-null object
OverallQual      1460 non-null int64
OverallCond      1460 non-null int64
YearBuilt        1460 non-null int64
YearRemodAdd     1460 non-null int64
RoofStyle        1460 non-null object
RoofMatl         1460 non-null object
Exterior1st      1460 non-n

In [5]:
# Mostra a descrição do dataset, com medidas estatisticas
data_train.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,1460.0,730.5,421.610009,1.0,365.75,730.5,1095.25,1460.0
MSSubClass,1460.0,56.89726,42.300571,20.0,20.0,50.0,70.0,190.0
LotFrontage,1201.0,70.049958,24.284752,21.0,59.0,69.0,80.0,313.0
LotArea,1460.0,10516.828082,9981.264932,1300.0,7553.5,9478.5,11601.5,215245.0
OverallQual,1460.0,6.099315,1.382997,1.0,5.0,6.0,7.0,10.0
OverallCond,1460.0,5.575342,1.112799,1.0,5.0,5.0,6.0,9.0
YearBuilt,1460.0,1971.267808,30.202904,1872.0,1954.0,1973.0,2000.0,2010.0
YearRemodAdd,1460.0,1984.865753,20.645407,1950.0,1967.0,1994.0,2004.0,2010.0
MasVnrArea,1452.0,103.685262,181.066207,0.0,0.0,0.0,166.0,1600.0
BsmtFinSF1,1460.0,443.639726,456.098091,0.0,0.0,383.5,712.25,5644.0


### Segunda Parte - Tratamento dos Dados

Primeiramente é realizado uma contagem de valores nulos em cada coluna do dataset e os ordenando de forma crescente.

In [6]:
# Conta os valores nulos
data_null = data_train.isnull().sum()
# Coloca em ordem crescente
data_null[data_null > 0].sort_values()

Electrical         1
MasVnrType         8
MasVnrArea         8
BsmtQual          37
BsmtCond          37
BsmtFinType1      37
BsmtExposure      38
BsmtFinType2      38
GarageCond        81
GarageQual        81
GarageFinish      81
GarageType        81
GarageYrBlt       81
LotFrontage      259
FireplaceQu      690
Fence           1179
Alley           1369
MiscFeature     1406
PoolQC          1453
dtype: int64

É deletado as colunas que possuem uma grande quatidade de valores nulos. As que possuem uma baixa quantidade de nulos são preenchidas com a media dos valores, o que é estatisticamente equivalente.

In [7]:
# Remove as colunas com maiores valores nulos
data_train.drop(['Id', 'PoolQC', 'MiscFeature', 'Alley', 'Fence', 'FireplaceQu'], axis=1, inplace=True)
# Insere na posição nula a média dos valores da coluna
data_train.fillna(data_train.mean(), inplace=True)

In [8]:
# Realiza nova contagem de nulos
null_columns = data_train.isnull().sum()
null_columns = null_columns[null_columns > 0]
# Mostra quais colunas ainda estão nulas e seu nome.
data_train.dtypes[null_columns.index]

MasVnrType      object
BsmtQual        object
BsmtCond        object
BsmtExposure    object
BsmtFinType1    object
BsmtFinType2    object
Electrical      object
GarageType      object
GarageFinish    object
GarageQual      object
GarageCond      object
dtype: object

As unicas colunas que sobraram com valores nulos foram as categoricas. Entao é realizado uma transformação de valores categoricos para numericos utilizando o Pandas

In [9]:
# Transforma categoricos para numericos
df_train_dummies = pd.get_dummies(data_train)
df_train_dummies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Columns: 271 entries, MSSubClass to SaleCondition_Partial
dtypes: float64(3), int64(34), uint8(234)
memory usage: 755.7 KB


Para o Machine Learning será separado os dados em Treino e Teste. Também é separado em x e y, que são as variáveis dependentes e independentes respectivamente. O y é o target que queremos prever mas como é um aprendizado supervisionado, ele é utilizado no treino.

In [10]:
y_total = df_train_dummies['SalePrice']
x_total = df_train_dummies.drop('SalePrice', axis=1, inplace=False)

In [11]:
# Separa em treino e teste tanto para x quanto y.
x_train, x_test, y_train, y_test = train_test_split(x_total, y_total, test_size=0.2)

### Terceira Parte - Aprendizado de Maquina

O primeiro algoritmo, neste caso, os primeiros, será Regressão Linear. Que é um algoritmo de aprendizado supervisionado. 
Para nosso modelo utilizamos a Regressão Linear normal, a Regressão Ridge e a Regressão Lasso, que são semelhantes a linear porem com uma regularização diferente, de modo a reduzir o ajuste excessivo de dados melhorando sua generalização.

In [12]:
# Cria a variavel de Regressao Linear
linear_reg = LinearRegression()
# Cria a variavel de Regressao Ridge
ridge_reg = Ridge()
# Cria a variavel de Regressao Lasso
lasso_reg = Lasso()

In [13]:
# Realiza o treinamento da Regressao Linear
linear_reg.fit(x_train, y_train)
# Realiza o treinamento da Regressao Ridge
ridge_reg.fit(x_train, y_train)
# Realiza o treinamento da Regressao Lasso
lasso_reg.fit(x_train, y_train)

Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

In [14]:
# Faz a predição da Regressao Linear com o x de teste
linear_pred = linear_reg.predict(x_test)
# Faz a predição da Regressao Ridge com o x de teste
ridge_pred = ridge_reg.predict(x_test)
# Faz a predição da Regressao Lasso com o x de teste
lasso_pred = lasso_reg.predict(x_test)

O segundo algoritmo de aprendizado de maquina utilizado é Random Forest, que é um algoritmo de aprendizado supervisionado.
É um algoritmo que utiliza o varios modelos de arvores de decisão, onde o primeiro nó é a raiz, os nós filhos possuem regras, e os nós folhas são a decisão tomada. Para a tomada de decisão, é necessário percorrer por um dos caminhos passando por suas respectivas regras. A Random Forest avalia todas as decisões tomada por suas arvores de decisões e a que for a mais votada, será a decisão final tomada.

In [15]:
# Cria variavel de Random Forest
random_model = RandomForestRegressor(random_state=0)

In [16]:
# Realiza o treino da Random Forest
random_model.fit(x_train, y_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=None,
           oob_score=False, random_state=0, verbose=0, warm_start=False)

In [17]:
# Faz a predição da Random Forest utilizando o x de teste
random_pred = random_model.predict(x_test)

### Quarta Parte - Avaliação de Métricas

Utilizamos três métricas que são empregadas em algoritmos para regressão.

RMSE é a medida que calcula a Raiz Quadrada Média dos erros entre os valores reais e os preditos.

In [18]:
# Calcula a média dos erros quadrados
linear_mse = mean_squared_error(y_test, linear_pred)
ridge_mse = mean_squared_error(y_test, ridge_pred)
lasso_mse = mean_squared_error(y_test, lasso_pred)
random_mse = mean_squared_error(random_pred, y_test)

# Calcula a raiz das médias dos erros quadrados e os arredonda para até 4 numeros significativos
linear_rmse = np.round(np.sqrt(linear_mse), 4)
ridge_rmse = np.round(np.sqrt(ridge_mse), 4)
lasso_rmse = np.round(np.sqrt(lasso_mse), 4)
random_rmse = np.round(np.sqrt(random_mse), 4)

R2 é a medida estatistica de o quão perto os dados estão da linha criada pela regressão ajustada. É conhecido com coeficiente de determinação. Seu valor varia de 0% a 100%.
0% o modelo não explica nada da variabilidade dos dados ao redor de sua média.
100% indica que o modelo explica toda a variabilidade ao redor de sua média.

In [19]:
# Calcula o R2 dos modelos e arredonda para até 4 numeros significativos, transformando em porcentagem
linear_r2 = np.round(r2_score(y_test, lasso_pred), 4) * 100
ridge_r2 = np.round(r2_score(y_test, lasso_pred), 4) * 100
lasso_r2 = np.round(r2_score(y_test, lasso_pred), 4) * 100
random_r2 = np.round(r2_score(y_test, random_pred), 4) * 100

O Cross Validation é uma tecnica utilizada para avaliar o desempenho dos modelos de aprendizagem. Ele separa os dados em varios conjuntos para treino e um para teste e avalia o desempenho do modelo utilizando estes conjuntos.

In [20]:
# Calcula o Cross Validation para os modelos. O padrão é 5 conjuntos.
linear_result = cross_val_score(linear_reg, x_test, y_test)
ridge_result = cross_val_score(ridge_reg, x_test, y_test)
lasso_result = cross_val_score(lasso_reg, x_test, y_test)
random_result = cross_val_score(random_model, x_test, y_test)

#### Mostrando as Métricas

Pelo RMSE foi observado que o erro está dentro de uma margem que não foi considerada ruim, pois olhando para os dados, o valor minimo do preço é de 34900,00 e o máximo é 755000,00.

In [21]:
print("Linear RMSE: ", linear_rmse)
print("Ridge RMSE: ", ridge_rmse)
print("Lasso RMSE: ", lasso_rmse)
print("Random RMSE: ", random_rmse)

Linear RMSE:  29022.9893
Ridge RMSE:  26541.1858
Lasso RMSE:  27666.0475
Random RMSE:  29869.5416


Pelo R2 observamos que ambos os modelos representam uma boa variabilidade em torno da média.

In [22]:
print("Linear R2: ", linear_r2, "%")
print("Ridge R2: ", ridge_r2, "%")
print("Lasso R2: ", lasso_r2, "%")
print("Random R2: ", random_r2, "%")

Linear R2:  87.47 %
Ridge R2:  87.47 %
Lasso R2:  87.47 %
Random R2:  85.39999999999999 %


Pelo Cross Validation Podemos perceber que o Modelo Ridge e Random Forest possuem a melhor eficácia para realizar predição.

In [23]:
print("Linear Cross Validation: ", np.round(linear_result.mean(), 4))
print("Ridge Cross Validation: ", np.round(ridge_result.mean(), 4))
print("Lasso Cross Validation: ", np.round(lasso_result.mean(), 4))
print("Random Cross Validation: ", np.round(random_result.mean(), 4))

Linear Cross Validation:  -5.654
Ridge Cross Validation:  0.7963
Lasso Cross Validation:  0.0057
Random Cross Validation:  0.7827


A Acurácia confirma que o modelo Ridge e Random Forest são os melhores aplicados para este tipo de problema.

In [24]:
print("Acuracia Regressao Linear: %0.2f (+/- %0.2f)" % (linear_result.mean(), linear_result.std() * 2))
print("Acuracia Regressao Ridge: %0.2f (+/- %0.2f)" % (ridge_result.mean(), ridge_result.std() * 2))
print("Acuracia Regressao Lasso: %0.2f (+/- %0.2f)" % (lasso_result.mean(), lasso_result.std() * 2))
print("Acuracia Random Forest: %0.2f (+/- %0.2f)" % (random_result.mean(), random_result.std() * 2))

Acuracia Regressao Linear: -5.65 (+/- 14.03)
Acuracia Regressao Ridge: 0.80 (+/- 0.02)
Acuracia Regressao Lasso: 0.01 (+/- 0.90)
Acuracia Random Forest: 0.78 (+/- 0.01)


### Conclusão

Os tratamentos realizados nos dados foram simples e não foi feito uma exploração mais profunda para melhor entendimento. Os algoritmos que utilizamos foram bem ajustados aos dados e criaram modelos que podem ser utilizados para predição. Embora uma acuracia de 80% não seja ideal para o mundo real, nestes exemplos ela foi uma grande conquista. 
Para referencias futuras um melhor tratamento nos dados e um estudo de qual coluna tem maior relevancia na tomada de decisão da regressão pode ajudar a melhorar a acuracia dos modelos.
É concluido que a Random Forest e a Regressão Lasso foram os que melhores se ajustaram ao modelo e sua variabilidade.