<a href="https://colab.research.google.com/github/brayannmb/projeto_previsao_vendas/blob/main/projeto_house_prices.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Projeto de Estudo - Data Science**

------------------------------------------------------------

Para o meu segundo projeto de estudos em Aprendizado de Máquina, escolhi outra [competição](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview) muito famosa no mundo de Data Science, a análise de preços de vandas de casas em Ames, Iowa.

##**Previsão de Vendas de Casas**

<center><img width="80%" src="https://github.com/brayannmb/projeto_previsao_vendas/blob/main/banner%20houses.jpg?raw=true"></center>

##**Introdução - Business Understanding**

Segundo a [BBC News](https://www.bbc.com/portuguese/geral-58025702), em diversos países do mundo os valores das casas estão em alta por conta da pandemia. 

**Mas o que um projeto de aprendizado de máquina poderia colaborar com o setor imobiliário?**

Imagine que você é um Cientista de Dados e trabalha para uma grande empresa do setor. Então, o chefe do departamento de Teconlogia pediu para que você e os desenvolvedores  trabalhem juntos no desenvolvimento de um novo projeto.
 
Este projeto tem por objetivo calcular o valor do preço de imóveis com base nas informações que o usuário inseriu, como quantidade quartos, suítes, tamanho em m2, etc. 

Diante deste cenário, onde os preços dos imóveis estão em alta, é necessário que esta nova *feature* calcule os preços com o máximo de assertividade possível, para que os usuários não se decepcionem ao estimar um imóvel de um dormitório, 30 m2, interior de SP e o valor sair mais de 800 mil reais.  

Portanto, este será o cenário para a elaboração deste projeto, analisar e buscar predizer valores para casas com base nos preços históricos e nas caracteristicas de cada imóvel.

##**Métrica de Avaliação**

A métrica para avaliar o modelo de *machine learning* será a [RMSE](https://en.wikipedia.org/wiki/Root-mean-square_deviation) (root-mean-square error) - erro médio quadrático.   


##**1.Obtenção dos Dados**

A primeira etapa deste projeto será obter os conjuntos de dados que serão utilizados. Os dados podem ser extraidos deste [link](https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data) pelo site do Kaggle.

Os dados estão dividos entre dois conjuntos, eles são:

* **train.csv** - Conjunto de dados para realzar análise exploratória e treinar o modelo de *machine learning*.
* **test.csv** - Conjunto de dados para testar o desempenho do modelo, aplicando dados ainda não vistos pelo mesmo. 

**Libraries que serão utilizadas:**

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
#importando conjunto de dados

train = pd.read_csv('https://raw.githubusercontent.com/brayannmb/projeto_previsao_vendas/main/train.csv')

##**Compreensão dos Dados**

Nesta etapa, irei analisar a fundo sobre os dados e buscar uma melhor compreensão sobre eles.

###**Análise Exploratória de Dados**

Umas etapas que consomem mais tempo de um Cientista de Dados é análise descritiva e a estruturação dos dados, quase **80%** do tempo é destinado para essas etapas.

Para uma primeira visualização sobre os dados, irei analisar as primeiras e últimas entradas.

In [3]:
#5 primeiras entradas

train.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,...,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196.0,Gd,TA,PConc,Gd,TA,No,GLQ,706,Unf,0,150,856,GasA,...,Y,SBrkr,856,854,0,1710,1,0,2,1,3,1,Gd,8,Typ,0,,Attchd,2003.0,RFn,2,548,TA,TA,Y,0,61,0,0,0,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,Gtl,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,GasA,...,Y,SBrkr,1262,0,0,1262,0,1,2,0,3,1,TA,6,Typ,1,TA,Attchd,1976.0,RFn,2,460,TA,TA,Y,298,0,0,0,0,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2001,2002,Gable,CompShg,VinylSd,VinylSd,BrkFace,162.0,Gd,TA,PConc,Gd,TA,Mn,GLQ,486,Unf,0,434,920,GasA,...,Y,SBrkr,920,866,0,1786,1,0,2,1,3,1,Gd,6,Typ,1,TA,Attchd,2001.0,RFn,2,608,TA,TA,Y,0,42,0,0,0,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,5,1915,1970,Gable,CompShg,Wd Sdng,Wd Shng,,0.0,TA,TA,BrkTil,TA,Gd,No,ALQ,216,Unf,0,540,756,GasA,...,Y,SBrkr,961,756,0,1717,1,0,1,0,3,1,Gd,7,Typ,1,Gd,Detchd,1998.0,Unf,3,642,TA,TA,Y,0,35,272,0,0,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,Gtl,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350.0,Gd,TA,PConc,Gd,TA,Av,GLQ,655,Unf,0,490,1145,GasA,...,Y,SBrkr,1145,1053,0,2198,1,0,2,1,4,1,Gd,9,Typ,1,TA,Attchd,2000.0,RFn,3,836,TA,TA,Y,192,84,0,0,0,0,,,,0,12,2008,WD,Normal,250000


In [4]:
#5 últimas entradas

train.tail()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,...,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,Inside,Gtl,Gilbert,Norm,Norm,1Fam,2Story,6,5,1999,2000,Gable,CompShg,VinylSd,VinylSd,,0.0,TA,TA,PConc,Gd,TA,No,Unf,0,Unf,0,953,953,GasA,...,Y,SBrkr,953,694,0,1647,0,0,2,1,3,1,TA,7,Typ,1,TA,Attchd,1999.0,RFn,2,460,TA,TA,Y,0,40,0,0,0,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,Inside,Gtl,NWAmes,Norm,Norm,1Fam,1Story,6,6,1978,1988,Gable,CompShg,Plywood,Plywood,Stone,119.0,TA,TA,CBlock,Gd,TA,No,ALQ,790,Rec,163,589,1542,GasA,...,Y,SBrkr,2073,0,0,2073,1,0,2,0,3,1,TA,7,Min1,2,TA,Attchd,1978.0,Unf,2,500,TA,TA,Y,349,0,0,0,0,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,Inside,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,9,1941,2006,Gable,CompShg,CemntBd,CmentBd,,0.0,Ex,Gd,Stone,TA,Gd,No,GLQ,275,Unf,0,877,1152,GasA,...,Y,SBrkr,1188,1152,0,2340,0,0,2,0,4,1,Gd,9,Typ,2,Gd,Attchd,1941.0,RFn,1,252,TA,TA,Y,0,60,0,0,0,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,Inside,Gtl,NAmes,Norm,Norm,1Fam,1Story,5,6,1950,1996,Hip,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,TA,TA,Mn,GLQ,49,Rec,1029,0,1078,GasA,...,Y,FuseA,1078,0,0,1078,1,0,1,0,2,1,Gd,5,Typ,0,,Attchd,1950.0,Unf,1,240,TA,TA,Y,366,0,112,0,0,0,,,,0,4,2010,WD,Normal,142125
1459,1460,20,RL,75.0,9937,Pave,,Reg,Lvl,AllPub,Inside,Gtl,Edwards,Norm,Norm,1Fam,1Story,5,6,1965,1965,Gable,CompShg,HdBoard,HdBoard,,0.0,Gd,TA,CBlock,TA,TA,No,BLQ,830,LwQ,290,136,1256,GasA,...,Y,SBrkr,1256,0,0,1256,1,0,1,1,3,1,TA,6,Typ,0,,Attchd,1965.0,Fin,1,276,TA,TA,Y,736,68,0,0,0,0,,,,0,6,2008,WD,Normal,147500


Apenas visualizando as entradas acima, é possível identificar variáveis como `Alley`, `PoolQC`, `Fence` e `MiscFeature` com valores ausentes. Embora, ainda é cedo para fazer qualquer conclusão. 

Antes de analisar as variáveis que possuem valores ausentes, irei incluir um dicionário de variáveis, para que facilite o entendimento da análise.

In [5]:
#quantidade de colunas: 

print(f'Quantidade de colunas: {train.shape[1]}')

Quantidade de colunas: 81


###**Dicionário de Variáveis:**

O dicionário de variáveis é uma ótima ferramenta para obter um melhor entendimento sobre as *features* de um conjunto de dados.
Como foi apresentado acima, o conjunto de dados de treino possui 81 colunas, elas são: 

**Variáveis qualitativas (nominal):** 
* MSZoning: Classificação geral de zoneamento
* Street: Tipo de estrada
* Alley: Tipo de caminho de acesso para a propriedade
* LotConfig: Tipo do lote 
* Neighborhood: Bairros próximos
* Condition1: Proximidade da estrada princípal
* Condition2: Proximidade da estrada princípal (se houver uma segunda)
* BldgType: Tipo de habitação
* RoofStyle: Tipo de cobertura (telhado)
* RoofMatl: Material da cobertura (telhado)
* Exterior1st: Material da cobertura externa da casa
* Exterior2nd: Material da cobertura externa da casa (se houver um segundo material)
* MasVnrType: Tipo de folheado de alvenaria
* Foundation: Tipo de fundação 
* Heating: Tipo de sistema de aquecimento
* CentralAir: Ar condicionado
* Electrical: Tipo de sistema elétrico
* GarageType: Localização da garagem
* GarageFinish: Parte interior da garagem finalizada
* PavedDrive: Caminho pavimentado
* MiscFeature: Recursos diversos não incluídos em outras categorias
* SaleType: Tipo de venda
* SaleCondition: Condição de venda

**Variáveis qualitativas (ordinal):**

* LandContour: Nivelamento da propriedade
* LotShape: Classificação do tamanho da propriedade
* LandSlope: Inclinação do imóvel
* Utilities: Utilidades do imóvel 
* HouseStyle: Estilo de habitação
* OverallQual: Avalia material geral e acabamento da casa
* OverallCond: Avalia condições gerais da casa
* ExterQual: Qualidade do material da área externa
* ExterCond: Presente condição do material área externa
* BsmtQual: Qualidade do porão
* BsmtCond: Condições gerais do porão
* BsmtExposure: Exposição do porão
* BsmtFinType1: Classificação da área acabada do porão
* BsmtFinType2: Classificação da área acabada do porão (se houver a segunda)
* HeatingQC: Qualidade e condições do sistema de aquecimento
* KitchenQual: Qualidade da cozinha
* Functional: Avaliação da funcionalidade doméstica
* FireplaceQu: Qualidade da lareira
* GarageQual: Qualidade da garagem
* GarageCond: Condições da garagem
* PoolQC: Qualidade da piscina
* Fence: Qualidade da cerca

**Variáveis quantitativas:**

* SalePrice - Preço das casas (Variável target) 
* MSSubClass: Tipo de propriedade envolvida na venda
* LotFrontage: Pés lineares de rua conectados à propriedade
* LotArea: Tamanho do lote em pés quadrados
* YearBuilt: Ano de construção
* YearRemodAdd: Data de reforma (a mesma de construção se o imóvel não possuir reformas)
* MasVnrArea: Área de folheado de alvenaria em pés quadrados
* BsmtFinSF1: Tipo 1 em pés quadrados
* BsmtFinSF2: Tipo 2 em pés quadrados
* BsmtUnfSF: Pés quadrados inacabados de área do porão
* TotalBsmtSF: Total de pés quadrados de área do porão
* 1stFlrSF: Primeiro andar em pés quadrados
* 2ndFlrSF: Segundo andar em pés quadrados
* LowQualFinSF: Baixo acabamento em todos os andares
* GrLivArea: Área de estar acima do nível (solo) em pés quadrados
* BsmtFullBath: Banheiros
* BsmtHalfBath: Lavabos do porão
* FullBath: Banheiros completos acima do nível do solo
* HalfBath: Lavabos acima do nível do solo
* Bedroom: Número de quartos
* Kitchen: Number of kitchens
* TotRmsAbvGrd: Total de quartos (não inclui banheiros)
* Fireplaces: Número de lareiras
* GarageYrBlt: Ano de construção da garagem
* GarageCars: Tamanho da garagem em capacidade de carros
* GarageArea: Tamanho da garage em pés quadrados
* WoodDeckSF: Área do deck de madeira em pés quadrados
* OpenPorchSF: Área de varanda aberta em pés quadrados
* EnclosedPorch: Área de varanda fechada em pés quadrados
* 3SsnPorch: Área da varanda de três temporadas em pés quadrados (!)
* ScreenPorch: Área da tela da varanda em pés quadrados (!)
* PoolArea: Aréa da piscina em pés quadrados
* MiscVal: Valor dos recursos não incluídos
* MoSold: Mês de venda
* YrSold: Ano de venda


Em algumas das traduções estão descritas "pés quadrados", essa é uma medida utilizada para medir área nos Estados Unidos e Reino Unido. Um [pé quadrado](https://pt.wikipedia.org/wiki/P%C3%A9_quadrado) equivale a 0,09290304 metros quadrados.




Após compreender melhor sobre o significado de cada variável, está na hora de descobrir os tipos primitivos de cada uma.


In [6]:
#informações sobre as variáveis

train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

Um dos pontos que devemos tomar muito cuidado quando estamos analisando os tipos de varáveis é quando temos variáveis qualitativas e que estão representadas por valores númericos, como as variáveis: `MSSubClass`, `OverallQual` e `OverallCond`.

Mesmo que essas variáveis possuam valores númericos, elas não podem ser classificadas como quantitativas e também não se deve aplicar operações matemáticas e estatísticas descritivas, apenas a moda.

Analisando o resultado acima, também foi possível descobrir variáveis que possuem uma grande quantidade valores ausentes, como por exemplo as variáveis `Alley`, `PoolQC`, `Fence` e `MiscFeature`.

Pensando nisso, os próximos passos da análise serão entender um pouco mais sobre estes valores ausentes.

In [14]:
((train.isnull().sum() / train.shape[0]) * 100).sort_values(ascending=False)[:20]

PoolQC          99.520548
MiscFeature     96.301370
Alley           93.767123
Fence           80.753425
FireplaceQu     47.260274
LotFrontage     17.739726
GarageCond       5.547945
GarageType       5.547945
GarageYrBlt      5.547945
GarageFinish     5.547945
GarageQual       5.547945
BsmtExposure     2.602740
BsmtFinType2     2.602740
BsmtFinType1     2.534247
BsmtCond         2.534247
BsmtQual         2.534247
MasVnrArea       0.547945
MasVnrType       0.547945
Electrical       0.068493
Utilities        0.000000
dtype: float64

De acordo com o resultado acima, podemos ver o percentual de valores ausentes de cada variável. 

Mesmo que exista muitos valores faltantes, é necessário buscar coompreender melhor esses dados. Dessa maneira, como por exemplo podemos ver a que variável `PoolQC` referente a qualidade da piscina possui quase 100% de seus valores ausentes. No entanto, a variável `PoolArea` que está relacionada ao tamanho da piscina não possui nenhum valor ausente.

**Por que isso aconteceu?**

In [15]:
train.PoolArea.value_counts()

0      1453
738       1
648       1
576       1
555       1
519       1
512       1
480       1
Name: PoolArea, dtype: int64

In [21]:
train.loc[train.PoolArea > 0][['PoolArea', 'PoolQC']]

Unnamed: 0,PoolArea,PoolQC
197,512,Ex
810,648,Fa
1170,576,Gd
1182,555,Ex
1298,480,Gd
1386,519,Fa
1423,738,Gd


Com o resultado acima, entedemos que o valor 0 está atrelado à uma moradia que não possui piscina na variável `PoolArea` e apenas as 7 residências que possuem piscinas terão valores na variável `PoolQC`. Então, a ausência de valores muitas vezes pode ter um outro significado.