# Avaliação 2

### Questão 2
Utilizando a base de dados de preços de imóveis disponível no kaggle (https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data), apresente duas soluções de aprendizagem de máquina que consigam baixas taxas de erro médio.
* Lembre de fazer todo o pré-processamento, explicando suas decisões;
* Teste 3 variações de parâmetros dos métodos;
* Avalie os resultados usando uma métrica

#### Pré-processamento

É dado início ao pré-processamento, importando as bibliotecas necessárias e instanciando os databases forneceidos através do pandas.

É importante entender que:
* __sample__ equivale à instância do database que contém as saídas (coluna *SalePrice*) corretas para os testes
* __tr__ equivale à instância do database que contém os treinos
* __ts__ equivale à instância do database que contém os testes

Vale lembrar que o database __sample__ refere-se ao __teste__, e que o __teste__ não pertence ao __treino__. Portanto será interessante unir os dois databases futuramente.

In [None]:
import pandas as pd
import numpy as np
import statistics as st
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.preprocessing import RobustScaler
from sklearn import preprocessing, cluster, neighbors, svm, metrics, tree
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, cross_validate, cross_val_score
from sklearn.metrics import make_scorer, r2_score 
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.model_selection import StratifiedKFold

sample = pd.read_csv("data/qt2/sample_submission.csv",sep=",")
tr = pd.read_csv("data/qt2/train.csv",sep=",")
ts = pd.read_csv("data/qt2/test.csv",sep=",")

#### Avaliando a quantidade de itens em cada database

Para entender a quantidade de itens com o qual se está trabalhando, é feita uma leitura através do comando __*len()*__.

In [None]:
print("Database de treino:", len(tr),"x",len(tr.columns))
print("Database de testes:", len(ts),"x",len(ts.columns))
print("Database que contém as saídas corretas do teste:", len(sample),"x",len(sample.columns))

#### Unindo todos os databases

Para passarem pelo pré-processamento, é interessante que todos os dados estejam juntos. Desta forma o __gs__ será unido ao __sample__, que será, por sua vez, unido ao __tr__.

❗️ __Utilizaremos o termo *dfTotal* para se referir ao DataFrame completo, que inclui o teste e o treino.__ ❗️

In [None]:
dfTotal = pd.concat([tr,pd.concat([sample, ts.drop(columns=['Id'])], axis=1)])

#### Tamanho resultante total

Para conferir a quantidade total de elementos no database resultante.

In [None]:
print(len(dfTotal),"x",len(dfTotal.columns))

#### Analisando quantos itens nulos há no database

É importante conhecer quantos itens nulos existem no database para entender qual deve ser a medida adequada a se tomar mediante a quantidade de itens nulos.

In [None]:
print("-->Nulidade:")
for i in dfTotal.columns:
    print(i,"\t:",dfTotal[i].isnull().sum())

⚠️ __Houve muitas tabelas com valores nulos, vale nesta ocasião mostrar uma listagem para tornar o trabalho aqui desenvolvido o mais didático possível.__ ⚠️

In [None]:
amount = 0
for i in dfTotal.columns:
    if(dfTotal[i].isnull().sum()>0): 
        amount += 1
        print(i,"\t:",dfTotal[i].isnull().sum())
print("Quantidade total de tabelas que apresentaram valores nulos:",amount)

⚠️ __34 colunas apresentaram valores nulos. A essa altura é importante tratar de cada uma individualmente.__ ⚠️

#### Tratando as nulidades

Algumas colunas apresentaram uma quantidade muito alta de valores nulos. Entendeu-se, desta forma, como mais adequada a decisão de apagar essas colunas, uma vez que média, desvio padrão ou moda são valores que perdem significado dada uma quantidade tão alta de valores nulos. Sendo assim, __as colunas__:

* __MiscFeature__ (com 96% dos valores nulos)
* __PoolQC__ (com 99% dos valores nulos)
* __Fence__ (com 80% dos valores nulos)
* __FireplaceQu__ (com 48% dos valores nulos)
* __Alley__ (com 93% dos valores nulos)

__serão excluídas__.

As colunas que apresentam uma quantidade desprezível de dados faltantes:

* __MSZoning__
* __Utilities__
* __Exterior1st__
* __Exterior2nd__
* __BsmtFinSF1__
* __BsmtFinSF2__
* __BsmtUnfSF__
* __TotalBsmtSF__
* __Electrical__
* __BsmtFullBath__
* __BsmtHalfBath__
* __KitchenQual__
* __Functional__
* __GarageCars__
* __GarageArea__ 
* __SaleType__

__terão as linhas que apresenta esses dados faltantes excluídas__.

As demais colunas __serão preenchidas com a mediana (no caso de colunas numéricas) ou moda (no caso de colunas qualitativas) dos valores faltantes na devida coluna__:

* __LotFrontage__
* __MasVnrType__
* __MasVnrArea__
* __BsmtQual__
* __BsmtCond__
* __BsmtExposure__
* __BsmtFinType1__
* __BsmtFinType2__
* __GarageType__
* __GarageYrBlt__
* __GarageFinish__
* __GarageQual__
* __GarageCond__

##### Tratando colunas com alta quantidade de valores nulos

In [None]:
dfTotal = dfTotal.drop(columns=['MiscFeature','PoolQC','Fence','FireplaceQu','Alley'])
print(len(dfTotal),"x",len(dfTotal.columns))

##### Tratando colunas com quantidade ínfima de valores nulos

In [None]:
dfTotal = dfTotal.dropna(subset=['MSZoning','Utilities','Exterior1st','Exterior2nd','BsmtFinSF1','BsmtFinSF2','BsmtUnfSF','TotalBsmtSF','Electrical','BsmtFullBath','BsmtHalfBath','KitchenQual','Functional','GarageCars','GarageArea','SaleType'])
print(len(dfTotal),"x",len(dfTotal.columns))

##### Tratando demais colunas

In [None]:
dfTotal.fillna(dfTotal['LotFrontage'].median(),inplace=True)
print("LotFrontage\t:",dfTotal['LotFrontage'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['MasVnrType'].mode(),inplace=True)
print("MasVnrType\t:",dfTotal['MasVnrType'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['MasVnrArea'].median(),inplace=True)
print("MasVnrArea\t:",dfTotal['MasVnrArea'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['BsmtQual'].mode(),inplace=True)
print("BsmtQual\t:",dfTotal['BsmtQual'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['BsmtCond'].mode(),inplace=True)
print("BsmtCond\t:",dfTotal['BsmtCond'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['BsmtExposure'].mode(),inplace=True)
print("BsmtExposure\t:",dfTotal['BsmtExposure'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['BsmtFinType1'].mode(),inplace=True)
print("BsmtFinType1\t:",dfTotal['BsmtFinType1'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['BsmtFinType2'].mode(),inplace=True)
print("BsmtFinType2\t:",dfTotal['BsmtFinType2'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['GarageType'].mode(),inplace=True)
print("GarageType\t:",dfTotal['GarageType'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['GarageYrBlt'].median(),inplace=True)
print("GarageYrBlt\t:",dfTotal['GarageYrBlt'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['GarageFinish'].mode(),inplace=True)
print("GarageFinish\t:",dfTotal['GarageFinish'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['GarageQual'].mode(),inplace=True)
print("GarageQual\t:",dfTotal['GarageQual'].isnull().sum())

In [None]:
dfTotal.fillna(dfTotal['GarageCond'].mode(),inplace=True)
print("GarageCond\t:",dfTotal['GarageCond'].isnull().sum())

In [None]:
print(len(dfTotal),"x",len(dfTotal.columns))

#### Conferindo quantidade de itens nulos no database

In [None]:
dfTotal.isnull().sum().sum()

✅ __Foi feita com sucesso a limpeza de valores nulos nas tabelas.__ ✅

❗️ __Entretanto é necessário um cuidado. Há muitas colunas, entretanto, com valores qualitativos. Muito embora essas colunas qualitativas não apresentem valores nulos após a limpeza, podem conter células que apresentem conteúdo que representam o "vazio", que deve ser realizada a interpretação se esse "vazio" é proposital com a lógica do database ou se é tem o mesmo significado lógico que um nulo. Para isso, como será feito adiante, será analizado adiante quais tabelas são qualitativas e se possuem valores que representam o "vazio" supracitado.__ ❗️

#### Analizando e tratando dados qualitativos

É importante, agora, fazer uma minuciosa análise nas colunas qualitativas. Os passos serão os seguintes:

* Analisar quais são as colunas qualitativas
* Individualmente analisar se todos os seus dados (através do comando *groupby*) são consistentes ou há valores que podem ser considerados nulos

Feito isso, é também interessante converter as classificações dessas colunas em valores numéricos, com o uso da função *replace* do python. Sendo assim, com todos os dados numéricos, será possível, de maneira mais natural, o uso de diferentes métodos de IA.

In [None]:
print("Colunas qualitativas: ")
amount = 0
for i in dfTotal.columns:
    if(dfTotal.dtypes[i]=='object'):
        amount += 1
        print(amount,"-\t",i)

##### Tratando MSZoning

In [None]:
dfTotal.groupby(['MSZoning']).count()

✅ __A coluna *MSZoning* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __C (all)__ será substituído por 0
* __FV__ será substituído por 1
* __RH__ será substituído por 2
* __RL__ será substituído por 3
* __RM__ será substituído por 4

In [None]:
dfTotal['MSZoning'] = dfTotal['MSZoning'].replace('C (all)',0)
dfTotal['MSZoning'] = dfTotal['MSZoning'].replace('FV',1)
dfTotal['MSZoning'] = dfTotal['MSZoning'].replace('RH',2)
dfTotal['MSZoning'] = dfTotal['MSZoning'].replace('RL',3)
dfTotal['MSZoning'] = dfTotal['MSZoning'].replace('RM',4)

dfTotal.groupby(['MSZoning']).count()

##### Tratando Street

In [None]:
dfTotal.groupby(['Street']).count()

✅ __A coluna *Street* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Grvl__ será substituído por 0
* __Pave__ será substituído por 1

In [None]:
dfTotal['Street'] = dfTotal['Street'].replace('Grvl',0)
dfTotal['Street'] = dfTotal['Street'].replace('Pave',1)

dfTotal.groupby(['Street']).count()

##### Tratando LotShape

In [None]:
dfTotal.groupby(['LotShape']).count()

✅ __A coluna *LotShape* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __IR1__ será substituído por 0
* __IR2__ será substituído por 1
* __IR3__ será substituído por 2
* __Reg__ será substituído por 3

In [None]:
dfTotal['LotShape'] = dfTotal['LotShape'].replace('IR1',0)
dfTotal['LotShape'] = dfTotal['LotShape'].replace('IR2',1)
dfTotal['LotShape'] = dfTotal['LotShape'].replace('IR3',2)
dfTotal['LotShape'] = dfTotal['LotShape'].replace('Reg',3)

dfTotal.groupby(['LotShape']).count()

##### Tratando LandContour

In [None]:
dfTotal.groupby(['LandContour']).count()

✅ __A coluna *LandContour* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Bnk__ será substituído por 0
* __HLS__ será substituído por 1
* __Low__ será substituído por 2
* __Lvl__ será substituído por 3

In [None]:
dfTotal['LandContour'] = dfTotal['LandContour'].replace('Bnk',0)
dfTotal['LandContour'] = dfTotal['LandContour'].replace('HLS',1)
dfTotal['LandContour'] = dfTotal['LandContour'].replace('Low',2)
dfTotal['LandContour'] = dfTotal['LandContour'].replace('Lvl',3)

dfTotal.groupby(['LandContour']).count()

##### Tratando Utilities

In [None]:
dfTotal.groupby(['Utilities']).count()

✅ __A coluna *Utilities* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __AllPub__ será substituído por 0
* __NoSeWa__ será substituído por 1

In [None]:
dfTotal['Utilities'] = dfTotal['Utilities'].replace('AllPub',0)
dfTotal['Utilities'] = dfTotal['Utilities'].replace('NoSeWa',1)

dfTotal.groupby(['Utilities']).count()

##### Tratando LotConfig

In [None]:
dfTotal.groupby(['LotConfig']).count()

✅ __A coluna *LotConfig* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Corner__ será substituído por 0
* __CulDSac__ será substituído por 1
* __FR2__ será substituído por 2
* __FR3__ será substituído por 3
* __Inside__ será substituído por 4

In [None]:
dfTotal['LotConfig'] = dfTotal['LotConfig'].replace('Corner',0)
dfTotal['LotConfig'] = dfTotal['LotConfig'].replace('CulDSac',1)
dfTotal['LotConfig'] = dfTotal['LotConfig'].replace('FR2',2)
dfTotal['LotConfig'] = dfTotal['LotConfig'].replace('FR3',3)
dfTotal['LotConfig'] = dfTotal['LotConfig'].replace('Inside',4)

dfTotal.groupby(['LotConfig']).count()

##### Tratando LandSlope

In [None]:
dfTotal.groupby(['LandSlope']).count()

✅ __A coluna *LandSlope* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Gtl__ será substituído por 0
* __Mod__ será substituído por 1
* __Sev__ será substituído por 2

In [None]:
dfTotal['LandSlope'] = dfTotal['LandSlope'].replace('Gtl',0)
dfTotal['LandSlope'] = dfTotal['LandSlope'].replace('Mod',1)
dfTotal['LandSlope'] = dfTotal['LandSlope'].replace('Sev',2)

dfTotal.groupby(['LandSlope']).count()

##### Tratando Neighborhood

In [None]:
dfTotal.groupby(['Neighborhood']).count()

✅ __A coluna *Neighborhood* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Blmngtn__ será substituído por 0
* __Blueste__ será substituído por 1
* __BrDale__ será substituído por 2
* __BrkSide__ será substituído por 3
* __ClearCr__ será substituído por 4
* __CollgCr__ será substituído por 5
* __Crawfor__ será substituído por 6
* __Edwards__ será substituído por 7
* __Gilbert__ será substituído por 8
* __IDOTRR__ será substituído por 9
* __MeadowV__ será substituído por 10
* __Mitchel__ será substituído por 11
* __NAmes__ será substituído por 12
* __NPkVill__ será substituído por 13
* __NWAmes__ será substituído por 14
* __NoRidge__ será substituído por 15
* __NridgHt__ será substituído por 16
* __OldTown__ será substituído por 17
* __SWISU__ será substituído por 18
* __Sawyer__ será substituído por 19
* __SawyerW__ será substituído por 20
* __Somerst__ será substituído por 21
* __StoneBr__ será substituído por 22
* __Timber__ será substituído por 23
* __Veenker__ será substituído por 24

In [None]:
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Blmngtn',0)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Blueste',1)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('BrDale',2)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('BrkSide',3)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('ClearCr',4)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('CollgCr',5)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Crawfor',6)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Edwards',7)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Gilbert',8)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('IDOTRR',9)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('MeadowV',10)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Mitchel',11)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('NAmes',12)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('NPkVill',13)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('NWAmes',14)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('NoRidge',15)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('NridgHt',16)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('OldTown',17)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('SWISU',18)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Sawyer',19)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('SawyerW',20)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Somerst',21)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('StoneBr',22)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Timber',23)
dfTotal['Neighborhood'] = dfTotal['Neighborhood'].replace('Veenker',24)

dfTotal.groupby(['Neighborhood']).count()

##### Tratando Condition1

In [None]:
dfTotal.groupby(['Condition1']).count()

✅ __A coluna *Condition1* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Artery__ será substituído por 0
* __Feedr__ será substituído por 1
* __Norm__ será substituído por 2
* __PosA__ será substituído por 3
* __PosN__ será substituído por 4
* __RRAe__ será substituído por 5
* __RRAn__ será substituído por 6
* __RRNe__ será substituído por 7
* __RRNn__ será substituído por 8

In [None]:
dfTotal['Condition1'] = dfTotal['Condition1'].replace('Artery',0)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('Feedr',1)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('Norm',2)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('PosA',3)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('PosN',4)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('RRAe',5)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('RRAn',6)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('RRNe',7)
dfTotal['Condition1'] = dfTotal['Condition1'].replace('RRNn',8)

dfTotal.groupby(['Condition1']).count()

##### Tratando Condition2

In [None]:
dfTotal.groupby(['Condition2']).count()

✅ __A coluna *Condition2* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Artery__ será substituído por 0
* __Feedr__ será substituído por 1
* __Norm__ será substituído por 2
* __PosA__ será substituído por 3
* __PosN__ será substituído por 4
* __RRAe__ será substituído por 5
* __RRAn__ será substituído por 6
* __RRNn__ será substituído por 7

In [None]:
dfTotal['Condition2'] = dfTotal['Condition2'].replace('Artery',0)
dfTotal['Condition2'] = dfTotal['Condition2'].replace('Feedr',1)
dfTotal['Condition2'] = dfTotal['Condition2'].replace('Norm',2)
dfTotal['Condition2'] = dfTotal['Condition2'].replace('PosA',3)
dfTotal['Condition2'] = dfTotal['Condition2'].replace('PosN',4)
dfTotal['Condition2'] = dfTotal['Condition2'].replace('RRAe',5)
dfTotal['Condition2'] = dfTotal['Condition2'].replace('RRAn',6)
dfTotal['Condition2'] = dfTotal['Condition2'].replace('RRNn',7)

dfTotal.groupby(['Condition2']).count()

##### Tratando BldgType

In [None]:
dfTotal.groupby(['BldgType']).count()

✅ __A coluna *BldgType* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __1Fam__ será substituído por 0
* __2fmCon__ será substituído por 1
* __Duplex__ será substituído por 2
* __Twnhs__ será substituído por 3
* __TwnhsE__ será substituído por 4

In [None]:
dfTotal['BldgType'] = dfTotal['BldgType'].replace('1Fam',0)
dfTotal['BldgType'] = dfTotal['BldgType'].replace('2fmCon',1)
dfTotal['BldgType'] = dfTotal['BldgType'].replace('Duplex',2)
dfTotal['BldgType'] = dfTotal['BldgType'].replace('Twnhs',3)
dfTotal['BldgType'] = dfTotal['BldgType'].replace('TwnhsE',4)

dfTotal.groupby(['BldgType']).count()

##### Tratando HouseStyle

In [None]:
dfTotal.groupby(['HouseStyle']).count()

✅ __A coluna *HouseStyle* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __1.5Fin__ será substituído por 0
* __1.5Unf__ será substituído por 1
* __1Story__ será substituído por 2
* __2.5Fin__ será substituído por 3
* __2.5Unf__ será substituído por 4
* __2Story__ será substituído por 5
* __SFoyer__ será substituído por 6
* __SLvl__ será substituído por 7

In [None]:
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('1.5Fin',0)
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('1.5Unf',1)
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('1Story',2)
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('2.5Fin',3)
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('2.5Unf',4)
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('2Story',5)
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('SFoyer',6)
dfTotal['HouseStyle'] = dfTotal['HouseStyle'].replace('SLvl',7)

dfTotal.groupby(['HouseStyle']).count()

##### Tratando RoofStyle

In [None]:
dfTotal.groupby(['RoofStyle']).count()

✅ __A coluna *RoofStyle* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Flat__ será substituído por 0
* __Gable__ será substituído por 1
* __Gambrel__ será substituído por 2
* __Hip__ será substituído por 3
* __Mansard__ será substituído por 4
* __Shed__ será substituído por 5

In [None]:
dfTotal['RoofStyle'] = dfTotal['RoofStyle'].replace('Flat',0)
dfTotal['RoofStyle'] = dfTotal['RoofStyle'].replace('Gable',1)
dfTotal['RoofStyle'] = dfTotal['RoofStyle'].replace('Gambrel',2)
dfTotal['RoofStyle'] = dfTotal['RoofStyle'].replace('Hip',3)
dfTotal['RoofStyle'] = dfTotal['RoofStyle'].replace('Mansard',4)
dfTotal['RoofStyle'] = dfTotal['RoofStyle'].replace('Shed',5)

dfTotal.groupby(['RoofStyle']).count()

##### Tratando RoofMatl

In [None]:
dfTotal.groupby(['RoofMatl']).count()

✅ __A coluna *RoofMatl* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __ClyTile__ será substituído por 0
* __CompShp__ será substituído por 1
* __Membran__ será substituído por 2
* __Metal__ será substituído por 3
* __Roll__ será substituído por 4
* __Tar&Grv__ será substituído por 5
* __WdShake__ será substituído por 6
* __WdShngl__ será substituído por 7

In [None]:
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('ClyTile',0)
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('CompShp',1)
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('Membran',2)
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('Metal',3)
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('Roll',4)
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('Tar&Grv',5)
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('WdShake',6)
dfTotal['RoofMatl'] = dfTotal['RoofMatl'].replace('WdShngl',7)

dfTotal.groupby(['RoofMatl']).count()

##### Tratando Exterior1st

In [None]:
dfTotal.groupby(['Exterior1st']).count()

✅ __A coluna *Exterior1st* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __AsbShng__ será substituído por 0
* __AsphShn__ será substituído por 1
* __BrkComm__ será substituído por 2
* __BrkFace__ será substituído por 3
* __CBlock__ será substituído por 4
* __CemntBd__ será substituído por 5
* __HdBoard__ será substituído por 6
* __ImStucc__ será substituído por 7
* __MetalSd__ será substituído por 8
* __Plywood__ será substituído por 9
* __Stone__ será substituído por 10
* __Stucco__ será substituído por 11
* __VinylSd__ será substituído por 12
* __Wd Sdng__ será substituído por 13
* __WdShing__ será substituído por 14

In [None]:
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('AsbShng',0)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('AsphShn',1)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('BrkComm',2)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('BrkFace',3)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('CBlock',4)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('CemntBd',5)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('HdBoard',6)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('ImStucc',7)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('MetalSd',8)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('Plywood',9)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('Stone',10)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('Stucco',11)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('VinylSd',12)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('Wd Sdng',13)
dfTotal['Exterior1st'] = dfTotal['Exterior1st'].replace('WdShing',14)

dfTotal.groupby(['Exterior1st']).count()

##### Tratando Exterior2nd

In [None]:
dfTotal.groupby(['Exterior2nd']).count()

✅ __A coluna *Exterior2nd* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __AsbShng__ será substituído por 0
* __AsphShn__ será substituído por 1
* __Brk Cmn__ será substituído por 2
* __BrkFace__ será substituído por 3
* __CBlock__ será substituído por 4
* __CmentBd__ será substituído por 5
* __HdBoard__ será substituído por 6
* __ImStucc__ será substituído por 7
* __MetalSd__ será substituído por 8
* __Plywood__ será substituído por 9
* __Stone__ será substituído por 10
* __Stucco__ será substituído por 11
* __VinylSd__ será substituído por 12
* __Wd Sdng__ será substituído por 13
* __Wd Shng__ será substituído por 14
* __Other__ será substituído por 15

In [None]:
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('AsbShng',0)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('AsphShn',1)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('Brk Cmn',2)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('BrkFace',3)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('CBlock',4)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('CmentBd',5)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('HdBoard',6)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('ImStucc',7)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('MetalSd',8)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('Plywood',9)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('Stone',10)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('Stucco',11)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('VinylSd',12)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('Wd Sdng',13)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('Wd Shng',14)
dfTotal['Exterior2nd'] = dfTotal['Exterior2nd'].replace('Other',15)

dfTotal.groupby(['Exterior2nd']).count()

##### Tratando MasVnrType

In [None]:
dfTotal.groupby(['MasVnrType']).count()

✅ __A coluna *MasVnrType* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

❗️ __Vale lembrar que a coluna *None* é prevista no database e tem um significado, logo ela não deve ser tratada como nula.__ ❗️ 

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __BrkCmn__ será substituído por 1
* __BrkFace__ será substituído por 2
* __None__ será substituído por 3
* __Stone__ será substituído por 4

In [None]:
dfTotal['MasVnrType'] = dfTotal['MasVnrType'].replace(68.0,0)
dfTotal['MasVnrType'] = dfTotal['MasVnrType'].replace('BrkCmn',1)
dfTotal['MasVnrType'] = dfTotal['MasVnrType'].replace('BrkFace',2)
dfTotal['MasVnrType'] = dfTotal['MasVnrType'].replace('None',3)
dfTotal['MasVnrType'] = dfTotal['MasVnrType'].replace('Stone',4)

dfTotal.groupby(['MasVnrType']).count()

##### Tratando ExterQual

In [None]:
dfTotal.groupby(['ExterQual']).count()

✅ __A coluna *ExterQual* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Ex__ será substituído por 0
* __Fa__ será substituído por 1
* __Gd__ será substituído por 2
* __TA__ será substituído por 3

In [None]:
dfTotal['ExterQual'] = dfTotal['ExterQual'].replace('Ex',0)
dfTotal['ExterQual'] = dfTotal['ExterQual'].replace('Fa',1)
dfTotal['ExterQual'] = dfTotal['ExterQual'].replace('Gd',2)
dfTotal['ExterQual'] = dfTotal['ExterQual'].replace('TA',3)

dfTotal.groupby(['ExterQual']).count()

##### Tratando ExterCond

In [None]:
dfTotal.groupby(['ExterCond']).count()

✅ __A coluna *ExterCond* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Ex__ será substituído por 0
* __Fa__ será substituído por 1
* __Gd__ será substituído por 2
* __TA__ será substituído por 3
* __Po__ será substituído por 4

In [None]:
dfTotal['ExterCond'] = dfTotal['ExterCond'].replace('Ex',0)
dfTotal['ExterCond'] = dfTotal['ExterCond'].replace('Fa',1)
dfTotal['ExterCond'] = dfTotal['ExterCond'].replace('Gd',2)
dfTotal['ExterCond'] = dfTotal['ExterCond'].replace('TA',3)
dfTotal['ExterCond'] = dfTotal['ExterCond'].replace('Po',4)

dfTotal.groupby(['ExterCond']).count()

##### Tratando Foundation

In [None]:
dfTotal.groupby(['Foundation']).count()

✅ __A coluna *ExterCond* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __BrkTil__ será substituído por 0
* __CBlock__ será substituído por 1
* __PConc__ será substituído por 2
* __Slab__ será substituído por 3
* __Stone__ será substituído por 4
* __Wood__ será substituído por 5

In [None]:
dfTotal['Foundation'] = dfTotal['Foundation'].replace('BrkTil',0)
dfTotal['Foundation'] = dfTotal['Foundation'].replace('CBlock',1)
dfTotal['Foundation'] = dfTotal['Foundation'].replace('PConc',2)
dfTotal['Foundation'] = dfTotal['Foundation'].replace('Slab',3)
dfTotal['Foundation'] = dfTotal['Foundation'].replace('Stone',4)
dfTotal['Foundation'] = dfTotal['Foundation'].replace('Wood',5)

dfTotal.groupby(['Foundation']).count()

##### Tratando BsmtQual

In [None]:
dfTotal.groupby(['BsmtQual']).count()

✅ __A coluna *BsmtQual* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __Ex__ será substituído por 1
* __Fa__ será substituído por 2
* __Gd__ será substituído por 3
* __TA__ será substituído por 4

In [None]:
dfTotal['BsmtQual'] = dfTotal['BsmtQual'].replace(68.0,0)
dfTotal['BsmtQual'] = dfTotal['BsmtQual'].replace('Ex',1)
dfTotal['BsmtQual'] = dfTotal['BsmtQual'].replace('Fa',2)
dfTotal['BsmtQual'] = dfTotal['BsmtQual'].replace('Gd',3)
dfTotal['BsmtQual'] = dfTotal['BsmtQual'].replace('TA',4)

dfTotal.groupby(['BsmtQual']).count()

##### Tratando BsmtCond

In [None]:
dfTotal.groupby(['BsmtCond']).count()

✅ __A coluna *BsmtCond* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __Fa__ será substituído por 1
* __Gd__ será substituído por 2
* __Po__ será substituído por 3
* __TA__ será substituído por 4

In [None]:
dfTotal['BsmtCond'] = dfTotal['BsmtCond'].replace(68.0,0)
dfTotal['BsmtCond'] = dfTotal['BsmtCond'].replace('Fa',1)
dfTotal['BsmtCond'] = dfTotal['BsmtCond'].replace('Gd',2)
dfTotal['BsmtCond'] = dfTotal['BsmtCond'].replace('Po',3)
dfTotal['BsmtCond'] = dfTotal['BsmtCond'].replace('TA',4)

dfTotal.groupby(['BsmtCond']).count()

##### Tratando BsmtExposure

In [None]:
dfTotal.groupby(['BsmtExposure']).count()

✅ __A coluna *BsmtExposure* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __Av__ será substituído por 1
* __Gd__ será substituído por 2
* __Mn__ será substituído por 3
* __No__ será substituído por 4

In [None]:
dfTotal['BsmtExposure'] = dfTotal['BsmtExposure'].replace(68.0,0)
dfTotal['BsmtExposure'] = dfTotal['BsmtExposure'].replace('Av',1)
dfTotal['BsmtExposure'] = dfTotal['BsmtExposure'].replace('Gd',2)
dfTotal['BsmtExposure'] = dfTotal['BsmtExposure'].replace('Mn',3)
dfTotal['BsmtExposure'] = dfTotal['BsmtExposure'].replace('No',4)

dfTotal.groupby(['BsmtExposure']).count()

##### Tratando BsmtFinType1

In [None]:
dfTotal.groupby(['BsmtFinType1']).count()

✅ __A coluna *BsmtFinType1* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __ALQ__ será substituído por 1
* __BLQ__ será substituído por 2
* __GLQ__ será substituído por 3
* __LwQ__ será substituído por 4
* __Rec__ será substituído por 5
* __Unf__ será substituído por 6

In [None]:
dfTotal['BsmtFinType1'] = dfTotal['BsmtFinType1'].replace(68.0,0)
dfTotal['BsmtFinType1'] = dfTotal['BsmtFinType1'].replace('ALQ',1)
dfTotal['BsmtFinType1'] = dfTotal['BsmtFinType1'].replace('BLQ',2)
dfTotal['BsmtFinType1'] = dfTotal['BsmtFinType1'].replace('GLQ',3)
dfTotal['BsmtFinType1'] = dfTotal['BsmtFinType1'].replace('LwQ',4)
dfTotal['BsmtFinType1'] = dfTotal['BsmtFinType1'].replace('Rec',5)
dfTotal['BsmtFinType1'] = dfTotal['BsmtFinType1'].replace('Unf',6)

dfTotal.groupby(['BsmtFinType1']).count()

##### Tratando BsmtFinType2

In [None]:
dfTotal.groupby(['BsmtFinType2']).count()

✅ __A coluna *BsmtFinType2* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __ALQ__ será substituído por 1
* __BLQ__ será substituído por 2
* __GLQ__ será substituído por 3
* __LwQ__ será substituído por 4
* __Rec__ será substituído por 5
* __Unf__ será substituído por 6

In [None]:
dfTotal['BsmtFinType2'] = dfTotal['BsmtFinType2'].replace(68.0,0)
dfTotal['BsmtFinType2'] = dfTotal['BsmtFinType2'].replace('ALQ',1)
dfTotal['BsmtFinType2'] = dfTotal['BsmtFinType2'].replace('BLQ',2)
dfTotal['BsmtFinType2'] = dfTotal['BsmtFinType2'].replace('GLQ',3)
dfTotal['BsmtFinType2'] = dfTotal['BsmtFinType2'].replace('LwQ',4)
dfTotal['BsmtFinType2'] = dfTotal['BsmtFinType2'].replace('Rec',5)
dfTotal['BsmtFinType2'] = dfTotal['BsmtFinType2'].replace('Unf',6)

dfTotal.groupby(['BsmtFinType2']).count()

##### Tratando Heating

In [None]:
dfTotal.groupby(['Heating']).count()

✅ __A coluna *Heating* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Floor__ será substituído por 0
* __GasA__ será substituído por 1
* __GasW__ será substituído por 2
* __Grav__ será substituído por 3
* __OthW__ será substituído por 4
* __Wall__ será substituído por 5

In [None]:
dfTotal['Heating'] = dfTotal['Heating'].replace('Floor',0)
dfTotal['Heating'] = dfTotal['Heating'].replace('GasA',1)
dfTotal['Heating'] = dfTotal['Heating'].replace('GasW',2)
dfTotal['Heating'] = dfTotal['Heating'].replace('Grav',3)
dfTotal['Heating'] = dfTotal['Heating'].replace('OthW',4)
dfTotal['Heating'] = dfTotal['Heating'].replace('Wall',5)

dfTotal.groupby(['Heating']).count()

##### Tratando HeatingQC

In [None]:
dfTotal.groupby(['HeatingQC']).count()

✅ __A coluna *HeatingQC* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Ex__ será substituído por 0
* __Fa__ será substituído por 1
* __Gd__ será substituído por 2
* __Po__ será substituído por 3
* __TA__ será substituído por 4

In [None]:
dfTotal['HeatingQC'] = dfTotal['HeatingQC'].replace('Ex',0)
dfTotal['HeatingQC'] = dfTotal['HeatingQC'].replace('Fa',1)
dfTotal['HeatingQC'] = dfTotal['HeatingQC'].replace('Gd',2)
dfTotal['HeatingQC'] = dfTotal['HeatingQC'].replace('Po',3)
dfTotal['HeatingQC'] = dfTotal['HeatingQC'].replace('TA',4)

dfTotal.groupby(['HeatingQC']).count()

##### Tratando CentralAir

In [None]:
dfTotal.groupby(['CentralAir']).count()

✅ __A coluna *CentralAir* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __N__ será substituído por 0
* __Y__ será substituído por 1

In [None]:
dfTotal['CentralAir'] = dfTotal['CentralAir'].replace('N',0)
dfTotal['CentralAir'] = dfTotal['CentralAir'].replace('Y',1)

dfTotal.groupby(['CentralAir']).count()

##### Tratando Electrical

In [None]:
dfTotal.groupby(['Electrical']).count()

✅ __A coluna *Electrical* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __FuseA__ será substituído por 0
* __FuseF__ será substituído por 1
* __FuseP__ será substituído por 2
* __Mix__ será substituído por 3
* __SBrkr__ será substituído por 4

In [None]:
dfTotal['Electrical'] = dfTotal['Electrical'].replace('FuseA',0)
dfTotal['Electrical'] = dfTotal['Electrical'].replace('FuseF',1)
dfTotal['Electrical'] = dfTotal['Electrical'].replace('FuseP',2)
dfTotal['Electrical'] = dfTotal['Electrical'].replace('Mix',3)
dfTotal['Electrical'] = dfTotal['Electrical'].replace('SBrkr',4)

dfTotal.groupby(['Electrical']).count()

##### Tratando KitchenQual

In [None]:
dfTotal.groupby(['KitchenQual']).count()

✅ __A coluna *KitchenQual* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Ex__ será substituído por 0
* __Fa__ será substituído por 1
* __Gd__ será substituído por 2
* __TA__ será substituído por 3

In [None]:
dfTotal['KitchenQual'] = dfTotal['KitchenQual'].replace('Ex',0)
dfTotal['KitchenQual'] = dfTotal['KitchenQual'].replace('Fa',1)
dfTotal['KitchenQual'] = dfTotal['KitchenQual'].replace('Gd',2)
dfTotal['KitchenQual'] = dfTotal['KitchenQual'].replace('TA',3)

dfTotal.groupby(['KitchenQual']).count()

##### Tratando Functional

In [None]:
dfTotal.groupby(['Functional']).count()

✅ __A coluna *Functional* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __Maj1__ será substituído por 0
* __Maj2__ será substituído por 1
* __Min1__ será substituído por 2
* __Min2__ será substituído por 3
* __Mod__ será substituído por 4
* __Sev__ será substituído por 5
* __Typ__ será substituído por 6

In [None]:
dfTotal['Functional'] = dfTotal['Functional'].replace('Maj1',0)
dfTotal['Functional'] = dfTotal['Functional'].replace('Maj2',1)
dfTotal['Functional'] = dfTotal['Functional'].replace('Min1',2)
dfTotal['Functional'] = dfTotal['Functional'].replace('Min2',3)
dfTotal['Functional'] = dfTotal['Functional'].replace('Mod',4)
dfTotal['Functional'] = dfTotal['Functional'].replace('Sev',5)
dfTotal['Functional'] = dfTotal['Functional'].replace('Typ',6)

dfTotal.groupby(['Functional']).count()

##### Tratando GarageType

In [None]:
dfTotal.groupby(['GarageType']).count()

✅ __A coluna *GarageType* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __2Types__ será substituído por 1
* __Attchd__ será substituído por 2
* __Basment__ será substituído por 3
* __Builtln__ será substituído por 4
* __CarPort__ será substituído por 5
* __Detchd__ será substituído por 6

In [None]:
dfTotal['GarageType'] = dfTotal['GarageType'].replace(68.0,0)
dfTotal['GarageType'] = dfTotal['GarageType'].replace('2Types',1)
dfTotal['GarageType'] = dfTotal['GarageType'].replace('Attchd',2)
dfTotal['GarageType'] = dfTotal['GarageType'].replace('Basment',3)
dfTotal['GarageType'] = dfTotal['GarageType'].replace('BuiltIn',4)
dfTotal['GarageType'] = dfTotal['GarageType'].replace('CarPort',5)
dfTotal['GarageType'] = dfTotal['GarageType'].replace('Detchd',6)

dfTotal.groupby(['GarageType']).count()

##### Tratando GarageFinish

In [None]:
dfTotal.groupby(['GarageFinish']).count()

✅ __A coluna *GarageFinish* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __Fin__ será substituído por 1
* __RFn__ será substituído por 2
* __Unf__ será substituído por 3

In [None]:
dfTotal['GarageFinish'] = dfTotal['GarageFinish'].replace(68.0,0)
dfTotal['GarageFinish'] = dfTotal['GarageFinish'].replace('Fin',1)
dfTotal['GarageFinish'] = dfTotal['GarageFinish'].replace('RFn',2)
dfTotal['GarageFinish'] = dfTotal['GarageFinish'].replace('Unf',3)

dfTotal.groupby(['GarageFinish']).count()

##### Tratando GarageQual

In [None]:
dfTotal.groupby(['GarageQual']).count()

✅ __A coluna *GarageQual* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __Ex__ será substituído por 1
* __Fa__ será substituído por 2
* __Gd__ será substituído por 3
* __Po__ será substituído por 4
* __TA__ será substituído por 5

In [None]:
dfTotal['GarageQual'] = dfTotal['GarageQual'].replace(68.0,0)
dfTotal['GarageQual'] = dfTotal['GarageQual'].replace('Ex',1)
dfTotal['GarageQual'] = dfTotal['GarageQual'].replace('Fa',2)
dfTotal['GarageQual'] = dfTotal['GarageQual'].replace('Gd',3)
dfTotal['GarageQual'] = dfTotal['GarageQual'].replace('Po',4)
dfTotal['GarageQual'] = dfTotal['GarageQual'].replace('TA',5)

dfTotal.groupby(['GarageQual']).count()

##### Tratando GarageCond

In [None]:
dfTotal.groupby(['GarageCond']).count()

✅ __A coluna *GarageCond* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __68.0__ será substituído por 0
* __Ex__ será substituído por 1
* __Fa__ será substituído por 2
* __Gd__ será substituído por 3
* __Po__ será substituído por 4
* __TA__ será substituído por 5

In [None]:
dfTotal['GarageCond'] = dfTotal['GarageCond'].replace(68.0,0)
dfTotal['GarageCond'] = dfTotal['GarageCond'].replace('Ex',1)
dfTotal['GarageCond'] = dfTotal['GarageCond'].replace('Fa',2)
dfTotal['GarageCond'] = dfTotal['GarageCond'].replace('Gd',3)
dfTotal['GarageCond'] = dfTotal['GarageCond'].replace('Po',4)
dfTotal['GarageCond'] = dfTotal['GarageCond'].replace('TA',5)

dfTotal.groupby(['GarageCond']).count()

##### Tratando PavedDrive

In [None]:
dfTotal.groupby(['PavedDrive']).count()

✅ __A coluna *PavedDrive* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __N__ será substituído por 0
* __P__ será substituído por 1
* __Y__ será substituído por 2

In [None]:
dfTotal['PavedDrive'] = dfTotal['PavedDrive'].replace('N',0)
dfTotal['PavedDrive'] = dfTotal['PavedDrive'].replace('P',1)
dfTotal['PavedDrive'] = dfTotal['PavedDrive'].replace('Y',2)

dfTotal.groupby(['PavedDrive']).count()

##### Tratando SaleType

In [None]:
dfTotal.groupby(['SaleType']).count()

✅ __A coluna *SaleType* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __COD__ será substituído por 0
* __CWD__ será substituído por 1
* __Con__ será substituído por 2
* __ConLD__ será substituído por 3
* __ConLI__ será substituído por 4
* __ConLw__ será substituído por 5
* __New__ será substituído por 6
* __Oth__ será substituído por 7
* __WD__ será substituído por 8

In [None]:
dfTotal['SaleType'] = dfTotal['SaleType'].replace('COD',0)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('CWD',1)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('Con',2)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('ConLD',3)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('ConLI',4)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('ConLw',5)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('New',6)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('Oth',7)
dfTotal['SaleType'] = dfTotal['SaleType'].replace('WD',8)

dfTotal.groupby(['SaleType']).count()

##### Tratando SaleCondition

In [None]:
dfTotal.groupby(['SaleCondition']).count()

✅ __A coluna *SaleCondition* não apresenta nenhum dado que possa ser considerado inconsistente.__ ✅

Para converter todos os seus valores para inteiros, será feito o seguinte:

* __AbnormI__ será substituído por 0
* __AdjLand__ será substituído por 1
* __Alloc__ será substituído por 2
* __Family__ será substituído por 3
* __Normal__ será substituído por 4
* __Partial__ será substituído por 5

In [None]:
dfTotal['SaleCondition'] = dfTotal['SaleCondition'].replace('Abnorml',0)
dfTotal['SaleCondition'] = dfTotal['SaleCondition'].replace('AdjLand',1)
dfTotal['SaleCondition'] = dfTotal['SaleCondition'].replace('Alloca',2)
dfTotal['SaleCondition'] = dfTotal['SaleCondition'].replace('Family',3)
dfTotal['SaleCondition'] = dfTotal['SaleCondition'].replace('Normal',4)
dfTotal['SaleCondition'] = dfTotal['SaleCondition'].replace('Partial',5)

dfTotal.groupby(['SaleCondition']).count()

#### Dados duplicados

Com as remoções de dados nulos e transcrições para valores quantitativos, pode ser feita a análise de quantos dados duplicados há no database.

In [None]:
print("Total de duplicações no database:",dfTotal.duplicated().sum())

#### Analisando a correlação

É importante analisar a correlação das colunas, uma vez que colunas podem apresentar informações redundantes ou quase redundantes, causando uma falta de necessidade de uma delas.

In [None]:
corr = dfTotal.corr()
corr.style.background_gradient(cmap='coolwarm')

⚠️ __No geral, todas as colunas não apresentam muita relação entre si, tornando o database do IA algo que pode ser mais objetivo, sem redundâncias.__ ⚠️

#### Isolando o treino

É importante isolar o X e o Y dos treinos, sendo o X os dados da database que serão tirando a saída (Survived) e o Y as saídas corretas para cada entidade do treino.

In [None]:
y = dfTotal['SalePrice'].values
x = dfTotal.drop(columns=['SalePrice'])

In [None]:
kf = StratifiedKFold(n_splits=10, random_state=3, shuffle=True)
scoring = {
    'Accuracy': make_scorer(accuracy_score),
    'F1':make_scorer(f1_score),
    'Precision':make_scorer(precision_score),
    'Recall':make_scorer(recall_score)
}

#### Utilizando KNN

O primeiro método de Aprendizagem de Máquina a ser utilizado será o __KNN__. Os resultados vão considerar a métrica de __Jaccard__. Serão realizados 3 testes, mudando entre eles somente o número de K. Ao final os resultados obtidos serão discutidos e interpretados.