---
**Autor**: Profs. Dino Magri e João Nogueira

**Contato**: `professor.dinomagri@gmail.com`, `joaonogueira@fisica.ufc.br`

**Licença deste notebook**: 
<br>
<img align="left" width="80" src="https://licensebuttons.net/l/by/3.0/88x31.png" />

<br>
<br>

[Clique aqui para saber mais sobre a licença CC BY v4.0](https://creativecommons.org/licenses/by/4.0/legalcode.pt)


---

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Parte 1 - Análise inicial dos dados

O conjunto de dados contem 3 arquivos:

- ```preco_casas.csv``` – Conjunto de dados com as características das casas, bem como o preço.
- ```descricao_conjunto_dados.txt``` – Descrição das variáveis do conjunto de dados.
- ```descricao_codigos.csv``` – Respectivos códigos e suas descrições para facilitar o entendimento.


In [None]:
import pandas as pd

In [None]:
pasta_raiz = '/content/drive/My Drive/projeto-ia-datasets'

In [None]:
df = pd.read_csv(f'{pasta_raiz}/preco_casas.csv', sep=';', encoding='utf-8')

In [None]:
len(df)

1460

In [None]:
df.head()

Unnamed: 0,zoneamento,tam_terreno,forma_terreno,qualidade_geral,condicao,ano_construcao,qualidade_aquecedor,ar_condicionado,tam_primeiro_andar,tam_segundo_andar,tam_sala_estar,qtde_quartos,qualidade_cozinha,qtde_banheiros,qtde_comodos,qtde_lareiras,qtde_carros_garagem,tam_garagem,tam_piscina,qualidade_piscina,mes_venda,ano_venda,preco
0,RL,785.03035,Reg,7,5,2003,Ex,Y,79.524968,79.339162,158.86413,3,Gd,30,8,0,2,50.910844,0.0,,2,2008,846510.0
1,RL,891.8688,Reg,6,8,1976,Ex,Y,117.243586,0.0,117.243586,3,TA,2,6,1,2,42.73538,0.0,,5,2007,
2,RL,1045.15875,IR1,7,5,2001,Ex,Y,85.47076,80.453998,165.924758,3,Gd,2,6,1,2,56.485024,0.0,,9,2008,907410.0
3,RL,887.22365,IR1,7,5,1915,Gd,Y,89.279783,70.234668,159.514451,3,Gd,1,7,1,3,59.643726,0.0,,2,2006,568400.0
4,RL,1324.79678,IR1,8,5,2000,Ex,Y,106.373935,97.826859,204.200794,4,Gd,2,9,1,3,77.666908,0.0,,12,2008,1015000.0


In [None]:
# Essa opção do pandas formata a visualização dos valores das colunas com o tipo 
# float (decimal) com duas casas decimais.
pd.options.display.float_format = "{:.2f}".format

In [None]:
df.head()

Unnamed: 0,zoneamento,tam_terreno,forma_terreno,qualidade_geral,condicao,ano_construcao,qualidade_aquecedor,ar_condicionado,tam_primeiro_andar,tam_segundo_andar,tam_sala_estar,qtde_quartos,qualidade_cozinha,qtde_banheiros,qtde_comodos,qtde_lareiras,qtde_carros_garagem,tam_garagem,tam_piscina,qualidade_piscina,mes_venda,ano_venda,preco
0,RL,785.03,Reg,7,5,2003,Ex,Y,79.52,79.34,158.86,3,Gd,30,8,0,2,50.91,0.0,,2,2008,846510.0
1,RL,891.87,Reg,6,8,1976,Ex,Y,117.24,0.0,117.24,3,TA,2,6,1,2,42.74,0.0,,5,2007,
2,RL,1045.16,IR1,7,5,2001,Ex,Y,85.47,80.45,165.92,3,Gd,2,6,1,2,56.49,0.0,,9,2008,907410.0
3,RL,887.22,IR1,7,5,1915,Gd,Y,89.28,70.23,159.51,3,Gd,1,7,1,3,59.64,0.0,,2,2006,568400.0
4,RL,1324.8,IR1,8,5,2000,Ex,Y,106.37,97.83,204.2,4,Gd,2,9,1,3,77.67,0.0,,12,2008,1015000.0


In [None]:
df_descricao = pd.read_csv(f'{pasta_raiz}/descricao_codigos.csv', sep=';', encoding='utf-8')

In [None]:
df_descricao.head()

Unnamed: 0,codigo,descricao
0,,Nenhuma
1,Fa,Justo
2,TA,Média/Típico
3,Gd,Bom
4,Ex,Excelente


### Analisando dados que estão faltando

É muito comum encontrar valores nulos ou que de fato estão faltando. 

Como podemos lidar com esses problemas?

Primeiro temos que identificar os valores que de fato estão faltando.

In [None]:
df.isnull().head()

Unnamed: 0,zoneamento,tam_terreno,forma_terreno,qualidade_geral,condicao,ano_construcao,qualidade_aquecedor,ar_condicionado,tam_primeiro_andar,tam_segundo_andar,tam_sala_estar,qtde_quartos,qualidade_cozinha,qtde_banheiros,qtde_comodos,qtde_lareiras,qtde_carros_garagem,tam_garagem,tam_piscina,qualidade_piscina,mes_venda,ano_venda,preco
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,True
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [None]:
df.isnull().sum()

zoneamento                0
tam_terreno               0
forma_terreno             0
qualidade_geral           0
condicao                  0
ano_construcao            0
qualidade_aquecedor       0
ar_condicionado           0
tam_primeiro_andar        0
tam_segundo_andar         1
tam_sala_estar            0
qtde_quartos              0
qualidade_cozinha         1
qtde_banheiros            0
qtde_comodos              0
qtde_lareiras             0
qtde_carros_garagem       0
tam_garagem               0
tam_piscina               0
qualidade_piscina      1453
mes_venda                 0
ano_venda                 0
preco                     2
dtype: int64

Podemos visualizar que existem algumas variáveis que tem valores faltando.

    - tam_segundo_andar
    - qualidade_cozinha
    - qualidade_piscina
    - preco
    
Para cada variável é importante definir uma estratégia para tratar os missings.

Para a variável ```preco``` podemos utilizar a ideia da preencher os valores faltando com a média. Para isso:

In [None]:
# O parâmetro inplace aplica o resultado no próprio dataframe df
df['preco'].fillna(df['preco'].mean(), inplace=True)

In [None]:
df.isnull().sum()

zoneamento                0
tam_terreno               0
forma_terreno             0
qualidade_geral           0
condicao                  0
ano_construcao            0
qualidade_aquecedor       0
ar_condicionado           0
tam_primeiro_andar        0
tam_segundo_andar         1
tam_sala_estar            0
qtde_quartos              0
qualidade_cozinha         1
qtde_banheiros            0
qtde_comodos              0
qtde_lareiras             0
qtde_carros_garagem       0
tam_garagem               0
tam_piscina               0
qualidade_piscina      1453
mes_venda                 0
ano_venda                 0
preco                     0
dtype: int64

Para a variável ```qualidade_cozinha``` podemos tratar esse valor faltando com alguma análise.

In [None]:
df['qualidade_cozinha'].unique()

array(['Gd', 'TA', 'Ex', 'Fa', nan], dtype=object)

Note que os valores únicos disponíveis inclui o NaN (Not A Number) que identifica a falta de um valor. Desta forma, podemos substituir por um valor constante.

In [None]:
df['qualidade_cozinha'].fillna('missing', inplace=True)

In [None]:
df.isnull().sum() / len(df)

zoneamento            0.00
tam_terreno           0.00
forma_terreno         0.00
qualidade_geral       0.00
condicao              0.00
ano_construcao        0.00
qualidade_aquecedor   0.00
ar_condicionado       0.00
tam_primeiro_andar    0.00
tam_segundo_andar     0.00
tam_sala_estar        0.00
qtde_quartos          0.00
qualidade_cozinha     0.00
qtde_banheiros        0.00
qtde_comodos          0.00
qtde_lareiras         0.00
qtde_carros_garagem   0.00
tam_garagem           0.00
tam_piscina           0.00
qualidade_piscina     1.00
mes_venda             0.00
ano_venda             0.00
preco                 0.00
dtype: float64

A variável `qualidade_piscina` possui praticamente 100% dos seus valores como nulos. Logo, não faz sentido manter essa variável, e podemos removê-la da nossa base de dados:

In [None]:
df.drop('qualidade_piscina', axis='columns', inplace=True)

In [None]:
df.isnull().sum()

zoneamento             0
tam_terreno            0
forma_terreno          0
qualidade_geral        0
condicao               0
ano_construcao         0
qualidade_aquecedor    0
ar_condicionado        0
tam_primeiro_andar     0
tam_segundo_andar      1
tam_sala_estar         0
qtde_quartos           0
qualidade_cozinha      0
qtde_banheiros         0
qtde_comodos           0
qtde_lareiras          0
qtde_carros_garagem    0
tam_garagem            0
tam_piscina            0
mes_venda              0
ano_venda              0
preco                  0
dtype: int64

A variável `tam_segundo_andar` apresenta apenas um valor nulo. Nesse caso, vamos remover essa linha.

In [None]:
df.dropna(inplace=True)

In [None]:
df.isnull().sum()

zoneamento             0
tam_terreno            0
forma_terreno          0
qualidade_geral        0
condicao               0
ano_construcao         0
qualidade_aquecedor    0
ar_condicionado        0
tam_primeiro_andar     0
tam_segundo_andar      0
tam_sala_estar         0
qtde_quartos           0
qualidade_cozinha      0
qtde_banheiros         0
qtde_comodos           0
qtde_lareiras          0
qtde_carros_garagem    0
tam_garagem            0
tam_piscina            0
mes_venda              0
ano_venda              0
preco                  0
dtype: int64

Pronto agora temos o conjunto de dados de fato tratado. Vamos persistir em disco para utilizar posteriormente!

In [None]:
df.to_csv(f'{pasta_raiz}/preco_casas_final.csv', sep=';', encoding='utf-8', index=False, header=True)