## Introdução a análise de dados com Pandas - Parte 4
É possível nos depararmos com dados incompletos ou com erros de registro. O pacote pandas pode ser utilizado para tratar os dados antes de iniciar o processo de análise visual dos dados.

In [1]:
import pandas as pd
import matplotlib as plt

Para experimentar alguns comandos, utilizaremos a base "housing.csv". Ao contrário da base "housing_ok.csv", a primeira apresenta dados em branco e outros com valores incoerentes com a realidade.

In [2]:
housing = pd.read_csv('housing.csv')

In [3]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11306 entries, 0 to 11305
Data columns (total 14 columns):
Bairro                    11304 non-null object
Endereco                  11304 non-null object
Quartos                   11304 non-null float64
Tipo                      11304 non-null object
Preco                     8827 non-null float64
Distancia do aeroporto    11304 non-null float64
CEP                       11304 non-null float64
Banheiro                  11015 non-null float64
Vagas                     11055 non-null float64
Area terreno              9031 non-null float64
Area construida           6104 non-null float64
Ano da construcao         7016 non-null float64
Latitude                  11306 non-null object
Longitude                 11092 non-null object
dtypes: float64(9), object(5)
memory usage: 1.2+ MB


Através do comando "info()" é possível observar alguns problemas.
1. Quase todas as colunas possuem dados em branco;
2. As colunas Latitude e Longitude foram interpretadas como tipo "object"

Trataremos primeiro os dados em branco.
Podemos (basicamente) lidar com dados em brancos de duas formas:
* Eliminar linhas que contanham um ou mais dados em branco
* Substituir os dados em branco por valores quaisquer

Geralmente a primeira opção é a mais adequada.
Para eliminar todas as linhas contendo pelo menos um valor em branco o utilizamos o comando "dropnan".

In [4]:
housing.dropna(axis=0, inplace=True)

O parâmetro "axis=0" indica que faremos a eliminação de linhas e não colunas (axis=1 para coluna)

Observando a tabela após a eliminação de linhas:

In [5]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3627 entries, 1 to 7015
Data columns (total 14 columns):
Bairro                    3627 non-null object
Endereco                  3627 non-null object
Quartos                   3627 non-null float64
Tipo                      3627 non-null object
Preco                     3627 non-null float64
Distancia do aeroporto    3627 non-null float64
CEP                       3627 non-null float64
Banheiro                  3627 non-null float64
Vagas                     3627 non-null float64
Area terreno              3627 non-null float64
Area construida           3627 non-null float64
Ano da construcao         3627 non-null float64
Latitude                  3627 non-null object
Longitude                 3627 non-null object
dtypes: float64(9), object(5)
memory usage: 425.0+ KB


Passamos de 11306 linhas para 3627. Redução de quase 70% da base.

Agora faremos a transformação das colunas "Latitude" e "Longitude" de "object" (texto) para "float64" (número) utilizando o comando "pd.to_numeric()".

In [6]:
housing.Longitude = pd.to_numeric(housing.Longitude, errors='coerce')
housing.Latitude = pd.to_numeric(housing.Latitude, errors='coerce')

O comando "pd.to_numeric()" recebe dois parâmetros: coluna e a forma de lidar com erros. 
A configuração erros='coerce' significa que o conversor irá forçar a conversão.
Observando as informações da tabela, é possível observar que a conversão foi feita com sucesso.

In [7]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3627 entries, 1 to 7015
Data columns (total 14 columns):
Bairro                    3627 non-null object
Endereco                  3627 non-null object
Quartos                   3627 non-null float64
Tipo                      3627 non-null object
Preco                     3627 non-null float64
Distancia do aeroporto    3627 non-null float64
CEP                       3627 non-null float64
Banheiro                  3627 non-null float64
Vagas                     3627 non-null float64
Area terreno              3627 non-null float64
Area construida           3627 non-null float64
Ano da construcao         3627 non-null float64
Latitude                  3627 non-null float64
Longitude                 3626 non-null float64
dtypes: float64(11), object(3)
memory usage: 425.0+ KB


Para investigar possíveis anomalias nos valores das colunas, utilizaremos o comando "describe()"

In [8]:
housing.describe()

Unnamed: 0,Quartos,Preco,Distancia do aeroporto,CEP,Banheiro,Vagas,Area terreno,Area construida,Ano da construcao,Latitude,Longitude
count,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3626.0
mean,3.092914,1215652.0,8.972594,3091.642404,1.6311,1.609319,520.160463,153.382534,1956.990074,-3254.972992,13407.429455
std,0.901321,701705.7,3.466525,58.874382,0.743868,0.955635,653.564225,95.890805,38.744626,10543.701635,41780.754937
min,1.0,131000.0,1.2,3000.0,1.0,0.0,43.0,1.0,1830.0,-37946.0,144.7918
25%,3.0,741125.0,6.4,3042.0,1.0,1.0,227.0,102.0,1925.0,-37.867,144.9317
50%,3.0,1025000.0,9.2,3073.0,2.0,2.0,449.0,132.0,1960.0,-37.8055,145.0022
75%,4.0,1500000.0,11.7,3143.0,2.0,2.0,648.0,180.0,1995.0,-37.7627,145.0688
max,8.0,8000000.0,15.0,3207.0,8.0,8.0,15900.0,3112.0,2018.0,-37.6862,145138.0


Observa-se uma divergência nos valores da Latitude e Longitude.
No valor mínimo da Latitude aparece um valor muito menor do que a média, indicando erro de cadastro. O mesmo acontece com o valor máximo da Longitude.

O erro de cadastro, claramente, envolveu a ausência do divisor decimal. Para corrigir, faremos a divisão dos valores da Latitude e Longitude que estão com esse problema por 1000.

In [9]:
housing.loc[housing.Latitude < -1000, 'Latitude'] = housing.Latitude / 1000
housing.loc[housing.Longitude > 1000, 'Longitude'] = housing.Longitude / 1000

Utilizando o comando "info()" observamos que a divergência foi corrigida.

In [10]:
housing.describe()

Unnamed: 0,Quartos,Preco,Distancia do aeroporto,CEP,Banheiro,Vagas,Area terreno,Area construida,Ano da construcao,Latitude,Longitude
count,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3627.0,3626.0
mean,3.092914,1215652.0,8.972594,3091.642404,1.6311,1.609319,520.160463,153.382534,1956.990074,-37.805456,144.986199
std,0.901321,701705.7,3.466525,58.874382,0.743868,0.955635,653.564225,95.890805,38.744626,0.062661,0.078533
min,1.0,131000.0,1.2,3000.0,1.0,0.0,43.0,1.0,1830.0,-37.946,144.7918
25%,3.0,741125.0,6.4,3042.0,1.0,1.0,227.0,102.0,1925.0,-37.84905,144.925125
50%,3.0,1025000.0,9.2,3073.0,2.0,2.0,449.0,132.0,1960.0,-37.7966,144.9953
75%,4.0,1500000.0,11.7,3143.0,2.0,2.0,648.0,180.0,1995.0,-37.758635,145.0503
max,8.0,8000000.0,15.0,3207.0,8.0,8.0,15900.0,3112.0,2018.0,-37.6862,145.1436
