# 1. Introdução à *Cleaning Data*
#### Por Adriano Santos

### Procedimentos iniciais

*Cleaning Data* é o processo de preparação de dados para análise. Trata-se de um processo de extrema importância, visto que quase nunca os dados são entregues em um formato pronto para processamento. Dizemos, inclusive, que esses dados não vem limpos e isso requer que emprenhemos esforço no processo de preparação.

Nesse primeiro post, nós iremos avaliar algumas forma de diagnosticar quando os nossos dados precisam ser “limpos”, isso tudo de acordo com um conjunto de problemas que são comuns no dia a dia de um cientista de dados.

Dentre os problemas mais comuns, gostaria de destacar:

* problemas de inconsistência nos nomes das colunas/dimensões do *dataset*;
* dados faltantes (*missing data*): um dos problemas mais comuns na análise de dados
* outliers (valores que fogem do padrão esperado);
* duplicações de linhas;
* problemas de unidades ou conversões;
* problemas em colunas e;
* valores com erros de sinais.

### 1.1 Carregando as bibliotecas

Nesta área, geralmente concentramos as bibliotecas que serão utilizadas ao longo da análise. A primiera biblioteca que iremos utilizada é a Pandas (https://pandas.pydata.org/). O Pandas é a biblioteca para análise de dados em Python. Ela é uma das mais importante bibliotecas na área de Ciência de Dados e eu aconselho que você dedique tempo para estudá-la. 

In [1]:
# Importando as bibliotecas
import pandas as pd

### 1.2 Carregando e analisando a estrutura do dataset

Agora, uma vez que carregamos as bibliotecas que serão utilizadas em nossa análise, devemos carregar as informações do *dataset* que será utilizado.

In [2]:
# Importando dataset
# delimiter: delimitador utilizado no dataset; 
# low_memory: parâmetro utilizado quando os dados de cada coluna exite muita memoria do computador 
df = pd.read_csv('dados/deputados.csv', delimiter=';', low_memory=False)
# Visualiza os 5 primeiros registros do dataset. 
df.head()

Unnamed: 0,txNomeParlamentar,idecadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,...,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento
0,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,2.0,2018.0,0.0,,,1471159.0,6192.0,0.0,3074.0,6519085.0
1,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,4.0,2018.0,0.0,,,1497012.0,6289.0,0.0,3074.0,6586329.0
2,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,3.0,2018.0,0.0,,,1471173.0,6192.0,0.0,3074.0,6519234.0
3,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,3.0,2018.0,0.0,,,1483154.0,6238.0,0.0,3074.0,6549679.0
4,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,1.0,2018.0,0.0,,,1463325.0,6139.0,0.0,3074.0,6498316.0


### 1.3 Visualizando as colunas do nosso dataset

Conhecer o *dataset* do qual estamos analisando é uma das atividades primordiais. Claro: se não tivermos noção do que estamos analisando, não poderemos tomar as melhores decisões possíveis em forma de análise. Sendo assim, o primeiro passo que aconselho é conhecer a estrutura do *dataset* por meio de suas colunas. 

Uma das atividades que devemos realizar, neste momento, é avaliar os nomes e formato das dimensões (colunas). Verifique se existe alguma inconsistência, tais como: a) nome com carácter especial (isso pode gerar problemas no processamento dos dados), b) se existe espaço extra antes ou após os nomes das dimensões, c) se o campo tem valor composto etc. Perceba que as dimensões serão consideradas como índices. Sendo assim, poderemos ter acesso às informações isoladas de cada dimensão por meio dos seus nomes que serão considerados como índices.

In [3]:
# Visualizando as colunas do nosso dataset
df.columns

Index(['txNomeParlamentar ', 'idecadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'vlrRestituicao', 'nuDeputadoId', 'ideDocumento'],
      dtype='object')

Em nosso exemplo, perceba que a dimensão 'txNomeParlamentar ' apresenta um espaço. Se você precisasse alterar todos os nomes das dimensões, você utilizaria o comando:
```python

df.columns = ['Coluna 1', 'Coluna 2', ..., 'Coluna n']


```

Sendo:  ['Coluna 1', 'Coluna 2', ..., 'Coluna n'] os novos nomes das dimensões (em ordem).

Em nosso exemplo, iremos alterar **apenas** uma única dimensão. Para tanto utilizaremos a função rename do *dataframe*. O parâmetro **inplace=True** define que a mudança será realizada no próprio *dataframe* sem que seja necessária a criação de um novo.

In [6]:
# Renomeia a dimensão txNomeParlamentar para palarmentar
df.rename({'txNomeParlamentar ':'parlamentar'}, axis='columns', inplace=True)
# Apresenta as colunas novamente
df.columns

Index(['parlamentar', 'idecadastro', 'nuCarteiraParlamentar', 'nuLegislatura',
       'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota', 'txtDescricao',
       'numEspecificacaoSubCota', 'txtDescricaoEspecificacao', 'txtFornecedor',
       'txtCNPJCPF', 'txtNumero', 'indTipoDocumento', 'datEmissao',
       'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes', 'numAno',
       'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'vlrRestituicao', 'nuDeputadoId', 'ideDocumento'],
      dtype='object')

Agora, imagine que você desejemos saber a quantidade de dimensões e, também, a quantidade de registos contidos em nosso *dataset*. Para tanto, utilizaremos o seguinte comando:

In [5]:
# (linhas - registros, dimensões - colunas)
df.shape

(168380, 29)

### 1.4 Conhecendo informações adicionais sobre o nosso *dataset*

Uma vez que já temos o conhecimento estrutural de nosso *dataset*, podemos ir um pouco mais além em nosso 'namoro'. Agora, iremos analisar os dados do nosso *dataset*. 
Vamos utilizar a função **info()** para obtermos informações adicionais sobre o nosso *dataset*. Obtemos, como resposta, informações sobre cada dimensão do nosso *dataset*, tais como: quantidade não-nula (valores válidos) e o tipo.

Perceba que temos algumas dimensões como inúmeros valores em branco, basta comparar a quantidade de registros válidos. Se temos 168380 registros (vimos isso como o df.shape), para sabermos quantos dados faltantes temos em cada coluna, basta subtrair a quantidade total de registros menos o valor correspondente à dimensão.

Outro dado interessante que podemos perceber com o comando **info()** é a quantidade de memória exigida para o processamento do *dataset*. 

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168380 entries, 0 to 168379
Data columns (total 29 columns):
parlamentar                  168380 non-null object
idecadastro                  167895 non-null float64
nuCarteiraParlamentar        167894 non-null object
nuLegislatura                168379 non-null float64
sgUF                         167894 non-null object
sgPartido                    167894 non-null object
codLegislatura               167894 non-null float64
numSubCota                   168379 non-null float64
txtDescricao                 168379 non-null object
numEspecificacaoSubCota      168378 non-null float64
txtDescricaoEspecificacao    40373 non-null object
txtFornecedor                168379 non-null object
txtCNPJCPF                   155428 non-null object
txtNumero                    166796 non-null object
indTipoDocumento             168376 non-null float64
datEmissao                   166796 non-null object
vlrDocumento                 168375 non-null float64

Essa foi a nossa primeira etapa no processo de Cleaning Data. E o que aprendemos?

* O que é Cleaning Data e a sua importância no processo de análise de dados; 
* Conhecemos os tipos de problemas que iremos abordar ao logo deste curso; 
* Aprendemos como importar bibliotecas e carregar um dataset do tipo csv; 
* Aprendemos como visualizar um conjunto de dados em nosso dataset e como conhecer a estrutura do nosso *dataset*; 
* Vimos como reconhecer alguns problemas no formato das dimensões do nosso dataset e como resolvê-los; 
* Vimos, também, como identificar, com apenas um único comando, a quantidade de dados, memória utilizada para carregamento dos dados e, também, como identificar os dados faltantes. 