## 2. Análise Exploratória dos Dados
#### Por Adriano Santos



In [1]:
# Importando as bibliotecas
import pandas as pd

# Parâmetro referênte aos dataframes (https://stackoverflow.com/questions/21463589/pandas-chained-assignments)
pd.options.mode.chained_assignment = None

### 2.1 Carregando a estrutura do *dataset*

Nós já conhecemos esse procedimento. Lembre-se que nós o fizemos no exemplo anterior. Sendo assim, irei supor que você se lembre de como foi feito e que você o repitirá aqui. Aconselho que você nunca copie o texto ou o comando, mas que sempre digite. Isso fará com que você memorize e aprenda de verdade a cada passo.

In [2]:
# Carrangando os dados
df = pd.read_csv('dados/deputados.csv', delimiter=';', low_memory=False)
# Visualiza os 5 primeiros registros do dataset. 
df.rename({'txNomeParlamentar ':'parlamentar'}, axis='columns', inplace=True)
df.head()

Unnamed: 0,parlamentar,idecadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,...,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento
0,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,2.0,2018.0,0.0,,,1471159.0,6192.0,0.0,3074.0,6519085.0
1,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,4.0,2018.0,0.0,,,1497012.0,6289.0,0.0,3074.0,6586329.0
2,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,3.0,2018.0,0.0,,,1471173.0,6192.0,0.0,3074.0,6519234.0
3,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,3.0,2018.0,0.0,,,1483154.0,6238.0,0.0,3074.0,6549679.0
4,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,3.0,COMBUSTÍVEIS E LUBRIFICANTES.,1.0,...,1.0,2018.0,0.0,,,1463325.0,6139.0,0.0,3074.0,6498316.0


In [3]:
# Analisando as informações do dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168380 entries, 0 to 168379
Data columns (total 29 columns):
parlamentar                  168380 non-null object
idecadastro                  167895 non-null float64
nuCarteiraParlamentar        167894 non-null object
nuLegislatura                168379 non-null float64
sgUF                         167894 non-null object
sgPartido                    167894 non-null object
codLegislatura               167894 non-null float64
numSubCota                   168379 non-null float64
txtDescricao                 168379 non-null object
numEspecificacaoSubCota      168378 non-null float64
txtDescricaoEspecificacao    40373 non-null object
txtFornecedor                168379 non-null object
txtCNPJCPF                   155428 non-null object
txtNumero                    166796 non-null object
indTipoDocumento             168376 non-null float64
datEmissao                   166796 non-null object
vlrDocumento                 168375 non-null float64

### 2.2 Identificando e resolvendo problemas de dados faltantes 

Identificar se existem dados faltantes em nosso *dataset* tem um grande peso em nossa análise. Dependendo do tipo de estudo, por exemplo, a quantidade de dados faltantes pode anular completamente a validade da sua pesquisa/análise. Perceba quão importante é detectarmos e, também, tomarmos decisões sobre cada caso.

É importante ressaltar que não existe uma ação padrão na atividade de *cleaning data* (tirando a atividade de analisar tudo). No entanto, algumas atividades são possíveis e devem ser tomadas depois de grande análise.

Dentre as atividades, destaco:

* Remover os dados faltantes: você pode simplesmente remover as linhas ou colunas que apresentarem dados faltantes;
* Preencher os dados faltantes: você pode utilizar diversas abordagens para isso, tais como: utilizar a média, moda, mediana, utilizar técnicas de predição, zerar, maior valor, menor valor etc.

Aprenderemos, agora, como detectar esses valores e como aplicar algumas das ações supracitadas. Lembre-se que o foco do nosso curso é *Cleaning Data*. Vamos analisar se existem dados faltantes em alguma das dimensões do nosso *dataset*. A presença do valor **True** implica na ausência de dados (dados faltantes).


In [4]:
# Analisando se existe alguma dimensão do dataset com dados faltantes
df.isnull().any()

parlamentar                  False
idecadastro                   True
nuCarteiraParlamentar         True
nuLegislatura                 True
sgUF                          True
sgPartido                     True
codLegislatura                True
numSubCota                    True
txtDescricao                  True
numEspecificacaoSubCota       True
txtDescricaoEspecificacao     True
txtFornecedor                 True
txtCNPJCPF                    True
txtNumero                     True
indTipoDocumento              True
datEmissao                    True
vlrDocumento                  True
vlrGlosa                      True
vlrLiquido                    True
numMes                        True
numAno                        True
numParcela                    True
txtPassageiro                 True
txtTrecho                     True
numLote                       True
numRessarcimento              True
vlrRestituicao                True
nuDeputadoId                  True
ideDocumento        

Perceba que existem várias dimensões com a presença de dados faltantes (ou ausência de dados :p ). Mas agora precisamos saber a quantidade de dados faltantes em cada dimensão. Para tanto, façamos:

In [5]:
# Obtendo a quantidade de dados faltantes
df.isnull().sum()

parlamentar                       0
idecadastro                     485
nuCarteiraParlamentar           486
nuLegislatura                     1
sgUF                            486
sgPartido                       486
codLegislatura                  486
numSubCota                        1
txtDescricao                      1
numEspecificacaoSubCota           2
txtDescricaoEspecificacao    128007
txtFornecedor                     1
txtCNPJCPF                    12952
txtNumero                      1584
indTipoDocumento                  4
datEmissao                     1584
vlrDocumento                      5
vlrGlosa                          5
vlrLiquido                        5
numMes                            5
numAno                            5
numParcela                        5
txtPassageiro                119942
txtTrecho                    120160
numLote                           5
numRessarcimento                 18
vlrRestituicao                    5
nuDeputadoId                

Muitos dados faltantes... o que fazer? Bem, isso vai depender de cada caso. E, no caso, cada dimensão deverá ser analisada separadamente. Como a ideia desse curso é apresentar técnicas de detecção e aplicação de procedimento, irei me deter a esse aspecto. Para tanto, vou criar um separar uma pequena parte dos dados em um novo *dataframe* para explicar algumas técnicas para remoção e preenchimento de valores faltantes. Criarei o *dataframe* **df_cpf_cnpj** que corresponderá ao conjunto de dados que não possuem essas informações. Para tanto, faça:

In [6]:
# Criando uma máscara para obtenção dos valores faltantes
mascara = df['txtCNPJCPF'].isnull()
# Obtendo valores faltantes do dataset
df_cpf_cnpj = df [mascara]
# Apresentando os cinco primeiros valores do novo dataset
df_cpf_cnpj.head()

Unnamed: 0,parlamentar,idecadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,...,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento
54,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,10.0,TELEFONIA,0.0,...,2.0,2018.0,0.0,,,0.0,0.0,0.0,3074.0,0.0
55,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,10.0,TELEFONIA,0.0,...,3.0,2018.0,0.0,,,0.0,0.0,0.0,3074.0,0.0
56,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,10.0,TELEFONIA,0.0,...,1.0,2018.0,0.0,,,0.0,0.0,0.0,3074.0,0.0
57,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,11.0,SERVIÇOS POSTAIS,0.0,...,5.0,2018.0,0.0,,,0.0,0.0,0.0,3074.0,0.0
58,ABEL MESQUITA JR.,178957.0,1,2015.0,RR,DEM,55.0,11.0,SERVIÇOS POSTAIS,0.0,...,6.0,2018.0,0.0,,,0.0,0.0,0.0,3074.0,0.0


#### 2.3.1 Aplicando de preenchimento de dados faltantes

Agora que temos um novo *dataset* para manipularmos, vou apresentar algumas atividades que podem ser realizadas para remover ou preencher os dados faltantes de um *dataset*. Começaremos com a atividade de preencher os valores.

Para preenchermos os dados faltantes em uma determinada coluna, utilizaremos a função **.fillna()**. A função em questão recebe, como parâmetro, o valor ou função que você deseja aplicar em cada valor faltante. Se você desejar aplicar o valor 0 (zero) em cada valor faltante na dimensão **txtPassageiro**, então devemos realizar operação seguinte:

```python
    df_cpf_cnpj['txtPassageiro'].fillna(0, inplace=True)
```
Essa operação irá substituir os valores faltantes por zero (0) de forma direta. Agora, digamos que depois de uma análise aprofundada dos nossos dados, percebêssemos que a melhor estratégia para o preenchimento dos valores faltantes fosse com o cálculo da média. Para a aplicação dessa técnica, utilizaremos a dimensão **vlrLiquido** para fins didáticos (P.S: na prática, essa ação não faz o menor sentido dado o contexto do campo escolhido).

In [7]:
# Preenchendo os valores faltantes pela média
df_cpf_cnpj['vlrLiquido'].fillna(df_cpf_cnpj['vlrLiquido'].mean(),inplace=True)
# Verifica se a inexistência de valores na dimensão vlrLiquido
df_cpf_cnpj['vlrLiquido'].isnull().sum()

0

#### 2.3.1 Aplicando técnicas de remoção


Uma das ações possíveis no processo de remoção de dados faltantes é a possibilidade de remover **todas** as linhas que apresentarem dados faltantes. A função **dropna()** do dataframe é a função utilizada para a atividade de remoção das linhas (também a utilizamos para remover colunas). Para executar a operação de remoção das linhas, faça:
```python
df.dropna(inplace=True)

```
Todas as linhas que apresentarem alguma dimensão com valor faltante será removida do *dataframe*. Perceba que isso pode gerar problemas em sua análise.

Porém, se você deseja remover apenas as linhas em que um número **n** de dimensões possuem dados faltantes, você deverá utilizar o atributo **thresh**. Por exemplo, você deseja que apenas as linhas que possuam três dimensões com valores faltantes, faça:
```python
df.dropna(inplace=True, thresh=3)
```
E se você quiser remover uma coluna inteira? Para tal, você deve fazer:
```python
df.dropna(inplace=True, thresh=3, axis=1)
```
O atributo **axis=1** define que a operação de remoção será realizada em colunas. O valor **axis=0** é para linhas, porém se você não informar, a operação padrão é a de remoção de linhas.

#### 2.3.2 Analisando se existe alguma coluna vazia

Da mesma forma que o nosso *dataset* pode ter um conjunto de valores vazios (ou faltantes), ele também pode apresentar colunas inteiras sem dados. Para detectarmos a existência (ou não) dessas colunas, devemos fazer:

In [8]:
# Analisando a existencia de alguma coluna vazia
df.isnull().all()

parlamentar                  False
idecadastro                  False
nuCarteiraParlamentar        False
nuLegislatura                False
sgUF                         False
sgPartido                    False
codLegislatura               False
numSubCota                   False
txtDescricao                 False
numEspecificacaoSubCota      False
txtDescricaoEspecificacao    False
txtFornecedor                False
txtCNPJCPF                   False
txtNumero                    False
indTipoDocumento             False
datEmissao                   False
vlrDocumento                 False
vlrGlosa                     False
vlrLiquido                   False
numMes                       False
numAno                       False
numParcela                   False
txtPassageiro                False
txtTrecho                    False
numLote                      False
numRessarcimento             False
vlrRestituicao               False
nuDeputadoId                 False
ideDocumento        

Para sabermos qual é a frequência de cada classe (quantas vezes cada elemento aparece em seu *dataset*), incluindo os valores em branco, de uma determinada dimensão devemos utilizar a função **value_counts** e atribuir, como parâmetro, o **dropna=False**. No nosso exemplo, iremos analisar a frequência de cada classe existente na dimensão **txtDescricao**. 

Perceba que na coluna de descrição é apresentado o valor **NaN** (além de um valor numérico 0, do qual analisaremos em outro momento). O valor **NaN** representa a ausência de valores (campo em branco). Note que existe um único valor em branco.

**obs:** Você pode acessar as informações sobre uma dimensão utilizando a notação **df.txtDescricao** ou **df['txtDescricao']**.  

In [9]:
# Contabilizando a frequencia de cada classe, incluindo os valores faltantes.
df.txtDescricao.value_counts(dropna=False)

Emissão Bilhete Aéreo                                        48205
COMBUSTÍVEIS E LUBRIFICANTES.                                40373
SERVIÇO DE TÁXI. PEDÁGIO E ESTACIONAMENTO                    16021
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR    12503
SERVIÇOS POSTAIS                                             12426
FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR                    9447
TELEFONIA                                                     9169
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.                          6449
HOSPEDAGEM .EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL.        5809
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES                 3575
CONSULTORIAS. PESQUISAS E TRABALHOS TÉCNICOS.                 1408
PASSAGENS AÉREAS                                              1157
PASSAGENS TERRESTRES. MARÍTIMAS OU FLUVIAIS                    666
ASSINATURA DE PUBLICAÇÕES                                      512
SERVIÇO DE SEGURANÇA PRESTADO POR EMPRESA ESPECIALIZADA.      

### 2.3 Sumarizando os dados

No processo de sumarização é de extrema importância para a análise dos dados. Trata-se da aplicação de um conjunto de métricas estatísticas e que podem ser aplicadas em dimensões com valores numéricos (dimensões numéricas) - perceba que os dados referentes aos campos nominais, tais como **txtdescricao** não está presente no resultado.

Dentre as métricas que podemos extrair de nosso *dataset*, temos:
* count: quantidade de registros;
* mean: média aritmética;
* std: desvio padrão;
* min: menor valor encontrado na dimensão;
* max: maior valor encontrado na dimensão;

Ainda podemos distribuir os nossos dados de acordo com o quartil (25%, 50% e 75%). Para que os nossos dados sejam sumarizados, utilizaremos a função **describe()**. 

In [10]:
# Sumarizando os dados
df.describe()

Unnamed: 0,idecadastro,nuLegislatura,codLegislatura,numSubCota,numEspecificacaoSubCota,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento
count,167895.0,168379.0,167894.0,168379.0,168378.0,168376.0,168375.0,168375.0,168375.0,168375.0,168375.0,168375.0,168375.0,168362.0,168375.0,168375.0,168375.0
mean,139458.0,2009.184689,54.999678,304.511032,0.242817,1.155592,707.04261,5.685967,690.462523,3.942581,2018.0,0.000172,949386.5,3985.785153,0.457118,2226.181381,4184625.0
std,46111.17,108.087081,0.131788,441.417351,0.439282,6.084452,2113.241904,150.415265,2020.362238,1.827118,0.0,0.013123,716336.4,3007.46333,178.481938,765.626655,3156998.0
min,4.0,0.0,1.0,1.0,0.0,0.0,-3413.73,0.0,-3413.73,1.0,2018.0,0.0,0.0,0.0,0.0,19.0,0.0
25%,74762.0,2015.0,55.0,3.0,0.0,0.0,51.405,0.0,50.69,2.0,2018.0,0.0,0.0,0.0,0.0,1737.0,0.0
50%,160556.0,2015.0,55.0,12.0,0.0,0.0,188.39,0.0,185.9,4.0,2018.0,0.0,1472476.0,6194.0,0.0,2326.0,6521584.0
75%,178872.0,2015.0,55.0,999.0,0.0,1.0,607.845,0.0,602.17,5.0,2018.0,0.0,1495798.0,6285.0,0.0,2958.0,6582487.0
max,6606348.0,2015.0,55.0,2018.0,4.0,2406.0,102000.0,18480.0,75000.0,8.0,2018.0,1.0,1523411.0,6360.0,73200.0,3184.0,6654541.0


Um dos problemas facilmente encontrado quando aplicamos a sumarização dos dados é a detecção de **outlier**. Existem um conjunto de definições para **outlier**, mas a que eu mais gosto de utilizar é: valores que estão fora da normalidade; sendo a normalidade considerada como um comportamento esperado. Outra definição é que são valores que são consideravelmente acima ou abaixo dos valores esperados. 

Assim como existem diversas definições para **outlier**, também podemos tomar diversas decisões sobre eles. Cada decisão dever ser **cuidadosamente pensada**. Por exemplo:

Perceba que na dimensão **vlrDocumento** o menor valor apresentado é de **-3413.730000**. Entendamos que os valores presentes na dimensão **vlrDocumento** estão relacionado as despesas dos nossos candidatos. Sendo assim, e com base no contexto da dimensão, como um valor de um gasto pode ser negativo? 

Antes de tomarmos qualquer decisão sobre o que fazer com esses dados, devemos analisar profundamente os impactos que eles causam em nossos dados e, consequentemente, em nossa análise. No exemplo do valor **-3413.730000**, com toda certeza o valor médio da dimensão **vlrDocumento** sofreu impacto; já que a média é uma medida sensível à valores extremos. 

Em alguns exemplos de outlier a operação de exclusão pode ser realizada. Mas, em muitos outros casos não. A decisão que devemos fazer é **isolar o fenômeno** e analisar separadamente cada caso. Para tanto, iremos selecionar apenas o registro que apresenta o valor **-3413.730000** para entendermos a natureza do problema. Entenda que um *outlier* poder ser até a sua grande descoberta em termos de análise.

In [11]:
# Isolando o outlier da dimensão vlrDocumento e analisando a descrição da atividade 
df[df['vlrDocumento'] == -3413.730000] [['parlamentar', 'txtDescricao']]

Unnamed: 0,parlamentar,txtDescricao
83930,JOSUÉ BENGTSON,Emissão Bilhete Aéreo


Perceba que a atividade envolvida foi de **"Emissão Bilhete Aéreo"**. Como cientista de dados, você apresentaria o resultado encontrado, porém as motivações (caso não estejam descritas nos próprios dados) devem ser investigadas, principalmente com os responsáveis e interessados na análise. Pode ter ocorrido um erro de digitação, uma possível devolução do recurso etc. 

Não existe uma regra geral para a tomada de decisão: cada caso é um caso isolado, e isso inclui até mesmo atividades que possuem relações semânticas. O fato de uma decisão ter sido tomada para um determinado experimento não significa dizer que irá se aplicar para um segundo experimento.  

Em caso de saber se existem mais valores abaixo da margem esperada (abaixo de zero), você deve fazer:

In [12]:
# Obtendo valores abaixo de zero  
df[df['vlrDocumento'] < 0] [['vlrDocumento']].sum()

vlrDocumento   -4896724.13
dtype: float64

Eh... perceba que existe MUITOS valores que estão abaixo do valor esperado. Particularmente, eu não sei qual é a motivação para que esses valores sejam negativos... mas eu sei que eles implicam **fortemente** na análise final das despesas. 

Se desejarmos calcular, por exemplo, o valor total das despesas que apresentaram valores negativos, façamos:

In [13]:
# Obtendo o valor total negativos da dimensão vlrDocumento 
df[df['vlrDocumento'] < 0]['vlrDocumento'].sum()

-4896724.13

Suponhamos que os valores negativos tenham sido frutos de erros de digitação e que seja, de fato, necessária alterações nos registros para que os valores se tornem positivos. Para que isso seja possível, você pode utilizar a função **.abs()** da seguinte forma: 

In [14]:
# Convertendo os valores negativos para positivos
df['vlrDocumento'] = df['vlrDocumento'].abs()
# Quantos valores negativos ainda existem em nosso dataset?
df[df['vlrDocumento'] < 0]['vlrDocumento'].sum()

0.0

### O que aprendemos hoje?

* Revisamos como carregar os dados para análise e o processo de análise da estrutura dos dados;
* Vimos um conjunto de ações para a análise descritiva dos dados;
* Aprendemos como detectar alguns dos principais problemas em *Cleaning Data* e como devemos resolvê-los;
* Por fim, mesmo sem ser o foco desse curso, realizamos pequenas análises e tomamos algumas decisões hipotéticas.
