# Limpeza de dados e estatística descritiva

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Prestação de contas eleitorais - 2020](https://dadosabertos.tse.jus.br/dataset/prestacao-de-contas-eleitorais-2020) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Preencha as lacunas abaixo para completar o desafio.

# Importe os pacotes necessários

In [121]:
!pip install matplotlib



In [122]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Leia o arquivo "receitas_orgaos_partidarios_2020_NORTE.csv" que está na pasta dados desse repositório, usando o Pandas

Na aula `1.10 - Outliers e valores faltantes`, vimos como utilizar o método `replace` para substituir valores em certos colunas do nosso dataframe e trocar o texto (string) `#NULO#` pela representação padrão do Pandas para valores nulos.

Aqui, vamos utilizar um outro método, onde definimos quais strings serão considerados valores nulos já na importação do arquivo.

Edite as células abaixo e inclua:

* O nome do arquivo que queremos importar
* O separador utilizado
* Insira uma lista no parâmetro `na_values` que contenha o texto a ser ignorado.

Experimente rodar os comandos primeiro sem e depois com o parâmetro `na_values`, então, compare a diferença. Observe, por exemplo, o campo `CD_CNAE_DOADOR`.

In [123]:
filename = "receitas_orgaos_partidarios_2020_NORTE.csv"
df = pd.read_csv(filename,sep=";")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6052 entries, 0 to 6051
Data columns (total 48 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   DT_GERACAO                   6052 non-null   object 
 1   HH_GERACAO                   6052 non-null   object 
 2   ANO_ELEICAO                  6052 non-null   int64  
 3   CD_TIPO_ELEICAO              6052 non-null   int64  
 4   NM_TIPO_ELEICAO              6052 non-null   object 
 5   TP_PRESTACAO_CONTAS          6052 non-null   object 
 6   DT_PRESTACAO_CONTAS          6052 non-null   object 
 7   SQ_PRESTADOR_CONTAS          6052 non-null   int64  
 8   CD_ESFERA_PARTIDARIA         6052 non-null   object 
 9   DS_ESFERA_PARTIDARIA         6052 non-null   object 
 10  SG_UF                        6052 non-null   object 
 11  CD_MUNICIPIO                 5043 non-null   float64
 12  NM_MUNICIPIO                 5043 non-null   object 
 13  NR_CNPJ_PRESTADOR_

In [124]:
filename = "receitas_orgaos_partidarios_2020_NORTE.csv"
df = pd.read_csv(filename,sep=";",na_values=["#NULO#", "#NULO", -1, ''])

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6052 entries, 0 to 6051
Data columns (total 48 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   DT_GERACAO                   6052 non-null   object 
 1   HH_GERACAO                   6052 non-null   object 
 2   ANO_ELEICAO                  6052 non-null   int64  
 3   CD_TIPO_ELEICAO              6052 non-null   int64  
 4   NM_TIPO_ELEICAO              6052 non-null   object 
 5   TP_PRESTACAO_CONTAS          6052 non-null   object 
 6   DT_PRESTACAO_CONTAS          6052 non-null   object 
 7   SQ_PRESTADOR_CONTAS          6052 non-null   int64  
 8   CD_ESFERA_PARTIDARIA         6052 non-null   object 
 9   DS_ESFERA_PARTIDARIA         6052 non-null   object 
 10  SG_UF                        6052 non-null   object 
 11  CD_MUNICIPIO                 5043 non-null   float64
 12  NM_MUNICIPIO                 5043 non-null   object 
 13  NR_CNPJ_PRESTADOR_

# Filtre apenas os registros que sejam da prestação de contas final


In [125]:
# Primeiro vamos ver os valores únicos da coluna TP_PRESTACAO_CONTAS
df["TP_PRESTACAO_CONTAS"].unique()

array(['Final', 'Parcial', 'Relatório Financeiro',
       'Regularização da Omissão'], dtype=object)

In [126]:
# O resultado deste comando nos diz que quantas linhas e colunas temos antes do filtro
df.shape

(6052, 48)

In [127]:
# Preencha o campo os espaços abaixo com o nome da coluna e o valor desejado para nosso filtro
df_final = df[df["TP_PRESTACAO_CONTAS"] == "Final"].copy()

In [128]:
# Rode o comando shape no novo dataframe criado e confira se o número de linhas foi reduzido
df_final.shape

(5912, 48)

## Qual foi a maior doação de pessoa física e pessoa jurídica em cada estado?

Vamos usar o método `value_counts` para não só listar cada valor único da coluna `CD_CNAE_DOADOR`, como também mostrar quantos registros temos em cada um.

In [129]:
# Preencha o nome da coluna abaixo
df_final["CD_CNAE_DOADOR"].value_counts()

94928.0    2957
47814.0       2
59120.0       1
85996.0       1
Name: CD_CNAE_DOADOR, dtype: int64

In [130]:
# Para ver os resultados em percentuais é fácil! Basta falarmos para o value_counts que queremos os resultados normalizados
df_final["CD_CNAE_DOADOR"].value_counts(normalize=True)

94928.0    0.998649
47814.0    0.000675
59120.0    0.000338
85996.0    0.000338
Name: CD_CNAE_DOADOR, dtype: float64

In [131]:
df_final['DS_CNAE_DOADOR'].unique()

array(['Atividades de organizações políticas', nan,
       'Atividades de pós-produção cinematográfica, de vídeos e de programas de televisão',
       'Atividades de ensino não especificadas anteriormente',
       'Comércio varejista de artigos do vestuário e acessórios'],
      dtype=object)

In [132]:
df_final['CD_CNAE_DOADOR'].unique()

array([94928.,    nan, 59120., 85996., 47814.])

In [133]:
df_final['TIPLO_DOADOR'] = df_final.loc[:, 'CD_CNAE_DOADOR']

In [134]:
df_final['TIPLO_DOADOR'] = df_final.loc[:, 'CD_CNAE_DOADOR'].replace(np.nan, -1)

In [135]:
df_final.sample()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,TP_PRESTACAO_CONTAS,DT_PRESTACAO_CONTAS,SQ_PRESTADOR_CONTAS,CD_ESFERA_PARTIDARIA,DS_ESFERA_PARTIDARIA,...,NR_PARTIDO_DOADOR,SG_PARTIDO_DOADOR,NM_PARTIDO_DOADOR,NR_RECIBO_DOACAO,NR_DOCUMENTO_DOACAO,SQ_RECEITA,DT_RECEITA,DS_RECEITA,VR_RECEITA,TIPLO_DOADOR
3673,13/05/2023,23:23:30,2020,2,Ordinária,Final,22/12/2020,1220380102,M,Municipal,...,22.0,PL,Partido Liberal,P22000405177PA000023A,126000,19509836,26/11/2020,,2500,94928.0


Se o doador for pessoa jurídica, temos seu respectivo código CNAE. Se for pessoa física, então temos o valor `-1`.

Qual conclusão podemos tirar a respeito dos comandos acima?

Escreva um **comentário** na célula abaixo com a resposta.

In [136]:
# Mais da metade dos registros são de pessoas físicas.

Agora, vamos duplicar a coluna `CD_CNAE_DOADOR` e deixar esta nova coluna apenas com 2 categorias: física (representada pelo valor -1) ou jurídica (que vamos representar inicialmente com 1).

In [137]:
# Vamos criar uma nova coluna que seja uma cópia exata da coluna CD_CNAE_DOADOR
df_final['TIPO_DOADOR'] = df_final["CD_CNAE_DOADOR"]


In [138]:
df_final.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,TP_PRESTACAO_CONTAS,DT_PRESTACAO_CONTAS,SQ_PRESTADOR_CONTAS,CD_ESFERA_PARTIDARIA,DS_ESFERA_PARTIDARIA,...,SG_PARTIDO_DOADOR,NM_PARTIDO_DOADOR,NR_RECIBO_DOACAO,NR_DOCUMENTO_DOACAO,SQ_RECEITA,DT_RECEITA,DS_RECEITA,VR_RECEITA,TIPLO_DOADOR,TIPO_DOADOR
1807,13/05/2023,23:23:30,2020,2,Ordinária,Final,06/12/2020,1219828497,F,Federal (Estadual/Distrital),...,MDB,Movimento Democrático Brasileiro,P15000303018RR000102A,A8D220AAB6F24411,17355367,14/10/2020,,15511387,94928.0,94928.0
3560,13/05/2023,23:23:30,2020,2,Ordinária,Final,15/12/2020,1220376315,M,Municipal,...,,,P22000404421PA000001A,604547000005324,19239911,10/12/2020,,1300000,-1.0,
3100,13/05/2023,23:23:30,2020,2,Ordinária,Final,01/06/2021,1403293571,M,Municipal,...,PL,Partido Liberal,P22000404715PA000013A,610754000051476,19895663,14/12/2020,,240,94928.0,94928.0
233,13/05/2023,23:23:30,2020,2,Ordinária,Final,20/07/2021,1440684500,M,Municipal,...,DEM,Democratas,P25000406173AP000007A,01,19945289,21/12/2020,,360000,94928.0,94928.0
1453,13/05/2023,23:23:30,2020,2,Ordinária,Final,24/02/2021,1220300567,F,Federal (Estadual/Distrital),...,PODE,Podemos,P19000300035RO000018A,550386000090930,19751165,02/10/2020,,93000000,94928.0,94928.0


In [139]:
# Visualizando as colunas do dataframe df_final ( A coluna nova TIPO_DOADOR está no final do dataframe )
df_final.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'TP_PRESTACAO_CONTAS', 'DT_PRESTACAO_CONTAS',
       'SQ_PRESTADOR_CONTAS', 'CD_ESFERA_PARTIDARIA', 'DS_ESFERA_PARTIDARIA',
       'SG_UF', 'CD_MUNICIPIO', 'NM_MUNICIPIO', 'NR_CNPJ_PRESTADOR_CONTA',
       'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'CD_FONTE_RECEITA',
       'DS_FONTE_RECEITA', 'CD_ORIGEM_RECEITA', 'DS_ORIGEM_RECEITA',
       'CD_NATUREZA_RECEITA', 'DS_NATUREZA_RECEITA', 'CD_ESPECIE_RECEITA',
       'DS_ESPECIE_RECEITA', 'CD_CNAE_DOADOR', 'DS_CNAE_DOADOR',
       'NR_CPF_CNPJ_DOADOR', 'NM_DOADOR', 'NM_DOADOR_RFB',
       'CD_ESFERA_PARTIDARIA_DOADOR', 'DS_ESFERA_PARTIDARIA_DOADOR',
       'SG_UF_DOADOR', 'CD_MUNICIPIO_DOADOR', 'NM_MUNICIPIO_DOADOR',
       'SQ_CANDIDATO_DOADOR', 'NR_CANDIDATO_DOADOR',
       'CD_CARGO_CANDIDATO_DOADOR', 'DS_CARGO_CANDIDATO_DOADOR',
       'NR_PARTIDO_DOADOR', 'SG_PARTIDO_DOADOR', 'NM_PARTIDO_DOADOR',
       'NR_RECIBO_DOACAO', 'NR_DOCUMENTO_DO

## Substituição condicional (conditional replacing)

Agora, vamos usar o método where do pacote NumPy (carinhosamente chamado de np abaixo).

Esta função recebe três parâmetros:

* Uma condição: no nosso caso, queremos que filtrar as coluna do CNAE onde os valores sejam -1
* Um valor: caso a condição acima seja verdadeira, qual valor deverá ser retornado?
* Outro valor: se a condição for falsa, então, qual outro valor deverá ser retornado?


In [140]:
df = df_final[df_final['TIPO_DOADOR'] == False]
df

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,TP_PRESTACAO_CONTAS,DT_PRESTACAO_CONTAS,SQ_PRESTADOR_CONTAS,CD_ESFERA_PARTIDARIA,DS_ESFERA_PARTIDARIA,...,SG_PARTIDO_DOADOR,NM_PARTIDO_DOADOR,NR_RECIBO_DOACAO,NR_DOCUMENTO_DOACAO,SQ_RECEITA,DT_RECEITA,DS_RECEITA,VR_RECEITA,TIPLO_DOADOR,TIPO_DOADOR


In [141]:
df_final['TIPO_DOADOR'] = df_final['TIPO_DOADOR'].fillna(-1)

In [142]:
df_final['TIPO_DOADOR'] = np.where(df_final['TIPO_DOADOR'] == -1, 'física', 'jurídica')

In [143]:
# Lista os valores presentes na coluna TIPO_DOADOR
df_final['TIPO_DOADOR'].unique()

array(['jurídica', 'física'], dtype=object)

## Agrupando (group by)

In [144]:
# Preencha abaixo primeiro uma lista com as 3 colunas que precisamos utilizar para responder à pergunta. E depois o nome das 2 colunas que precisamos agrupar.
type(df_final['VR_RECEITA'])

pandas.core.series.Series

In [145]:
df_final['VR_RECEITA'] = df_final['VR_RECEITA'].str.replace(',', '.')

In [146]:
df_final.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,TP_PRESTACAO_CONTAS,DT_PRESTACAO_CONTAS,SQ_PRESTADOR_CONTAS,CD_ESFERA_PARTIDARIA,DS_ESFERA_PARTIDARIA,...,SG_PARTIDO_DOADOR,NM_PARTIDO_DOADOR,NR_RECIBO_DOACAO,NR_DOCUMENTO_DOACAO,SQ_RECEITA,DT_RECEITA,DS_RECEITA,VR_RECEITA,TIPLO_DOADOR,TIPO_DOADOR
0,13/05/2023,23:23:30,2020,2,Ordinária,Final,25/12/2020,2021442465,M,Municipal,...,MDB,Movimento Democrático Brasileiro,P15000406050AP000001A,,19516003,19/10/2020,PRESTAÇÃO DE SERVIÇO DE ASSESSORIA CONTABIL E ...,1000.0,94928.0,jurídica
1,13/05/2023,23:23:30,2020,2,Ordinária,Final,29/09/2021,2021442455,M,Municipal,...,REPUBLICANOS,REPUBLICANOS,P10000406050AP000001A,850004.0,20034477,21/12/2020,,36.0,94928.0,jurídica
2,13/05/2023,23:23:30,2020,2,Ordinária,Final,14/05/2021,2021442514,M,Municipal,...,DEM,Democratas,P90000406050AP000010A,,19877474,05/10/2020,PRODUÇÃO E INSERCAO PARA RADIO E TV,15000.0,94928.0,jurídica
3,13/05/2023,23:23:30,2020,2,Ordinária,Final,25/12/2020,2021442465,M,Municipal,...,MDB,Movimento Democrático Brasileiro,P15000406050AP000002A,614544000054449.0,19516004,14/11/2020,,210000.0,94928.0,jurídica
4,13/05/2023,23:23:30,2020,2,Ordinária,Final,24/12/2020,2021442457,M,Municipal,...,PP,PROGRESSISTAS,P11000406050AP000001A,887169000105.0,19515403,14/10/2020,,482400.0,94928.0,jurídica


In [147]:
df_final['VR_RECEITA'] = df_final['VR_RECEITA'].astype(float)

In [148]:
df_final[['TIPO_DOADOR', 'SG_UF','VR_RECEITA']].groupby(by=['TIPO_DOADOR','SG_UF']).max()

Unnamed: 0_level_0,Unnamed: 1_level_0,VR_RECEITA
TIPO_DOADOR,SG_UF,Unnamed: 2_level_1
física,AC,40560.0
física,AM,35000.0
física,AP,12000.0
física,PA,200000.0
física,RO,110000.0
física,RR,30000.0
física,TO,30000.0
jurídica,AC,4900000.0
jurídica,AM,6900000.0
jurídica,AP,4900000.0


In [149]:
# ou
df_final[['TIPO_DOADOR', 'SG_UF','VR_RECEITA']].groupby(by=['TIPO_DOADOR','SG_UF']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,VR_RECEITA
TIPO_DOADOR,SG_UF,Unnamed: 2_level_1
física,AC,516688.26
física,AM,491585.92
física,AP,82687.88
física,PA,4532569.87
física,RO,815877.84
física,RR,170414.95
física,TO,414676.35
jurídica,AC,22585542.95
jurídica,AM,35625509.0
jurídica,AP,33073470.04


In [152]:
# Para repetir o valor da coluna TIPO_DOADOR nas linhas, coloque o parâmetro as_index=False no método groupby do comando acima

## Qual o total de doações recebidas por partido?

In [159]:
total_doacoes = df_final[['SG_PARTIDO','NM_PARTIDO', 'VR_RECEITA']].groupby(by=['SG_PARTIDO','NM_PARTIDO'], as_index=False).sum()

In [160]:
total_doacoes.tail()

Unnamed: 0,SG_PARTIDO,NM_PARTIDO,VR_RECEITA
26,PV,Partido Verde,4670590.87
27,REDE,Rede Sustentabilidade,10416744.67
28,REPUBLICANOS,REPUBLICANOS,9731257.47
29,SOLIDARIEDADE,Solidariedade,10855671.17
30,UP,Unidade Popular,15200.0


## Qual é o top 10?

Crie um novo dataframe com os 10 partidos com mais doações. Você precisa primeiro ordenar os resultados e depois selecionar apenas os 10 primeiros.



In [168]:
total_doacoes_decrescente = total_doacoes.sort_values(by='VR_RECEITA', ascending=False)

In [None]:
total_doacoes_decrescente.head(10)

# Vamos visualizar os resultados?
Na aula, nós vimos como usar o matplotlib para gerar gráficos. Agora, vamos descobrir uma nova forma de fazer o mesmo usando um método nativo Pandas. Experimente colocar `.plot(kind='barh')` após a consulta ou dataframe anterior.

Com este comando, podemos produzir um gráfico (plot) do tipo (kind) de barras horizontais (barh).

In [None]:
df_final[__________].groupby(by=_____).___().sort_values(by='____',ascending=______).head(___).plot(kind='barh')

## Qual o valor médio das doações por tipo de doador?

Agora é sua vez! A partir dos comandos anteriores, faça uma nova consulta para descobrir a mediana de acordo com o tipo de doador.

## Qual o valor mais alto de doação por tipo de doador?

## Crie uma tabela com valor máximo, mínimo e a mediana, por estado e tipo de doador

# Entreviste você mesmo

Escreva abaixo pelo menos outras três perguntas que podem ser feitas à base de dados. Escreva a pergunta como um comentário acima do código com a consulta em Python.