# Limpeza de dados e estatística descritiva

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Prestação de contas eleitorais - 2020](https://dadosabertos.tse.jus.br/dataset/prestacao-de-contas-eleitorais-2020) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Preencha as lacunas abaixo para completar o desafio.

# Importe os pacotes necessários

In [2]:
import pandas as pd
import numpy as np

# Leia o arquivo "receitas_orgaos_partidarios_2020_NORTE.csv" que está na pasta dados desse repositório, usando o Pandas

Na aula `1.10 - Outliers e valores faltantes`, vimos como utilizar o método `replace` para substituir valores em certos colunas do nosso dataframe e trocar o texto (string) `#NULO#` pela representação padrão do Pandas para valores nulos.

Aqui, vamos utilizar um outro método, onde definimos quais strings serão considerados valores nulos já na importação do arquivo.

Edite as células abaixo e inclua:

* O nome do arquivo que queremos importar
* O separador utilizado
* Insira uma lista no parâmetro `na_values` que contenha o texto a ser ignorado.

Experimente rodar os comandos primeiro sem e depois com o parâmetro `na_values`, então, compare a diferença. Observe, por exemplo, o campo `CD_CNAE_DOADOR`.

In [None]:
filename = "receitas_orgaos_partidarios_2020_NORTE.csv"
df = pd.read_csv(filename,sep=";")

df.info()

In [None]:
filename = "receitas_orgaos_partidarios_2020_NORTE.csv"
df = pd.read_csv(filename,sep=";",na_values="#NULO#")

df.info()

# Filtre apenas os registros que sejam da prestação de contas final


In [6]:
# Primeiro vamos ver os valores únicos da coluna TP_PRESTACAO_CONTAS
df["TP_PRESTACAO_CONTAS"].unique()

array(['Final', 'Parcial', 'Relatório Financeiro',
       'Regularização da Omissão'], dtype=object)

In [7]:
# O resultado deste comando nos diz que quantas linhas e colunas temos antes do filtro
df.shape

(6052, 48)

In [8]:
# Preencha o campo os espaços abaixo com o nome da coluna e o valor desejado para nosso filtro
df_final = df[df["TP_PRESTACAO_CONTAS"] == "Parcial"].copy()

In [9]:
# Rode o comando shape no novo dataframe criado e confira se o número de linhas foi reduzido
df_final.shape

(38, 48)

**negrito**## Qual foi a maior doação de pessoa física e pessoa jurídica em cada estado?

Vamos usar o método `value_counts` para não só listar cada valor único da coluna `CD_CNAE_DOADOR`, como também mostrar quantos registros temos em cada um.

In [10]:
# Preencha o nome da coluna abaixo
df_final["CD_CNAE_DOADOR"].value_counts()

94928.0    10
Name: CD_CNAE_DOADOR, dtype: int64

In [11]:
# Para ver os resultados em percentuais é fácil! Basta falarmos para o value_counts que queremos os resultados normalizados
df_final["CD_CNAE_DOADOR"].value_counts(normalize=True)

94928.0    1.0
Name: CD_CNAE_DOADOR, dtype: float64

Se o doador for pessoa jurídica, temos seu respectivo código CNAE. Se for pessoa física, então temos o valor `-1`.

Qual conclusão podemos tirar a respeito dos comandos acima?

Escreva um **comentário** na célula abaixo com a resposta.

In [None]:
# Mais da metade dos registros são de pessoas físicas.

Agora, vamos duplicar a coluna `CD_CNAE_DOADOR` e deixar esta nova coluna apenas com 2 categorias: física (representada pelo valor -1) ou jurídica (que vamos representar inicialmente com 1).

In [20]:
# Vamos criar uma nova coluna que seja uma cópia exata da coluna CD_CNAE_DOADOR
df_final['TIPO_DOADOR'] = df_final["CD_CNAE_DOADOR"]


In [21]:
df_final.head(3)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,TP_PRESTACAO_CONTAS,DT_PRESTACAO_CONTAS,SQ_PRESTADOR_CONTAS,CD_ESFERA_PARTIDARIA,DS_ESFERA_PARTIDARIA,...,NR_PARTIDO_DOADOR,SG_PARTIDO_DOADOR,NM_PARTIDO_DOADOR,NR_RECIBO_DOACAO,NR_DOCUMENTO_DOACAO,SQ_RECEITA,DT_RECEITA,DS_RECEITA,VR_RECEITA,TIPO_DOADOR
15,13/05/2023,23:23:30,2020,2,Ordinária,Parcial,25/10/2020,1219898277,M,Municipal,...,15.0,MDB,Movimento Democrático Brasileiro,P15000406050AP000001A,,13771298,19/10/2020,PRESTAÇÃO DE SERVIÇO DE ASSESSORIA CONTABIL E ...,100000,94928.0
268,13/05/2023,23:23:30,2020,2,Ordinária,Parcial,24/10/2020,1219892697,F,Federal (Estadual/Distrital),...,40.0,PSB,Partido Socialista Brasileiro,P40000306050AP000102A,553596000412232.0,13454522,19/10/2020,,30500000,94928.0
286,13/05/2023,23:23:30,2020,2,Ordinária,Parcial,25/10/2020,1443147824,F,Federal (Estadual/Distrital),...,13.0,PT,Partido dos Trabalhadores,P13000200000BR000001A,553344000008546.0,13955466,02/10/2020,,5700000,94928.0


In [None]:
# Visualizando as colunas do dataframe df_final ( A coluna nova TIPO_DOADOR está no final do dataframe )
df_final.columns

## Substituição condicional (conditional replacing)

Agora, vamos usar o método where do pacote NumPy (carinhosamente chamado de np abaixo).

Esta função recebe três parâmetros:

* Uma condição: no nosso caso, queremos que filtrar as coluna do CNAE onde os valores sejam -1
* Um valor: caso a condição acima seja verdadeira, qual valor deverá ser retornado?
* Outro valor: se a condição for falsa, então, qual outro valor deverá ser retornado?


In [33]:
df_final['TIPO_DOADOR'] = np.where(df_final["CD_CNAE_DOADOR"] == -1, 'fisica', 'juridica')

In [None]:
df_final.head()

## Agrupando (group by)

In [None]:
# Preencha abaixo primeiro uma lista com as 3 colunas que precisamos utilizar para responder à pergunta. E depois o nome das 2 colunas que precisamos agrupar.
# Qual foi a maior doação de pessoa física e pessoa jurídica em cada estado?
df_final[].groupby(by=______).max()

In [None]:
# Para repetir o valor da coluna TIPO_DOADOR nas linhas, coloque o parâmetro as_index=False no método groupby do comando acima



## Qual o total de doações recebidas por partido?

In [None]:
df_final[__________].groupby(by=_____).___()

## Qual é o top 10?

Crie um novo dataframe com os 10 partidos com mais doações. Você precisa primeiro ordenar os resultados e depois selecionar apenas os 10 primeiros.



In [None]:
df_final[__________].groupby(by=_____).___().sort_values(by='____',ascending=______).head(___)

# Vamos visualizar os resultados?
Na aula, nós vimos como usar o matplotlib para gerar gráficos. Agora, vamos descobrir uma nova forma de fazer o mesmo usando um método nativo Pandas. Experimente colocar `.plot(kind='barh')` após a consulta ou dataframe anterior.

Com este comando, podemos produzir um gráfico (plot) do tipo (kind) de barras horizontais (barh).

In [None]:
df_final[__________].groupby(by=_____).___().sort_values(by='____',ascending=______).head(___).plot(kind='barh')

## Qual o valor médio das doações por tipo de doador?

Agora é sua vez! A partir dos comandos anteriores, faça uma nova consulta para descobrir a mediana de acordo com o tipo de doador.

## Qual o valor mais alto de doação por tipo de doador?

## Crie uma tabela com valor máximo, mínimo e a mediana, por estado e tipo de doador

# Entreviste você mesmo

Escreva abaixo pelo menos outras três perguntas que podem ser feitas à base de dados. Escreva a pergunta como um comentário acima do código com a consulta em Python.