# Estatística descritiva e pré-processamento

Neste desafio, iremos revisar alguns conceitos vistos nas aulas e ver algumas novidades. Os dados originais são do [repositório de dados eleitorais do Tribunal Superior Eleitoral](https://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1). 

O CSV disponibilizado é formado pela conjunção de algumas tabelas do arquivo [orgao_partidario.zip](https://cdn.tse.jus.br/estatistica/sead/odsele/orgao_partidario/orgao_partidario.zip), localizado no menu Partidos > Órgão Partidário.

Preencha as lacunas abaixo para completar o desafio.

# Importe os pacotes necessários

In [1]:
import pandas as pd
import numpy as np

# Leia o arquivo "receitas_orgaos_partidarios_2020_NORDESTE.csv" usando o Pandas

Na aula `1.10 - Outliers e valores faltantes`, vimos como utilizar o método `replace` para substituir valores em certos colunas do nosso dataframe e trocar o texto (string) `#NULO#` pela representação padrão do Pandas para valores nulos.

Neste desafio, vamos utilizar um outro método, onde definimos quais strings serão considerados valores nulos já na importação do arquivo.

Edite as células abaixo e inclua:

* O nome do arquivo que queremos importar
* O separador utilizado
* Insira uma lista no parâmetro `na_values` que contenha o texto a ser ignorado.

Experimente rodar os comandos primeiro sem e depois com o parâmetro `na_values`, então, compare a diferença. Observe, por exemplo, o campo `CD_CNAE_DOADOR`.

In [3]:
df = pd.read_csv('receitas_orgaos_partidarios_2020_NORDESTE.csv',sep=';')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12874 entries, 0 to 12873
Data columns (total 48 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   DT_GERACAO                   12874 non-null  object
 1   HH_GERACAO                   12874 non-null  object
 2   ANO_ELEICAO                  12874 non-null  int64 
 3   CD_TIPO_ELEICAO              12874 non-null  int64 
 4   NM_TIPO_ELEICAO              12874 non-null  object
 5   TP_PRESTACAO_CONTAS          12874 non-null  object
 6   DT_PRESTACAO_CONTAS          12874 non-null  object
 7   SQ_PRESTADOR_CONTAS          12874 non-null  int64 
 8   CD_ESFERA_PARTIDARIA         12874 non-null  object
 9   DS_ESFERA_PARTIDARIA         12874 non-null  object
 10  SG_UF                        12874 non-null  object
 11  CD_MUNICIPIO                 12874 non-null  int64 
 12  NM_MUNICIPIO                 12874 non-null  object
 13  NR_CNPJ_PRESTADOR_CONTA      12

In [4]:
df = pd.read_csv('receitas_orgaos_partidarios_2020_NORDESTE.csv',sep=';',na_values=['#NULO#'])

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12874 entries, 0 to 12873
Data columns (total 48 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   DT_GERACAO                   12874 non-null  object
 1   HH_GERACAO                   12874 non-null  object
 2   ANO_ELEICAO                  12874 non-null  int64 
 3   CD_TIPO_ELEICAO              12874 non-null  int64 
 4   NM_TIPO_ELEICAO              12874 non-null  object
 5   TP_PRESTACAO_CONTAS          12874 non-null  object
 6   DT_PRESTACAO_CONTAS          12874 non-null  object
 7   SQ_PRESTADOR_CONTAS          12874 non-null  int64 
 8   CD_ESFERA_PARTIDARIA         12874 non-null  object
 9   DS_ESFERA_PARTIDARIA         12874 non-null  object
 10  SG_UF                        12874 non-null  object
 11  CD_MUNICIPIO                 12874 non-null  int64 
 12  NM_MUNICIPIO                 11606 non-null  object
 13  NR_CNPJ_PRESTADOR_CONTA      12

# Filtre apenas os registros que sejam da prestação de contas final


In [5]:
# Primeiro vamos ver os valores únicas da coluna TP_PRESTACAO_CONTAS

df['TP_PRESTACAO_CONTAS'].unique()

array(['Final', 'Relatório Financeiro', 'Parcial',
       'Regularização da Omissão'], dtype=object)

In [6]:
# O resultado deste comando nos diz que temos 12874 linhas e 48 colunas antes do filtro
df.shape

(12874, 48)

In [7]:
# Preencha o campo os espaços abaixo com o nome da coluna e o valor desejado para nosso filtro

df_final = df[df['TP_PRESTACAO_CONTAS'] == 'Final']


In [8]:
# Rode o comando shape no novo dataframe criado e confira se o número de linhas foi reduzido

df_final.shape

(12288, 48)

## Qual foi a maior doação de pessoa física e pessoa jurídica em cada estado?

Vamos usar o método `value_counts` para não só listar cada valor único da coluna `CD_CNAE_DOADOR`, como também mostrar quantos registros temos em cada um.

In [9]:
# Preencha o nome da coluna abaixo

df_final['CD_CNAE_DOADOR'].value_counts()

-1        6509
 94928    5735
 94308      37
 14126       3
 62023       1
 84116       1
 94995       1
 17311       1
Name: CD_CNAE_DOADOR, dtype: int64

In [10]:
# Para ver os resultados em percentuais é fácil! Basta falarmos para o value_counts que queremos os resultados normalizados

df_final['CD_CNAE_DOADOR'].value_counts(normalize=True)

-1        0.529704
 94928    0.466715
 94308    0.003011
 14126    0.000244
 62023    0.000081
 84116    0.000081
 94995    0.000081
 17311    0.000081
Name: CD_CNAE_DOADOR, dtype: float64

Se o doador for pessoa jurídica, temos seu respectivo código CNAE. Se for pessoa física, então temos o valor `-1`. 

Qual conclusão podemos tirar a respeito dos comandos acima?

Escreva um **comentário** na célula abaixo com a resposta.

In [11]:
# Mais da metade dos registros são de pessoas físicas.

Agora, vamos duplicar a coluna `CD_CNAE_DOADOR` e deixar esta nova coluna apenas com 2 categorias: física (representada pelo valor -1) ou jurídica (que vamos representar inicialmente com 1).

In [23]:
# Primeiro crie uma nova coluna que seja uma cópia exata da coluna CD_CNAE_DOADOR

df_final['TIPO_DOADOR'] = df_final['CD_CNAE_DOADOR']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final['TIPO_DOADOR'] = df_final['CD_CNAE_DOADOR']


## Substituição condicional (conditional replacing)

Agora, vamos usar o método where do pacote NumPy (carinhosamente chamado de np abaixo).

Esta função recebe três parâmetros:

* Uma condição: no nosso caso, queremos que filtrar as coluna do CNAE onde os valores sejam -1
* Um valor: caso a condição acima seja verdadeira, qual valor deverá ser retornado?
* Outro valor: se a condição for falsa, então, qual outro valor deverá ser retornado?


In [24]:
df_final['TIPO_DOADOR'] = np.where(df_final['CD_CNAE_DOADOR']==-1, 'fisica', 'juridica')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final['TIPO_DOADOR'] = np.where(df_final['CD_CNAE_DOADOR']==-1, 'fisica', 'juridica')


### Agrupando (group by)

In [39]:
# Preencha abaixo primeiro uma lista com as 3 colunas que precisamos utilizar para responder à pergunta. E depois o nome das 2 colunas que precisamos agrupar.

df_final[['TIPO_DOADOR','SG_UF','VR_RECEITA']].groupby(by=['TIPO_DOADOR','SG_UF']).max()

Unnamed: 0_level_0,Unnamed: 1_level_0,VR_RECEITA
TIPO_DOADOR,SG_UF,Unnamed: 2_level_1
fisica,AL,17665
fisica,BA,200000
fisica,CE,200000
fisica,MA,100000
fisica,PB,23000
fisica,PE,150000
fisica,PI,23708
fisica,RN,25000
fisica,SE,31000
juridica,AL,3900000


In [40]:
# Para repetir o valor da coluna TIPO_DOADOR nas linhas, podemos colocar o parâmetro as_index=False

df_final[['TIPO_DOADOR','SG_UF','VR_RECEITA']].groupby(by=['TIPO_DOADOR','SG_UF'],as_index=False).max()

Unnamed: 0,TIPO_DOADOR,SG_UF,VR_RECEITA
0,fisica,AL,17665
1,fisica,BA,200000
2,fisica,CE,200000
3,fisica,MA,100000
4,fisica,PB,23000
5,fisica,PE,150000
6,fisica,PI,23708
7,fisica,RN,25000
8,fisica,SE,31000
9,juridica,AL,3900000


## Qual o valor médio das doações por tipo de doador?

Agora é sua vez! A partir dos comandos anteriores, faça uma nova consulta para descobrir a mediana de acordo com o tipo de doador.

In [41]:
df_final[['TIPO_DOADOR','VR_RECEITA']].groupby(by=['TIPO_DOADOR']).median()

Unnamed: 0_level_0,VR_RECEITA
TIPO_DOADOR,Unnamed: 1_level_1
fisica,600
juridica,1500


## Qual o total de doações recebidas por partido?

In [42]:
df_final[['SG_PARTIDO','VR_RECEITA']].groupby(by=['SG_PARTIDO']).sum()

Unnamed: 0_level_0,VR_RECEITA
SG_PARTIDO,Unnamed: 1_level_1
AVANTE,1555473
CIDADANIA,5433420
DC,1415608
DEM,2521140
MDB,39185338
NOVO,138588
PATRIOTA,946022
PC do B,2393497
PCB,146072
PDT,13420365


## Qual é o top 5?

Crie um novo dataframe com os 5 partidos com mais doações. Você precisa primeiro ordenar os resultados e depois selecionar apenas os 5 primeiros.



In [45]:
df_final[['SG_PARTIDO','VR_RECEITA']].groupby(by=['SG_PARTIDO']).sum().sort_values(by='VR_RECEITA',ascending=False).head()

Unnamed: 0_level_0,VR_RECEITA
SG_PARTIDO,Unnamed: 1_level_1
PSD,55485632
PP,50241447
PT,43423701
MDB,39185338
PSB,38124175
