# Escola de Dados - Python para inovação cívica
## Módulo 1: Noções básicas de estatística descritiva e pré-processamento

- [Aula 8](#Aula-8:-Introdução-a-estatística)
- [Aula 9](#Aula-9:-Medidas-de-tendência-central-e-dispersão)
- [Aula 10](#Aula-10:-Outliers-e-valores-faltantes)
- [Aula 12](#Aula-12:-Operações-básicas-com-python)
- [Aula 13](#Aula-13:-Métodos-`filter`-e-`sort_values`)
- [Aula 14](#Aula-14:-Operações-com-dados-e-método-`apply`)
- [Aula 15](#Aula-15:-Operações-com-dados-e-método-`groupby`)


### Aula 8: Introdução a estatística

Os dados que usaremos nesse notebook pode ser encontrado em: [TSE. Candidaturas em 2020](https://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1).

Trabalharemos com os dados referentes as candidaturas nos estados de Pernambuco e Rio Grande do Norte.


In [1]:
import pandas as pd

In [7]:
dados_pe_rn = ['base_dados/consulta_cand_2020_PE.csv', 'base_dados/consulta_cand_2020_RN.csv']

In [8]:
lista_df = []

for dados_estado in dados_pe_rn:
    df_estado = pd.read_csv(dados_estado, sep=';', encoding='latin_1')
    lista_df.append(df_estado)

In [9]:
df_completo = pd.concat(lista_df, axis=0, ignore_index=True)

É possível criar um dataframe apenas com os dados de candidaturas para as Câmeras de Vereados dos estados.

In [10]:
df_vereadores = df_completo[df_completo['CD_CARGO'] == 13].copy()

In [11]:
df_vereadores.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
       'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'NR_CPF_CANDIDATO', 'NM_EMAIL',
       'CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA',
       'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO',
       'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'SQ_COLIGACAO',
       'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO', 'CD_NACIONALIDADE',
       'DS_NACIONALIDADE', 'SG_UF_NASCIMENTO', 'CD_MUNICIPIO_NASCIMENTO',
       'NM_MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO', 'NR_IDADE_DATA_POSSE',
       'NR_TITULO_ELEITORAL_CANDIDATO', 'CD_GENERO', 'DS_GENERO',
       'CD_GRAU_INSTRUCAO', 'DS_GRAU_INSTRUCAO', 'CD_ESTADO_CIVIL',
       'DS_ESTADO_CIVIL', 'CD_COR_RACA', 'DS_COR_RACA', 'CD_OCUPACAO',
       '

O método `pd.describe` traz um quadro com algumas medidas da estatística descritiva, como as medidas de tendência central, medidas de dispersão e quartis, excluindo os valores NaN (not a number).

In [12]:
df_vereadores.describe()

Unnamed: 0,ANO_ELEICAO,CD_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,SG_UE,CD_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NR_CPF_CANDIDATO,CD_SITUACAO_CANDIDATURA,...,CD_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,CD_COR_RACA,CD_OCUPACAO,VR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA
count,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,...,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0,29269.0
mean,2020.0,2.0,1.0,426.0,22341.67399,13.0,179743400000.0,32889.886569,29225230000.0,11.559978,...,5.627387,2.658,2.204243,532.344802,80446.86,4.202569,-1.0,6.002235e+18,2.063275,2.054665
std,0.0,0.0,0.0,0.0,3562.350455,0.0,14048640000.0,21536.107047,31080400000.0,1.9408,...,1.701545,2.056771,1.007947,321.971818,179853.6,1.316052,0.0,1400676000000000.0,1.37949,1.379635
min,2020.0,2.0,1.0,426.0,16004.0,13.0,170000600000.0,10000.0,13219430.0,3.0,...,1.0,1.0,1.0,101.0,12307.75,-1.0,-1.0,6.000126e+18,-1.0,-1.0
25%,2020.0,2.0,1.0,426.0,18031.0,13.0,170000900000.0,15123.0,4714564000.0,12.0,...,4.0,1.0,1.0,257.0,12307.75,4.0,-1.0,6.001217e+18,2.0,2.0
50%,2020.0,2.0,1.0,426.0,23833.0,13.0,170001100000.0,23600.0,10159960000.0,12.0,...,6.0,3.0,3.0,532.0,24617.75,5.0,-1.0,6.001913e+18,2.0,2.0
75%,2020.0,2.0,1.0,426.0,25135.0,13.0,200000800000.0,45333.0,55140770000.0,12.0,...,6.0,3.0,3.0,931.0,52266.32,5.0,-1.0,6.002876e+18,2.0,2.0
max,2020.0,2.0,1.0,426.0,30031.0,13.0,200001400000.0,90999.0,99977760000.0,12.0,...,8.0,9.0,6.0,999.0,1011150.0,5.0,-1.0,6.011688e+18,17.0,20.0


Para gerar relatórios interativos em HTML a partir de um dataframe do pandas usaremos a biblioteca Pandas Profiling, com ele para cada coluna será apresentado estatístico correspondente ao tipo de dado.

In [14]:
import numpy as np
from pandas_profiling import ProfileReport

In [19]:
profile = ProfileReport(df_vereadores, title="Introdução - Pandas Profiling Report")

In [27]:
profile.to_file(output_file="relatorio_eleicoes_vereadores_2020_pe_rn.html")

Export report to file: 100%|██████████| 1/1 [00:00<00:00, 12.35it/s]


## Em PE e RN, houveram quantas candidaturas para a prefeitura?

In [30]:
df_prefeitos = df_completo[df_completo['DS_CARGO']=='PREFEITO'].copy()
print(f'Em PE e RN, houveram {df_prefeitos.shape[0]} candidaturas para prefeito.')

Em PE e RN, houveram 1185 candidaturas para prefeito.


### Aula 9: medidas de tendência central e dispersão

As medidas de tendência central servem para determinar o valor central de uma distribuição. Vamos explorar mais um pouco nosso dataframe e descobrir qual a moda (valor que mais se repete) da colina 'SG_PARTIDO'

In [33]:
df_vereadores['SG_PARTIDO'].mode()

0    PSB
dtype: object

A média aritmética da coluna 'NR_IDADE_DATA_POSSE' é:

In [34]:
df_vereadores['NR_IDADE_DATA_POSSE'].mean()

44.09252109740681

Continuando a explorar a idade das pessoas candidatas na data da posse, queremos saber qual é o valor que ocupa a posição central do conjunto de dados, após a ordenação dos valores (mediana).


In [35]:
df_vereadores['NR_IDADE_DATA_POSSE'].median()

44.0

Qual a variância do dado 'NR_IDADE_DATA_POSSE'?

In [36]:
df_vereadores['NR_IDADE_DATA_POSSE'].var()

128.33037627676035

Qual o desvio padrão do dado 'NR_IDADE_DATA_POSSE'?

In [None]:
df_vereadores['NR_IDADE_DATA_POSSE'].std()

## Qual a média, moda e mediana do 'VR_DESPESA_MAX_CAMPANHA'?

In [39]:
media = df_vereadores['VR_DESPESA_MAX_CAMPANHA'].mean()
moda = df_vereadores['VR_DESPESA_MAX_CAMPANHA'].mode()
mediana = df_vereadores['VR_DESPESA_MAX_CAMPANHA'].median()

print(f'Media: {media}')
print(f'Moda: {moda}')
print(f'Mediana: {mediana}')


Media: 80446.864537907
Moda: 0    12307.75
dtype: float64
Mediana: 24617.75


### Aula 10: Outliers e valores faltantes


De acordo com o dicionário de dados do conjunto de dados do TSE, os valores faltantes estão preenchidos com #NULO#, no entanto o Pandas não reconhece essa palavra como um missing. Faremos a substituição da string "#NULO#" pelo valor `None` nas colunas com valores categóricos.

In [40]:
colunas_categoricas = ['NM_TIPO_ELEICAO', 'DS_ELEICAO', 'TP_ABRANGENCIA', 'SG_UF', 'NM_UE', 'DS_CARGO', 
                       'NM_CANDIDATO', 'NM_URNA_CANDIDATO', 'NM_SOCIAL_CANDIDATO', 'NM_EMAIL', 
                       'DS_SITUACAO_CANDIDATURA', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO', 'SG_PARTIDO', 
                       'NM_PARTIDO', 'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO', 'DS_NACIONALIDADE', 
                       'SG_UF_NASCIMENTO', 'NM_MUNICIPIO_NASCIMENTO', 'DS_GENERO', 'DS_GRAU_INSTRUCAO', 
                       'DS_ESTADO_CIVIL', 'DS_COR_RACA', 'DS_OCUPACAO', 'VR_DESPESA_MAX_CAMPANHA', 
                       'DS_SIT_TOT_TURNO', 'ST_REELEICAO', 'ST_DECLARAR_BENS', 'DS_SITUACAO_CANDIDATO_PLEITO', 
                       'DS_SITUACAO_CANDIDATO_URNA', 'ST_CANDIDATO_INSERIDO_URNA'
                      ]


In [41]:
df_vereadores[colunas_categoricas] = df_vereadores.loc[:, colunas_categoricas].replace({'#NULO#': None})

In [42]:
df_vereadores.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29269 entries, 0 to 31654
Data columns (total 63 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   DT_GERACAO                     29269 non-null  object 
 1   HH_GERACAO                     29269 non-null  object 
 2   ANO_ELEICAO                    29269 non-null  int64  
 3   CD_TIPO_ELEICAO                29269 non-null  int64  
 4   NM_TIPO_ELEICAO                29269 non-null  object 
 5   NR_TURNO                       29269 non-null  int64  
 6   CD_ELEICAO                     29269 non-null  int64  
 7   DS_ELEICAO                     29269 non-null  object 
 8   DT_ELEICAO                     29269 non-null  object 
 9   TP_ABRANGENCIA                 29269 non-null  object 
 10  SG_UF                          29269 non-null  object 
 11  SG_UE                          29269 non-null  int64  
 12  NM_UE                          29269 non-null 

Geraremos um novo relatório usando o Pandas Profiling para visualizar as mudanças.

In [43]:
profile = ProfileReport(df_vereadores, title="Limpeza dos dados - Pandas Profiling Report")
profile.to_file(output_file="relatorio_eleicoes_vereadores_2020_pe_rn_limpo.html")

  ax1.set_xticklabels(ax1.get_xticklabels(), rotation=45, ha='right', fontsize=fontsize)
    (using `df.profile_report(missing_diagrams={"bar": False}`)
    If this is problematic for your use case, please report this as an issue:
    https://github.com/pandas-profiling/pandas-profiling/issues
    (include the error message: 'The number of FixedLocator locations (7), usually from a call to set_ticks, does not match the number of ticklabels (64).')
Summarize dataset: 100%|██████████| 77/77 [08:49<00:00,  6.88s/it, Completed]
Generate report structure: 100%|██████████| 1/1 [00:31<00:00, 31.13s/it]
Render HTML: 100%|██████████| 1/1 [00:15<00:00, 15.73s/it]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 10.21it/s]


### Aula 12: Operações básicas com dados

Costumamos construir um subdataframe apenas com as colunas que usaremos na nossa análise. Existem várias formas de filtrar as linhas e colunas. Vamos aprender como fazer isso separadamente: 

Filtrar as 26 colunas pertinentes para nosso estudo.

In [None]:
df_vereadores_pe_rn_reduzido = df_vereadores[
    ['ANO_ELEICAO','TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
     'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO','NM_SOCIAL_CANDIDATO', 'NR_PARTIDO',
     'SG_PARTIDO', 'NR_IDADE_DATA_POSSE','CD_GENERO', 'DS_GENERO', 'CD_COR_RACA', 'DS_COR_RACA',
     'VR_DESPESA_MAX_CAMPANHA', 'CD_SIT_TOT_TURNO','DS_SIT_TOT_TURNO', 'ST_REELEICAO', 'CD_SITUACAO_CANDIDATURA',
     'DS_SITUACAO_CANDIDATURA', 'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND']
].copy()

In [None]:
df_vereadores_pe_rn_reduzido.shape

Agora selecionaremos apenas as pessoas que tem sua candidaturas "apto", "deferido" e "deferido com recurso".

In [None]:
df_vereadores_pe_rn_reduzido_aptas = df_vereadores_pe_rn_reduzido[
    df_vereadores_pe_rn_reduzido['CD_SITUACAO_CANDIDATURA'] == 12
]

In [None]:
df_vereadores_pe_rn_reduzido_aptas_deferidas = df_vereadores_pe_rn_reduzido_aptas[
    (df_vereadores_pe_rn_reduzido_aptas['DS_DETALHE_SITUACAO_CAND'] == 'DEFERIDO') | 
    (df_vereadores_pe_rn_reduzido_aptas['DS_DETALHE_SITUACAO_CAND'] == 'DEFERIDO COM RECURSO')
]

In [None]:
df_vereadores_pe_rn_reduzido_aptas_deferidas.shape

Agora, aprenderemos a filtrar usando a função `pd.loc`:

In [None]:
colunas_desejadas = ['ANO_ELEICAO','TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
     'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO','NM_SOCIAL_CANDIDATO', 'NR_PARTIDO',
     'SG_PARTIDO', 'NR_IDADE_DATA_POSSE','CD_GENERO', 'DS_GENERO', 'CD_COR_RACA', 'DS_COR_RACA',
     'VR_DESPESA_MAX_CAMPANHA', 'CD_SIT_TOT_TURNO','DS_SIT_TOT_TURNO', 'ST_REELEICAO', 'CD_SITUACAO_CANDIDATURA',
     'DS_SITUACAO_CANDIDATURA', 'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND']

In [None]:
filtro_linhas = (df_vereadores['CD_SITUACAO_CANDIDATURA'] == 12) & (
    (df_vereadores['DS_DETALHE_SITUACAO_CAND'] == 'DEFERIDO') | 
    (df_vereadores['DS_DETALHE_SITUACAO_CAND'] == 'DEFERIDO COM RECURSO')
)

In [None]:
df_vereadores_pe_rn_reduzido_aptas_deferidas_2 = df_vereadores.loc[filtro_linhas, colunas_desejadas]

In [None]:
df_vereadores_pe_rn_reduzido_aptas_deferidas_2.shape

In [None]:
df_vereadores_pe_rn = df_vereadores_pe_rn_reduzido_aptas_deferidas_2.copy()

## Sua vez, crie um dataframe com apenas os nomes e partidos das pessoas candidatas que se autodeclararam como 'PARDA', 'PRETA' e 'INDÍGENA'

### Aula 13: Métodos `filter` e `sort_values`

Vamos filtrar todas as colunas que possuam as letras "DIDATO" no seu título:

In [None]:
df_vereadores_pe_rn_nomes = df_vereadores_pe_rn.filter(like='DIDATO', axis=1)
df_vereadores_pe_rn_nomes.head()

Para ordenar as linhas a partir das colunas 'NM_SOCIAL_CANDIDATO' e 'NM_CANDIDATO, usamos o método df.sort_values:

In [None]:
df_vereadores_pe_rn_nomes.sort_values(by=['NM_SOCIAL_CANDIDATO', 'NM_CANDIDATO'], 
                                      ascending=True, 
                                      na_position='last', 
                                      ignore_index=False
)

## Selecione apenas as colunas cujo o título possua "DS" e organize em ordem descrescente. Qual o gênero das candidaturas das 3 primeiras linhas?

### Aula 14: Operações com dados e método `apply`

Podemos criar uma nova coluna a partir de operações sobre outras colunas. No exemplo abaixo vamos descobrir o gasto médio diário declarado por cada candidatura.

In [None]:
total_dias_campanha = 45
df_vereadores_pe_rn['GASTO_DIARIO'] = df_vereadores_pe_rn['VR_DESPESA_MAX_CAMPANHA'] / total_dias_campanha

In [None]:
df_vereadores_pe_rn.head()

Explorando mais um pouco esses dados, trabalharemos apenas com os dados das candidaturas de Pernambuco e classificaremos os gastos médios diários de acordo com os conceitos de quartil e valores discrepantes que vimos nos vídeos sobre estatística:

In [None]:
df_vereadores_pe = df_vereadores_pe_rn[df_vereadores_pe_rn['SG_UF'] == 'PE'].copy()

In [None]:
primeiro_quartil = df_vereadores_pe['GASTO_DIARIO'].quantile(0.25)
terceiro_quartil = df_vereadores_pe['GASTO_DIARIO'].quantile(0.75)

In [None]:
intervalo_interquartil = terceiro_quartil - primeiro_quartil

In [None]:
limite_inferior = primeiro_quartil - (intervalo_interquartil * 1.5)
limite_superior = terceiro_quartil + (intervalo_interquartil * 1.5)

In [None]:
def classificacao_gasto(row):
    if row < limite_inferior:
        return 'muito abaixo da média'
    elif row >= limite_inferior and row < primeiro_quartil:
        return 'abaixo da média'
    elif row >= primeiro_quartil and row <= terceiro_quartil:
        return 'na média'
    elif row > terceiro_quartil and row <= limite_superior:
        return 'acima da média'
    else:
        return 'muito acima da média'

In [None]:
df_vereadores_pe['CLASSIFICACAO_GASTO_DIARIO'] = df_vereadores_pe['GASTO_DIARIO'].apply(classificacao_gasto)

In [None]:
df_vereadores_pe.head()

Para facilitar a visualização faremos um gráfico de barras usando a biblioteca matplotlib:

In [None]:
from matplotlib import pyplot as plt

In [None]:
# guarda na variável "classificacao" uma lista com os rótulos usados para classificar os gastos
classificacao = df_vereadores_pe['CLASSIFICACAO_GASTO_DIARIO'].unique().tolist()

In [None]:
#guarda na variável "total_por_classificacao" uma lista a quantidade de ocorrência de cada rótulo
total_por_classificacao = df_vereadores_pe['CLASSIFICACAO_GASTO_DIARIO'].value_counts().to_list()

In [None]:
plt.bar(classificacao, total_por_classificacao)
plt.title('Gastos diários declarados por candidatura')
plt.ylabel('Quantitativo de municípios por classificação')

plt.show()

### Aula 15: Operações com dados e método `groupby`

Usando o método groupby podemos agrupar dados segundo informações de uma coluna e fazer operações com o agrupamento.

As perguntas que queremos responder são: quantas mulheres são candidatas? Qual a distribuição de pessoas por grupo racial? Quantidade de mulheres por grupo racial? E qual partido tem mais mulheres em cada grupo racial?


In [None]:
colunas_desejadas = ['SG_PARTIDO', 'DS_GENERO', 'DS_COR_RACA']
filtro = df_vereadores_pe_rn['SG_UF'] == 'PE'

In [None]:
df_vereadores_pe_sexo_raca = df_vereadores_pe_rn.loc[filtro, colunas_desejadas]

In [None]:
df_vereadores_pe_sexo_raca.head()

Agrupando por gênero, quantas candidaturas temos em cada um?

In [None]:
df_vereadores_pe_sexo_raca.groupby(['DS_GENERO']).count()

E por raça?

In [None]:
df_vereadores_pe_sexo_raca.groupby(['DS_COR_RACA']).count()

Da candidaturas do gênero feminino, quantas temos em cada grupo racial?

In [None]:
df_vereadores_pe_sexo_raca[df_vereadores_pe_sexo_raca['DS_GENERO'] == 'FEMININO'].groupby(
    ['DS_GENERO', 'DS_COR_RACA']).count()

Entre as candidaturas do gênero feminino, quais os partidos com maior número de representação em cada grupo racial?

In [None]:
df_vereadores_pe_sexo_raca[df_vereadores_pe_sexo_raca['DS_GENERO'] == 'FEMININO'].groupby(
    ['DS_GENERO', 'DS_COR_RACA']).max()

## Agora é a sua vez, entre as candidaturas do sexo masculino, quais os partidos com o menor número de representantes em cada grupo racial?