# Escola de Dados - Python para inovação cívica

Os dados que usaremos nesse notebook pode ser encontrado em: [Candidatos - 2016](https://dadosabertos.tse.jus.br/dataset/candidatos-2016) e [Candidatos - 2020](https://dadosabertos.tse.jus.br/dataset/candidatos-2020-subtemas) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.


Os dados também podem ser encontrados na pasta "Dados" deste repositório.


------
Pontos para aula:

- Quantas candidaturas para a Câmara de Vereadores houveram em cada ano agrupado por gênero ? 
- Qual a faixa etária média das pessoas candidatas para a Câmara de Vereadores?
- Há correlação entre idade, gênero e custo da campanha?
- Visualização gráfica da distribuição da variável DS_COR_RACA em 2020

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import glob 

In [None]:
dados_ap_pa = glob.glob('base_dados/consulta*.csv')  

In [None]:
print(dados_ap_pa)

In [None]:
lista_df = []
for dados_estado in dados_ap_pa:
  df_estado = pd.read_csv(dados_estado, sep=";", encoding="latin_1", na_values=["#NULO#"])
  lista_df.append(df_estado)

In [None]:
print(lista_df[0].columns)
print(len(lista_df))

In [None]:
df_completo = pd.concat(lista_df, axis=0, ignore_index=True)

In [None]:
df_completo.sample(5)

In [None]:
df_completo.shape

In [None]:
df_completo.info()

In [None]:
df_completo['DS_CARGO'].unique()

In [None]:
df_completo['DS_DETALHE_SITUACAO_CAND'].unique()

In [None]:
filtro_cargo = df_completo['DS_CARGO'] == 'VEREADOR '

In [None]:
filtro_deferimento_1 = df_completo['DS_DETALHE_SITUACAO_CAND'] == 'DEFERIDO' 

In [None]:
filtro_deferimento_2 = df_completo['DS_DETALHE_SITUACAO_CAND'] == 'DEFERIDO COM RECURSO' 

In [None]:
df_vereadores = df_completo[filtro_cargo & filtro_deferimento_1 | filtro_deferimento_2].copy()

In [None]:
df_vereadores.shape

# Quantas candidaturas houveram em cada ano agrupado por gênero ? 

In [None]:
df_raca_genero = df_vereadores[['ANO_ELEICAO', 'CD_CARGO', 'SG_UF', 'NR_PARTIDO', 'SG_PARTIDO', 'CD_GENERO',
                                'DS_GENERO', 'CD_COR_RACA', 'DS_COR_RACA', 'NR_IDADE_DATA_POSSE',
                                'VR_DESPESA_MAX_CAMPANHA']].copy()

In [None]:
df_raca_genero.shape

In [None]:
df_raca_genero.head()

In [None]:
df_raca_genero[['ANO_ELEICAO', 'DS_GENERO', 'CD_CARGO']].groupby(by=['ANO_ELEICAO', 'DS_GENERO']).count()

In [None]:
df_ano_genero = df_raca_genero[['ANO_ELEICAO', 'DS_GENERO', 'CD_CARGO']].groupby(by=['ANO_ELEICAO', 'DS_GENERO'], as_index=False).count()

In [None]:
df_ano_genero

In [None]:
df_ano_genero.groupby(['ANO_ELEICAO', 'DS_GENERO']).sum().unstack(0).plot()

# Qual a faixa etária média das pessoas candidatas para a Câmara de Vereadores?

In [None]:
df_raca_genero.head()

In [None]:
cortes = [18, 24, 34, 44, 54, 64, 100]

In [None]:
categorias = ['18 a 24 anos', '25 a 34 anos', '35 a 44 anos', '45 a 54 anos', '55 a 64 anos', 'acima de 64 anos']

In [None]:
df_raca_genero['FAIXA_ETARIA'] = pd.cut(df_raca_genero['NR_IDADE_DATA_POSSE'], cortes, labels=categorias)

In [None]:
df_raca_genero

In [None]:
df_raca_genero['FAIXA_ETARIA'].mode()

# Visualize graficamente a distribuição da variável DS_COR_RACA em 2020

In [None]:
df_raca_2020 = df_raca_genero[df_raca_genero['ANO_ELEICAO'] == 2020].copy()

In [None]:
df_raca_2020[['CD_COR_RACA', 'DS_COR_RACA']].groupby(['DS_COR_RACA']).count()

In [None]:
raca = df_raca_2020['DS_COR_RACA'].unique().tolist()

In [None]:
print(raca)

In [None]:
frequencia = df_raca_2020['DS_COR_RACA'].value_counts().tolist()

In [None]:
print(frequencia)

In [None]:
plt.bar(raca, frequencia)

In [None]:
plt.bar(raca, frequencia)
plt.xticks(rotation=45)
plt.title('Distribuicao por raca em 2020 no PA e AM')
plt.ylabel('Quantidade de candidaturas')

plt.show()

# Há correlação entre idade, gênero e custo da campanha?

In [None]:
df_raca_genero[['NR_IDADE_DATA_POSSE', 'CD_GENERO', 'VR_DESPESA_MAX_CAMPANHA']].corr(method='pearson')