# Notebook template para trabalhar dados do TSE

O objetivo desse notebook é auxiliar na análise dos dados do TSE. Esses dados estão disponíveis em
https://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1/repositorio-de-dados-eleitorais

Primeiramente, siga as isntruções do read.me do repositório de análises de Feira de Santana https://github.com/DadosAbertosDeFeira/analises

Importe a biblioteca pandas como pd

In [None]:
import pandas as pd

Faça upload do arquivo csv baixado no site do TSE e atribua a uma variável. Como o arquivo tem particularidades, são necessários argumentos específicos
- path: coloque onde o arquivo está localizado no seu computador.
- df: troque df para o nome que fizer sentido. Por exemplo -candidatos_2020_bahia-

In [None]:
path = ''
df = pd.read_csv(path, encoding = "Latin 1", sep=';')

A documentação do pd.read_csv() pode ser encontrada aqui https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Cheque se o arquivo foi importado como esperado usando o sample, que mostra randomicamente um número selecionado de observações.

In [None]:
df.sample(5)

Outro ponto importante é ver quais são as colunas de dados disponíveis. Para isso podemos utilizar a .columns

In [None]:
df.columns

#### Unir tabelas do TSE

As tabelas dos TSE são disponibilizadas separadamente e podem ser unificadas usando um ```join```
Por exemplo, uma tablea possui os dados do candidato (como partido e dados pessoais) e outra possui os bens declarados por cada candidato. Mas a tabela que possui os bens não possui o nome do candidato, apenas um número de identificação (id). Para saber o nome do candidato na tabela de bens, precisamos de um ```join```.


```merged_df = pd.merge(df_bens, df_names, on="id_column")```

Lembre-se que você precisa fazer upload de ambas tabelas usando as instruções acima.

No caso acima você irá incluir TODAS as informações das duas tabelas. Ou seja, se ```df_bens``` tem 10 colunas e ```df_names``` tem 5 colunas, o ```merged_df``` terá 15 colunas. Se um candidato não tiver bens, você terá os dados dele na tabela, porém com as colunas referentes do df_bens como ```NaN```. Se um candidato tiver dois bens declarados, terá duas linhas com os bens e suas informações repetidas nas colunas referentes aos seus dados.

Para modificar isso você pode usar o parâmetro ```how=...``` que tem as opções ```left``` e ```right```.
Saiba mais sobre esse comportamento em https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#database-style-dataframe-or-named-series-joining-merging

In [None]:
df_merged = pd.merge(df_bens, df_names, on='SQ_CANDIDATO')

#### Fazer um ranking

Para listar os 10+ ou 10- de acordo com uma coluna pode ser usado o método sort_values( ) e combinar com o head( )
A documentação do .sort_values( ) pode ser encontrada aqui https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html

In [None]:
sorted_df = df.sort_values(by='...', ascending=...)
sorted_df.head()

#### Fazer uma coluna calculada

Para criar uma nova coluna você pode fazer cálculos matemáticos ou utilizar funções disponíveis no Pandas.

Uma coluna utilizando cálcula matemático por exemplo seria:
`df['nova coluna'] = df['coluna']*2`

Uma coluna utilizando uam função como o split (transformar uma coluna em duas ou três) por exemplo seria:
`df[['day', 'month', 'year]] = df['data de nascimento'].str.split('/')`

#### Filtrar o arquivo de acordo com uma condição

Para filtrar apenas ocorrência que sigam uma condição é preciso criar a condição e depois o filtro.
- condição: ```condition =  df['column']=='name'```
- filtro: ```filter_df = df[condition]```

Ou você pode unir tudo da seguinte maneira ```filter_df = df[df['column']=='name']```

Também podem ser usadas outros tipo de condições como ```>(maior que) < (menor que) ```

#### Checar frequência em uma coluna

Para checar a frequência de cada item numa coluna é utilizado o método ```.value_counts()```.

```df['column'].value_counts()```