In [5]:
import pandas as pd

# File Settings
filepath = 'perfil_eleitor_PI.csv'
encoding = 'ISO-8859-1'
separator = ';'
column_names = ['DATA_GERACAO', 'HORA_GERACAO', 'PERIODO', 'UF', 'COD_MUNICIPIO_TSE', 'MUNICIPIO', 'NUM_ZONA', 'NUM_SECAO', 'CODIGO_ESTADO_CIVIL', 'ESTADO_CIVIL', 'COD_FAIXA_ETARIA', 'FAIXA_ETARIA', 'COD_GRAU_ESCOLARIDADE', 'GRAU_ESCOLARIDADE', 'CODIGO_SEXO', 'SEXO', 'QTD_ELEITORES_NO_PERFIL']

# Each line of the file represents a profile for voters in the state of Piauí in 2016
df = pd.read_csv(filepath, encoding = encoding, sep = separator, names = column_names)
df

Unnamed: 0,DATA_GERACAO,HORA_GERACAO,PERIODO,UF,COD_MUNICIPIO_TSE,MUNICIPIO,NUM_ZONA,NUM_SECAO,CODIGO_ESTADO_CIVIL,ESTADO_CIVIL,COD_FAIXA_ETARIA,FAIXA_ETARIA,COD_GRAU_ESCOLARIDADE,GRAU_ESCOLARIDADE,CODIGO_SEXO,SEXO,QTD_ELEITORES_NO_PERFIL
0,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,10,SUPERIOR A 79 ANOS,1,ANALFABETO,4,FEMININO,1
1,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,1,ANALFABETO,2,MASCULINO,1
2,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,2,LÊ E ESCREVE,2,MASCULINO,3
3,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,2,LÊ E ESCREVE,4,FEMININO,2
4,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,3,ENSINO FUNDAMENTAL INCOMPLETO,2,MASCULINO,13
5,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,3,ENSINO FUNDAMENTAL INCOMPLETO,4,FEMININO,9
6,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,4,ENSINO FUNDAMENTAL COMPLETO,2,MASCULINO,2
7,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,4,ENSINO FUNDAMENTAL COMPLETO,4,FEMININO,3
8,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,5,ENSINO MÉDIO INCOMPLETO,2,MASCULINO,1
9,29/09/2016,23:05:20,2016,PI,10006,BRASILEIRA,11,119,1,SOLTEIRO,5,25 A 34 ANOS,6,ENSINO MÉDIO COMPLETO,4,FEMININO,9


In [2]:
# Zone and section codes
zones = [
    {
        'id': 2,
        'sections': [447, 368]
    },
    {
        'id': 98,
        'sections': [1, 2, 3, 4, 5, 6, 7, 227, 251, 260, 273]
    }
]

# Name of columns to select
selected_columns = ['NUM_ZONA', 'NUM_SECAO', 'ESTADO_CIVIL', 'FAIXA_ETARIA', 'GRAU_ESCOLARIDADE', 'SEXO', 'QTD_ELEITORES_NO_PERFIL']
tmp = df[selected_columns]

clean_df = tmp.loc[((tmp['NUM_ZONA'] == zones[0]['id']) & (tmp['NUM_SECAO'].isin(zones[0]['sections']))) |
              ((tmp['NUM_ZONA'] == zones[1]['id']) & (tmp['NUM_SECAO'].isin(zones[1]['sections'])))]

# Check number of voters for zones and sections selected. 
# According to data from TRE it should be equal to 6377
print('\nTotal number of voters:', clean_df['QTD_ELEITORES_NO_PERFIL'].sum(), '\n')

# Final DataFrame with voters from sections in Parque Jacinta and Jóquei
clean_df


Total number of voters: 6377 



Unnamed: 0,NUM_ZONA,NUM_SECAO,ESTADO_CIVIL,FAIXA_ETARIA,GRAU_ESCOLARIDADE,SEXO,QTD_ELEITORES_NO_PERFIL
630245,2,368,SOLTEIRO,16 ANOS,ENSINO FUNDAMENTAL INCOMPLETO,MASCULINO,1
630246,2,368,SOLTEIRO,16 ANOS,ENSINO FUNDAMENTAL INCOMPLETO,FEMININO,1
630247,2,368,SOLTEIRO,16 ANOS,ENSINO MÉDIO INCOMPLETO,MASCULINO,2
630248,2,368,SOLTEIRO,16 ANOS,ENSINO MÉDIO INCOMPLETO,FEMININO,1
630249,2,368,SOLTEIRO,17 ANOS,ENSINO MÉDIO INCOMPLETO,MASCULINO,5
630250,2,368,SOLTEIRO,17 ANOS,ENSINO MÉDIO INCOMPLETO,FEMININO,2
630251,2,368,SOLTEIRO,18 A 20 ANOS,ENSINO FUNDAMENTAL INCOMPLETO,MASCULINO,3
630252,2,368,SOLTEIRO,18 A 20 ANOS,ENSINO FUNDAMENTAL INCOMPLETO,FEMININO,1
630253,2,368,SOLTEIRO,18 A 20 ANOS,ENSINO FUNDAMENTAL COMPLETO,MASCULINO,1
630254,2,368,SOLTEIRO,18 A 20 ANOS,ENSINO MÉDIO INCOMPLETO,MASCULINO,14


In [3]:
# Export to a CSV file
clean_df.to_csv('./public/data/csv/voter_profile.csv', index = False)