# 02 out 2018

Vamos atualizar nossa base para obter os dados a respeito de gênero e cor/raça dos candidatos às eleições de 2018

In [1]:
import pandas as pd
import numpy as np
import requests
import sys
import os
import glob
import time

In [2]:
from utils.dataframe_to_database import dataframe_to_database
from utils.dataframe_to_file import dataframe_to_file
from utils.database_to_dataframe import database_to_dataframe
from utils.download import download
from utils.tse_data_headers import get_header
from utils.tse_migrar_dados_por_estado_2018 import migrar_dados

In [3]:
header_2018 = get_header(2018)

In [4]:
header_2018

['DT_GERACAO',
 'HH_GERACAO',
 'ANO_ELEICAO',
 'CD_TIPO_ELEICAO',
 'NM_TIPO_ELEICAO',
 'NR_TURNO',
 'CD_ELEICAO',
 'DS_ELEICAO',
 'DT_ELEICAO',
 'TP_ABRANGENCIA',
 'SG_UF',
 'SG_UE',
 'NM_UE',
 'CD_CARGO',
 'DS_CARGO',
 'SQ_CANDIDATO',
 'NR_CANDIDATO',
 'NM_CANDIDATO',
 'NM_URNA_CANDIDATO',
 'NM_SOCIAL_CANDIDATO',
 'NR_CPF_CANDIDATO',
 'NM_EMAIL',
 'CD_SITUACAO_CANDIDATURA',
 'DS_SITUACAO_CANDIDATURA',
 'CD_DETALHE_SITUACAO_CAND',
 'DS_DETALHE_SITUACAO_CAND',
 'TP_AGREMIACAO',
 'NR_PARTIDO',
 'SG_PARTIDO',
 'NM_PARTIDO',
 'SQ_COLIGACAO',
 'NM_COLIGACAO',
 'DS_COMPOSICAO_COLIGACAO',
 'CD_NACIONALIDADE',
 'DS_NACIONALIDADE',
 'SG_UF_NASCIMENTO',
 'CD_MUNICIPIO_NASCIMENTO',
 'NM_MUNICIPIO_NASCIMENTO',
 'DT_NASCIMENTO',
 'NR_IDADE_DATA_POSSE',
 'NR_TITULO_ELEITORAL_CANDIDATO',
 'CD_GENERO',
 'DS_GENERO',
 'CD_GRAU_INSTRUCAO',
 'DS_GRAU_INSTRUCAO',
 'CD_ESTADO_CIVIL',
 'DS_ESTADO_CIVIL',
 'CD_COR_RACA',
 'DS_COR_RACA',
 'CD_OCUPACAO',
 'DS_OCUPACAO',
 'NR_DESPESA_MAX_CAMPANHA',
 'CD_SIT_TOT

In [5]:
PREFIXO_ARQUIVO_CANDIDATURAS = 'consulta_cand_'
DIRETORIO_TEMPORARIO = os.path.join('../temp')

def gerar_dataset():
    tempo_inicio_ano = time.time()

    arquivos = PREFIXO_ARQUIVO_CANDIDATURAS + '2018' + '*.csv'
    pathes = os.path.join(DIRETORIO_TEMPORARIO, arquivos)
    arquivos_do_ano = sorted(glob.glob(pathes))

    df_global = pd.DataFrame()
    for arquivo_estado in arquivos_do_ano:
        print('Iniciando {}'.format(arquivo_estado))

        df_estado = pd.read_csv(
            arquivo_estado,
            sep = ';',
            header = 0,
            dtype = np.str,
            names = header_2018,
            encoding = 'iso-8859-1'
        )
        df_global = df_global.append(df_estado)

    return df_global

In [6]:
df = gerar_dataset()

Iniciando ../temp\consulta_cand_2018_AC.csv
Iniciando ../temp\consulta_cand_2018_AL.csv
Iniciando ../temp\consulta_cand_2018_AM.csv
Iniciando ../temp\consulta_cand_2018_AP.csv
Iniciando ../temp\consulta_cand_2018_BA.csv
Iniciando ../temp\consulta_cand_2018_BR.csv
Iniciando ../temp\consulta_cand_2018_CE.csv
Iniciando ../temp\consulta_cand_2018_DF.csv
Iniciando ../temp\consulta_cand_2018_ES.csv
Iniciando ../temp\consulta_cand_2018_GO.csv
Iniciando ../temp\consulta_cand_2018_MA.csv
Iniciando ../temp\consulta_cand_2018_MG.csv
Iniciando ../temp\consulta_cand_2018_MS.csv
Iniciando ../temp\consulta_cand_2018_MT.csv
Iniciando ../temp\consulta_cand_2018_PA.csv
Iniciando ../temp\consulta_cand_2018_PB.csv
Iniciando ../temp\consulta_cand_2018_PE.csv
Iniciando ../temp\consulta_cand_2018_PI.csv
Iniciando ../temp\consulta_cand_2018_PR.csv
Iniciando ../temp\consulta_cand_2018_RJ.csv
Iniciando ../temp\consulta_cand_2018_RN.csv
Iniciando ../temp\consulta_cand_2018_RO.csv
Iniciando ../temp\consulta_cand_

In [7]:
df

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,NR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_DECLARAR_BENS,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO
0,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,257,EMPRESÁRIO,0,-1,#NULO#,N,N,-1,06007352120186010000
1,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,999,OUTROS,-1,-1,#NULO#,N,N,-1,06007586420186010000
2,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,BRANCA,999,OUTROS,0,-1,#NULO#,N,S,-1,06005412120186010000
3,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,999,OUTROS,0,-1,#NULO#,N,S,-1,06005931720186010000
4,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,503,FAXINEIRO,0,-1,#NULO#,N,N,-1,06004060920186010000
5,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,298,SERVIDOR PÚBLICO MUNICIPAL,0,-1,#NULO#,N,S,-1,06003576520186010000
6,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,999,OUTROS,0,-1,#NULO#,N,N,-1,06001653520186010000
7,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,999,OUTROS,0,-1,#NULO#,N,N,-1,06006226720186010000
8,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,395,BANCÁRIO E ECONOMIÁRIO,0,-1,#NULO#,N,S,-1,06005958420186010000
9,22/09/2018,14:01:02,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,999,OUTROS,0,-1,#NULO#,N,N,-1,06001385220186010000


In [8]:
dataframe_to_file(
    dataframe=df,
    origem_dados='tse',
    nome='candidaturas-2018'
)

## Gêneros

In [16]:
generos = (
    df[[
        'CD_GENERO',
        'DS_GENERO'
    ]]
    .drop_duplicates('CD_GENERO', keep='last')
    .sort_values(by=['CD_GENERO'], ascending=True, na_position='first')
    .rename(columns = {
        'CD_GENERO': 'codigo_tse',
        'DS_GENERO': 'descricao'
    })
)

generos.index = generos.reset_index().index

generos

Unnamed: 0,codigo_tse,descricao
0,2,MASCULINO
1,4,FEMININO


### Tabela de Gênero

```SQL
-- -----------------------------------------------------
-- Table `laddres`.`genero`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `laddres`.`genero` (
  `id` INT NOT NULL,
  `descricao` VARCHAR(20) NOT NULL,
  PRIMARY KEY (`id`))
ENGINE = InnoDB;


ALTER TABLE candidato ADD genero_id INT NULL;
ALTER TABLE candidato ADD CONSTRAINT fk_candidato_genero1 FOREIGN KEY (`genero_id`) REFERENCES `laddres`.`genero` (`id`) ON DELETE NO ACTION ON UPDATE NO ACTION;
```

### Salvar Dados

In [15]:
dataframe_to_database(
    dataframe=generos,
    tabela='genero',
    colunas_tabela=['id', 'descricao'],
    colunas_dataframe=['codigo_tse', 'descricao']
)

361 de 2

## Analisar Cor/Raça

In [18]:
cores = (
    df[[
        'CD_COR_RACA',
        'DS_COR_RACA'
    ]]
    .drop_duplicates('CD_COR_RACA', keep='last')
    .sort_values(by=['CD_COR_RACA'], ascending=True, na_position='first')
    .rename(columns = {
        'CD_COR_RACA': 'codigo_tse',
        'DS_COR_RACA': 'descricao'
    })
)

cores.index = cores.reset_index().index

cores

Unnamed: 0,codigo_tse,descricao
0,1,BRANCA
1,2,PRETA
2,3,PARDA
3,4,AMARELA
4,5,INDÍGENA


### Tabela de Cor/Raça

```SQL
-- -----------------------------------------------------
-- Table `laddres`.`cor_raca`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `laddres`.`cor_raca` (
  `id` INT NOT NULL,
  `descricao` VARCHAR(20) NOT NULL,
  PRIMARY KEY (`id`))
ENGINE = InnoDB;


ALTER TABLE candidato ADD cor_raca_id INT NULL;
ALTER TABLE candidato ADD CONSTRAINT fk_candidato_cor_raca1 FOREIGN KEY (`cor_raca_id`) REFERENCES `laddres`.`cor_raca` (`id`) ON DELETE NO ACTION ON UPDATE NO ACTION;
```

### Salvar Dados

In [17]:
dataframe_to_database(
    dataframe=cores,
    tabela='cor_raca',
    colunas_tabela=['id', 'descricao'],
    colunas_dataframe=['codigo_tse', 'descricao']
)

230 de 5

## Reprocessar Dados

```SQL
DELETE FROM candidatura WHERE eleicao_id = 202;
DELETE FROM candidatura WHERE eleicao_id = 203;
```

In [10]:
migrar_dados(2018)

Iniciando ../temp\consulta_cand_2018_AC.csv
Total de candidaturas em 2018: 586
586 de 586
Tempo total desse estado: 6.41s 

Iniciando ../temp\consulta_cand_2018_AL.csv
Total de candidaturas em 2018: 461
461 de 461
Tempo total desse estado: 3.76s 

Iniciando ../temp\consulta_cand_2018_AM.csv
Total de candidaturas em 2018: 855
855 de 855
Tempo total desse estado: 7.03s 

Iniciando ../temp\consulta_cand_2018_AP.csv
Total de candidaturas em 2018: 663
663 de 663
Tempo total desse estado: 5.34s 

Iniciando ../temp\consulta_cand_2018_BA.csv
Total de candidaturas em 2018: 1196
1196 de 1196
Tempo total desse estado: 11.01s 

Iniciando ../temp\consulta_cand_2018_BR.csv
Total de candidaturas em 2018: 28
28 de 28
Tempo total desse estado: 0.22s 

Iniciando ../temp\consulta_cand_2018_CE.csv
Total de candidaturas em 2018: 915
915 de 915
Tempo total desse estado: 7.97s 

Iniciando ../temp\consulta_cand_2018_DF.csv
Total de candidaturas em 2018: 1258
1258 de 1258
Tempo total desse estado: 10.08s 

Ini