In [None]:
# -*- coding: utf-8
# Reinaldo Chaves (@paidatocandeira)
# Processa a lista completa de candidatos nas eleições 2022
# Procura por nomes nas colunas "DS_OCUPACAO" e "NM_URNA_CANDIDATO"
# Usado Ubuntu 22.04.1 LTS
#

In [1]:
import pandas as pd

In [None]:
# Lista de candidatos:
# https://dadosabertos.tse.jus.br/dataset/candidatos-2022/resource/435145fd-bc9d-446a-ac9d-273f585a0bb9

In [9]:
kwargs = {'sep': ';', 'dtype': str, 'encoding': 'latin_1'}
candidatos = pd.read_csv("/home/abraji/Documentos/Code/reinaldo/repo/RB/rura2/originais/consulta_cand_2022_BRASIL_24_ago.csv", **kwargs)

In [10]:
candidatos.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
       'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'NR_CPF_CANDIDATO', 'NM_EMAIL',
       'CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA',
       'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO',
       'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'NR_FEDERACAO',
       'NM_FEDERACAO', 'SG_FEDERACAO', 'DS_COMPOSICAO_FEDERACAO',
       'SQ_COLIGACAO', 'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO',
       'CD_NACIONALIDADE', 'DS_NACIONALIDADE', 'SG_UF_NASCIMENTO',
       'CD_MUNICIPIO_NASCIMENTO', 'NM_MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO',
       'NR_IDADE_DATA_POSSE', 'NR_TITULO_ELEITORAL_CANDIDATO', 'CD_GENERO',
       'DS_GENERO', 'CD_GRAU_INSTRUCAO', 'DS_GRAU_INSTRUCAO',
       'CD_ESTAD

In [11]:
# Cria uma lista de todas as ocupações declaradas em 2022
a = candidatos['DS_OCUPACAO'].unique()
a_tolist = a.tolist()
print(a)

['POLICIAL MILITAR' 'AGRICULTOR' 'PROFESSOR DE ENSINO MÉDIO' 'CONTADOR'
 'FONOAUDIÓLOGO' 'JORNALISTA E REDATOR' 'VEREADOR' 'ADVOGADO'
 'ESTUDANTE, BOLSISTA, ESTAGIÁRIO E ASSEMELHADOS' 'OUTROS' 'PEDAGOGO'
 'EMPRESÁRIO' 'ADMINISTRADOR' 'MÉDICO' 'POLICIAL CIVIL'
 'SERVIDOR PÚBLICO MUNICIPAL' 'ODONTÓLOGO'
 'APOSENTADO (EXCETO SERVIDOR PÚBLICO)' 'SERVIDOR PÚBLICO ESTADUAL'
 'COMERCIÁRIO' 'DONA DE CASA' 'DEPUTADO' 'AGRÔNOMO' 'ASSISTENTE SOCIAL'
 'PSICÓLOGO' 'CANTOR E COMPOSITOR' 'SERVIDOR PÚBLICO CIVIL APOSENTADO'
 'PUBLICITÁRIO' 'PADEIRO, CONFEITEIRO E ASSEMELHADOS'
 'TÉCNICO DE ELETRICIDADE, ELETRÔNICA E TELECOMUNICAÇÕES' 'COMERCIANTE'
 'AGENTE ADMINISTRATIVO' 'ENGENHEIRO'
 'SACERDOTE OU MEMBRO DE ORDEM OU SEITA RELIGIOSA' 'ENFERMEIRO'
 'VENDEDOR PRACISTA, REPRESENTANTE, CAIXEIRO-VIAJANTE E ASSEMELHADOS'
 'SERVIDOR PÚBLICO FEDERAL' 'PROFESSOR DE ENSINO SUPERIOR' 'DIGITADOR'
 'MILITAR REFORMADO' 'PROFESSOR DE ENSINO FUNDAMENTAL'
 'FISIOTERAPEUTA E TERAPEUTA OCUPACIONAL' 'MOTORISTA PARTICULA

In [12]:
df = pd.DataFrame (a, columns = ['ocupacoes_no_tse'])
print (df)

                                      ocupacoes_no_tse
0                                     POLICIAL MILITAR
1                                           AGRICULTOR
2                            PROFESSOR DE ENSINO MÉDIO
3                                             CONTADOR
4                                        FONOAUDIÓLOGO
..                                                 ...
214                          COMANDANTE DE EMBARCAÇÕES
215                                   ARTISTA DE CIRCO
216   RELOJOEIRO E MONTADOR DE INSTRUMENTO DE PRECISÃO
217    ESTIVADOR, CARREGADOR, EMBALADOR E ASSEMELHADOS
218  ESCULTOR, PINTOR, ARTISTA PLÁSTICO E ASSEMELHADOS

[219 rows x 1 columns]


In [13]:
df.to_excel('ocupacoes_tse_2022.xlsx',sheet_name='Sheet1',index=False)

In [None]:
# Filtra primeiro todos os candidatos com ocupações militares ou de segurança pública/privada

In [14]:
busca1 = candidatos[(candidatos['DS_OCUPACAO'] == 'POLICIAL MILITAR') |
                    (candidatos['DS_OCUPACAO'] == 'POLICIAL CIVIL') |
                    (candidatos['DS_OCUPACAO'] == 'MILITAR REFORMADO') |
                    (candidatos['DS_OCUPACAO'] == 'VIGILANTE') |
                    (candidatos['DS_OCUPACAO'] == 'BOMBEIRO MILITAR') |
                    (candidatos['DS_OCUPACAO'] == 'MEMBRO DAS FORÇAS ARMADAS') 
                   ]
busca1.shape

(1600, 71)

In [None]:
# Filtra os "NM_URNA_CANDIDATO" que podem indicar se os candidatos também são militares ou de segurança pública/privada

In [15]:
candidatos['NM_URNA_CANDIDATO_UPPER'] = candidatos['NM_URNA_CANDIDATO'].str.upper()

In [16]:
search_list = ['POLICIAL', 
               'TENENTE', 
               'SUB-TENENTE', 'SUBTENENTE', 
               'COMANDANTE', 
               'CORONEL', 
               'MAJOR', 
               'CAPITÃO', 'CAPITÃ', 
               'SARGENTO', 'SARGENTA', 
               'ASPIRANTE', 
               'CABO', 
               'SOLDADO', 'SOLDADA', 
               'GENERAL', 'GENERALA'
               'BOMBEIRO', 'BOMBEIRA',
               'DELEGADO', 'DELEGADA',
               'ESCRIVÃO', 'ESCRIVÃ', 
               'AGENTE', 
               'MILITAR',
               'GUARDA'
              ]

mask = candidatos['NM_URNA_CANDIDATO_UPPER'].str.contains('|'.join(search_list))
busca2 = candidatos[mask]

In [17]:
busca2.shape

(1209, 72)

In [None]:
# Une os dois dataframes

In [18]:
frames = [busca1, busca2]
final = pd.concat(frames)

In [19]:
final.shape

(2809, 72)

In [None]:
# Elimina os casos duplicados - têm nome urna e ocupação buscada

In [20]:
final = final.drop_duplicates(subset='NR_CPF_CANDIDATO', keep="last")

In [21]:
final.shape

(2038, 72)

In [None]:
# Salva arquivo para checagem final manual

In [22]:
final.to_excel('candidatos_militares_seguranca_2022_versao2.xlsx',sheet_name='Sheet1',index=False)

In [None]:
# Para candidatos com denominação religiosa o processo foi o mesmo
# Foram usados os termos:
# DS_OCUPACAO - SACERDOTE OU MEMBRO DE ORDEM OU SEITA RELIGIOSA
# 
# NM_URNA_CANDIDATO, contendo, nos dois gêneros:
# apóstola, apóstolo, babalorixá, bispa, bispo, irmã, irmão, mãe, pai, missionária, missionário, padre, pai, pastor, pastora, presbítero, 
# profeta, reverendo, yalorixá, pr. 