In [1]:
import pandas as pd

# Caminho do arquivo no GCS
gcs_path = "gs://trabalho-final-pdm/bronze/votacao_secao_2024_GO"

# Ler o arquivo diretamente usando pandas e gcsfs
tse = pd.read_csv(gcs_path, encoding='Latin-1', sep=';', storage_options={"token": "google_default"})
tse.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_SECAO,CD_CARGO,DS_CARGO,NR_VOTAVEL,NM_VOTAVEL,QT_VOTOS,NR_LOCAL_VOTACAO,SQ_CANDIDATO,NM_LOCAL_VOTACAO,DS_LOCAL_VOTACAO_ENDERECO
0,28/10/2024,11:46:22,2024,2,Eleição Ordinária,1,619,Eleições Municipais 2024,06/10/2024,M,...,22,13,Vereador,11111,VALMI BARBOSA DOS SANTOS JUNIOR,6,1066,90002060888,COLÉGIO ESTADUAL DR NEGREIROS,RUA NARCEU DE ALMEIDA N. 220
1,28/10/2024,11:46:22,2024,2,Eleição Ordinária,1,619,Eleições Municipais 2024,06/10/2024,M,...,89,13,Vereador,27000,ANISIO VICENTE FERREIRA FILHO,1,1015,90002182962,CENTRO DE ENSINO EM PERÍODO INTEGRAL JOSÉ SALV...,"RUA JACINTO FERREIRA DE SOUZA, 950"
2,28/10/2024,11:46:22,2024,2,Eleição Ordinária,1,619,Eleições Municipais 2024,06/10/2024,M,...,244,13,Vereador,22522,ALINE FERNANDES,3,1333,90002066094,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466"
3,28/10/2024,11:46:22,2024,2,Eleição Ordinária,1,619,Eleições Municipais 2024,06/10/2024,M,...,125,13,Vereador,45789,ISMAEL FRANCISCO DE ASSIS,1,1279,90002050063,ESCOLA MUNICIPAL PROFESSOR JUDITH LEITE,RUA 20 N 597
4,28/10/2024,11:46:22,2024,2,Eleição Ordinária,1,619,Eleições Municipais 2024,06/10/2024,M,...,244,13,Vereador,45789,ISMAEL FRANCISCO DE ASSIS,4,1333,90002050063,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466"


In [2]:
# features importantes
print(tse.columns)

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_MUNICIPIO',
       'NM_MUNICIPIO', 'NR_ZONA', 'NR_SECAO', 'CD_CARGO', 'DS_CARGO',
       'NR_VOTAVEL', 'NM_VOTAVEL', 'QT_VOTOS', 'NR_LOCAL_VOTACAO',
       'SQ_CANDIDATO', 'NM_LOCAL_VOTACAO', 'DS_LOCAL_VOTACAO_ENDERECO'],
      dtype='object')


In [3]:
# alguns dados foram incluidos a partir de 2016
tse['DS_LOCAL_VOTACAO_ENDERECO']

0                      RUA NARCEU DE ALMEIDA  N. 220
1                 RUA JACINTO FERREIRA DE SOUZA, 950
2                               RUA ANDORINHA, N 466
3                                       RUA 20 N 597
4                               RUA ANDORINHA, N 466
                             ...                    
1320307                    AV. TEODORO SAMPAIO NR 23
1320308    RUA MANOEL SILVA  QD 08 LT 01 VILA REGINA
1320309          RUA CARIJOS ESQ C/ RUA DO PRATA S/N
1320310      R.ESTRADA DUQUE DE CAXIAS QD 3 LT 48/49
1320311             RUA 3 B QD 51 S/N - GARAVELO - B
Name: DS_LOCAL_VOTACAO_ENDERECO, Length: 1320312, dtype: object

In [4]:
tse = tse[['ANO_ELEICAO','NM_MUNICIPIO','NR_ZONA', 'NR_SECAO', 'CD_TIPO_ELEICAO','NR_TURNO', 'DS_CARGO', 'NM_VOTAVEL', 'NR_VOTAVEL', 'QT_VOTOS', 'NM_LOCAL_VOTACAO', 'DS_LOCAL_VOTACAO_ENDERECO']]

In [5]:
from unidecode import unidecode

# transformações nos dados
# 
# Função para transformar texto: remover acentos e deixar em maiúsculas
def transformar_string(valor):
    if isinstance(valor, str):  # Verifica se é uma string
        return unidecode(valor).upper()
    return valor  # Retorna o valor original se não for string

# Aplica a transformação em todas as colunas de tipo string
for col in tse.select_dtypes(include=["object"]).columns:
    tse[col] = tse[col].apply(transformar_string)

tse

Unnamed: 0,ANO_ELEICAO,NM_MUNICIPIO,NR_ZONA,NR_SECAO,CD_TIPO_ELEICAO,NR_TURNO,DS_CARGO,NM_VOTAVEL,NR_VOTAVEL,QT_VOTOS,NM_LOCAL_VOTACAO,DS_LOCAL_VOTACAO_ENDERECO
0,2024,NEROPOLIS,54,22,2,1,VEREADOR,VALMI BARBOSA DOS SANTOS JUNIOR,11111,6,COLEGIO ESTADUAL DR NEGREIROS,RUA NARCEU DE ALMEIDA N. 220
1,2024,SANTA HELENA DE GOIAS,66,89,2,1,VEREADOR,ANISIO VICENTE FERREIRA FILHO,27000,1,CENTRO DE ENSINO EM PERIODO INTEGRAL JOSE SALV...,"RUA JACINTO FERREIRA DE SOUZA, 950"
2,2024,GOIANESIA,74,244,2,1,VEREADOR,ALINE FERNANDES,22522,3,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466"
3,2024,GOIANESIA,74,125,2,1,VEREADOR,ISMAEL FRANCISCO DE ASSIS,45789,1,ESCOLA MUNICIPAL PROFESSOR JUDITH LEITE,RUA 20 N 597
4,2024,GOIANESIA,74,244,2,1,VEREADOR,ISMAEL FRANCISCO DE ASSIS,45789,4,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466"
...,...,...,...,...,...,...,...,...,...,...,...,...
1320307,2024,IPAMERI,14,35,2,1,VEREADOR,CLEBERSON ANTONIO LUIZ,55123,3,ESCOLA ESTADUAL MICHELE SANTINONI,AV. TEODORO SAMPAIO NR 23
1320308,2024,GOIANIA,147,31,2,1,VEREADOR,MARCOS ANTONIO DA SILVA,25456,1,ESCOLA MUNICIPAL PEDRO GOMES DE MENEZES,RUA MANOEL SILVA QD 08 LT 01 VILA REGINA
1320309,2024,GOIANIA,2,367,2,1,VEREADOR,MARCOS ANTONIO DA SILVA,25456,2,CENTRO DE ENSINO EM PERIODO INTEGRAL AECIO OLI...,RUA CARIJOS ESQ C/ RUA DO PRATA S/N
1320310,2024,GOIANIA,136,362,2,1,VEREADOR,MARCOS ANTONIO DA SILVA,25456,1,ESCOLA GOVERNADOR JOAQUIM SOBROSA - LIONS,R.ESTRADA DUQUE DE CAXIAS QD 3 LT 48/49


In [6]:
print(tse.isnull().sum()) 

ANO_ELEICAO                  0
NM_MUNICIPIO                 0
NR_ZONA                      0
NR_SECAO                     0
CD_TIPO_ELEICAO              0
NR_TURNO                     0
DS_CARGO                     0
NM_VOTAVEL                   0
NR_VOTAVEL                   0
QT_VOTOS                     0
NM_LOCAL_VOTACAO             0
DS_LOCAL_VOTACAO_ENDERECO    0
dtype: int64


In [7]:
# filtros

tse['NM_MUNICIPIO'].unique()

array(['NEROPOLIS', 'SANTA HELENA DE GOIAS', 'GOIANESIA', 'NOVO GAMA',
       'ITAPURANGA', 'MAURILANDIA', 'CATALAO', 'DIVINOPOLIS DE GOIAS',
       'SAO JOAO D ALIANCA', 'MOZARLANDIA', 'CACHOEIRA ALTA', 'JUSSARA',
       'ABADIA DE GOIAS', 'NOVO BRASIL', 'TEREZOPOLIS DE GOIAS',
       'ALTO PARAISO DE GOIAS', 'INACIOLANDIA', 'JANDAIA', 'HIDROLANDIA',
       'NOVA VENEZA', 'CAIAPONIA', 'CASTELANDIA', 'JESUPOLIS', 'URUACU',
       'VALPARAISO DE GOIAS', 'SANTA RITA DO ARAGUAIA', 'ISRAELANDIA',
       'PALMEIRAS DE GOIAS', 'MORRINHOS', 'PIRACANJUBA',
       'COCALZINHO DE GOIAS', 'URUANA', 'PADRE BERNARDO', 'MUTUNOPOLIS',
       'NOVO PLANALTO', 'IVOLANDIA', 'MARA ROSA', 'ITAJA', 'NOVA ROMA',
       'JOVIANIA', 'CERES', 'SANTA BARBARA DE GOIAS', 'RUBIATABA',
       'FAINA', 'MARZAGAO', 'FORMOSO', 'ITAUCU', 'SITIO D ABADIA',
       'SANTA TEREZA DE GOIAS', 'PALMELO', 'BURITINOPOLIS',
       'OURO VERDE DE GOIAS', 'CACHOEIRA DE GOIAS', 'ARAGARCAS',
       'ORIZONA', 'FORMOSA', 'MINEIROS', 

In [8]:
tse.head()

Unnamed: 0,ANO_ELEICAO,NM_MUNICIPIO,NR_ZONA,NR_SECAO,CD_TIPO_ELEICAO,NR_TURNO,DS_CARGO,NM_VOTAVEL,NR_VOTAVEL,QT_VOTOS,NM_LOCAL_VOTACAO,DS_LOCAL_VOTACAO_ENDERECO
0,2024,NEROPOLIS,54,22,2,1,VEREADOR,VALMI BARBOSA DOS SANTOS JUNIOR,11111,6,COLEGIO ESTADUAL DR NEGREIROS,RUA NARCEU DE ALMEIDA N. 220
1,2024,SANTA HELENA DE GOIAS,66,89,2,1,VEREADOR,ANISIO VICENTE FERREIRA FILHO,27000,1,CENTRO DE ENSINO EM PERIODO INTEGRAL JOSE SALV...,"RUA JACINTO FERREIRA DE SOUZA, 950"
2,2024,GOIANESIA,74,244,2,1,VEREADOR,ALINE FERNANDES,22522,3,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466"
3,2024,GOIANESIA,74,125,2,1,VEREADOR,ISMAEL FRANCISCO DE ASSIS,45789,1,ESCOLA MUNICIPAL PROFESSOR JUDITH LEITE,RUA 20 N 597
4,2024,GOIANESIA,74,244,2,1,VEREADOR,ISMAEL FRANCISCO DE ASSIS,45789,4,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466"


In [9]:
# Agregação com tabela zonas

# Ler o arquivo diretamente usando pandas e gcsfs
zonas_info = pd.read_csv('gs://trabalho-final-pdm/bronze/zonas_goiania', storage_options={"token": "google_default"})

zonas_info = zonas_info[['ZONA', 'LOCAL DE VOTACAO', 'ENDEREÇO', 'BAIRRO']]

# Aplica a transformação em todas as colunas de tipo string
for col in zonas_info.select_dtypes(include=["object"]).columns:
    zonas_info[col] = zonas_info[col].apply(transformar_string)
zonas_info

Unnamed: 0,ZONA,LOCAL DE VOTACAO,ENDEREÇO,BAIRRO
0,1,COLEGIO AGOSTINIANO NOSSA SENHORA DE FATIMA,"AV K, 108 - UNIDADE I",SETOR AEROPORTO
1,147,COLEGIO DESAFIO,AV MANGALO QD 55 LT 06,SETOR MORADA DO SOL
2,136,COLEGIO ESTADUAL JARDIM VILA BOA,RUA PAOLA NEY QD. 59,JARDIM VILA BOA
3,127,ESCOLA SESI JARDIM PLANALTO,PRACA ITAPUA QD 30 150,JARDIM PLANALTO
4,127,COLEGIO ESTADUAL POLIVALENTE PROFO GOIANY PRATES,RUA C-68 QD 115 336,VILAS DOS ALPES
...,...,...,...,...
351,134,ESCOLA MUNICIPAL PROFESSOR SALMON GOMES FIGUEI...,RUA SAO DOMINGOS QD. 91 LT. 04,JARDIM PETROPOLIS
352,2,UNIALFA - UNIDADE PERIMETRAL,AV PERIMETRAL NORTE 4129,SETOR GOIANIA II
353,127,COLEGIO DEGRAUS,"RUA U-79A, 25",VILA UNIAO
354,147,ESCOLA MUNICIPAL ALTO DO VALE,"RUA SAMIR HELOU COM RUA VF 15, QD. 6, LT. 19",SETOR ALTO DO VALE


In [11]:
tse['NR_ZONA'] = tse['NR_ZONA'].astype(int)
zonas_info['ZONA'] = zonas_info['ZONA'].astype(int)

In [12]:
# Agrupar zonas_info pela coluna ZONA, garantindo que nenhuma informação seja perdida
zonas_info_agrupado = zonas_info.groupby("ZONA").agg({
    "LOCAL DE VOTACAO": lambda x: list(x),
    "ENDEREÇO": lambda x: list(x),
    "BAIRRO": lambda x: list(x)
}).reset_index()

In [13]:
# Realizar a junção das tabelas usando colunas com nomes diferentes
tse_unificado = pd.merge(
    tse, 
    zonas_info_agrupado, 
    left_on="NR_ZONA",  # Coluna na tabela tse
    right_on="ZONA", # Coluna na tabela zonas_info
    how="left"       # Manter todas as linhas de tse
)

# Remover a duplicata da coluna Zona, se necessário
tse_unificado.drop(columns=["ZONA"], inplace=True)

# Visualizar o resultado
tse_unificado

Unnamed: 0,ANO_ELEICAO,NM_MUNICIPIO,NR_ZONA,NR_SECAO,CD_TIPO_ELEICAO,NR_TURNO,DS_CARGO,NM_VOTAVEL,NR_VOTAVEL,QT_VOTOS,NM_LOCAL_VOTACAO,DS_LOCAL_VOTACAO_ENDERECO,LOCAL DE VOTACAO,ENDEREÇO,BAIRRO
0,2024,NEROPOLIS,54,22,2,1,VEREADOR,VALMI BARBOSA DOS SANTOS JUNIOR,11111,6,COLEGIO ESTADUAL DR NEGREIROS,RUA NARCEU DE ALMEIDA N. 220,,,
1,2024,SANTA HELENA DE GOIAS,66,89,2,1,VEREADOR,ANISIO VICENTE FERREIRA FILHO,27000,1,CENTRO DE ENSINO EM PERIODO INTEGRAL JOSE SALV...,"RUA JACINTO FERREIRA DE SOUZA, 950",,,
2,2024,GOIANESIA,74,244,2,1,VEREADOR,ALINE FERNANDES,22522,3,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466",,,
3,2024,GOIANESIA,74,125,2,1,VEREADOR,ISMAEL FRANCISCO DE ASSIS,45789,1,ESCOLA MUNICIPAL PROFESSOR JUDITH LEITE,RUA 20 N 597,,,
4,2024,GOIANESIA,74,244,2,1,VEREADOR,ISMAEL FRANCISCO DE ASSIS,45789,4,ESCOLA MUNICIPAL LAURO DA PENHA,"RUA ANDORINHA, N 466",,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1320307,2024,IPAMERI,14,35,2,1,VEREADOR,CLEBERSON ANTONIO LUIZ,55123,3,ESCOLA ESTADUAL MICHELE SANTINONI,AV. TEODORO SAMPAIO NR 23,,,
1320308,2024,GOIANIA,147,31,2,1,VEREADOR,MARCOS ANTONIO DA SILVA,25456,1,ESCOLA MUNICIPAL PEDRO GOMES DE MENEZES,RUA MANOEL SILVA QD 08 LT 01 VILA REGINA,"[COLEGIO DESAFIO, COLEGIO ESTADUAL PROFESSOR J...","[AV MANGALO QD 55 LT 06, AV. FERNAO DIAS PAES ...","[SETOR MORADA DO SOL, CAPUAVA, VILA MULTIRAO, ..."
1320309,2024,GOIANIA,2,367,2,1,VEREADOR,MARCOS ANTONIO DA SILVA,25456,2,CENTRO DE ENSINO EM PERIODO INTEGRAL AECIO OLI...,RUA CARIJOS ESQ C/ RUA DO PRATA S/N,[CENTRO DE ENSINO EM PERIODO INTEGRAL AECIO OL...,"[RUA CARIJOS COM RUA DO PRATA, AV SOL NASCENTE...","[SETOR URIAS MAGALHAES, JARDIM NOVA ESPERANCA,..."
1320310,2024,GOIANIA,136,362,2,1,VEREADOR,MARCOS ANTONIO DA SILVA,25456,1,ESCOLA GOVERNADOR JOAQUIM SOBROSA - LIONS,R.ESTRADA DUQUE DE CAXIAS QD 3 LT 48/49,"[COLEGIO ESTADUAL JARDIM VILA BOA, COLEGIO MUN...","[RUA PAOLA NEY QD. 59, RUA B-16 101, RUA 3 B Q...","[JARDIM VILA BOA, VILA NOVO HORIZONTE, SETOR G..."


In [14]:
tse_unificado.shape, tse.shape

((1320312, 15), (1320312, 12))

In [15]:
# Salvar DataFrame diretamente no GCS
gcs_path = "gs://trabalho-final-pdm/silver/tse_bairros_2024.csv"

# Escrever para o Cloud Storage usando storage_options
tse_unificado.to_csv(gcs_path, index=False, storage_options={"token": "google_default"})
