<a href="https://colab.research.google.com/github/clferreira1985/Projetos_Python/blob/main/Renova/Desafio_Tecnico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Desafio Técnica

**Contexto:** . Temos dois conjuntos de dados, um com o resultado e outros com o eleitores. O Objetivo do presente desafio é fazer um tratamento nos dados responder algumas perguntas como:

1º Fazer tratamento em alguns registros que estão gramaticalmente incorretos;
2º Criar um tabela para cada base de dados (eleitorado e resultados);
3º Gerar uma consulta realizando um **JOIN** entre as tabelas, retornando algumas informações como:


      *   Em qual município o candidato X foi mais votado;
      *   Qual o Candidato foi mais votado em cada município;
      *   Qual o perfil do eleitorado (faixa etária, gênero, grau de escolaridade, etc.) mais votou em cada candidato.
       

**Estrutura:** O notebook está dividido assim:

1. Importação das bibliotecas
2. Acesso e tratamento dos dados que serão a entrada do modelo de deep learning
3. Separação do dados de Treino e teste
4. Configuração do modelo de deep learning usando uma rede neural convolucional (CNN) simples com Keras
5. Treinamento do modelo de deep learning
6. Execução do modelo de deep learning treinado
7. Avaliação do modelo de deep learning
8. Exportação do modelo de deep learning
9. Teste do modelo exportado

**Créditos:** O notebook foi desenvolvido e documentado por:

- Cleiton Silva

**Dataset:** O dataset foi baixado do Kaggle, uma plataforma online voltada para cientistas de dados, entusiastas de aprendizado de máquina e profissionais afins. O uso é estritamente didático. Para mais informações sobre o dataset, veja o link a seguir: [animal10](https://www.kaggle.com/datasets/viratkothari/animal10).

##1. Importação das bibliotecas

In [1]:
import gdown
from zipfile import ZipFile
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt


##2. Acesso e tratamento dos dados

In [2]:
#download do dataset
file_id = "1QqKoXpnx16eRqCHUn72fR_qT4yBXpQ8T"
folder_path = f"https://drive.google.com/uc?id={file_id}"
output = "database_desfio_renovaBR.zip"
gdown.download(folder_path, output)

Downloading...
From: https://drive.google.com/uc?id=1QqKoXpnx16eRqCHUn72fR_qT4yBXpQ8T
To: /content/database_desfio_renovaBR.zip
100%|██████████| 234M/234M [00:01<00:00, 132MB/s]


'database_desfio_renovaBR.zip'

In [3]:
#Extraindo o dataset do zip
with ZipFile('database_desfio_renovaBR.zip', 'r') as zip_object:
  zip_object.extractall()

In [4]:
# Ler o arquivo CSV até a linha 3779751 acima dessa linha está corrompido as linhas
n_linhas = 3779751
df_resultados = pd.read_csv("/content/resultados/SP_turno_1.csv", encoding='latin1', sep=';', nrows=n_linhas)

# Mostrar o DataFrame
df_resultados.head(2)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,CD_PLEITO,DT_PLEITO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,...,CD_FLASHCARD_URNA_EFETIVADA,DT_CARGA_URNA_EFETIVADA,DS_CARGO_PERGUNTA_SECAO,DS_AGREGADAS,DT_ABERTURA,DT_ENCERRAMENTO,QT_ELEITORES_BIOMETRIA_NH,DT_EMISSAO_BU,NR_JUNTA_APURADORA,NR_TURMA_APURADORA
0,18/11/2020,15:49:53,2020,0,Eleição Ordinária,304,15/11/2020,1,426,Eleições Municipais 2020,...,E0BA7264,03/11/2020 11:19:00,11 - 1,#NULO#,15/11/2020 07:00:00,15/11/2020 17:02:46,0,15/11/2020 17:04:06,-1,-1
1,18/11/2020,15:49:53,2020,0,Eleição Ordinária,304,15/11/2020,1,426,Eleições Municipais 2020,...,E0BA7264,03/11/2020 11:19:00,11 - 1,#NULO#,15/11/2020 07:00:00,15/11/2020 17:02:46,0,15/11/2020 17:04:06,-1,-1
2,18/11/2020,15:49:53,2020,0,Eleição Ordinária,304,15/11/2020,1,426,Eleições Municipais 2020,...,E0BA7264,03/11/2020 11:19:00,11 - 1,#NULO#,15/11/2020 07:00:00,15/11/2020 17:02:46,0,15/11/2020 17:04:06,-1,-1
3,18/11/2020,15:49:53,2020,0,Eleição Ordinária,304,15/11/2020,1,426,Eleições Municipais 2020,...,E0BA7264,03/11/2020 11:19:00,11 - 1,#NULO#,15/11/2020 07:00:00,15/11/2020 17:02:46,0,15/11/2020 17:04:06,-1,-1
4,18/11/2020,15:49:53,2020,0,Eleição Ordinária,304,15/11/2020,1,426,Eleições Municipais 2020,...,E0BA7264,03/11/2020 11:19:00,11 - 1,#NULO#,15/11/2020 07:00:00,15/11/2020 17:02:46,0,15/11/2020 17:04:06,-1,-1


In [5]:

df_eleitorado = pd.read_csv('/content/eleitorado/perfil_eleitorado_2020/perfil_eleitorado_2020.csv',encoding='latin1', sep=';')

# Mostrar o DataFrame
df_eleitorado.head()



Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,CD_MUN_SIT_BIOMETRIA,DS_MUN_SIT_BIOMETRIA,NR_ZONA,CD_GENERO,...,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_FAIXA_ETARIA,DS_FAIXA_ETARIA,CD_GRAU_ESCOLARIDADE,DS_GRAU_ESCOLARIDADE,QT_ELEITORES_PERFIL,QT_ELEITORES_BIOMETRIA,QT_ELEITORES_DEFICIENCIA,QT_ELEITORES_INC_NM_SOCIAL
0,01/08/2020,08:37:48,2020,SP,70734,SÃO BENTO DO SAPUCAÍ,0,Sem biometria,314,4,...,3,CASADO,7074,70 a 74 anos,3,ENSINO FUNDAMENTAL INCOMPLETO,47,37,1,0
1,01/08/2020,08:37:48,2020,SP,70734,SÃO BENTO DO SAPUCAÍ,0,Sem biometria,314,4,...,3,CASADO,7074,70 a 74 anos,4,ENSINO FUNDAMENTAL COMPLETO,5,4,0,0
2,01/08/2020,08:37:48,2020,SP,70734,SÃO BENTO DO SAPUCAÍ,0,Sem biometria,314,4,...,3,CASADO,7074,70 a 74 anos,5,ENSINO MÉDIO INCOMPLETO,1,1,0,0
3,01/08/2020,08:37:48,2020,SP,70734,SÃO BENTO DO SAPUCAÍ,0,Sem biometria,314,4,...,3,CASADO,7074,70 a 74 anos,6,ENSINO MÉDIO COMPLETO,10,8,0,0
4,01/08/2020,08:37:48,2020,SP,70734,SÃO BENTO DO SAPUCAÍ,0,Sem biometria,314,4,...,3,CASADO,7074,70 a 74 anos,8,SUPERIOR COMPLETO,23,18,0,0


## 3. Analise exploratória

In [6]:
#Crio um resumo do dataset resultados

print("Tamanho do dataset: ", df_resultados.shape)
print("_______________________________________")
print("Valores null: ")
print(df_resultados.isnull().sum())
print("_______________________________________")
print("Valores únicos: ")
print(df_resultados.nunique())

print("_______________________________________")
print("Informação do dataset: ")
print(df_resultados.info())



Tamanho do dataset:  (3779751, 45)
_______________________________________
Valores null: 
DT_GERACAO                       0
HH_GERACAO                       0
ANO_ELEICAO                      0
CD_TIPO_ELEICAO                  0
NM_TIPO_ELEICAO                  0
CD_PLEITO                        0
DT_PLEITO                        0
NR_TURNO                         0
CD_ELEICAO                       0
DS_ELEICAO                       0
SG_UF                            0
CD_MUNICIPIO                     0
NM_MUNICIPIO                     0
NR_ZONA                          0
NR_SECAO                         0
NR_LOCAL_VOTACAO                 0
CD_CARGO_PERGUNTA                0
DS_CARGO_PERGUNTA                0
NR_PARTIDO                       0
SG_PARTIDO                       0
NM_PARTIDO                       0
DT_BU_RECEBIDO                   0
QT_APTOS                         0
QT_COMPARECIMENTO                0
QT_ABSTENCOES                    0
CD_TIPO_URNA                     0


DT_ENCERRAMENTO e DT_ABERTURA precisam ser alterado para datetime

In [7]:
colunas_selecionadas = ["DT_ENCERRAMENTO", "DT_ABERTURA", "DT_EMISSAO_BU", "DT_BU_RECEBIDO", "DT_CARGA_URNA_EFETIVADA"]
df_resultados_selecionado = df_resultados[colunas_selecionadas]

# Mostrar o DataFrame resultante
df_resultados_selecionado

Unnamed: 0,DT_ENCERRAMENTO,DT_ABERTURA,DT_EMISSAO_BU,DT_BU_RECEBIDO,DT_CARGA_URNA_EFETIVADA
0,15/11/2020 17:02:46,15/11/2020 07:00:00,15/11/2020 17:04:06,15/11/2020 22:26:42,03/11/2020 11:19:00
1,15/11/2020 17:02:46,15/11/2020 07:00:00,15/11/2020 17:04:06,15/11/2020 22:26:42,03/11/2020 11:19:00
2,15/11/2020 17:02:46,15/11/2020 07:00:00,15/11/2020 17:04:06,15/11/2020 22:26:42,03/11/2020 11:19:00
3,15/11/2020 17:02:46,15/11/2020 07:00:00,15/11/2020 17:04:06,15/11/2020 22:26:42,03/11/2020 11:19:00
4,15/11/2020 17:02:46,15/11/2020 07:00:00,15/11/2020 17:04:06,15/11/2020 22:26:42,03/11/2020 11:19:00
...,...,...,...,...,...
3779746,15/11/2020 17:04:09,15/11/2020 07:00:00,15/11/2020 17:05:44,15/11/2020 22:47:17,03/11/2020 15:38:00
3779747,15/11/2020 17:04:09,15/11/2020 07:00:00,15/11/2020 17:05:44,15/11/2020 22:47:17,03/11/2020 15:38:00
3779748,15/11/2020 17:04:09,15/11/2020 07:00:00,15/11/2020 17:05:44,15/11/2020 22:47:17,03/11/2020 15:38:00
3779749,15/11/2020 17:04:09,15/11/2020 07:00:00,15/11/2020 17:05:44,15/11/2020 22:47:17,03/11/2020 15:38:00


In [8]:
for x in df_resultados[colunas_selecionadas]:
    df_resultados[x] = pd.to_datetime(df_resultados[x], format='%d/%m/%Y %H:%M:%S')
    df_resultados_selecionado = df_resultados[colunas_selecionadas]
df_resultados_selecionado


Unnamed: 0,DT_ENCERRAMENTO,DT_ABERTURA,DT_EMISSAO_BU,DT_BU_RECEBIDO,DT_CARGA_URNA_EFETIVADA
0,2020-11-15 17:02:46,2020-11-15 07:00:00,2020-11-15 17:04:06,2020-11-15 22:26:42,2020-11-03 11:19:00
1,2020-11-15 17:02:46,2020-11-15 07:00:00,2020-11-15 17:04:06,2020-11-15 22:26:42,2020-11-03 11:19:00
2,2020-11-15 17:02:46,2020-11-15 07:00:00,2020-11-15 17:04:06,2020-11-15 22:26:42,2020-11-03 11:19:00
3,2020-11-15 17:02:46,2020-11-15 07:00:00,2020-11-15 17:04:06,2020-11-15 22:26:42,2020-11-03 11:19:00
4,2020-11-15 17:02:46,2020-11-15 07:00:00,2020-11-15 17:04:06,2020-11-15 22:26:42,2020-11-03 11:19:00
...,...,...,...,...,...
3779746,2020-11-15 17:04:09,2020-11-15 07:00:00,2020-11-15 17:05:44,2020-11-15 22:47:17,2020-11-03 15:38:00
3779747,2020-11-15 17:04:09,2020-11-15 07:00:00,2020-11-15 17:05:44,2020-11-15 22:47:17,2020-11-03 15:38:00
3779748,2020-11-15 17:04:09,2020-11-15 07:00:00,2020-11-15 17:05:44,2020-11-15 22:47:17,2020-11-03 15:38:00
3779749,2020-11-15 17:04:09,2020-11-15 07:00:00,2020-11-15 17:05:44,2020-11-15 22:47:17,2020-11-03 15:38:00


Identificada as colunas que só tem uma única, retiro do meu dataset

In [9]:
col_unique_value = ["DT_GERACAO",
                    "HH_GERACAO",
                    "ANO_ELEICAO",
                    "CD_TIPO_ELEICAO",
                    "CD_TIPO_ELEICAO",
                    "NM_TIPO_ELEICAO",
                    "CD_PLEITO",
                    "DT_PLEITO",
                    "NR_TURNO",
                    "CD_ELEICAO",
                    "DS_ELEICAO",
                    "SG_UF",
                    "CD_TIPO_URNA",
                    "DS_TIPO_URNA",
                    "QT_ELEITORES_BIOMETRIA_NH"]



df_col_unique_value = df_resultados[col_unique_value]

# Mostrar o DataFrame resultante
df_resultados = df_resultados.drop(columns=df_col_unique_value)
df_resultados.head()


Unnamed: 0,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,NR_SECAO,NR_LOCAL_VOTACAO,CD_CARGO_PERGUNTA,DS_CARGO_PERGUNTA,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,...,CD_CARGA_2_URNA_EFETIVADA,CD_FLASHCARD_URNA_EFETIVADA,DT_CARGA_URNA_EFETIVADA,DS_CARGO_PERGUNTA_SECAO,DS_AGREGADAS,DT_ABERTURA,DT_ENCERRAMENTO,DT_EMISSAO_BU,NR_JUNTA_APURADORA,NR_TURMA_APURADORA
0,71072,SÃO PAULO,1,1,1015,11,Prefeito,-1,#NULO#,#NULO#,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
1,71072,SÃO PAULO,1,1,1015,11,Prefeito,13,PT,Partido dos Trabalhadores,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
2,71072,SÃO PAULO,1,1,1015,11,Prefeito,18,REDE,Rede Sustentabilidade,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
3,71072,SÃO PAULO,1,1,1015,11,Prefeito,40,PSB,Partido Socialista Brasileiro,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
4,71072,SÃO PAULO,1,1,1015,11,Prefeito,45,PSDB,Partido da Social Democracia Brasileira,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1


In [10]:
df_resultados_categoricos = df_resultados.select_dtypes(include=['object'])

#print todos os valores categorios para dar uma conferida
for column_name in df_resultados_categoricos.columns:
    unique_values = df_resultados_categoricos[column_name].unique()
    print(f"______{column_name}_____")
    print(unique_values)
    print("")
    print("")



______NM_MUNICIPIO_____
['SÃO PAULO' 'AGUDOS' 'PAULISTÂNIA' 'AMPARO' 'MONTE ALEGRE DO SUL'
 'ANDRADINA' 'CASTILHO' 'MURUTINGA DO SUL' 'NOVA INDEPENDÊNCIA' 'APIAÍ'
 'BARRA DO CHAPÉU' 'ITAOCA' 'RIBEIRA' 'ITAPIRAPUÃ PAULISTA' 'ARAÇATUBA'
 'BORÁ' 'LUTÉCIA' 'OSCAR BRESSANE' 'PARAGUAÇU PAULISTA' 'ARARAQUARA'
 'GAVIÃO PEIXOTO' 'NOVA EUROPA' 'ARARAS' 'ASSIS' 'ECHAPORÃ' 'ATIBAIA'
 'BOM JESUS DOS PERDÕES' 'JARINU' 'NAZARÉ PAULISTA' 'AVARÉ' 'BANANAL'
 'ARAPEÍ' 'SÃO JOSÉ DO BARREIRO' 'BARIRI' 'ITAJU' 'BARRETOS' 'COLÔMBIA'
 'BATATAIS' 'BAURU' 'PIRATININGA' 'BEBEDOURO' 'BIRIGUI' 'CLEMENTINA'
 'COROADOS' 'BREJO ALEGRE' 'SANTÓPOLIS DO AGUAPEÍ' 'BOTUCATU' 'ITATINGA'
 'PARDINHO' 'BRAGANÇA PAULISTA' 'BROTAS' 'TORRINHA' 'CAÇAPAVA' 'JAMBEIRO'
 'CACONDE' 'TAPIRATIBA' 'CAFELÂNDIA' 'GUARANTÃ' 'JÚLIO MESQUITA' 'CAJURU'
 'SANTA CRUZ DA ESPERANÇA' 'CÁSSIA DOS COQUEIROS' 'CAMPINAS' 'VALINHOS'
 'CAMPOS DO JORDÃO' 'CANANÉIA' 'CAPÃO BONITO' 'RIBEIRÃO GRANDE' 'GUAPIARA'
 'CAPIVARI' 'MOMBUCA' 'RAFARD' 'CASA BRANCA' 'I

In [11]:

# Verificar quais colunas contêm valores nulos ou -1
colunas_com_nulos_ou_menos_um = df_resultados.columns[df_resultados.isna().any() | (df_resultados == -1).any()].tolist()

# Mostrar as colunas com valores nulos ou -1
print("Colunas com valores nulos ou -1:")
print(colunas_com_nulos_ou_menos_um)

Colunas com valores nulos ou -1:
['NR_PARTIDO', 'NM_VOTAVEL', 'DT_ABERTURA', 'DT_ENCERRAMENTO', 'NR_JUNTA_APURADORA', 'NR_TURMA_APURADORA']


In [12]:
# Função para contar o número de ocorrências de valores específicos em cada coluna
def calcular_percentual(col):
    total_valores = len(col)
    menos_um = (col == -1).sum()
    em_branco = (col == "").sum()
    nulos = col.isna().sum()
    percentual_nulos = (nulos / total_valores) * 100
    percentual_menos_um = (menos_um / total_valores) * 100
    percentual_em_branco = (em_branco / total_valores) * 100
    return  percentual_menos_um, percentual_em_branco, percentual_nulos

# Aplicar a função em cada coluna
percentuais = df_resultados.apply(calcular_percentual)

# Mostrar os percentuais de ocorrências para cada coluna
print("Percentuais de ocorrências:")
percentuais

Percentuais de ocorrências:


Unnamed: 0,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,NR_SECAO,NR_LOCAL_VOTACAO,CD_CARGO_PERGUNTA,DS_CARGO_PERGUNTA,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,...,CD_CARGA_2_URNA_EFETIVADA,CD_FLASHCARD_URNA_EFETIVADA,DT_CARGA_URNA_EFETIVADA,DS_CARGO_PERGUNTA_SECAO,DS_AGREGADAS,DT_ABERTURA,DT_ENCERRAMENTO,DT_EMISSAO_BU,NR_JUNTA_APURADORA,NR_TURMA_APURADORA
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.973357,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,99.996587,99.996587
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.003413,0.003413,0.0,0.0,0.0


O dataset resultado possuim uma quantidade muito baixa de valores nulos, então optei por preencher com o valores das celunas anteriores

In [13]:
# Preencher os valores nulos com os valores da linha anterior
df_resultados[["DT_ABERTURA", "DT_ENCERRAMENTO"]] = df_resultados[["DT_ABERTURA", "DT_ENCERRAMENTO"]].fillna(method='ffill')

# Mostrar o DataFrame com os valores preenchidos
df_resultados.head()

Unnamed: 0,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,NR_SECAO,NR_LOCAL_VOTACAO,CD_CARGO_PERGUNTA,DS_CARGO_PERGUNTA,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,...,CD_CARGA_2_URNA_EFETIVADA,CD_FLASHCARD_URNA_EFETIVADA,DT_CARGA_URNA_EFETIVADA,DS_CARGO_PERGUNTA_SECAO,DS_AGREGADAS,DT_ABERTURA,DT_ENCERRAMENTO,DT_EMISSAO_BU,NR_JUNTA_APURADORA,NR_TURMA_APURADORA
0,71072,SÃO PAULO,1,1,1015,11,Prefeito,-1,#NULO#,#NULO#,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
1,71072,SÃO PAULO,1,1,1015,11,Prefeito,13,PT,Partido dos Trabalhadores,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
2,71072,SÃO PAULO,1,1,1015,11,Prefeito,18,REDE,Rede Sustentabilidade,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
3,71072,SÃO PAULO,1,1,1015,11,Prefeito,40,PSB,Partido Socialista Brasileiro,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1
4,71072,SÃO PAULO,1,1,1015,11,Prefeito,45,PSDB,Partido da Social Democracia Brasileira,...,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06,-1,-1


Existem 2 colunas que estão com 99,99% com dados "#NULO" então estarei removendo essas colunas

In [14]:
df_resultados = df_resultados.drop(columns=df_resultados[['NR_JUNTA_APURADORA', 'NR_TURMA_APURADORA']])
df_resultados.head()

Unnamed: 0,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,NR_SECAO,NR_LOCAL_VOTACAO,CD_CARGO_PERGUNTA,DS_CARGO_PERGUNTA,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,...,NR_URNA_EFETIVADA,CD_CARGA_1_URNA_EFETIVADA,CD_CARGA_2_URNA_EFETIVADA,CD_FLASHCARD_URNA_EFETIVADA,DT_CARGA_URNA_EFETIVADA,DS_CARGO_PERGUNTA_SECAO,DS_AGREGADAS,DT_ABERTURA,DT_ENCERRAMENTO,DT_EMISSAO_BU
0,71072,SÃO PAULO,1,1,1015,11,Prefeito,-1,#NULO#,#NULO#,...,1618073,432.454.548.163.181.015.,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06
1,71072,SÃO PAULO,1,1,1015,11,Prefeito,13,PT,Partido dos Trabalhadores,...,1618073,432.454.548.163.181.015.,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06
2,71072,SÃO PAULO,1,1,1015,11,Prefeito,18,REDE,Rede Sustentabilidade,...,1618073,432.454.548.163.181.015.,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06
3,71072,SÃO PAULO,1,1,1015,11,Prefeito,40,PSB,Partido Socialista Brasileiro,...,1618073,432.454.548.163.181.015.,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06
4,71072,SÃO PAULO,1,1,1015,11,Prefeito,45,PSDB,Partido da Social Democracia Brasileira,...,1618073,432.454.548.163.181.015.,306.728,E0BA7264,2020-11-03 11:19:00,11 - 1,#NULO#,2020-11-15 07:00:00,2020-11-15 17:02:46,2020-11-15 17:04:06


In [15]:
df_result = df_resultados[df_resultados["DS_CARGO_PERGUNTA"]=="Vereador"]

df_result = df_result[["NM_VOTAVEL", "SG_PARTIDO",  "NM_PARTIDO", "QT_VOTOS", "NM_MUNICIPIO" ]]

In [16]:
df_resultados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3779751 entries, 0 to 3779750
Data columns (total 29 columns):
 #   Column                       Dtype         
---  ------                       -----         
 0   CD_MUNICIPIO                 int64         
 1   NM_MUNICIPIO                 object        
 2   NR_ZONA                      int64         
 3   NR_SECAO                     int64         
 4   NR_LOCAL_VOTACAO             int64         
 5   CD_CARGO_PERGUNTA            int64         
 6   DS_CARGO_PERGUNTA            object        
 7   NR_PARTIDO                   int64         
 8   SG_PARTIDO                   object        
 9   NM_PARTIDO                   object        
 10  DT_BU_RECEBIDO               datetime64[ns]
 11  QT_APTOS                     int64         
 12  QT_COMPARECIMENTO            int64         
 13  QT_ABSTENCOES                int64         
 14  CD_TIPO_VOTAVEL              int64         
 15  DS_TIPO_VOTAVEL              object        
 16  

## Analise exploratória do dataset eleitorado

In [17]:
#Crio um resumo do dataset resultados

print("Tamanho do dataset: ", df_eleitorado.shape)
print("_______________________________________")
print("Valores null: ")
print(df_eleitorado.isnull().sum())
print("_______________________________________")
print("Valores únicos: ")
print(df_eleitorado.nunique())

print("_______________________________________")
print("Informação do dataset: ")
print(df_eleitorado.info())

Tamanho do dataset:  (4248507, 21)
_______________________________________
Valores null: 
DT_GERACAO                    0
HH_GERACAO                    0
ANO_ELEICAO                   0
SG_UF                         0
CD_MUNICIPIO                  0
NM_MUNICIPIO                  0
CD_MUN_SIT_BIOMETRIA          0
DS_MUN_SIT_BIOMETRIA          0
NR_ZONA                       0
CD_GENERO                     0
DS_GENERO                     0
CD_ESTADO_CIVIL               0
DS_ESTADO_CIVIL               0
CD_FAIXA_ETARIA               0
DS_FAIXA_ETARIA               0
CD_GRAU_ESCOLARIDADE          0
DS_GRAU_ESCOLARIDADE          0
QT_ELEITORES_PERFIL           0
QT_ELEITORES_BIOMETRIA        0
QT_ELEITORES_DEFICIENCIA      0
QT_ELEITORES_INC_NM_SOCIAL    0
dtype: int64
_______________________________________
Valores únicos: 
DT_GERACAO                       1
HH_GERACAO                       1
ANO_ELEICAO                      1
SG_UF                           26
CD_MUNICIPIO                

In [18]:
#Seleciono as colunas que só tem um único valor
col_eleitorado_unique_value = ["DT_GERACAO",
                               "HH_GERACAO",
                               "ANO_ELEICAO",
                               "CD_MUN_SIT_BIOMETRIA",
                               "DS_MUN_SIT_BIOMETRIA" ]


df_eleit_unique_value = df_eleitorado[col_eleitorado_unique_value]

# Mostrar o DataFrame resultante
df_eleitorado = df_eleitorado.drop(columns=df_eleit_unique_value)
df_eleitorado.head(2)

Unnamed: 0,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,CD_GENERO,DS_GENERO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_FAIXA_ETARIA,DS_FAIXA_ETARIA,CD_GRAU_ESCOLARIDADE,DS_GRAU_ESCOLARIDADE,QT_ELEITORES_PERFIL,QT_ELEITORES_BIOMETRIA,QT_ELEITORES_DEFICIENCIA,QT_ELEITORES_INC_NM_SOCIAL
0,SP,70734,SÃO BENTO DO SAPUCAÍ,314,4,FEMININO,3,CASADO,7074,70 a 74 anos,3,ENSINO FUNDAMENTAL INCOMPLETO,47,37,1,0
1,SP,70734,SÃO BENTO DO SAPUCAÍ,314,4,FEMININO,3,CASADO,7074,70 a 74 anos,4,ENSINO FUNDAMENTAL COMPLETO,5,4,0,0


In [20]:
#Seleciono os valores categóricos que estão abaixo de 30

df_eleitorado_categoricas = df_eleitorado.select_dtypes(include=['object'])

for column_name2 in df_eleitorado_categoricas.columns:
    if (df_eleitorado_categoricas[column_name2].nunique()) < 30:
        unique_values2 = df_eleitorado_categoricas[column_name2].unique()
        print(f"______{column_name}_____")
        print(unique_values2)
        print("")
        print("")
    else:
        next








______DS_AGREGADAS_____
['SP' 'BA' 'MS' 'MG' 'PR' 'MA' 'GO' 'AL' 'MT' 'PB' 'TO' 'PA' 'PE' 'PI'
 'ES' 'CE' 'RJ' 'RS' 'SC' 'RO' 'RN' 'SE' 'RR' 'AC' 'AM' 'AP']


______DS_AGREGADAS_____
['FEMININO' 'NÃO INFORMADO' 'MASCULINO']


______DS_AGREGADAS_____
['CASADO' 'VIÚVO' 'SEPARADO JUDICIALMENTE' 'DIVORCIADO' 'NÃO INFORMADO'
 'SOLTEIRO']


______DS_AGREGADAS_____
['70 a 74 anos                  ' '75 a 79 anos                  '
 '80 a 84 anos                  ' '85 a 89 anos                  '
 '90 a 94 anos                  ' '95 a 99 anos                  '
 '100 anos ou mais              ' '30 a 34 anos                  '
 '35 a 39 anos                  ' '40 a 44 anos                  '
 '45 a 49 anos                  ' '50 a 54 anos                  '
 '55 a 59 anos                  ' '60 a 64 anos                  '
 '65 a 69 anos                  ' '21 a 24 anos                  '
 '25 a 29 anos                  ' '16 anos                       '
 '17 anos                       ' '1

In [27]:
# Cria uma lista com as colunas categóricas
colunas_categoricas = df_eleitorado.select_dtypes(include=['object']).columns

# Cria uma condição booleana para verificar a presença de "#NULO#" ou -1 em colunas categóricas
condicao = df_eleitorado[colunas_categoricas].apply(lambda col: col.str.contains("#NULO#|-1", na=False)).any(axis=1)

# Filtra o DataFrame pelas linhas que atendem à condição
linhas_com_nulo = df_eleitorado[condicao]

# Mostra as linhas que contêm "#NULO#" ou -1 em colunas categóricas
linhas_com_nulo

Unnamed: 0,SG_UF,CD_MUNICIPIO,NM_MUNICIPIO,NR_ZONA,CD_GENERO,DS_GENERO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_FAIXA_ETARIA,DS_FAIXA_ETARIA,CD_GRAU_ESCOLARIDADE,DS_GRAU_ESCOLARIDADE,QT_ELEITORES_PERFIL,QT_ELEITORES_BIOMETRIA,QT_ELEITORES_DEFICIENCIA,QT_ELEITORES_INC_NM_SOCIAL


No dataset eleitorado não existe linha com a informação nula

In [22]:
df_eleitorado.describe()

Unnamed: 0,CD_MUNICIPIO,NR_ZONA,CD_GENERO,CD_ESTADO_CIVIL,CD_FAIXA_ETARIA,CD_GRAU_ESCOLARIDADE,QT_ELEITORES_PERFIL,QT_ELEITORES_BIOMETRIA,QT_ELEITORES_DEFICIENCIA,QT_ELEITORES_INC_NM_SOCIAL
count,4248507.0,4248507.0,4248507.0,4248507.0,4248507.0,4248507.0,4248507.0,4248507.0,4248507.0,4248507.0
mean,51853.41,99.23677,3.039349,3.877871,5279.179,4.243422,34.81658,27.67913,0.2726214,0.002350237
std,28381.18,91.35042,1.019962,2.837516,2105.561,2.219556,121.1326,99.75691,1.695875,0.05319832
min,19.0,1.0,0.0,0.0,-3.0,0.0,1.0,0.0,0.0,0.0
25%,26050.0,31.0,2.0,1.0,3539.0,2.0,2.0,1.0,0.0,0.0
50%,55026.0,70.0,4.0,3.0,5054.0,4.0,5.0,4.0,0.0,0.0
75%,75817.0,140.0,4.0,5.0,7074.0,6.0,21.0,16.0,0.0,0.0
max,99074.0,427.0,4.0,9.0,9999.0,8.0,6438.0,6437.0,383.0,7.0


In [23]:
mapeamento = {
    '70 a 74 anos                  ': '70+ anos',
    '75 a 79 anos                  ': '70+ anos',
    '80 a 84 anos                  ': '70+ anos',
    '85 a 89 anos                  ': '70+ anos',
    '90 a 94 anos                  ': '70+ anos',
    '95 a 99 anos                  ': '70+ anos',
    '100 anos ou mais              ': '70+ anos',
    '30 a 34 anos                  ': '30 a 39 anos',
    '35 a 39 anos                  ': '30 a 39 anos',
    '40 a 44 anos                  ': '40 a 49 anos',
    '45 a 49 anos                  ': '40 a 49 anos',
    '50 a 54 anos                  ': '50 a 59 anos',
    '55 a 59 anos                  ': '50 a 59 anos',
    '60 a 64 anos                  ': '60 a 69 anos',
    '65 a 69 anos                  ': '60 a 69 anos',
    '21 a 24 anos                  ': '21 a 29 anos',
    '25 a 29 anos                  ': '21 a 29 anos',
    '16 anos                       ': '16 a 20 anos',
    '17 anos                       ': '16 a 20 anos',
    '18 anos                       ': '16 a 20 anos',
    '19 anos                       ': '16 a 20 anos',
    '20 anos                       ': '16 a 20 anos',
    'Inválido                      ': 'Inválido'
}

# Aplicar o mapeamento para criar a nova coluna agregada
df_eleitorado['DS_FAIXA_ETARIA'] = df_eleitorado['DS_FAIXA_ETARIA'].map(mapeamento)


In [24]:
df_eleitorado[df_eleitorado["SG_UF"]=="SP"].shape

(639502, 16)

In [25]:
# Filtra o DataFrame para o estado de São Paulo
df_sp_eleitorado = df_eleitorado[df_eleitorado["SG_UF"] == "SP"]

# Agrupa por município e calcula a contagem
grouped_df_eleitorado = df_sp_eleitorado.groupby("NM_MUNICIPIO").size().reset_index(name="Quantidade")

# Exibe o DataFrame agrupado
grouped_df_eleitorado

Unnamed: 0,NM_MUNICIPIO,Quantidade
0,ADAMANTINA,929
1,ADOLFO,611
2,AGUAÍ,851
3,AGUDOS,959
4,ALAMBARI,566
...,...,...
640,ÁGUAS DE SÃO PEDRO,580
641,ÁLVARES FLORENCE,553
642,ÁLVARES MACHADO,863
643,ÁLVARO DE CARVALHO,529


In [26]:
df_merged = pd.merge(df_result, df_agrupado_eleitorado, left_on="NM_MUNICIPIO", right_on="Municipio", how="inner")
df_merged


NameError: ignored

In [None]:
df_merged[df_merged["Municipio"]=="SÃO PAULO"]["QT_VOTOS"].sum()



In [None]:
# Selecionar uma coluna categórica
coluna_categorica = "DS_FAIXA_ETARIA"

# Calcular a contagem de ocorrências de cada valor na coluna categórica
contagem_por_valor = df_eleitorado[coluna_categorica].value_counts()

# Ordenar as faixas
faixas_ordenadas = ['70+ anos',
                    '60 a 69 anos',
                    '50 a 59 anos',
                    '40 a 49 anos',
                    '30 a 39 anos',
                    '21 a 29 anos',
                    '16 a 20 anos',
                    'Inválido']

contagem_ordenada = contagem_por_valor.reindex(faixas_ordenadas)

# Criar um DataFrame com os resultados ordenados
df_contagem = pd.DataFrame({'Valor': contagem_ordenada.index, 'Contagem': contagem_ordenada.values})

# Criar o gráfico de barras usando o Plotly Express
titulo = f'Quantidade de Eleitores por Faixa Etária'
fig = px.bar(df_contagem, x='Valor', y='Contagem', title=titulo)

# Personalizar o layout do gráfico
fig.update_layout(
    xaxis_title="Faixa Etária",
    yaxis_title="Contagem de Eleitores",
    xaxis=dict(categoryorder='array', categoryarray=faixas_ordenadas),  # Ordenar as categorias no eixo X
    yaxis=dict(type='linear')  # Definir o eixo Y como linear
)

# Mostrar o gráfico
fig.show()

In [None]:
columns_list = df_eleitorado.select_dtypes(include='object').drop(columns = ['SG_UF','NM_MUNICIPIO']).head()

In [None]:
# Contador
A = 0

for i in columns_list:
    A += 1

    # Contagem de valores para gráfico interativo
    df_contagem = pd.DataFrame({'Valor': df_eleitorado[i].value_counts().index, 'Contagem': df_eleitorado[i].value_counts().values})

    # Criar gráfico interativo com Plotly
    fig = px.bar(df_contagem, x='Valor', y='Contagem', title=i)

    # Remover a legenda dos eixos X e Y
    fig.update_layout(xaxis_title='', yaxis_title='')

    fig.show()