# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [1]:
import pandas as pd
import glob as gb

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [2]:
path = '../base_dados'

uf_choices = ['SP','RJ']

file_list = []

for choice in uf_choices:
    pattern = f'{path}/consulta_cand_2022_{choice}.csv'
    for files in gb.glob(pattern):
        if files:
            file_list.append(files)
        else:
            print('Arquivo {pattern} não encontrado')

print(file_list)



['../base_dados/consulta_cand_2022_SP.csv', '../base_dados/consulta_cand_2022_RJ.csv']


In [3]:
file_list

['../base_dados/consulta_cand_2022_SP.csv',
 '../base_dados/consulta_cand_2022_RJ.csv']

# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [4]:
lista_df = []

In [5]:
for csv in file_list:
  df = pd.read_csv(csv, encoding="Latin 1", engine= 'python', sep=';', na_values=['#NULO#', -1])
  lista_df.append(df) 

In [6]:
lista_df[0]

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS,ST_SUBSTITUIDO,SQ_SUBSTITUIDO,SQ_ORDEM_SUPLENCIA,DT_ACEITE_CANDIDATURA
0,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,56.0,08/08/2022 15:28:51
1,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,,09/08/2022 16:27:56
2,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,,11/08/2022 12:35:01
3,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,58.0,08/08/2022 17:12:38
4,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,,11/08/2022 17:16:49
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3654,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,62.0,11/08/2022 14:06:36
3655,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,,NÃO,,,,N,S,,,11/08/2022 15:00:18
3656,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,N,N,,53.0,08/08/2022 19:05:28
3657,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,,10/08/2022 15:54:40


In [7]:
lista_df[1]

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS,ST_SUBSTITUIDO,SQ_SUBSTITUIDO,SQ_ORDEM_SUPLENCIA,DT_ACEITE_CANDIDATURA
0,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,,2.0,Deferido,N,N,,,08/08/2022 19:45:49
1,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,32.0,05/08/2022 11:41:03
2,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,7.0,08/08/2022 18:56:43
3,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,,11/08/2022 14:32:26
4,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,15.0,05/08/2022 11:41:03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2780,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,47.0,03/08/2022 17:22:22
2781,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,,09/08/2022 17:27:41
2782,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,12.0,11/08/2022 14:37:21
2783,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,45.0,09/08/2022 12:12:05


# Concatene todos os dataframes da lista

In [8]:
candidaturas = pd.concat(lista_df, axis=0, ignore_index=True)

candidaturas.shape

(6444, 75)

# Apresente 5 linhas aleatórias do dataframe

In [9]:
candidaturas.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS,ST_SUBSTITUIDO,SQ_SUBSTITUIDO,SQ_ORDEM_SUPLENCIA,DT_ACEITE_CANDIDATURA
292,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,INDEFERIDO COM RECURSO,SIM,Nulo técnico,14.0,Indeferido,S,N,,,15/08/2022 10:47:10
1086,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,33.0,11/08/2022 16:28:17
5237,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,,NÃO,,,,N,N,,,12/08/2022 12:28:13
1979,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,60.0,08/08/2022 15:28:51
322,07/07/2023,19:34:02,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,DEFERIDO,SIM,Válido,2.0,Deferido,S,N,,,10/08/2022 18:12:28


# Quantas candidaturas estão em situação de reeleição?

In [10]:
candidaturas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6444 entries, 0 to 6443
Data columns (total 75 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   DT_GERACAO                     6444 non-null   object 
 1   HH_GERACAO                     6444 non-null   object 
 2   ANO_ELEICAO                    6444 non-null   int64  
 3   CD_TIPO_ELEICAO                6444 non-null   int64  
 4   NM_TIPO_ELEICAO                6444 non-null   object 
 5   NR_TURNO                       6444 non-null   int64  
 6   CD_ELEICAO                     6444 non-null   int64  
 7   DS_ELEICAO                     6444 non-null   object 
 8   DT_ELEICAO                     6444 non-null   object 
 9   TP_ABRANGENCIA                 6444 non-null   object 
 10  SG_UF                          6444 non-null   object 
 11  SG_UE                          6444 non-null   object 
 12  NM_UE                          6444 non-null   o

In [11]:
candidaturas['ST_REELEICAO'].unique()

array(['N', 'S', 'Não divulgável'], dtype=object)

In [12]:
candidaturas['ST_REELEICAO'].value_counts()

ST_REELEICAO
N                 6205
S                  238
Não divulgável       1
Name: count, dtype: int64

# Quais cargos serão preenchidos nesse pleito?

In [13]:
candidaturas['DS_CARGO'].unique()

array(['DEPUTADO ESTADUAL', 'DEPUTADO FEDERAL', 'VICE-GOVERNADOR',
       '1º SUPLENTE', 'GOVERNADOR', '2º SUPLENTE', 'SENADOR'],
      dtype=object)

# Liste todas a ocupações declaradas pelas candidaturas a Câmara de Deputados Federal

In [15]:
candidaturas_dep_fed = candidaturas[candidaturas["DS_CARGO"] == "DEPUTADO FEDERAL"].copy()

In [16]:
candidaturas_dep_fed['DS_CARGO'].unique()

array(['DEPUTADO FEDERAL'], dtype=object)

In [17]:
candidaturas_dep_fed['DS_OCUPACAO'].unique()

array(['OUTROS', 'EMPRESÁRIO', 'DEPUTADO', 'POLICIAL CIVIL',
       'SERVIDOR PÚBLICO MUNICIPAL',
       'MOTORISTA DE VEÍCULOS DE TRANSPORTE COLETIVO DE PASSAGEIROS',
       'ADVOGADO', 'JORNALISTA E REDATOR',
       'LOCUTOR E COMENTARISTA DE RÁDIO E TELEVISÃO E RADIALISTA',
       'SERVIDOR PÚBLICO ESTADUAL', 'HISTORIADOR', 'POLICIAL MILITAR',
       'ODONTÓLOGO',
       'TÉCNICO DE ENFERMAGEM E ASSEMELHADOS (EXCETO ENFERMEIRO)',
       'PROFESSOR DE ENSINO MÉDIO',
       'TRABALHADOR METALÚRGICO E SIDERÚRGICO',
       'MEMBRO DAS FORÇAS ARMADAS', 'ASSISTENTE SOCIAL', 'ADMINISTRADOR',
       'PROFESSOR DE ENSINO SUPERIOR', 'ENGENHEIRO', 'COMUNICÓLOGO',
       'CONTADOR', 'PROFESSOR DE ENSINO FUNDAMENTAL',
       'PROFESSOR E INSTRUTOR DE FORMAÇÃO PROFISSIONAL', 'AGRICULTOR',
       'MÉDICO', 'DIRETOR DE ESTABELECIMENTO DE ENSINO', 'COMERCIANTE',
       'SERVIDOR PÚBLICO FEDERAL', 'VEREADOR', 'PUBLICITÁRIO',
       'AGENTE ADMINISTRATIVO', 'VETERINÁRIO', 'ENFERMEIRO',
       'CORRETO

In [18]:
candidaturas_dep_fed['DS_OCUPACAO'].value_counts(dropna=True)

DS_OCUPACAO
OUTROS                                          397
EMPRESÁRIO                                      395
ADVOGADO                                        229
DEPUTADO                                        105
COMERCIANTE                                      95
                                               ... 
OPERADOR DE APARELHOS DE PRODUÇÃO INDUSTRIAL      1
SECRETÁRIO E DATILÓGRAFO                          1
TORNEIRO MECÂNICO                                 1
FEIRANTE, AMBULANTE E MASCATE                     1
SERVENTUÁRIO DE JUSTIÇA                           1
Name: count, Length: 139, dtype: int64

# Quantos anos tería a pessoa candidata mais velha no ato da posse?

In [19]:
candidaturas['NR_IDADE_DATA_POSSE'].max() 


92.0

# Quantos anos tería a pessoa candidata mais jovem no ato da posse?

In [20]:
candidaturas['NR_IDADE_DATA_POSSE'].min() 

21.0

# Qual é o nome da pessoa candidata mais velha?

In [22]:
candidata_mais_velha = candidaturas[candidaturas['NR_IDADE_DATA_POSSE'] == 92]['NM_CANDIDATO']

In [23]:
candidata_mais_velha

2713    JOSÉ DE CASTRO COIMBRA
Name: NM_CANDIDATO, dtype: object

# Qual é o nome da pessoa candidata mais jovem?

In [24]:
candidata_mais_jovem = candidaturas[candidaturas['NR_IDADE_DATA_POSSE'] == 21]['NM_CANDIDATO']

In [25]:
candidata_mais_jovem

772                         THALIA SILVA DE FARIA
1470                         MAYA DA SILVA BASTOS
1603                BRIAN VANDERSON FERREIRA LEME
2676                   VICTOR GUATELLI CAVALCANTE
3148             GABRIELY DE LISIEUX LIMA BARBOSA
3517                       DAVID DE AMORIM CALDAS
4353                     TAÍS DE ALMEIDA OLIVEIRA
4625    MARIA EDUARDA MELLO RODRIGUES DE CARVALHO
5242                LUCAS RODRIGUES MYRA TEIXEIRA
5769                    RYAN ALBUQUERQUE DA SILVA
5814             AMANDA FERREIRA DA SILVA SANTANA
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [30]:
candidaturas_sp = candidaturas[(candidaturas['SG_UF'] == 'SP') & (candidaturas["DS_CARGO"] == "DEPUTADO FEDERAL")]

In [31]:
candidaturas_sp = candidaturas_sp.shape[0]

In [32]:
total_cand_dep_federal = candidaturas_dep_fed.shape[0]

In [33]:
print(f'No pleito de 2022 nos estados de São Paulo e Rio de Janeiro existem {total_cand_dep_federal} pessoas candidatas a Câmara de Deputados Federal, sendo {candidaturas_sp} em SP e {total_cand_dep_federal-candidaturas_sp} no RJ')

No pleito de 2022 nos estados de São Paulo e Rio de Janeiro existem 2623 pessoas candidatas a Câmara de Deputados Federal, sendo 1540 em SP e 1083 no RJ


# Qual é a média do valor máximo de despesas de campanha?

In [34]:
soma_despesas = candidaturas['VR_DESPESA_MAX_CAMPANHA'].sum()

In [35]:
round(candidaturas['VR_DESPESA_MAX_CAMPANHA'].mean(), 2) 

2141709.36