# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [37]:
import pandas as pd
import glob
pd.options.display.max_columns = False

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [6]:
data_paths = glob.glob("consulta_cand*.csv")
data_paths

['consulta_cand_2022_AP.csv', 'consulta_cand_2022_PA.csv']

# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [8]:
data_dfs = [pd.read_csv(i,sep=";",encoding="latin-1") for i in data_paths]
data_dfs

[     DT_GERACAO HH_GERACAO  ANO_ELEICAO  CD_TIPO_ELEICAO    NM_TIPO_ELEICAO  \
 0    13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 1    13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 2    13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 3    13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 4    13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 ..          ...        ...          ...              ...                ...   
 552  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 553  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 554  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 555  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 556  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
 
      NR_TURNO  CD_ELEICAO            

# Concatene todos os dataframes da lista

In [9]:
data_df = pd.concat(data_dfs)
data_df.shape

(1600, 71)

# Apresente 5 linhas aleatórias do dataframe

In [34]:
data_df.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
247,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6012384020226140000,-1,#NULO#,-1,#NULO#,NÃO,#NULO#,-1,#NULO#,N
284,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006841420226030000,2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S
366,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6005845920226030000,2,DEFERIDO,2,DEFERIDO,SIM,#NULO#,2,Deferido,N
561,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6009509220226140000,2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S
920,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6007611720226140000,2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S


# Quantas candidaturas estão em situação de reeleição?

In [39]:
len(data_df[data_df["ST_REELEICAO"]=="S"])


81

# Liste todas a ocupações declaradas pelas candidaturas

In [47]:
set(list(data_df['DS_OCUPACAO']))

{'ADMINISTRADOR',
 'ADVOGADO',
 'AGENTE ADMINISTRATIVO',
 'AGENTE DE SAÚDE E SANITARISTA',
 'AGENTE DE VIAGEM',
 'AGENTE POSTAL',
 'AGRICULTOR',
 'AGRÔNOMO',
 'ANALISTA DE SISTEMAS',
 'APOSENTADO (EXCETO SERVIDOR PÚBLICO)',
 'ARQUITETO',
 'ARTESÃO',
 'ASSISTENTE SOCIAL',
 'ATLETA PROFISSIONAL E TÉCNICO EM DESPORTOS',
 'ATOR E DIRETOR DE ESPETÁCULOS PÚBLICOS',
 'AUXILIAR DE ESCRITÓRIO E ASSEMELHADOS',
 'BANCÁRIO E ECONOMIÁRIO',
 'BIOMÉDICO',
 'BIÓLOGO',
 'BOMBEIRO CIVIL',
 'BOMBEIRO MILITAR',
 'CABELEIREIRO E BARBEIRO',
 'CABELEIREIRO, BARBEIRO, MANICURE, MAQUILADOR, ESTETICISTA E MASSAGISTA',
 'CANTOR E COMPOSITOR',
 'CARPINTEIRO, MARCENEIRO E ASSEMELHADOS',
 'CATADOR DE RECICLÁVEIS',
 'COBRADOR DE TRANSPORTE COLETIVO',
 'COMERCIANTE',
 'COMERCIÁRIO',
 'CONTADOR',
 'CORRETOR DE IMÓVEIS, SEGUROS, TÍTULOS E VALORES',
 'COZINHEIRO',
 'DEMONSTRADOR',
 'DEPUTADO',
 'DIRETOR DE EMPRESAS',
 'DONA DE CASA',
 'ECONOMISTA',
 'ELETRICISTA E ASSEMELHADOS',
 'EMPRESÁRIO',
 'ENFERMEIRO',
 'ENGENHEIR

# Quantos anos tem a pessoa candidata mais velha?

In [49]:
data_df['NR_IDADE_DATA_POSSE'].max()

81.0

# Quantos anos tem a pessoa candidata mais jovem?

In [50]:
data_df['NR_IDADE_DATA_POSSE'].min()

19.0

# Qual é o nome da pessoa candidata mais velha?

In [60]:
max_age_mask = data_df["NR_IDADE_DATA_POSSE"] == data_df["NR_IDADE_DATA_POSSE"].max()
data_df[max_age_mask]["NM_CANDIDATO"]

49    MARIA DE LOURDES PEREIRA DE FARIAS
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [66]:
uf_mask = data_df["SG_UE"] == "PA"
role_mask = data_df["DS_CARGO"] == "DEPUTADO FEDERAL"
len(data_df[uf_mask & role_mask])

323

# Qual é a média do valor máximo de despesas de campanha?

In [73]:
data_df["VR_DESPESA_MAX_CAMPANHA"].mean()

-4.0