# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [2]:
import pandas as pd
import glob as gb

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [3]:
arquivos = gb.glob('/content/consulta_*2022*.csv')
print(arquivos)

['/content/consulta_cand_2022_PA.csv', '/content/consulta_cand_2022_AP.csv']


# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [28]:
lista_df = []


In [29]:
for csv in arquivos:
  df = pd.read_csv(csv, encoding= 'Latin 1', sep = ';', na_values= ['#NULO', -1, '#NE', -3])
  lista_df.append(df)

In [33]:
lista_df[0].shape

(1043, 71)

# Concatene todos os dataframes da lista

In [31]:
candidaturas = pd.concat(lista_df, axis=0, ignore_index=True)

In [32]:
candidaturas.shape

(1600, 71)

# Apresente 5 linhas aleatórias do dataframe

In [34]:
candidaturas.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
1448,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6005629820226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1227,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004988820226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
376,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6013752220226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1596,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006711520226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
903,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6009742320226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S


In [35]:
candidaturas.tail(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
1595,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6007170420226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1596,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006711520226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1597,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6007058720226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1598,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004251920226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1599,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006885120226030000,,#NULO#,,#NULO#,NÃO,#NULO#,,#NULO#,N


# Quantas candidaturas estão em situação de reeleição?

In [36]:
candidaturas['ST_REELEICAO'].unique()

array(['N', 'S', 'Não divulgável'], dtype=object)

In [37]:
candidaturas['ST_REELEICAO'].value_counts()

N                 1518
S                   81
Não divulgável       1
Name: ST_REELEICAO, dtype: int64

In [38]:
(candidaturas['ST_REELEICAO']=='S').value_counts()

False    1519
True       81
Name: ST_REELEICAO, dtype: int64

# Liste todas a ocupações declaradas pelas candidaturas

In [45]:
candidaturas_dep_fed = candidaturas[
    candidaturas['DS_CARGO'] == 'DEPUTADO FEDERAL'
].copy()

In [46]:
candidaturas_dep_fed['DS_CARGO'].unique()

array(['DEPUTADO FEDERAL'], dtype=object)

# Quantos anos tem a pessoa candidata mais velha?

In [68]:
idade_maxima = candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].max()

In [69]:
idade_maxima

81.0

# Quantos anos tem a pessoa candidata mais jovem?

In [52]:
idade_minima = candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].min()

In [53]:
idade_minima

22.0

# Qual é o nome da pessoa candidata mais velha?

In [70]:
candidata_mais_velha = candidaturas_dep_fed[
    candidaturas_dep_fed['NR_IDADE_DATA_POSSE'] == idade_maxima]['NM_CANDIDATO']

In [71]:
candidata_mais_velha

49    MARIA DE LOURDES PEREIRA DE FARIAS
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [74]:
candidaturas_dep_fed.shape[0]

477

# Qual é a média do valor máximo de despesas de campanha?

In [72]:
candidaturas_dep_fed.describe()

Unnamed: 0,ANO_ELEICAO,CD_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,CD_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NR_CPF_CANDIDATO,CD_SITUACAO_CANDIDATURA,CD_DETALHE_SITUACAO_CAND,...,CD_ESTADO_CIVIL,CD_COR_RACA,CD_OCUPACAO,VR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,CD_SITUACAO_CANDIDATO_TOT
count,477.0,477.0,477.0,477.0,477.0,477.0,477.0,477.0,477.0,477.0,...,477.0,477.0,477.0,477.0,438.0,0.0,477.0,438.0,438.0,438.0
mean,2022.0,2.0,1.0,546.0,6.0,104488000000.0,3274.865828,42166530000.0,10.924528,3.115304,...,2.9413,2.232704,381.939203,3176573.0,4.100457,,6.00669e+18,2.221461,2.33105,2.221461
std,0.0,0.0,0.0,0.0,0.0,51486300000.0,2144.614604,27523250000.0,2.922415,3.299687,...,2.30744,0.927146,306.050173,4.661502e-10,0.552879,,3272279000000000.0,1.444249,1.885145,1.444249
min,2022.0,2.0,1.0,546.0,6.0,30001600000.0,1000.0,11706280.0,3.0,2.0,...,1.0,1.0,101.0,3176573.0,2.0,,6.001836e+18,2.0,2.0,2.0
25%,2022.0,2.0,1.0,546.0,6.0,30001650000.0,1456.0,18086310000.0,12.0,2.0,...,1.0,1.0,169.0,3176573.0,4.0,,6.004226e+18,2.0,2.0,2.0
50%,2022.0,2.0,1.0,546.0,6.0,140001600000.0,2277.0,42640720000.0,12.0,2.0,...,3.0,3.0,257.0,3176573.0,4.0,,6.006547e+18,2.0,2.0,2.0
75%,2022.0,2.0,1.0,546.0,6.0,140001700000.0,4533.0,63726780000.0,12.0,2.0,...,3.0,3.0,403.0,3176573.0,4.0,,6.008426e+18,2.0,2.0,2.0
max,2022.0,2.0,1.0,546.0,6.0,140001700000.0,9091.0,99832410000.0,12.0,14.0,...,9.0,5.0,999.0,3176573.0,5.0,,6.016203e+18,17.0,17.0,17.0


In [75]:
media = candidaturas_dep_fed['VR_DESPESA_MAX_CAMPANHA'].mean()

In [76]:
round(media, 2)

3176572.53