# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [9]:
import pandas as pd
import glob as gb

# Crie uma lista com o título dos arquivos usando a biblioteca Glob

In [10]:
files = gb.glob('./consulta*.csv')
files

['./consulta_cand_2022_PA.csv', './consulta_cand_2022_AP.csv']

# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [11]:
list_df = []
for file in files:
  df = pd.read_csv(file, sep=";", encoding="latin_1", na_values=["#NULO", -1, "#NE", -3])
  list_df.append(df)

# Concatene todos os dataframes da lista

In [12]:
applications = pd.concat(list_df, axis=0, ignore_index=True)
applications.shape

(1600, 71)

# Apresente 5 linhas aleatórias do dataframe

In [13]:
applications.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
161,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6007031420226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1301,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6003541720226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1140,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004616120226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
264,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6011518420226140000,,#NULO#,,#NULO#,NÃO,#NULO#,,#NULO#,N
211,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6005342720226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S


# Quantas candidaturas estão em situação de reeleição?

In [16]:
#applications.columns
applications['ST_REELEICAO'].unique()

array(['N', 'S', 'Não divulgável'], dtype=object)

In [19]:
applications['ST_REELEICAO'].value_counts()

N                 0.948750
S                 0.050625
Não divulgável    0.000625
Name: ST_REELEICAO, dtype: float64

# Liste todas a ocupações declaradas pelas candidaturas

In [18]:
applications['DS_CARGO'].unique()

array(['DEPUTADO ESTADUAL', 'VICE-GOVERNADOR', 'DEPUTADO FEDERAL',
       '2º SUPLENTE', '1º SUPLENTE', 'GOVERNADOR', 'SENADOR'],
      dtype=object)

In [21]:
applications_dep_federal = applications[applications['DS_CARGO'] == 'DEPUTADO FEDERAL'].copy()

In [23]:
applications_dep_federal['DS_CARGO'].unique()

array(['DEPUTADO FEDERAL'], dtype=object)

In [24]:
applications_dep_federal['DS_OCUPACAO'].unique()

array(['ADVOGADO', 'ADMINISTRADOR', 'JORNALISTA E REDATOR',
       'SENADOR, DEPUTADO E VEREADOR', 'DEPUTADO', 'OUTROS',
       'OCUPANTE DE CARGO EM COMISSÃO', 'POLICIAL MILITAR',
       'VENDEDOR DE COMÉRCIO VAREJISTA E ATACADISTA', 'AGRICULTOR',
       'APOSENTADO (EXCETO SERVIDOR PÚBLICO)', 'EMPRESÁRIO',
       'PROFESSOR DE ENSINO MÉDIO',
       'TÉCNICO DE ENFERMAGEM E ASSEMELHADOS (EXCETO ENFERMEIRO)',
       'PECUARISTA', 'MÉDICO', 'NUTRICIONISTA E ASSEMELHADOS', 'VEREADOR',
       'VETERINÁRIO', 'DIRETOR DE EMPRESAS', 'ENGENHEIRO', 'DONA DE CASA',
       'CORRETOR DE IMÓVEIS, SEGUROS, TÍTULOS E VALORES',
       'SERVIDOR PÚBLICO FEDERAL', 'ECONOMISTA',
       'VENDEDOR PRACISTA, REPRESENTANTE, CAIXEIRO-VIAJANTE E ASSEMELHADOS',
       'SACERDOTE OU MEMBRO DE ORDEM OU SEITA RELIGIOSA', 'ENFERMEIRO',
       'COMERCIANTE',
       'PORTEIRO DE EDIFÍCIO, ASCENSORISTA, GARAGISTA E ZELADOR',
       'PROFESSOR DE ENSINO FUNDAMENTAL', 'CONTADOR', 'MOTOBOY',
       'SERVIDOR PÚBLICO CIV

# Quantos anos tem a pessoa candidata mais velha?

In [25]:
applications['NR_IDADE_DATA_POSSE'].max()

81.0

# Quantos anos tem a pessoa candidata mais jovem?

In [26]:
applications['NR_IDADE_DATA_POSSE'].min()

19.0

# Qual é o nome da pessoa candidata mais velha?

In [29]:
applications[applications['NR_IDADE_DATA_POSSE'] == applications['NR_IDADE_DATA_POSSE'].max()].copy()['NM_CANDIDATO']

49    MARIA DE LOURDES PEREIRA DE FARIAS
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [31]:
applications_dep_federal.shape[0]

477

# Qual é a média do valor máximo de despesas de campanha?

In [32]:
applications.describe()

Unnamed: 0,ANO_ELEICAO,CD_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,CD_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NR_CPF_CANDIDATO,CD_SITUACAO_CANDIDATURA,CD_DETALHE_SITUACAO_CAND,...,CD_ESTADO_CIVIL,CD_COR_RACA,CD_OCUPACAO,VR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,CD_SITUACAO_CANDIDATO_TOT
count,1600.0,1600.0,1600.0,1600.0,1600.0,1600.0,1600.0,1600.0,1600.0,1600.0,...,1600.0,1600.0,1600.0,1529.0,1476.0,0.0,1600.0,1476.0,1476.0,1476.0
mean,2022.0,2.0,1.0,546.0,6.693125,101707900000.0,21303.939375,44817210000.0,10.925625,3.086875,...,2.855625,2.263125,407.1775,1968852.0,4.386179,,6.006838e+18,2.213415,2.313686,2.213415
std,0.0,0.0,0.0,0.0,0.849649,52417740000.0,22336.413543,28086820000.0,2.918976,3.238963,...,2.318003,0.916878,319.976337,1178961.0,0.771474,,3288632000000000.0,1.341331,1.860156,1.341331
min,2022.0,2.0,1.0,546.0,3.0,30001600000.0,15.0,-4.0,3.0,2.0,...,-4.0,-4.0,-4.0,-4.0,1.0,,6.00161e+18,2.0,2.0,2.0
25%,2022.0,2.0,1.0,546.0,6.0,30001640000.0,3639.25,21021600000.0,12.0,2.0,...,1.0,1.0,171.75,1270629.0,4.0,,6.004122e+18,2.0,2.0,2.0
50%,2022.0,2.0,1.0,546.0,7.0,140001600000.0,14110.5,43225670000.0,12.0,2.0,...,3.0,3.0,265.0,1270629.0,5.0,,6.006361e+18,2.0,2.0,2.0
75%,2022.0,2.0,1.0,546.0,7.0,140001700000.0,28777.25,67711310000.0,12.0,2.0,...,3.0,3.0,581.0,3176573.0,5.0,,6.009286e+18,2.0,2.0,2.0
max,2022.0,2.0,1.0,546.0,10.0,140001700000.0,90999.0,99832410000.0,12.0,14.0,...,9.0,5.0,999.0,11562720.0,5.0,,6.023764e+18,17.0,17.0,17.0


In [33]:
mean = applications['VR_DESPESA_MAX_CAMPANHA'].mean()
mean = round(mean, 2)