# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [1]:
import pandas as pd
import glob as gb

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [9]:
arquivos = gb.glob('/content/dados/consulta_*2022*.csv')
print(arquivos)

['/content/dados/consulta_cand_2022_AP.csv', '/content/dados/consulta_cand_2022_PA.csv']


# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [10]:
lista_df = []

for dados_estado in arquivos:
  df_estado = pd.read_csv(dados_estado, sep=';', na_values=['#NULO','#NE', -1, -3], encoding='latin_1')
  lista_df.append(df_estado)

lista_df[0].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 557 entries, 0 to 556
Data columns (total 71 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   DT_GERACAO                     557 non-null    object 
 1   HH_GERACAO                     557 non-null    object 
 2   ANO_ELEICAO                    557 non-null    int64  
 3   CD_TIPO_ELEICAO                557 non-null    int64  
 4   NM_TIPO_ELEICAO                557 non-null    object 
 5   NR_TURNO                       557 non-null    int64  
 6   CD_ELEICAO                     557 non-null    int64  
 7   DS_ELEICAO                     557 non-null    object 
 8   DT_ELEICAO                     557 non-null    object 
 9   TP_ABRANGENCIA                 557 non-null    object 
 10  SG_UF                          557 non-null    object 
 11  SG_UE                          557 non-null    object 
 12  NM_UE                          557 non-null    obj

# Concatene todos os dataframes da lista

In [12]:
candidaturas = pd.concat(lista_df, axis=0,ignore_index=True)

candidaturas.shape

(1600, 71)

# Apresente 5 linhas aleatórias do dataframe

In [16]:
candidaturas.sample(5)

candidaturas.head()

candidaturas.tail()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
1595,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6002268820226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1596,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6005637720226140000,4.0,INDEFERIDO COM RECURSO,4.0,INDEFERIDO COM RECURSO,SIM,Anulado sub judice,4.0,Indeferido com recurso,N
1597,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004866820226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1598,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004312020226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1599,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6009040620226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S


# Quantas candidaturas estão em situação de reeleição?

In [22]:
candidaturas.columns

candidaturas['ST_REELEICAO'].unique()

candidaturas['ST_REELEICAO'].value_counts()



N                 0.948750
S                 0.050625
Não divulgável    0.000625
Name: ST_REELEICAO, dtype: float64

# Liste todas a ocupações declaradas pelas candidaturas

In [23]:
candidaturas['DS_CARGO'].unique()

array(['DEPUTADO ESTADUAL', 'DEPUTADO FEDERAL', 'VICE-GOVERNADOR',
       'SENADOR', 'GOVERNADOR', '1º SUPLENTE', '2º SUPLENTE'],
      dtype=object)

In [24]:
candidaturas_dep_fed= candidaturas[
    candidaturas['DS_CARGO'] == 'DEPUTADO FEDERAL'
].copy()

In [25]:
candidaturas_dep_fed['DS_CARGO'].unique()

array(['DEPUTADO FEDERAL'], dtype=object)

In [26]:
candidaturas_dep_fed['DS_OCUPACAO'].unique()

array(['EMPRESÁRIO', 'PROFESSOR DE ENSINO SUPERIOR',
       'PROFESSOR DE ENSINO FUNDAMENTAL',
       'SUPERVISOR, INSPETOR E AGENTE DE COMPRAS E VENDAS', 'OUTROS',
       'ADVOGADO', 'COMERCIÁRIO', 'DEPUTADO', 'SERVIDOR PÚBLICO ESTADUAL',
       'MÉDICO', 'ANALISTA DE SISTEMAS', 'VEREADOR', 'POLICIAL MILITAR',
       'MOTORISTA PARTICULAR', 'ASSISTENTE SOCIAL',
       'TÉCNICO DE OBRAS CIVIS, ESTRADAS, SANEAMENTO E ASSEMELHADOS',
       'ATLETA PROFISSIONAL E TÉCNICO EM DESPORTOS',
       'SERVIDOR PÚBLICO FEDERAL', 'ADMINISTRADOR', 'CANTOR E COMPOSITOR',
       'ENGENHEIRO',
       'PORTEIRO DE EDIFÍCIO, ASCENSORISTA, GARAGISTA E ZELADOR',
       'FISIOTERAPEUTA E TERAPEUTA OCUPACIONAL', 'BOMBEIRO MILITAR',
       'PROFESSOR DE ENSINO MÉDIO',
       'ESTUDANTE, BOLSISTA, ESTAGIÁRIO E ASSEMELHADOS',
       'LOCUTOR E COMENTARISTA DE RÁDIO E TELEVISÃO E RADIALISTA',
       'PESCADOR', 'ENFERMEIRO', 'RECEPCIONISTA', 'AGENTE ADMINISTRATIVO',
       'SERVIDOR PÚBLICO MUNICIPAL',
       'V

# Quantos anos tem a pessoa candidata mais velha?

In [30]:
candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].max()



22.0

# Quantos anos tem a pessoa candidata mais jovem?

In [31]:
idade_minima = candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].min()
idade_maxima = candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].max()

# Qual é o nome da pessoa candidata mais velha?

In [35]:
candidata_mais_velha = candidaturas_dep_fed[
    candidaturas_dep_fed['NR_IDADE_DATA_POSSE'] == idade_minima ]['NM_CANDIDATO']

candidata_mais_velha

372         AMANDA CAVALCANTE JARDIM
711    WERLLEY FILHO MORAES OLIVEIRA
718         YANDER DAVI AMARAL LEITE
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [36]:
candidaturas_dep_fed.shape[0]

477

# Qual é a média do valor máximo de despesas de campanha?

In [37]:
media = candidaturas_dep_fed['VR_DESPESA_MAX_CAMPANHA'].mean()

round(media,1)

3176572.5