# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [1]:
import pandas as pd
import glob

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [2]:
lista = glob.glob('*.csv')

# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [4]:
lista_df = []

for arquivo in lista:
    arquivo_df = pd.read_csv(arquivo, sep=';', encoding='latin-1')
    lista_df.append(arquivo_df)    

# Concatene todos os dataframes da lista

In [5]:
lista_completa = pd.concat(lista_df, axis=0, ignore_index=True)

# Apresente 5 linhas aleatórias do dataframe

In [6]:
lista_completa.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
1529,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6005212820226140000,2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S
1481,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004883820226140000,2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S
1493,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6003437920226140000,2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S
789,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6011457720226140000,-1,#NULO#,-1,#NULO#,NÃO,#NULO#,-1,#NULO#,N
854,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6009136520226140000,2,DEFERIDO,2,DEFERIDO,SIM,Válido,2,Deferido,S


# Quantas candidaturas estão em situação de reeleição?

In [17]:
#lista_completa[lista_completa["DS_SITUACAO_CANDIDATURA"] == "APTO"].value_counts("DS_SITUACAO_CANDIDATURA")
lista_completa["ST_REELEICAO"].value_counts()

ST_REELEICAO
N                 1518
S                   81
Não divulgável       1
Name: count, dtype: int64

# Liste todas a ocupações declaradas pelas candidaturas

In [18]:
lista_completa["DS_OCUPACAO"]

0                                         DONA DE CASA
1       ESTUDANTE, BOLSISTA, ESTAGIÁRIO E ASSEMELHADOS
2                         PROFESSOR DE ENSINO SUPERIOR
3                                           EMPRESÁRIO
4                                     POLICIAL MILITAR
                             ...                      
1595                                        EMPRESÁRIO
1596                                        ENGENHEIRO
1597                                            OUTROS
1598            CARPINTEIRO, MARCENEIRO E ASSEMELHADOS
1599                                  POLICIAL MILITAR
Name: DS_OCUPACAO, Length: 1600, dtype: object

# Quantos anos tem a pessoa candidata mais velha?

In [116]:
pd.to_datetime('today').year - pd.to_datetime(lista_completa["DT_NASCIMENTO"]).agg(["min"])[0].year
pd.to_datetime(lista_completa["DT_NASCIMENTO"]).agg(["min"])[0]

  pd.to_datetime('today').year - pd.to_datetime(lista_completa["DT_NASCIMENTO"]).agg(["min"])[0].year
  pd.to_datetime(lista_completa["DT_NASCIMENTO"]).agg(["min"])[0]


Timestamp('1941-06-07 00:00:00')

# Quantos anos tem a pessoa candidata mais jovem?

In [115]:
pd.to_datetime('today').year - pd.to_datetime(lista_completa["DT_NASCIMENTO"]).agg(["max"])[0].year


  pd.to_datetime('today').year - pd.to_datetime(lista_completa["DT_NASCIMENTO"]).agg(["max"])[0].year


20

# Qual é o nome da pessoa candidata mais velha?

In [118]:
lista_completa.loc[lista_completa["DT_NASCIMENTO"] == "07/06/1941", "NM_CANDIDATO"]


606    MARIA DE LOURDES PEREIRA DE FARIAS
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [138]:
len(lista_completa[(lista_completa["DS_CARGO"] == "DEPUTADO FEDERAL") & (lista_completa["SG_UE"] == "AP")])

154

# Qual é a média do valor máximo de despesas de campanha?

In [139]:
lista_completa["VR_DESPESA_MAX_CAMPANHA"].mean()

1881483.8612937503