# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [1]:
import pandas as pd

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [2]:
import glob
lista_uf = []
lista_uf = glob.glob('/content/consulta*.csv')
lista_uf

['/content/consulta_cand_2020_PE.csv', '/content/consulta_cand_2020_RN.csv']

# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [3]:
lista_uf_total = []
for listauf in lista_uf:
  listauftotal = pd.read_csv(listauf, sep=';', encoding = 'latin_1')
  lista_uf_total.append(listauftotal)



# Concatene todos os dataframes da lista

In [4]:
df_completo = pd.concat(lista_uf_total, axis=0, ignore_index=True)
df_completo.shape

(31656, 63)

# Apresente 5 linhas aleatórias do dataframe

In [5]:
df_completo.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_DECLARAR_BENS,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA
13953,05/08/2021,12:18:13,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,...,SUPLENTE,N,S,-1,6006359520206170147,2,DEFERIDO,2,DEFERIDO,SIM
16432,05/08/2021,12:18:13,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,...,NÃO ELEITO,N,N,-1,6001465420206170019,14,INDEFERIDO,4,INDEFERIDO COM RECURSO,SIM
8476,05/08/2021,12:18:13,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,...,NÃO ELEITO,N,N,-1,6005218020206170043,2,DEFERIDO,2,DEFERIDO,SIM
7761,05/08/2021,12:18:13,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,...,SUPLENTE,N,N,-1,6000611620206170004,2,DEFERIDO,2,DEFERIDO,SIM
7244,05/08/2021,12:18:13,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,...,NÃO ELEITO,N,N,-1,6002457220206170003,14,INDEFERIDO,4,INDEFERIDO COM RECURSO,SIM


# Quantas candidaturas estão em situação de reeleição?

In [10]:
candidatos_aptos = df_completo[df_completo['DS_SITUACAO_CANDIDATURA']=='APTO'].copy()
candidatos_aptos.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
       'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'NR_CPF_CANDIDATO', 'NM_EMAIL',
       'CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA',
       'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO',
       'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'SQ_COLIGACAO',
       'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO', 'CD_NACIONALIDADE',
       'DS_NACIONALIDADE', 'SG_UF_NASCIMENTO', 'CD_MUNICIPIO_NASCIMENTO',
       'NM_MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO', 'NR_IDADE_DATA_POSSE',
       'NR_TITULO_ELEITORAL_CANDIDATO', 'CD_GENERO', 'DS_GENERO',
       'CD_GRAU_INSTRUCAO', 'DS_GRAU_INSTRUCAO', 'CD_ESTADO_CIVIL',
       'DS_ESTADO_CIVIL', 'CD_COR_RACA', 'DS_COR_RACA', 'CD_OCUPACAO',
       '

# Liste todas a ocupações declaradas pelas candidaturas

In [11]:
lista_ocupacao = df_completo['DS_OCUPACAO'].unique()

In [12]:
lista_ocupacao

array(['OUTROS', 'ADVOGADO', 'SERVIDOR PÚBLICO MUNICIPAL', 'EMPRESÁRIO',
       'PROFESSOR DE ENSINO SUPERIOR', 'AGRICULTOR', 'DONA DE CASA',
       'COMERCIANTE', 'FEIRANTE, AMBULANTE E MASCATE',
       'PROFESSOR DE ENSINO FUNDAMENTAL', 'PROFESSOR DE ENSINO MÉDIO',
       'VENDEDOR DE COMÉRCIO VAREJISTA E ATACADISTA',
       'AGENTE DE SAÚDE E SANITARISTA', 'MÉDICO',
       'APOSENTADO (EXCETO SERVIDOR PÚBLICO)',
       'MOTORISTA DE VEÍCULOS DE TRANSPORTE DE CARGA', 'VEREADOR',
       'PREFEITO', 'MOTORISTA PARTICULAR',
       'TRABALHADOR DE FABRICAÇÃO DE CALÇADOS E ARTEFATOS DE COURO',
       'MOTORISTA DE VEÍCULOS DE TRANSPORTE COLETIVO DE PASSAGEIROS',
       'PRODUTOR DE ESPETÁCULOS PÚBLICOS', 'TAXISTA',
       'ENCANADOR, SOLDADOR, CHAPEADOR E CALDEIREIRO', 'PECUARISTA',
       'ADMINISTRADOR', 'CORRETOR DE IMÓVEIS, SEGUROS, TÍTULOS E VALORES',
       'ELETRICISTA E ASSEMELHADOS',
       'TÉCNICO DE ENFERMAGEM E ASSEMELHADOS (EXCETO ENFERMEIRO)',
       'VENDEDOR PRACISTA, REP

# Quantos anos tem a pessoa candidata mais velha?

In [None]:
df_completo['NR_IDADE_DATA_POSSE'].max()

85.0

# Quantos anos tem a pessoa candidata mais jovem?

In [None]:
df_completo['NR_IDADE_DATA_POSSE'].min()

18.0

# Qual é o nome da pessoa candidata mais velha?

In [25]:
cand_maisvelho = df_completo[df_completo['NR_IDADE_DATA_POSSE']==85]

In [26]:
cand_maisvelho['NM_URNA_CANDIDATO']

17582           MEMEU
18516    DONA ZEFINHA
23705    CHICO ARAÚJO
Name: NM_URNA_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [None]:
cand_federal_estado = df_completo[df_completo['NR_IDADE_DATA_POSSE']==85]

# Qual é a média do valor máximo de despesas de campanha?