# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [1]:
import pandas as pd
import glob as gb

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [27]:
arquivos = gb.glob('consulta_*A?.csv')

In [28]:
arquivos

['consulta_cand_2022_AP.csv']

In [29]:
arquivos = gb.glob('consulta_*.csv')

In [30]:
arquivos

['consulta_cand_2022_AP.csv', 'consulta_cand_2022_PA.csv']

# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [32]:
lista_df = []

In [33]:
for dados_estado in arquivos:
  df_estado = pd.read_csv(dados_estado, sep=';', encoding='latin_1', na_values=['#NULO', -1, '#NE', -3])
  lista_df.append(df_estado)

In [None]:
lista_df

In [35]:
lista_df[0].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 557 entries, 0 to 556
Data columns (total 71 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   DT_GERACAO                     557 non-null    object 
 1   HH_GERACAO                     557 non-null    object 
 2   ANO_ELEICAO                    557 non-null    int64  
 3   CD_TIPO_ELEICAO                557 non-null    int64  
 4   NM_TIPO_ELEICAO                557 non-null    object 
 5   NR_TURNO                       557 non-null    int64  
 6   CD_ELEICAO                     557 non-null    int64  
 7   DS_ELEICAO                     557 non-null    object 
 8   DT_ELEICAO                     557 non-null    object 
 9   TP_ABRANGENCIA                 557 non-null    object 
 10  SG_UF                          557 non-null    object 
 11  SG_UE                          557 non-null    object 
 12  NM_UE                          557 non-null    obj

# Concatene todos os dataframes da lista

In [36]:
candidaturas = pd.concat(lista_df, axis=0, ignore_index=True)

In [37]:
candidaturas.shape

(1600, 71)

# Apresente 5 linhas aleatórias do dataframe

In [40]:
candidaturas.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
1308,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6010686820226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1547,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6011319320226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1038,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6008885220226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
406,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6002858220226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
364,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6005680820226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S


# Quantas candidaturas estão em situação de reeleição?

In [None]:
candidaturas['ST_REELEICAO'].unique()

In [49]:
candidaturas['ST_REELEICAO'].value_counts()

N                 1518
S                   81
Não divulgável       1
Name: ST_REELEICAO, dtype: int64

In [45]:
candidaturas['ST_REELEICAO'].value_counts('S')

N                 0.948750
S                 0.050625
Não divulgável    0.000625
Name: ST_REELEICAO, dtype: float64

In [None]:
candidaturas.column

# Liste todas a ocupações declaradas pelas candidaturas

In [50]:
candidaturas['DS_CARGO'].unique()

array(['DEPUTADO ESTADUAL', 'DEPUTADO FEDERAL', 'VICE-GOVERNADOR',
       'SENADOR', 'GOVERNADOR', '1º SUPLENTE', '2º SUPLENTE'],
      dtype=object)

In [53]:
candidaturas_dep_fed = candidaturas[
    candidaturas['DS_CARGO'] == "DEPUTADO FEDERAL"
].copy()

In [54]:
candidaturas_dep_fed['DS_CARGO'].unique()

array(['DEPUTADO FEDERAL'], dtype=object)

In [None]:
candidaturas_dep_fed['DS_OCUPACAO'].unique()

# Quantos anos tem a pessoa candidata mais velha?

In [60]:
candidaturas_dep_fed.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
       'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'NR_CPF_CANDIDATO', 'NM_EMAIL',
       'CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA',
       'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO',
       'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'NR_FEDERACAO',
       'NM_FEDERACAO', 'SG_FEDERACAO', 'DS_COMPOSICAO_FEDERACAO',
       'SQ_COLIGACAO', 'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO',
       'CD_NACIONALIDADE', 'DS_NACIONALIDADE', 'SG_UF_NASCIMENTO',
       'CD_MUNICIPIO_NASCIMENTO', 'NM_MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO',
       'NR_IDADE_DATA_POSSE', 'NR_TITULO_ELEITORAL_CANDIDATO', 'CD_GENERO',
       'DS_GENERO', 'CD_GRAU_INSTRUCAO', 'DS_GRAU_INSTRUCAO',
       'CD_ESTAD

In [58]:
candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].max()

81.0

# Quantos anos tem a pessoa candidata mais jovem?

In [59]:
candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].min()

22.0

# Qual é o nome da pessoa candidata mais velha?

In [67]:
candidata_mais_velha = candidaturas_dep_fed[
    candidaturas_dep_fed['NR_IDADE_DATA_POSSE'] == candidaturas_dep_fed['NR_IDADE_DATA_POSSE'].max()
]['NM_CANDIDATO']

In [None]:
candidaturas_dep_fed[]

In [68]:
candidata_mais_velha

606    MARIA DE LOURDES PEREIRA DE FARIAS
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [71]:
candidaturas_dep_fed.shape[0]

477

# Qual é a média do valor máximo de despesas de campanha?

In [75]:
media = candidaturas_dep_fed['VR_DESPESA_MAX_CAMPANHA'].mean()

In [77]:
round(media, 1)

3176572.5