# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Importe os pacotes necessários

In [None]:
import pandas as pd
import glob as gb

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [None]:
arquivos_candidaturas = gb.glob('consulta_cand_2022*.csv')
#print(arquivos_candidaturas)

['consulta_cand_2022_PA.csv', 'consulta_cand_2022_AP.csv']


# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [None]:
lista_dados_df = []

In [None]:
for dados_estado in arquivos_candidaturas:
  df_estado = pd.read_csv(dados_estado, sep=';', encoding='latin_1', na_values=['#NULO', -1, '#NE', -3])
  lista_dados_df.append(df_estado)

In [None]:
lista_dados_df[0].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1043 entries, 0 to 1042
Data columns (total 71 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   DT_GERACAO                     1043 non-null   object 
 1   HH_GERACAO                     1043 non-null   object 
 2   ANO_ELEICAO                    1043 non-null   int64  
 3   CD_TIPO_ELEICAO                1043 non-null   int64  
 4   NM_TIPO_ELEICAO                1043 non-null   object 
 5   NR_TURNO                       1043 non-null   int64  
 6   CD_ELEICAO                     1043 non-null   int64  
 7   DS_ELEICAO                     1043 non-null   object 
 8   DT_ELEICAO                     1043 non-null   object 
 9   TP_ABRANGENCIA                 1043 non-null   object 
 10  SG_UF                          1043 non-null   object 
 11  SG_UE                          1043 non-null   object 
 12  NM_UE                          1043 non-null   o

# Concatene todos os dataframes da lista

In [None]:
candidaturas = pd.concat(lista_dados_df, axis = 0, ignore_index = True)
#print(candidaturas)

      DT_GERACAO HH_GERACAO  ANO_ELEICAO  CD_TIPO_ELEICAO    NM_TIPO_ELEICAO  \
0     13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
1     13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
2     13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
3     13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
4     13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
...          ...        ...          ...              ...                ...   
1595  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
1596  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
1597  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
1598  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   
1599  13/05/2023   19:32:48         2022                2  ELEIÇÃO ORDINÁRIA   

      NR_TURNO  CD_ELEICAO             

In [None]:
#saber o tamanho
candidaturas.shape

(1600, 71)

# Apresente 5 linhas aleatórias do dataframe

In [None]:
candidaturas.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
711,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6007188020226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1514,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004130520226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
63,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6003065220226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1528,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004729020226030000,2.0,DEFERIDO,4.0,INDEFERIDO COM RECURSO,SIM,Válido,2.0,Deferido,S
1494,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004997320226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S


In [None]:
#as 5 primeiras linhas
candidaturas.head(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
0,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006408620226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6011397020226140000,,#NULO#,,#NULO#,NÃO,#NULO#,,#NULO#,N
2,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6012245620226140000,,#NULO#,,#NULO#,NÃO,#NULO#,,#NULO#,N
3,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006754620226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
4,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6008876720226140000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S


In [None]:
# as 5 ultimas linhas
candidaturas.tail(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,DS_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,DS_SITUACAO_CANDIDATO_URNA,ST_CANDIDATO_INSERIDO_URNA,NM_TIPO_DESTINACAO_VOTOS,CD_SITUACAO_CANDIDATO_TOT,DS_SITUACAO_CANDIDATO_TOT,ST_PREST_CONTAS
1595,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6007170420226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1596,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006711520226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1597,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6007058720226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1598,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6004251920226030000,2.0,DEFERIDO,2.0,DEFERIDO,SIM,Válido,2.0,Deferido,S
1599,13/05/2023,19:32:48,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,6006885120226030000,,#NULO#,,#NULO#,NÃO,#NULO#,,#NULO#,N


# Quantas candidaturas estão em situação de reeleição?

In [None]:
#listar todas as colunas
candidaturas.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
       'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'NR_CPF_CANDIDATO', 'NM_EMAIL',
       'CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA',
       'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO',
       'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'NR_FEDERACAO',
       'NM_FEDERACAO', 'SG_FEDERACAO', 'DS_COMPOSICAO_FEDERACAO',
       'SQ_COLIGACAO', 'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO',
       'CD_NACIONALIDADE', 'DS_NACIONALIDADE', 'SG_UF_NASCIMENTO',
       'CD_MUNICIPIO_NASCIMENTO', 'NM_MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO',
       'NR_IDADE_DATA_POSSE', 'NR_TITULO_ELEITORAL_CANDIDATO', 'CD_GENERO',
       'DS_GENERO', 'CD_GRAU_INSTRUCAO', 'DS_GRAU_INSTRUCAO',
       'CD_ESTAD

In [None]:
#retorna array com valores únicos
candidaturas['ST_REELEICAO'].unique()

array(['N', 'S', 'Não divulgável'], dtype=object)

In [None]:
#Contar quantos de cada tipo acima
candidaturas['ST_REELEICAO'].value_counts()

N                 1518
S                   81
Não divulgável       1
Name: ST_REELEICAO, dtype: int64

# Liste todas a ocupações declaradas pelas candidaturas

In [None]:
#FILTRO INICIAL NÃO NECESSÁRIO PARA A QUESTÃO

In [None]:
candidaturas['DS_CARGO'].unique()

array(['DEPUTADO ESTADUAL', 'VICE-GOVERNADOR', 'DEPUTADO FEDERAL',
       '2º SUPLENTE', '1º SUPLENTE', 'GOVERNADOR', 'SENADOR'],
      dtype=object)

In [None]:
candidat_dep_fed = candidaturas[candidaturas['DS_CARGO']=='DEPUTADO FEDERAL'].copy()

In [None]:
#verificar se deu certo. só ter de dep federal
candidat_dep_fed['DS_CARGO'].unique()

array(['DEPUTADO FEDERAL'], dtype=object)

In [None]:
#FILTRO NECESSÁRIO PARA A QUESTÃO- usando só de dep federal para simplificar

In [None]:
candidat_dep_fed['DS_OCUPACAO'].unique()

array(['ADVOGADO', 'ADMINISTRADOR', 'JORNALISTA E REDATOR',
       'SENADOR, DEPUTADO E VEREADOR', 'DEPUTADO', 'OUTROS',
       'OCUPANTE DE CARGO EM COMISSÃO', 'POLICIAL MILITAR',
       'VENDEDOR DE COMÉRCIO VAREJISTA E ATACADISTA', 'AGRICULTOR',
       'APOSENTADO (EXCETO SERVIDOR PÚBLICO)', 'EMPRESÁRIO',
       'PROFESSOR DE ENSINO MÉDIO',
       'TÉCNICO DE ENFERMAGEM E ASSEMELHADOS (EXCETO ENFERMEIRO)',
       'PECUARISTA', 'MÉDICO', 'NUTRICIONISTA E ASSEMELHADOS', 'VEREADOR',
       'VETERINÁRIO', 'DIRETOR DE EMPRESAS', 'ENGENHEIRO', 'DONA DE CASA',
       'CORRETOR DE IMÓVEIS, SEGUROS, TÍTULOS E VALORES',
       'SERVIDOR PÚBLICO FEDERAL', 'ECONOMISTA',
       'VENDEDOR PRACISTA, REPRESENTANTE, CAIXEIRO-VIAJANTE E ASSEMELHADOS',
       'SACERDOTE OU MEMBRO DE ORDEM OU SEITA RELIGIOSA', 'ENFERMEIRO',
       'COMERCIANTE',
       'PORTEIRO DE EDIFÍCIO, ASCENSORISTA, GARAGISTA E ZELADOR',
       'PROFESSOR DE ENSINO FUNDAMENTAL', 'CONTADOR', 'MOTOBOY',
       'SERVIDOR PÚBLICO CIV

# Quantos anos tem a pessoa candidata mais velha?

In [59]:
candidat_dep_fed.columns

Index(['DT_GERACAO', 'HH_GERACAO', 'ANO_ELEICAO', 'CD_TIPO_ELEICAO',
       'NM_TIPO_ELEICAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO', 'DT_ELEICAO',
       'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE', 'CD_CARGO', 'DS_CARGO',
       'SQ_CANDIDATO', 'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA_CANDIDATO',
       'NM_SOCIAL_CANDIDATO', 'NR_CPF_CANDIDATO', 'NM_EMAIL',
       'CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA',
       'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO',
       'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'NR_FEDERACAO',
       'NM_FEDERACAO', 'SG_FEDERACAO', 'DS_COMPOSICAO_FEDERACAO',
       'SQ_COLIGACAO', 'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO',
       'CD_NACIONALIDADE', 'DS_NACIONALIDADE', 'SG_UF_NASCIMENTO',
       'CD_MUNICIPIO_NASCIMENTO', 'NM_MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO',
       'NR_IDADE_DATA_POSSE', 'NR_TITULO_ELEITORAL_CANDIDATO', 'CD_GENERO',
       'DS_GENERO', 'CD_GRAU_INSTRUCAO', 'DS_GRAU_INSTRUCAO',
       'CD_ESTAD

In [50]:
#filtrar pela coluna e pedir o valor máximo(mais velho)
idade_max = candidat_dep_fed['NR_IDADE_DATA_POSSE'].max()

# Quantos anos tem a pessoa candidata mais jovem?

In [51]:
#filtrar pela coluna e pedir o valor mínimo(mais jovem)
idade_min = candidat_dep_fed['NR_IDADE_DATA_POSSE'].min()

# Qual é o nome da pessoa candidata mais velha?

In [None]:
#Coloco o filtro de idade e peço o nome do candidato que cumpre a condição

In [54]:
candidata_mais_velha = candidat_dep_fed[candidat_dep_fed['NR_IDADE_DATA_POSSE'] == idade_max]['NM_CANDIDATO']

In [57]:
candidata_mais_velha

49    MARIA DE LOURDES PEREIRA DE FARIAS
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [60]:
candidat_dep_fed.shape

(477, 71)

# Qual é a média do valor máximo de despesas de campanha?

In [62]:
#as mais básicas operações estatísticas
candidat_dep_fed.describe()

Unnamed: 0,ANO_ELEICAO,CD_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,CD_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NR_CPF_CANDIDATO,CD_SITUACAO_CANDIDATURA,CD_DETALHE_SITUACAO_CAND,...,CD_ESTADO_CIVIL,CD_COR_RACA,CD_OCUPACAO,VR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO,CD_SITUACAO_CANDIDATO_PLEITO,CD_SITUACAO_CANDIDATO_URNA,CD_SITUACAO_CANDIDATO_TOT
count,477.0,477.0,477.0,477.0,477.0,477.0,477.0,477.0,477.0,477.0,...,477.0,477.0,477.0,477.0,438.0,0.0,477.0,438.0,438.0,438.0
mean,2022.0,2.0,1.0,546.0,6.0,104488000000.0,3274.865828,42166530000.0,10.924528,3.115304,...,2.9413,2.232704,381.939203,3176573.0,4.100457,,6.00669e+18,2.221461,2.33105,2.221461
std,0.0,0.0,0.0,0.0,0.0,51486300000.0,2144.614604,27523250000.0,2.922415,3.299687,...,2.30744,0.927146,306.050173,4.661502e-10,0.552879,,3272279000000000.0,1.444249,1.885145,1.444249
min,2022.0,2.0,1.0,546.0,6.0,30001600000.0,1000.0,11706280.0,3.0,2.0,...,1.0,1.0,101.0,3176573.0,2.0,,6.001836e+18,2.0,2.0,2.0
25%,2022.0,2.0,1.0,546.0,6.0,30001650000.0,1456.0,18086310000.0,12.0,2.0,...,1.0,1.0,169.0,3176573.0,4.0,,6.004226e+18,2.0,2.0,2.0
50%,2022.0,2.0,1.0,546.0,6.0,140001600000.0,2277.0,42640720000.0,12.0,2.0,...,3.0,3.0,257.0,3176573.0,4.0,,6.006547e+18,2.0,2.0,2.0
75%,2022.0,2.0,1.0,546.0,6.0,140001700000.0,4533.0,63726780000.0,12.0,2.0,...,3.0,3.0,403.0,3176573.0,4.0,,6.008426e+18,2.0,2.0,2.0
max,2022.0,2.0,1.0,546.0,6.0,140001700000.0,9091.0,99832410000.0,12.0,14.0,...,9.0,5.0,999.0,3176573.0,5.0,,6.016203e+18,17.0,17.0,17.0


In [65]:
#fazer o filtro da coluna desejada e fazer a média, arredondando no começo
round(candidat_dep_fed['VR_DESPESA_MAX_CAMPANHA'].mean())

3176573

In [66]:
#outra maneira de fazer a média e arrendondar depois:
media = candidat_dep_fed['VR_DESPESA_MAX_CAMPANHA'].mean()
round(media,2)

3176572.53