<a href="https://colab.research.google.com/github/micarray/python_esc_dados/blob/main/semana01/desafio_gabarito_importando.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Explorando dados

Neste desafio colocaremos em prática alguns conceitos apresentado nas aulas. Para isso, usaremos o conjunto de dados [Candidatos - 2022](https://dadosabertos.tse.jus.br/dataset/candidatos-2022) disponível no Portal de Dados Abertos do Tribunal Superior Eleitoral.

Os dados também podem ser encontrados na pasta "Dados" deste repositório.

Siga as orientações abaixo para completar o desafio:

# Importe os pacotes necessários

In [1]:
import pandas as pd
import glob as gb

# Crie uma lista com o título dos arquivos usando a biblioteca Gloob

In [2]:
arquivos = gb.glob('/content/consulta_cand_*.csv')

In [3]:
arquivos

['/content/consulta_cand_2022_AM.csv', '/content/consulta_cand_2022_PA.csv']

# Crie um laço (loop) para ler todos os arquivos da lista (usando a biblioteca Pandas) e armazenar os dataframes em uma lista

In [4]:
lista_df = []

In [9]:
for csv in arquivos:
  df = pd.read_csv(csv, encoding="Latin 1", engine= 'python', sep=';', na_values=['#NULO#', -1])
  lista_df.append(df)

In [10]:
lista_df[0].shape

(1056, 11)

# Concatene todos os dataframes da lista

In [6]:
candidaturas = pd.concat(lista_df, axis=0, ignore_index=True)

In [11]:
candidaturas.shape

(2650, 11)

# Apresente 5 linhas aleatórias do dataframe

In [12]:
candidaturas.sample(5)

Unnamed: 0,DT_GERACAO,HH_GERACAO,AA_ELEICAO,SG_UF,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,CD_ELEICAO,DS_ELEICAO,SQ_CANDIDATO,NR_ORDEM,DS_URL
1820,06/08/2023,19:32:18,2022,PA,2,ELEIÇÃO ORDINÁRIA,546,ELEIÇÕES GERAIS ESTADUAIS 2022,140001611647,3,https://www.instagram.com/flavioverasv7/
1960,06/08/2023,19:32:18,2022,PA,2,ELEIÇÃO ORDINÁRIA,546,ELEIÇÕES GERAIS ESTADUAIS 2022,140001598304,8,https://t.me/delegadofederaleguchi
1954,06/08/2023,19:32:18,2022,PA,2,ELEIÇÃO ORDINÁRIA,546,ELEIÇÕES GERAIS ESTADUAIS 2022,140001676883,2,https://www.instagram.com/paulatitan/
1264,06/08/2023,19:32:18,2022,PA,2,ELEIÇÃO ORDINÁRIA,546,ELEIÇÕES GERAIS ESTADUAIS 2022,140001611660,3,https://www.tiktok.com/@hesio.pa?lang=pt-BR
1768,06/08/2023,19:32:18,2022,PA,2,ELEIÇÃO ORDINÁRIA,546,ELEIÇÕES GERAIS ESTADUAIS 2022,140001600257,2,https://gettr.com/user/professorvlad


# Quantas candidaturas estão em situação de reeleição?

In [13]:
candidaturas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2650 entries, 0 to 2649
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   DT_GERACAO       2650 non-null   object
 1   HH_GERACAO       2650 non-null   object
 2   AA_ELEICAO       2650 non-null   int64 
 3   SG_UF            2650 non-null   object
 4   CD_TIPO_ELEICAO  2650 non-null   int64 
 5   NM_TIPO_ELEICAO  2650 non-null   object
 6   CD_ELEICAO       2650 non-null   int64 
 7   DS_ELEICAO       2650 non-null   object
 8   SQ_CANDIDATO     2650 non-null   int64 
 9   NR_ORDEM         2650 non-null   int64 
 10  DS_URL           2650 non-null   object
dtypes: int64(5), object(6)
memory usage: 227.9+ KB


In [17]:
candidaturas['CD_TIPO_ELEICAO'].unique()

array([2])

In [18]:
candidaturas['CD_TIPO_ELEICAO'].value_counts()

2    2650
Name: CD_TIPO_ELEICAO, dtype: int64

# Quais cargos serão preenchidos nesse pleito?

In [None]:
candidaturas['DS_CARGO'].unique()

KeyError: ignored

# Liste todas a ocupações declaradas pelas candidaturas a Câmara de Deputados Federal

In [None]:
candidaturas_dep_fed = candidaturas[candidaturas["DS_CARGO"] == "DEPUTADO FEDERAL"].copy()

In [None]:
candidaturas_dep_fed['DS_CARGO'].unique()

array(['DEPUTADO FEDERAL'], dtype=object)

In [None]:
candidaturas_dep_fed['DS_OCUPACAO'].unique()

array(['ADVOGADO', 'ADMINISTRADOR', 'JORNALISTA E REDATOR',
       'SENADOR, DEPUTADO E VEREADOR', 'DEPUTADO', 'OUTROS',
       'OCUPANTE DE CARGO EM COMISSÃO', 'POLICIAL MILITAR',
       'VENDEDOR DE COMÉRCIO VAREJISTA E ATACADISTA', 'AGRICULTOR',
       'APOSENTADO (EXCETO SERVIDOR PÚBLICO)', 'EMPRESÁRIO',
       'PROFESSOR DE ENSINO MÉDIO',
       'TÉCNICO DE ENFERMAGEM E ASSEMELHADOS (EXCETO ENFERMEIRO)',
       'PECUARISTA', 'MÉDICO', 'NUTRICIONISTA E ASSEMELHADOS', 'VEREADOR',
       'VETERINÁRIO', 'DIRETOR DE EMPRESAS', 'ENGENHEIRO', 'DONA DE CASA',
       'CORRETOR DE IMÓVEIS, SEGUROS, TÍTULOS E VALORES',
       'SERVIDOR PÚBLICO FEDERAL', 'ECONOMISTA',
       'VENDEDOR PRACISTA, REPRESENTANTE, CAIXEIRO-VIAJANTE E ASSEMELHADOS',
       'SACERDOTE OU MEMBRO DE ORDEM OU SEITA RELIGIOSA', 'ENFERMEIRO',
       'COMERCIANTE',
       'PORTEIRO DE EDIFÍCIO, ASCENSORISTA, GARAGISTA E ZELADOR',
       'PROFESSOR DE ENSINO FUNDAMENTAL', 'CONTADOR', 'MOTOBOY',
       'SERVIDOR PÚBLICO CIV

In [None]:
candidaturas_dep_fed['DS_OCUPACAO'].value_counts(dropna=True)

DS_OCUPACAO
OUTROS                                             72
EMPRESÁRIO                                         62
DEPUTADO                                           30
POLICIAL MILITAR                                   28
ADVOGADO                                           27
                                                   ..
CONTADOR                                            1
SACERDOTE OU MEMBRO DE ORDEM OU SEITA RELIGIOSA     1
DIRETOR DE EMPRESAS                                 1
VETERINÁRIO                                         1
MASSAGISTA                                          1
Name: count, Length: 73, dtype: int64

# Quantos anos tería a pessoa candidata mais velha no ato da posse?

In [None]:
candidaturas['NR_IDADE_DATA_POSSE'].max()

81.0

# Quantos anos tería a pessoa candidata mais jovem no ato da posse?

In [None]:
candidaturas['NR_IDADE_DATA_POSSE'].min()

19.0

# Qual é o nome da pessoa candidata mais velha?

In [None]:
candidata_mais_velha = candidaturas[candidaturas['NR_IDADE_DATA_POSSE'] == 81]['NM_CANDIDATO']

In [None]:
candidata_mais_velha

49    MARIA DE LOURDES PEREIRA DE FARIAS
Name: NM_CANDIDATO, dtype: object

# Qual é o nome da pessoa candidata mais jovem?

In [None]:
candidata_mais_jovem = candidaturas[candidaturas['NR_IDADE_DATA_POSSE'] == 19]['NM_CANDIDATO']

In [None]:
candidata_mais_jovem

462    NATALIA CRISTINA MAIA COSTA
Name: NM_CANDIDATO, dtype: object

# Quantas candidaturas existem para "Deputado federal" seu estado?

In [None]:
candidaturas_ap = candidaturas[(candidaturas['SG_UF'] == 'AP') & (candidaturas["DS_CARGO"] == "DEPUTADO FEDERAL")]

In [None]:
candidaturas_ap = candidaturas_ap.shape[0]

In [None]:
total_cand_dep_federal = candidaturas_dep_fed.shape[0]

In [None]:
print(f'No pleito de 2022 nos estados de Amapá e Pará existem {total_cand_dep_federal} pessoas candidatas a Câmara de Deputados Federal, sendo {candidaturas_ap} no Amapá e {total_cand_dep_federal-candidaturas_ap} no Pará')

No pleito de 2022 nos estados de Amapá e Pará existem 477 pessoas candidatas a Câmara de Deputados Federal, sendo 154 no Amapá e 323 no Pará


# Qual é a média do valor máximo de despesas de campanha?

In [None]:
soma_despesas = candidaturas['VR_DESPESA_MAX_CAMPANHA'].sum()

In [None]:
round(candidaturas['VR_DESPESA_MAX_CAMPANHA'].mean(), 2)

1968851.7