# 7daysOfCode ALURA

# Dia1 - Data Cleaning and Preparation

Olá, Tarik Pomim.

Chegou o grande momento!

Você vai passar os próximos 7 dias praticando Dados comigo.

Antes de começar, me responda uma pergunta: com o que você acha que Data Scientists gastam mais tempo durante seu trabalho?

Eu queria poder mentir pra você e dizer que passamos a maior parte do nosso tempo criando modelos altamente complexos e brincando com o que há de mais avançado tecnologicamente.

Eu queria, ainda, poder dizer que as bases de dados que você irá trabalhar já estão limpas, bem processadas e prontas para que você possa criar visualizações e análises poderosas.

Mas, na verdade, não é bem isso. O que passamos a maior parte do tempo fazendo é a preparação do dado, mais especificamente nas partes de limpeza e transformação.

Em uma pesquisa com cerca de 80 cientistas de dados, as etapas de preparação de dados foram responsáveis por consumir mais de 80% do tempo deles, reforçando a necessidade de desenvolver a habilidade de tratar dados e deixá-los prontos para a parte mais divertida: criar modelos e análises.

Por isso, quero te dar um ótimo desafio para desenvolver e aprimorar essa skill tão importante para toda pessoa cientista de dados.

Neste primeiro dia, [eu te proponho baixar um dataset do portal do CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps) (Cota para Exercício da Atividade Parlamentar dos Senadores) e aplicar processos de tratamento e limpeza de dados nele (processo conhecido como Data Wrangling).

Basicamente, o CEAPS contém todos os gastos que senadores brasileiros declararam, divididos por ano.

Esse tipo de dado é tão importante que já criou várias iniciativas interessantes, como a [Operação Serenata de Amor](https://serenata.ai/), que aplica Inteligência Artificial para analisar gastos de deputados brasileiros, e que já foi capaz de identificar vários usos indevidos do dinheiro público.

Imagina as coisas que você pode criar!

Os dados do CEAPS contêm uma série de problemas que podem dificultar a criação de análises mais aprofundadas.

Uma das primeiras coisas que você pode fazer é identificar tais inconsistências, como campos que possuem valores nulos ou duplicados, converter campos de data que estão sendo carregados como texto, corrigir valores monetários, nomes incorretos, formatar campos de CNPJ, etc.

## Dica

Os dados do CEAPS estão divididos por ano.

Que tal juntar dados de vários anos em um grande dataset e aplicar técnicas de limpeza e processamento dos dados?

Você poderia pegar dados dos últimos quatro anos e aplicar o que usou nesse exercício.

Além disso, também proponho que você documente o seu processo de tratamento dos dados (pode ser no próprio Jupyter Notebook). Assim, qualquer pessoa que consumir o seu trabalho saberá qual foi sua intuição e as técnicas utilizadas, além de facilitar a reprodutibilidade.

Tire o maior proveito possível dos comentários no código!

Não existe uma receita de bolo para quais técnicas utilizar na limpeza de dados, isso varia de projeto para projeto. Contudo, existem algumas coisas que você pode fazer inicialmente.

Lidar com dados nulos (deletar ou imputar um valor novo, por exemplo); remover colunas que não trazem nenhuma informação; processar datas que estão em formato incorreto; alterar o tipo da coluna (uma coluna que é numérica está como texto no Pandas); remover duplicados; dentre outras.

[Esse post da Tableau](https://www.tableau.com/learn/articles/what-is-data-cleaning) traz algumas dicas sobre técnicas que você pode utilizar.

## Extra

O [Portal da Transparência](https://www.portaltransparencia.gov.br/) é um ótimo site para encontrar novos datasets para explorar e criar projetos. Esse é o site que contém informações detalhadas sobre a execução orçamentária e financeira da União.

Devido a cada sistema ter sua forma de exportação dos dados, é possível identificar uma série de oportunidades de melhora nos dados exportados. Que tal expandir o seu trabalho explorando outros datasets?

Ou, ainda: e se você hospedar esse seu dataset limpo em uma plataforma que outras pessoas possam utilizar?

Existem várias plataformas legais para isso, desde o Kaggle, onde você pode submeter datasets para a comunidade, até iniciativas brasileiras de dados abertos, como o Brasil IO.


# Importações

In [88]:
import pandas as pd
import numpy as np

# Datasets

Apontando URIs:

In [89]:
uri_2019 = 'https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2019.csv'
uri_2020 = 'https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2020.csv'
uri_2021 = 'https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2021.csv'
uri_2022 = 'https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2022.csv'

Lendo CSVs com parametros para melhor adequação:

In [90]:
dados_2019 = pd.read_csv(uri_2019, encoding='latin-1', sep = ';', skiprows=1, decimal=',')
dados_2020 = pd.read_csv(uri_2020, encoding='latin-1', sep = ';', skiprows=1, decimal=',')
dados_2021 = pd.read_csv(uri_2021, encoding='latin-1', sep = ';', skiprows=1, decimal=',')
dados_2022 = pd.read_csv(uri_2022, encoding='latin-1', sep = ';', skiprows=1, decimal=',')

Exemplos dos datasets:

In [91]:
dados_2019.sample(3)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
21142,2019,3,ZEQUINHA MARINHO,"Locomoção, hospedagem, alimentação, combustíve...",83.324.921/0001-37,SUPER POSTO 2000 LTDA,000271110,28/03/2019,,126.0,2118526
1296,2019,9,AROLDE DE OLIVEIRA,"Aluguel de imóveis para escritório político, c...",33.345.232/0001-30,PALMARES ADMINISTRADORA DE IMÓVEIS LTDA,19.167.191-6,10/09/2019,,1698.1,2131293
16832,2019,9,RODRIGO PACHECO,Divulgação da atividade parlamentar,01.768.201/0001-04,Empresa Jornalistica nova Imprensa,201900000277,01/10/2019,,800.0,2132768


In [92]:
dados_2020.sample(3)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
6923,2020,6,LASIER MARTINS,Aquisição de material de consumo para uso no e...,00.758.665/0001-69,Birô de Informática Nacional Ltda,12821,03/06/2020,Locação de móveis e equipamentos.,1500.0,2145769
8973,2020,6,MARCOS ROGÉRIO,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,AZUL,FI7QHQ,15/06/2020,"Companhia Aérea: AZUL, Localizador: FI7QHQ. Pa...",740.47,2146048
2931,2020,5,EDUARDO GOMES,"Locomoção, hospedagem, alimentação, combustíve...",00.306.597/0096-68,Cascol Combustíveis para Veículos Ltda.,745224,21/05/2020,DESPESA COM COMBUSTÍVEL QUE SERVE O SENADOR ED...,160.0,2144942


In [93]:
dados_2021.sample(3)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
9968,2021,6,MAILZA GOMES,"Locomoção, hospedagem, alimentação, combustíve...",10.172.179/0001-18,SS SOUSA,1022,23/06/2021,,610.0,2163180
3707,2021,11,EDUARDO GOMES,"Locomoção, hospedagem, alimentação, combustíve...",00.692.418/0006-11,AUTO POSTO CINCO ESTRELAS LTDA.,81655,26/11/2021,DESPESA COM COMBUSTÍVEL QUE SERVE O SENADOR ED...,211.48,2171414
9766,2021,12,LUIS CARLOS HEINZE,"Locomoção, hospedagem, alimentação, combustíve...",97.168.124/0002-01,IRMAOS BASSOTTO LTDA,107172,19/12/2021,,200.0,2178716


In [94]:
dados_2022.sample(3)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
6490,2022,4,LUIS CARLOS HEINZE,"Locomoção, hospedagem, alimentação, combustíve...",11.174.560/0001-89,Glaicon Fonatana Piovesan - Hotel Parque das T...,018632,09/04/2022,,321.6,2178095
6813,2022,2,MARA GABRILLI,"Locomoção, hospedagem, alimentação, combustíve...",09.640.162/0001-69,CENTRO AUTOMOTIVO ALAMEDA CAMPINAS LTDA,022,04/03/2022,Aquisição de combustível para veículos utiliza...,474.39,2176645
9024,2022,7,ROMÁRIO,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,Adria Viagens e Turismo LTDA ME,FWPTHD,21/07/2022,"Companhia Aérea: LATAM, Localizador: FWPTHD. P...",2024.24,2184402


Concatenando datasets em um único dataset:

In [95]:
dataset = pd.concat([dados_2019, dados_2020, dados_2021, dados_2022])

In [96]:
dataset.head(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,66.02,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,139.98,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000.0,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,316.39,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,99.45,2116550


In [97]:
dataset.tail(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
10643,2022,7,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,FRMXSO,26/07/2022,"Companhia Aérea: GOL, Localizador: FRMXSO. Pas...",1826.25,2184750
10644,2022,7,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,YQRYAW,26/07/2022,"Companhia Aérea: LATAM, Localizador: YQRYAW. P...",2189.41,2184748
10645,2022,8,ZEQUINHA MARINHO,"Locomoção, hospedagem, alimentação, combustíve...",27.522.923/0001-60,Casarao da Vila Restaurante LTDA - ME,000127032,03/08/2022,,26.57,2184892
10646,2022,8,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,FLXNAO,02/08/2022,"Companhia Aérea: GOL, Localizador: FLXNAO. Pas...",3140.46,2185426
10647,2022,8,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,TKR98A,07/08/2022,"Companhia Aérea: AZUL, Localizador: TKR98A. Pa...",2850.9,2185429


# Avaliando dataset

In [98]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 63199 entries, 0 to 10647
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ANO                63199 non-null  int64  
 1   MES                63199 non-null  int64  
 2   SENADOR            63199 non-null  object 
 3   TIPO_DESPESA       63199 non-null  object 
 4   CNPJ_CPF           63199 non-null  object 
 5   FORNECEDOR         63199 non-null  object 
 6   DOCUMENTO          60584 non-null  object 
 7   DATA               63199 non-null  object 
 8   DETALHAMENTO       35211 non-null  object 
 9   VALOR_REEMBOLSADO  63199 non-null  float64
 10  COD_DOCUMENTO      63199 non-null  int64  
dtypes: float64(1), int64(3), object(7)
memory usage: 5.8+ MB


O dataset completo de 2019 até 2022 contém 11 colunas e 68828 linhas.

In [99]:
duplicados = dataset.duplicated()
duplicados.sum()

0

A princípio, o dataset completo não contém dados duplicados.

In [100]:
nulos = dataset.isnull()
nulos.sum()

ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2615
DATA                     0
DETALHAMENTO         27988
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

O dataset contém 2592 dados nulos na coluna DOCUMENTO e 27871 dados nulos na coluna DETALHAMENTO.

Sepadano dados nulos da coluna DETALHAMENTO para melhor avaliação:

In [101]:
detalhamento_nulo = dataset[dataset['DETALHAMENTO'].isna()]

In [102]:
detalhamento_nulo[['ANO','SENADOR', 'TIPO_DESPESA', 'DETALHAMENTO', 'VALOR_REEMBOLSADO']].sample(30)

Unnamed: 0,ANO,SENADOR,TIPO_DESPESA,DETALHAMENTO,VALOR_REEMBOLSADO
15803,2019,RANDOLFE RODRIGUES,"Locomoção, hospedagem, alimentação, combustíve...",,484.0
4226,2022,GIORDANO,"Locomoção, hospedagem, alimentação, combustíve...",,195.02
1607,2020,CARLOS VIANA,"Locomoção, hospedagem, alimentação, combustíve...",,140.0
17265,2019,ROGÉRIO CARVALHO,"Aluguel de imóveis para escritório político, c...",,1310.38
1066,2020,CARLOS VIANA,"Locomoção, hospedagem, alimentação, combustíve...",,190.19
7590,2022,NILDA GONDIM,"Locomoção, hospedagem, alimentação, combustíve...",,100.0
15649,2019,PLÍNIO VALÉRIO,"Locomoção, hospedagem, alimentação, combustíve...",,232.2
12952,2021,RENAN CALHEIROS,"Locomoção, hospedagem, alimentação, combustíve...",,338.8
10074,2021,MAJOR OLIMPIO,"Locomoção, hospedagem, alimentação, combustíve...",,165.24
7809,2020,MAJOR OLIMPIO,"Locomoção, hospedagem, alimentação, combustíve...",,1887.12


Sepadano dados nulos da coluna DOCUMENTO para melhor avaliação:

In [103]:
documento_nulo = dataset[dataset['DOCUMENTO'].isna()]

In [104]:
documento_nulo[['ANO','SENADOR', 'TIPO_DESPESA', 'DETALHAMENTO', 'DOCUMENTO', 'VALOR_REEMBOLSADO']].sample(30)

Unnamed: 0,ANO,SENADOR,TIPO_DESPESA,DETALHAMENTO,DOCUMENTO,VALOR_REEMBOLSADO
1024,2019,ANTONIO ANASTASIA,"Aluguel de imóveis para escritório político, c...",,,2223.33
3289,2022,FERNANDO BEZERRA COELHO,"Locomoção, hospedagem, alimentação, combustíve...",Despesa com serviços de uber para o servidor -...,,33.09
8078,2021,JORGINHO MELLO,Aquisição de material de consumo para uso no e...,,,48.9
18048,2019,SIMONE TEBET,"Aluguel de imóveis para escritório político, c...",Pagamento de despesas com aluguel das salas 10...,,3974.3
6547,2020,JOSÉ SERRA,"Aluguel de imóveis para escritório político, c...",Senador José Serra - Despesa referente ao paga...,,272.07
4860,2021,FABIANO CONTARATO,"Locomoção, hospedagem, alimentação, combustíve...",DESPESA COM SERVIÇOS DE TRANSPORTE PRIVADO MED...,,8.9
3021,2022,FABIANO CONTARATO,"Aluguel de imóveis para escritório político, c...",DESPESA COM ALUGUEL DAS INSTALAÇÕES DO ESCRITÓ...,,3527.34
13908,2019,MARIA DO CARMO ALVES,"Aluguel de imóveis para escritório político, c...",,,69.27
17224,2019,ROGÉRIO CARVALHO,"Aluguel de imóveis para escritório político, c...",,,303.44
8772,2022,ROGÉRIO CARVALHO,"Aluguel de imóveis para escritório político, c...",,,4500.0


## Conclusão da avaliação

Após avaliação, me parece sensato remover as colunas DOCUMENTO e DETALHAMENTO pois ambas contém excesso de valores nulos e o conteúdo de ambas não me parece ser de grande valia para nosso estudo, pois são variáveis descritivas, que não possuem padrão ou são informações redundantes de outros campos (como localizadores de passagens aéreas ou detalhamento mais específico da coluna 'TIPO_DE_DESPESA').

In [105]:
dados = dataset.drop(['DOCUMENTO', 'DETALHAMENTO'], axis=1)

Reorganizando índice:

In [106]:
dados.reset_index(drop=True, inplace=True)

# Data Wrangling

Verificando typos no nome dos senadores:

In [107]:
dados.SENADOR.unique()

array(['ACIR GURGACZ', 'AÉCIO NEVES', 'ALESSANDRO VIEIRA',
       'ALOYSIO NUNES FERREIRA', 'ALVARO DIAS', 'ANA AMÉLIA',
       'ÂNGELA PORTELA', 'ANGELO CORONEL', 'ANTONIO ANASTASIA',
       'ANTÔNIO CARLOS VALADARES', 'ARMANDO MONTEIRO',
       'AROLDE DE OLIVEIRA', 'ATAÍDES OLIVEIRA', 'BENEDITO DE LIRA',
       'BLAIRO MAGGI', 'CARLOS VIANA', 'CÁSSIO CUNHA LIMA',
       'CHICO RODRIGUES', 'CID GOMES', 'CIRO NOGUEIRA', 'CONFÚCIO MOURA',
       'DALIRIO BEBER', 'DANIELLA RIBEIRO', 'DÁRIO BERGER',
       'DAVI ALCOLUMBRE', 'EDISON LOBÃO', 'EDUARDO AMORIM',
       'EDUARDO BRAGA', 'EDUARDO GIRÃO', 'EDUARDO GOMES', 'ELIZIANE GAMA',
       'ELMANO FÉRRER', 'ESPERIDIÃO AMIN', 'FABIANO CONTARATO',
       'FERNANDO BEZERRA COELHO', 'FERNANDO COLLOR', 'FLÁVIO ARNS',
       'FLÁVIO BOLSONARO', 'FLEXA RIBEIRO', 'GARIBALDI ALVES FILHO',
       'GLEISI HOFFMANN', 'GUARACY SILVEIRA', 'HÉLIO JOSÉ',
       'HUMBERTO COSTA', 'IRAJÁ', 'IVO CASSOL', 'IZALCI LUCAS',
       'JADER BARBALHO', 'JAQUES WAGN

In [108]:
print(f'Existem ao todo, {len(dados.SENADOR.unique())} senadores distribuidos nos 4 anos de 2019 a 2022.')

Existem ao todo, 148 senadores distribuidos nos 4 anos de 2019 a 2022.


Convertendo campo DATA para datetime:

In [109]:
dados['DATA'] = pd.to_datetime(dados['DATA'], format='%d/%m/%Y', errors='coerce')

Procurando por valores nulos no campo DATA após conversão:

In [110]:
dados[dados['DATA'].isnull()]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
10986,2019,1,LÚCIA VÂNIA,"Aluguel de imóveis para escritório político, c...",08.573.731/0001-38,LDE Contabilidade e Administração de Condomíni...,NaT,271.26,2114251
31996,2020,5,PLÍNIO VALÉRIO,Divulgação da atividade parlamentar,27.209.437/0001-96,Excelsior Comunicação Digital Ltda,NaT,1150.0,2144535
37872,2021,11,CARLOS VIANA,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,NaT,339.9,2169237


Procurando o motivo por estes registros retornarem como nulo:

In [111]:
dataset.loc[(dataset['SENADOR'] == 'LÚCIA VÂNIA') & (dataset['COD_DOCUMENTO'] == 2114251)]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
10986,2019,1,LÚCIA VÂNIA,"Aluguel de imóveis para escritório político, c...",08.573.731/0001-38,LDE Contabilidade e Administração de Condomíni...,107007,31/01/0219,Taxa condominial,271.26,2114251


In [112]:
dataset.loc[(dataset['SENADOR'] == 'PLÍNIO VALÉRIO') & (dataset['COD_DOCUMENTO'] == 2144535)]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
10362,2020,5,PLÍNIO VALÉRIO,Divulgação da atividade parlamentar,27.209.437/0001-96,Excelsior Comunicação Digital Ltda,2020/9,05/05/0202,,1150.0,2144535


In [113]:
dataset.loc[(dataset['SENADOR'] == 'CARLOS VIANA') & (dataset['COD_DOCUMENTO'] == 2169237)]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
2148,2021,11,CARLOS VIANA,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,YK1QHD,29/10/0202,"Companhia Aérea: AZUL, Localizador: YK1QHD. Pa...",339.9,2169237


O ano das datas foi preenchido incorretamente. Corrigindo no dataset mais recente:

In [114]:
df = dados.iloc[10986].copy()
df['DATA'] = '2019-01-31'
dados.iloc[10986] = df

In [115]:
df = dados.iloc[31996].copy()
df['DATA'] = '2020-05-05'
dados.iloc[31996] = df

In [116]:
df = dados.iloc[37872].copy()
df['DATA'] = '2020-10-29'
dados.iloc[37872] = df

# Exploração dos dados

In [117]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63199 entries, 0 to 63198
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                63199 non-null  int64         
 1   MES                63199 non-null  int64         
 2   SENADOR            63199 non-null  object        
 3   TIPO_DESPESA       63199 non-null  object        
 4   CNPJ_CPF           63199 non-null  object        
 5   FORNECEDOR         63199 non-null  object        
 6   DATA               63199 non-null  datetime64[ns]
 7   VALOR_REEMBOLSADO  63199 non-null  float64       
 8   COD_DOCUMENTO      63199 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(3), object(4)
memory usage: 4.3+ MB


In [118]:
dados.sample(20)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DATA,VALOR_REEMBOLSADO,COD_DOCUMENTO
31095,2020,12,NELSINHO TRAD,"Aluguel de imóveis para escritório político, c...",02.558.157/0001-62,Telefônica Brasil S/A,2020-12-04,542.98,2153625
56904,2022,3,HUMBERTO COSTA,"Locomoção, hospedagem, alimentação, combustíve...",11.963.931/0001-01,Lima e Marques Ltda,2022-03-03,187.02,2176139
21971,2020,9,ALESSANDRO VIEIRA,"Aluguel de imóveis para escritório político, c...",13.017.462/0001-63,ENERGISA,2020-09-14,221.28,2149561
2243,2019,10,CID GOMES,"Passagens aéreas, aquáticas e terrestres nacio...",72.243.918/0001-72,SIAD VIAGENS E TURISMO LTDA,2019-10-08,1082.87,2134820
62523,2022,3,WELLINGTON FAGUNDES,"Locomoção, hospedagem, alimentação, combustíve...",04.473.193/0001-59,Posto da Torre Eireli EPP,2022-03-31,100.0,2177648
1525,2019,5,CARLOS VIANA,"Aluguel de imóveis para escritório político, c...",144.409.206-59,WILSON MENDES FERREIRA,2019-06-03,6700.0,2122063
43047,2021,5,JARBAS VASCONCELOS,"Aluguel de imóveis para escritório político, c...",891.653.904-82,Marcelo Augusto Bruno Carneiro Leitão,2021-05-24,3200.0,2160396
19371,2019,6,VENEZIANO VITAL DO RÊGO,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,2019-06-10,826.79,2126276
59736,2022,2,MARCOS ROGÉRIO,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,2022-02-21,2253.33,2175938
11261,2019,7,LUIS CARLOS HEINZE,"Locomoção, hospedagem, alimentação, combustíve...",00.804.430/0001-66,Comercial Combustiveis Lovato Ltda,2019-07-15,81.7,2126454


# Dia 2 - Data Visualization & Storytelling

O que você achou do primeiro desafio, Tarik Pomim?

Um bom aquecimento, certo?

Agora, é hora de mergulhar no segundo!

Ontem você trabalhou com um dataset que necessitava de muita limpeza e tratamento. Agora é a hora divertida: eu proponho que você conte uma história a partir dos dados desse dataset.

Mas, vamos por partes!

A comunicação é uma das habilidades mais importantes de um Cientista de Dados.

Saber comunicar efetivamente os seus resultados de uma forma que pessoas de negócio e não-técnicas consigam entender é uma das soft skills mais apreciadas do mercado, e também uma das mais difíceis de dominar.

Uma das formas mais efetivas de se comunicar está em uma técnica chamada Storytelling (Contar histórias, em tradução livre).

Isto é, criar uma narrativa sobre seu trabalho para que seja mais fácil entender seu raciocínio e entender seus resultados.

E quando falamos em Storytelling, não podemos esquecer de seu melhor amigo: a visualização de dados.

A combinação de bons gráficos e visualizações com uma história bem contada, é capaz de fazer qualquer audiência entender os resultados do seu trabalho — seja a explicação do resultado de um teste de hipótese ou análise estatística, ou mesmo a comunicação dos resultados do seu modelo de Machine Learning.

Eu te proponho: comece a investigar os seus dados e gerar visualizações para identificar padrões estranhos ou estatísticas interessantes.

Pense em perguntas que os dados podem responder.

Por exemplo: se você pegou o dataset do CEAPS, você consegue ver qual foi o senador que mais declarou despesas? Qual foi o percentual da cota que os senadores gastaram? Teve algum com mais de 90%? Em ano de eleições os senadores gastam mais? Dentre outras perguntas.

Você pode começar gerando algumas estatísticas bem simples, como contar valores de alguma coluna, somá-los, fazer agrupamentos, ordená-los etc.

A partir dessas análises macro, você conseguirá afunilar e achar uma boa história.

## Dica

Para gerar os gráficos, existem diversas ferramentas de visualizações de dados.

Minha recomendação é que você use o Plotly: uma biblioteca de visualizações de dados que, além de criar gráficos lindos, permite que você interaja com eles. Essa é a biblioteca que eu uso quando faço meus storytellings.

No meu blog .[eu já fiz um post sobre como usar essa poderosa ferramenta](https://paulovasconcellos.com.br/como-criar-gr%C3%A1ficos-interativos-utilizando-plotly-e-python-3eb6eda57a2b)

Uma dica importante ao contar histórias é diminuir ao máximo a carga cognitiva da sua audiência. Em outras palavras, você não quer que seus espectadores pensem muito.

Às vezes, um gráfico simples e bem feito é capaz de explicar vários minutos sobre o que significa o eixo X e Y. Tente abstrair ao máximo os conceitos técnicos.

Existem muitas ferramentas que você pode usar para contar sua história. O Jupyter Notebook é onde você provavelmente colocará seu código e irá gerar os gráficos, mas não precisa necessariamente colocar sua apresentação lá.

Você pode pegar os gráficos e colocar em um PowerPoint ou Google Presentations, por exemplo.

O próprio Jupyter Notebook é uma opção, mas tenha em mente que a ferramenta de apresentação que você vai escolher deve refletir a audiência para a qual você vai se apresentar.

Por exemplo: para pessoas técnicas (principalmente outros Data Scientists) Jupyter Notebooks são mais que suficientes, mas para apresentar para seu CEO, mostrar um monte de código entre os seus markdowns talvez não seja a melhor opção. Lembre-se: diminua a carga cognitiva da sua audiência.

## Extra

Que tal criar um post no Medium ou Dev.to sobre a história que você está contando? Blog posts são bons exemplos de ferramentas para contar histórias.

[Recomendo a leitura desse post que fiz no Medium sobre Data Storytelling](https://paulovasconcellos.com.br/o-que-%C3%A9-data-storytelling-ac5a924dcdaf), para que você tenha uma melhor noção sobre como pode extrair o máximo dessa habilidade.

Uma ótima referência de storytelling é o [blog do Storytelling with Data](https://www.storytellingwithdata.com/blog), que possui um livro de mesmo nome, considerada a bíblia da visualização de dados.

## Separando apenas valor reembolsado por ano

Deixando de lado colunas exceto a do valor reembolsado:

In [119]:
df = dados.drop(['MES', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR', 'DATA', 'COD_DOCUMENTO'], axis=1)
df.head(30)

Unnamed: 0,ANO,SENADOR,VALOR_REEMBOLSADO
0,2019,ACIR GURGACZ,66.02
1,2019,ACIR GURGACZ,139.98
2,2019,ACIR GURGACZ,6000.0
3,2019,ACIR GURGACZ,316.39
4,2019,ACIR GURGACZ,99.45
5,2019,ACIR GURGACZ,262.93
6,2019,ACIR GURGACZ,6000.0
7,2019,ACIR GURGACZ,317.36
8,2019,ACIR GURGACZ,85.5
9,2019,ACIR GURGACZ,244.57


### Valor Reembolsado por Senador em 2019

In [120]:
df_2019 = df[df['ANO']==2019].groupby('SENADOR', as_index=False).agg({"VALOR_REEMBOLSADO":"sum"})
df_2019.sort_values('SENADOR', inplace=True)
df_2019.rename(columns = {'VALOR_REEMBOLSADO':'TOTAL_2019'}, inplace = True)
df_2019

Unnamed: 0,SENADOR,TOTAL_2019
0,ACIR GURGACZ,251714.02
1,ALESSANDRO VIEIRA,448395.92
2,ALOYSIO NUNES FERREIRA,18450.05
3,ALVARO DIAS,105354.33
4,ANA AMÉLIA,16596.83
...,...,...
122,ZENAIDE MAIA,361706.70
123,ZEQUINHA MARINHO,444688.20
124,ZEZÉ PERRELLA,7961.09
125,ZÉ SANTANA,38678.43


### Valor Reembolsado por Senador em 2020

In [121]:
df_2020 = df[df['ANO']==2020].groupby('SENADOR', as_index=False).agg({"VALOR_REEMBOLSADO":"sum"})
df_2020.sort_values('SENADOR', inplace=True)
df_2020.rename(columns = {'VALOR_REEMBOLSADO':'TOTAL_2020'}, inplace = True)
df_2020

Unnamed: 0,SENADOR,TOTAL_2020
0,ACIR GURGACZ,415364.91
1,ALESSANDRO VIEIRA,292200.76
2,ALVARO DIAS,17371.41
3,ANGELO CORONEL,398094.72
4,ANTONIO ANASTASIA,239629.04
...,...,...
79,VENEZIANO VITAL DO RÊGO,209841.57
80,WELLINGTON FAGUNDES,419966.92
81,WEVERTON ROCHA,333351.22
82,ZENAIDE MAIA,291152.47


### Valor Reembolsado por Senador em 2021

In [122]:
df_2021 = df[df['ANO']==2021].groupby('SENADOR', as_index=False).agg({"VALOR_REEMBOLSADO":"sum"})
df_2021.sort_values('SENADOR', inplace=True)
df_2021.rename(columns = {'VALOR_REEMBOLSADO':'TOTAL_2021'}, inplace = True)
df_2021

Unnamed: 0,SENADOR,TOTAL_2021
0,ACIR GURGACZ,415374.00
1,ALESSANDRO VIEIRA,424669.76
2,ALVARO DIAS,27231.37
3,ANGELO CORONEL,422595.45
4,ANTONIO ANASTASIA,292639.53
...,...,...
81,VIRGINIO DE CARVALHO,5720.56
82,WELLINGTON FAGUNDES,419147.83
83,WEVERTON ROCHA,446907.86
84,ZENAIDE MAIA,292967.39


### Valor Reembolsado por Senador em 2022

In [123]:
df_2022 = df[df['ANO']==2022].groupby('SENADOR', as_index=False).agg({"VALOR_REEMBOLSADO":"sum"})
df_2022.sort_values('SENADOR', inplace=True)
df_2022.rename(columns = {'VALOR_REEMBOLSADO':'TOTAL_2022'}, inplace = True)
df_2022

Unnamed: 0,SENADOR,TOTAL_2022
0,ACIR GURGACZ,275816.75
1,ALESSANDRO VIEIRA,266178.77
2,ALEXANDRE SILVEIRA,149668.26
3,ALVARO DIAS,49769.20
4,ANGELO CORONEL,248089.31
...,...,...
84,VENEZIANO VITAL DO RÊGO,160244.30
85,WELLINGTON FAGUNDES,166369.78
86,WEVERTON ROCHA,229764.16
87,ZENAIDE MAIA,230592.42


### Totais dos valores reembolsados, por Senador

Criando novo dataframe com nomes de todos os senadores:

In [124]:
senadores = pd.DataFrame(dados.SENADOR.unique(), columns=['SENADOR']).sort_values(by='SENADOR').reset_index(drop=True)

Juntando os dataframes dos respectivos anos:

In [125]:
total_por_ano = senadores.merge(df_2019, on='SENADOR', how='left').merge(df_2020, on='SENADOR', how='left').merge(df_2021, on='SENADOR', how='left').merge(df_2022, on='SENADOR', how='left')

Preenchendo NaN com zeros:

In [126]:
total_por_ano.fillna(0, inplace=True)

Criando coluna com a soma total de todos os anos:

In [127]:
total_por_ano['SOMA_TOTAL'] = total_por_ano['TOTAL_2019'] + total_por_ano['TOTAL_2020'] + total_por_ano['TOTAL_2021'] + total_por_ano['TOTAL_2022']

In [128]:
total_por_ano.head(20)

Unnamed: 0,SENADOR,TOTAL_2019,TOTAL_2020,TOTAL_2021,TOTAL_2022,SOMA_TOTAL
0,ACIR GURGACZ,251714.02,415364.91,415374.0,275816.75,1358269.68
1,ALESSANDRO VIEIRA,448395.92,292200.76,424669.76,266178.77,1431445.21
2,ALEXANDRE SILVEIRA,0.0,0.0,0.0,149668.26,149668.26
3,ALOYSIO NUNES FERREIRA,18450.05,0.0,0.0,0.0,18450.05
4,ALVARO DIAS,105354.33,17371.41,27231.37,49769.2,199726.31
5,ANA AMÉLIA,16596.83,0.0,0.0,0.0,16596.83
6,ANGELO CORONEL,339038.63,398094.72,422595.45,248089.31,1407818.11
7,ANTONIO ANASTASIA,305573.81,239629.04,292639.53,19647.13,857489.51
8,ANTÔNIO CARLOS VALADARES,41844.45,0.0,0.0,0.0,41844.45
9,ARMANDO MONTEIRO,34974.54,0.0,0.0,0.0,34974.54


# Storytelling e análises gráficas

Por exemplo: se você pegou o dataset do CEAPS, você consegue ver qual foi o senador que mais declarou despesas? Qual foi o percentual da cota que os senadores gastaram? Teve algum com mais de 90%? Em ano de eleições os senadores gastam mais? Dentre outras perguntas.

Você pode começar gerando algumas estatísticas bem simples, como contar valores de alguma coluna, somá-los, fazer agrupamentos, ordená-los etc.

## Qual foi o senador que mais declarou despesas?

## Qual foi o percentual da cota que os senadores gastaram? Teve algum com mais de 90%? 

## Em ano de eleições os senadores gastam mais?

In [129]:
total_por_ano.head()

Unnamed: 0,SENADOR,TOTAL_2019,TOTAL_2020,TOTAL_2021,TOTAL_2022,SOMA_TOTAL
0,ACIR GURGACZ,251714.02,415364.91,415374.0,275816.75,1358269.68
1,ALESSANDRO VIEIRA,448395.92,292200.76,424669.76,266178.77,1431445.21
2,ALEXANDRE SILVEIRA,0.0,0.0,0.0,149668.26,149668.26
3,ALOYSIO NUNES FERREIRA,18450.05,0.0,0.0,0.0,18450.05
4,ALVARO DIAS,105354.33,17371.41,27231.37,49769.2,199726.31


In [130]:
mais_gastadores = total_por_ano.sort_values(by='SOMA_TOTAL', ascending = False)

In [131]:
mais_gastadores.head(20)

Unnamed: 0,SENADOR,TOTAL_2019,TOTAL_2020,TOTAL_2021,TOTAL_2022,SOMA_TOTAL
131,TELMÁRIO MOTA,485846.15,488459.41,488402.25,310469.7,1773177.51
121,ROGÉRIO CARVALHO,459892.5,486526.49,502132.23,310382.79,1758934.01
94,MECIAS DE JESUS,447968.95,487992.63,488693.4,309372.61,1734027.59
106,PAULO ROCHA,485114.4,474301.41,483888.13,273285.61,1716589.55
82,MAILZA GOMES,466253.4,398691.74,462275.83,309168.71,1636389.68
118,ROBERTO ROCHA,427376.29,409902.99,448543.76,281032.13,1566855.17
144,ZEQUINHA MARINHO,444688.2,390799.33,470226.88,252682.08,1558396.49
37,ELIZIANE GAMA,411292.61,391595.64,446413.04,297696.83,1546998.12
32,EDUARDO BRAGA,519561.65,341383.17,391082.53,292700.74,1544728.09
86,MARCIO BITTAR,426948.31,460225.99,465838.31,181106.9,1534119.51


## Cotas parlementares por estado

### Fonte

https://www2.camara.leg.br/comunicacao/assessoria-de-imprensa/guia-para-jornalistas/cota-parlamentar

### Dados

Nome dos estados, por extenso:

In [132]:
estados = ['ACRE', 'ALAGOAS', 'AMAZONAS', 'AMAPA', 'BAHIA', 'CEARA', 'DISTRITO_FEDERAL', 'ESPIRITO_SANTO', 'GOIANIA', 'MARANHAO', 'MINAS_GERAIS', 'MATO_GROSSO_DO_SUL', 'MATO_GROSSO', 'PARA', 'PARAIBA', 'PERNANBUCO', 'PIAUI', 'PARANA', 'RIO_DE_JANEIRO', 'RIO_GRANDE_DO_NORTE', 'RONDONIA', 'RORAIMA', 'RIO_GRANDE_DO_SUL', 'SANTA_CATARINA', 'SERGIPE', 'SAO_PAULO', 'TOCANTINS']

Sigla dos estados:

In [133]:
siglas = ['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG', 'MS', 'MT', 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR', 'RS', 'SC', 'SE', 'SP', 'TO']

Cota parlamentar, mensal, em Reais (R$):

In [134]:
valor_mensal = [44632.46, 40944.10, 43570.12, 43374.78, 39010.85, 42451.77, 30788.66, 37423.91, 35507.06, 42151.69, 36092.71, 40542.84, 39428.03, 42227.45, 42032.56, 41676.80, 40971.77, 38871.86, 35759.97, 42731.99, 43672.49, 45612.53, 40875.90, 39877.78, 40139.26, 37043.53, 39503.61]

Gerando DataFrame:

In [135]:
cotas = pd.DataFrame(data={'ESTADOS': estados, 'SIGLAS': siglas, 'VALOR_MENSAL': valor_mensal})

Gerando coluna para valor total anual, em reais (R$):

In [136]:
cotas['TOTAL_ANO'] = cotas['VALOR_MENSAL'] * 12

Organizando por ordem alfabética:

In [137]:
cotas.sort_values('ESTADOS', inplace=True)

Resetando índice:

In [138]:
cotas.reset_index(drop=True, inplace=True)

### DataFrame final das cotas parlamentares por estado:

In [139]:
cotas

Unnamed: 0,ESTADOS,SIGLAS,VALOR_MENSAL,TOTAL_ANO
0,ACRE,AC,44632.46,535589.52
1,ALAGOAS,AL,40944.1,491329.2
2,AMAPA,AP,43374.78,520497.36
3,AMAZONAS,AM,43570.12,522841.44
4,BAHIA,BA,39010.85,468130.2
5,CEARA,CE,42451.77,509421.24
6,DISTRITO_FEDERAL,DF,30788.66,369463.92
7,ESPIRITO_SANTO,ES,37423.91,449086.92
8,GOIANIA,GO,35507.06,426084.72
9,MARANHAO,MA,42151.69,505820.28


### Visualizações

In [140]:
cotas.columns

Index(['ESTADOS', 'SIGLAS', 'VALOR_MENSAL', 'TOTAL_ANO'], dtype='object')

In [141]:
cotas_maior_gasto_por_ano = cotas.sort_values('TOTAL_ANO', ascending=False)

In [146]:
import plotly.express as px

fig = px.bar(cotas_maior_gasto_por_ano,
             x="ESTADOS",
             y="TOTAL_ANO",
             orientation='v',
             title='Cota Parlamentar - Total anual por estado')
fig.show()

Segundo a fonte dos dados, o principal motivo da diferença das cotas parlamentares entre os estados é o custo das passagens aéreas para locomoção dos senadores até o Distrito Federal.

In [150]:
mais_gastadores.head(30)

Unnamed: 0,SENADOR,TOTAL_2019,TOTAL_2020,TOTAL_2021,TOTAL_2022,SOMA_TOTAL
131,TELMÁRIO MOTA,485846.15,488459.41,488402.25,310469.7,1773177.51
121,ROGÉRIO CARVALHO,459892.5,486526.49,502132.23,310382.79,1758934.01
94,MECIAS DE JESUS,447968.95,487992.63,488693.4,309372.61,1734027.59
106,PAULO ROCHA,485114.4,474301.41,483888.13,273285.61,1716589.55
82,MAILZA GOMES,466253.4,398691.74,462275.83,309168.71,1636389.68
118,ROBERTO ROCHA,427376.29,409902.99,448543.76,281032.13,1566855.17
144,ZEQUINHA MARINHO,444688.2,390799.33,470226.88,252682.08,1558396.49
37,ELIZIANE GAMA,411292.61,391595.64,446413.04,297696.83,1546998.12
32,EDUARDO BRAGA,519561.65,341383.17,391082.53,292700.74,1544728.09
86,MARCIO BITTAR,426948.31,460225.99,465838.31,181106.9,1534119.51
