# **# Day1️⃣️**
###Trabalhando com limpeza e transformação de dados (ou Data Wrangling)

>- Base de dados utilizada: CECAPS (Cota para Exercício da Atividade Parlamentar dos Senadores)
- Link: https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps?utm_source=ActiveCampaign&utm_medium=email&utm_content=%237DaysOfCode+-+Ci%C3%AAncia+de+Dados+1%2F7%3A+Data+Cleaning+and+Preparation&utm_campaign=%5BAlura+%237Days+Of+Code%5D%28Java%29+Dia+1%2F7%3A+Consumir+uma+API+de+filmes

**Desafio proposto:** baixar um dataset do portal do CEAPS e aplicar processos de tratamento e limpeza de dados nele (processo conhecido como Data Wrangling).
- basicamente, o CEAPS contém todos os gastos que senadores brasileiros declararam, divididos por ano.
- os dados do CEAPS contêm uma série de problemas que podem dificultar a criação de análises mais aprofundadas.
- uma das primeiras coisas que você pode fazer é identificar tais inconsistências, como campos que possuem valores nulos ou duplicados, converter campos de data que estão sendo carregados como texto, corrigir valores monetários, nomes incorretos, formatar campos de CNPJ, etc.

**Dicas:**
- juntar dados de vários anos em um grande dataset e aplicar técnicas de limpeza e processamento dos dados
- pegar dados dos últimos quatro anos e aplicar o que usou nesse exercício
- documentar o seu processo de tratamento dos dados (pode ser no próprio Jupyter Notebook). Assim, qualquer pessoa que consumir o seu trabalho saberá qual foi sua intuição e as técnicas utilizadas, além de facilitar a reprodutibilidade.
- tire o maior proveito possível dos comentários no código!
- Não existe uma receita de bolo para quais técnicas utilizar na limpeza de dados, isso varia de projeto para projeto. Contudo, existem algumas coisas que você pode fazer inicialmente
1. Lidar com dados nulos (deletar ou imputar um valor novo, por exemplo)
2. remover colunas que não trazem nenhuma informação
3. processar datas que estão em formato incorreto
4. alterar o tipo da coluna (uma coluna que é numérica está como texto no Pandas)
5. remover duplicados
6. dentre outras.
- Esse post da Tableau traz algumas dicas sobre técnicas que você pode utilizar: https://www.tableau.com/learn/articles/what-is-data-cleaning?utm_source=ActiveCampaign&utm_medium=email&utm_content=%237DaysOfCode+-+Ci%C3%AAncia+de+Dados+1%2F7%3A+Data+Cleaning+and+Preparation&utm_campaign=%5BAlura+%237Days+Of+Code%5D%28Java%29+Dia+1%2F7%3A+Consumir+uma+API+de+filmes



In [1]:
#Obtenção dos dados
import pandas as pd

url_2019 = "https://raw.githubusercontent.com/lucasdpontes/Meu-primeiro-projeto-de-Dados---An-lise-de-gastos-p-blicos-7DaysOfCode/main/despesa_ceaps_2019.csv"
url_2020 = "https://raw.githubusercontent.com/lucasdpontes/Meu-primeiro-projeto-de-Dados---An-lise-de-gastos-p-blicos-7DaysOfCode/main/despesa_ceaps_2020.csv"
url_2021 = "https://raw.githubusercontent.com/lucasdpontes/Meu-primeiro-projeto-de-Dados---An-lise-de-gastos-p-blicos-7DaysOfCode/main/despesa_ceaps_2021.csv"
url_2022 = "https://raw.githubusercontent.com/lucasdpontes/Meu-primeiro-projeto-de-Dados---An-lise-de-gastos-p-blicos-7DaysOfCode/main/despesa_ceaps_2022.csv"

#Criação dos datasets
#Necessário excluir a 1ª linha dos 4 arquivos pois somente a 2ª linha indicam os nomes das colunas, para isso: header=1
dados_2019 = pd.read_csv(url_2019, encoding='ISO-8859-1', sep=';', header=1, thousands='.', decimal=',')
dados_2020 = pd.read_csv(url_2020, encoding='ISO-8859-1', sep=';', header=1, thousands='.', decimal=',')
dados_2021 = pd.read_csv(url_2021, encoding='ISO-8859-1', sep=';', header=1, thousands='.', decimal=',')
dados_2022 = pd.read_csv(url_2022, encoding='ISO-8859-1', sep=';', header=1, thousands='.', decimal=',')

In [2]:
#Concatenando os 4 datasets:
dados_concatenados = pd.concat([dados_2019, dados_2020, dados_2021, dados_2022],ignore_index=True)
dados_concatenados.info()
dados_concatenados.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58711 entries, 0 to 58710
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ANO                58711 non-null  int64  
 1   MES                58711 non-null  int64  
 2   SENADOR            58711 non-null  object 
 3   TIPO_DESPESA       58711 non-null  object 
 4   CNPJ_CPF           58711 non-null  object 
 5   FORNECEDOR         58711 non-null  object 
 6   DOCUMENTO          56380 non-null  object 
 7   DATA               58711 non-null  object 
 8   DETALHAMENTO       32829 non-null  object 
 9   VALOR_REEMBOLSADO  58711 non-null  float64
 10  COD_DOCUMENTO      58711 non-null  int64  
dtypes: float64(1), int64(3), object(7)
memory usage: 4.9+ MB


Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,66.02,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,139.98,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000.0,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,316.39,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,99.45,2116550


In [3]:
#Verificando se há linhas vazias na coluna "VALOR_REEMBOLSADO" e "DOCUMENTO"
dados_concatenados.dropna(how="any", subset=["VALOR_REEMBOLSADO","DOCUMENTO"]).info()

#Foram encontrados 3045 registros sem o documento informado, logo essas linhas serão desconsideradas, totalizando 73998 registros para análise
dados_concatenados = dados_concatenados.dropna(how="any", subset=["VALOR_REEMBOLSADO","DOCUMENTO"])

#Identificar e remover linhas duplicadas
dados_concatenados.drop_duplicates().info()

#Logo, não há linhas duplicadas

<class 'pandas.core.frame.DataFrame'>
Int64Index: 56380 entries, 0 to 58710
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ANO                56380 non-null  int64  
 1   MES                56380 non-null  int64  
 2   SENADOR            56380 non-null  object 
 3   TIPO_DESPESA       56380 non-null  object 
 4   CNPJ_CPF           56380 non-null  object 
 5   FORNECEDOR         56380 non-null  object 
 6   DOCUMENTO          56380 non-null  object 
 7   DATA               56380 non-null  object 
 8   DETALHAMENTO       31475 non-null  object 
 9   VALOR_REEMBOLSADO  56380 non-null  float64
 10  COD_DOCUMENTO      56380 non-null  int64  
dtypes: float64(1), int64(3), object(7)
memory usage: 5.2+ MB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 56380 entries, 0 to 58710
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  


# **# Day2️⃣**
###Data Visualization & Storytelling

**Desafio proposto:**  conte uma história a partir dos dados desse dataset. E quando falamos em Storytelling, não podemos esquecer de seu melhor amigo: a visualização de dados.

**Dicas:**
- a combinação de bons gráficos e visualizações com uma história bem contada, é capaz de fazer qualquer audiência entender os resultados do seu trabalho — seja a explicação do resultado de um teste de hipótese ou análise estatística, ou mesmo a comunicação dos resultados do seu modelo de Machine Learning.
- comece a investigar os seus dados e gerar visualizações para identificar padrões estranhos ou estatísticas interessantes.
- pense em perguntas que os dados podem responder.
- exemplo: se você pegou o dataset do CEAPS, você consegue ver qual foi o senador que mais declarou despesas? Qual foi o percentual da cota que os senadores gastaram? Teve algum com mais de 90%? Em ano de eleições os senadores gastam mais? Dentre outras perguntas.
- você pode começar gerando algumas estatísticas bem simples, como contar valores de alguma coluna, somá-los, fazer agrupamentos, ordená-los etc.
- minha recomendação é que você use o **Plotly**: uma biblioteca de visualizações de dados que, além de criar gráficos lindos, permite que você interaja com eles. Essa é a biblioteca que eu uso quando faço meus storytellings.

In [4]:
#Contar quantos senadores diferentes há no dataset
quantidade_senadores = dados_concatenados.value_counts(subset=["SENADOR"])
quantidade_senadores

#Dos 73998 registros, temos 157 senadores.

SENADOR            
CARLOS VIANA           1828
WELLINGTON FAGUNDES    1823
PAULO PAIM             1600
JAQUES WAGNER          1591
ZEQUINHA MARINHO       1576
                       ... 
HÉLIO JOSÉ                3
JOÃO ALBERTO SOUZA        2
VICENTINHO ALVES          1
NAILDE PANTA              1
EDISON LOBÃO              1
Length: 141, dtype: int64

In [5]:
#Plotando na forma de histograma:

#Plotando via Ploty
import plotly.express as px

#histograma_senadores = px.data.tips()
grafico1 = px.histogram(dados_concatenados, x=["SENADOR"], title="Gastos declarados por senador",
            labels={"value": "Nome do senador", "count": "Quantidade de declarações"}).update_xaxes(categoryorder='total descending')
grafico1.show()

In [6]:
##Calculando o gasto total por senador
#Efetuando a soma dos valores e agrupamentos por senador
gasto_por_senador = dados_concatenados.drop(columns=["ANO","MES","TIPO_DESPESA","DOCUMENTO","CNPJ_CPF","FORNECEDOR","DATA","DETALHAMENTO","COD_DOCUMENTO"])
gasto_por_senador = gasto_por_senador.groupby("SENADOR").sum()
gasto_por_senador.head()

#Plotagem
grafico2 =  px.bar(gasto_por_senador, title="Total de gastos por senador",
            labels={"value": "Valor total dos gastos", "variable": "Quantidade de declarações"}).update_xaxes(categoryorder='total descending')
grafico2.show()

In [7]:
#Para consultar o total gasto por um senador específico: gasto_por_senador["VALOR_REEMBOLSADO"]["WELLINGTON FAGUNDES"]

In [8]:
gasto_por_senador_anual = dados_concatenados.drop(columns=["MES","TIPO_DESPESA","DOCUMENTO","CNPJ_CPF","FORNECEDOR","DATA","DETALHAMENTO","COD_DOCUMENTO"])
gasto_por_senador_anual["ANO_float"] = gasto_por_senador_anual["ANO"].astype(float)
gasto_por_senador_anual = gasto_por_senador_anual.drop(columns=["ANO"])
gasto_por_senador_anual = gasto_por_senador_anual.groupby(["ANO_float","SENADOR"]).sum("VALOR_REEMBOLSADO")

#Plotagem
#gasto_por_senador_anual_wide = px.data.gasto_por_senador_anual()
#grafico3 =  px.bar(gasto_por_senador_anual, x="SENADOR", y="VALOR_REEMBOLSADO", title="Total de gastos por senador").update_xaxes(categoryorder='total descending')
grafico3 =  px.bar(gasto_por_senador_anual, x=["SENADOR"]).update_xaxes(categoryorder='total descending')
grafico3.show()

TypeError: ignored

# **# Day3️⃣**
### Forecasting

**Desafio proposto:** criar o seu próprio modelo de Forecasting!
- Forecasting é uma das técnicas mais conhecidas e utilizadas por Data Scientists para prever indicadores de negócios.
- exemplo: uma área de Finanças pode querer que você preveja o faturamento da empresa; ou então seu time de Marketing pode querer prever quantos usuários irão se cadastrar na plataforma nos próximos meses.
- Será que você consegue criar um modelo que irá prever quanto os senadores vão gastar nos próximos três meses?


**Dicas:**
- Uma dica de modelo inicial (também chamado de baseline) é utilizar médias.
- Por exemplo, para os próximos três meses, você pode dizer que o valor de "y" será a média dos últimos três meses.
- Uma solução muito famosa é o Facebook Prophet: uma biblioteca de previsão criada pelo Meta, disponível pra Python e R.
- Você também pode tentar usar algoritmos de Machine Learning com Regressão Linear do Scikit-learn, ou técnicas como ARIMA
- Para avaliar seu modelo, você vai querer utilizar alguma métrica. Para problemas de Forecasting, você pode utilizar métricas de problemas de regressão, como RMSE e MAPE.

# **# Day4️**
### ...

**Desafio proposto:** ...
- ...

**Dicas:**
- ...