# #7DaysOfCode - Data Science

# Projeto 1: An√°lise dos gastos parlamentares (CEAPS) - 2018 a 2022  

Este notebook faz parte do desafio [7 Days of Code](https://7daysofcode.io/), com foco em explorar e transformar dados utilizando a biblioteca **Pandas**.  

O conjunto de dados utilizado cont√©m informa√ß√µes sobre a **Cota para Exerc√≠cio da Atividade Parlamentar (CEAPS)** no per√≠odo de **2018 a 2022**, disponibilizados pelo Senado Federal:  
üîó **Fonte oficial:** [Dados Abertos CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps)  

### Objetivos
O objetivo deste estudo √© compreender como os parlamentares utilizam a cota parlamentar ao longo dos anos, buscando responder √†s seguintes quest√µes:  
- Quais s√£o as principais categorias de gastos?
- Existe um padr√£o sazonal nos gastos ao longo dos anos?
- H√° parlamentares que gastam significativamente mais do que a m√©dia?

O CEAPS √© um dos mecanismos de transpar√™ncia do Legislativo, permitindo que qualquer cidad√£o acompanhe como os recursos p√∫blicos est√£o sendo utilizados. Essa an√°lise pode revelar padr√µes interessantes e fornecer insights sobre a distribui√ß√£o desses gastos.  

### Sum√°rio
Notebook 1: Limpeza e prepara√ß√£o dos dados  
- Importa√ß√£o e concatena√ß√£o dos arquivos de despesas (2018-2022)  
- Remo√ß√£o de duplicatas e tratamento de valores nulos  
- Ajuste de tipos de dados e normaliza√ß√£o de campos (CNPJ/CPF, fornecedores, meses)  
- Identifica√ß√£o e remo√ß√£o de outliers  
- Exporta√ß√£o dos dados limpos para an√°lise  

Notebook 2: An√°lise explorat√≥ria e storytelling  
- Estat√≠sticas descritivas e identifica√ß√£o de padr√µes de gastos  
- Compara√ß√£o entre categorias de despesas e parlamentares  
- Investiga√ß√£o de tend√™ncias e sazonalidade nos gastos  
- Cria√ß√£o de visualiza√ß√µes e dashboards para ilustrar insights  
- Constru√ß√£o de uma narrativa baseada nos dados  

Notebook 3: Forecasting (previs√£o de gastos)  
- An√°lise temporal dos gastos ao longo dos anos  
- Modelagem estat√≠stica para proje√ß√£o de despesas futuras  
- Uso de algoritmos como ARIMA, Prophet ou modelos de regress√£o  
- Avalia√ß√£o da precis√£o dos modelos e interpreta√ß√£o dos resultados  

# Dia 1: Limpeza e prepara√ß√£o dos dados

# Importa√ß√µes

## 0.1 Bibliotecas e m√≥dulos

In [2]:
# Importando as bibliotecas e m√≥dulos necess√°rios para an√°lise
import pandas as pd
import glob
import os
import re
from unidecode import unidecode

## 0.2 Dados


#### O que foi feito:
O c√≥digo concatena arquivos CSV de 2018 a 2022 sobre despesas parlamentares e os salva em uma pasta de dados processados.
1. **Defini√ß√£o de caminhos**: Especifica as pastas de dados brutos e processados.
    -  Par√¢metros no `read_csv`:
        - **`encoding='latin1'`**: Evita problemas com caracteres especiais.
        - **`sep=';'`**: Usa ponto e v√≠rgula como separador de colunas (padr√£o no Brasil).
        - **`quotechar='"'`**: Define aspas duplas como delimitador de valores textuais.
        - **`skiprows=1`**: Ignora a primeira linha, que pode ter informa√ß√µes extras.
        - **`decimal=','`**: Usa v√≠rgula como separador decimal.
2. **Leitura dos arquivos CSV**: Usa `glob` para pegar todos os arquivos `despesa_ceaps_*.csv`.
3. **Concatena√ß√£o**: Combina os dados de todos os arquivos em um √∫nico DataFrame.
4. **Salvamento**: Cria a pasta `processed` (se n√£o existir) e salva o arquivo concatenado como `despesa_ceaps_2018_2022.csv`.

In [3]:
raw_path = "/Users/liviagrigolon/Documents/GitHub/7-days-of-data-science/data/raw/ceaps"
processed_path = "data/processed"

# Encontrar os arquivos CSV na pasta raw
arquivos = glob.glob(os.path.join(raw_path, 'despesa_ceaps_*.csv'))

# Carregar e concatenar os arquivos
df_ceaps = pd.concat([pd.read_csv(arquivo, encoding='latin1', sep=';', quotechar='"', skiprows=1, decimal=',') for arquivo in arquivos], ignore_index=True)

# Criar a pasta processed se n√£o existir
os.makedirs(processed_path, exist_ok=True)

# Salvar o DataFrame final
df_ceaps.to_csv(os.path.join(processed_path, "despesa_ceaps_2018_2022.csv"), index=False)

print("Arquivos compilados e salvos com sucesso!")

Arquivos compilados e salvos com sucesso!


# 1 Limpeza dos dados

## 1.1 Remo√ß√£o de duplicatas e colunas vazias

In [4]:
# Removendo valores ausentes para garantir qualidade nos dados
df_ceaps = df_ceaps.dropna(axis=1, how='all').drop_duplicates()
print(f"‚úÖ Removidas duplicatas. Linhas restantes: {df_ceaps.shape[0]}\n")

‚úÖ Removidas duplicatas. Linhas restantes: 93848



## 1.2 Tratamento de dados nulos

In [5]:
print("Valores nulos por coluna:\n", df_ceaps.isnull().sum().to_string()) #Conta os nulos por coluna

Valores nulos por coluna:
 ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             3979
DATA                     0
DETALHAMENTO         36383
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0


In [6]:
#Preenchendo valores nulos
df_ceaps['DOCUMENTO'] = df_ceaps['DOCUMENTO'].fillna('Desconhecido')
df_ceaps['DETALHAMENTO'] = df_ceaps['DETALHAMENTO'].fillna('N√£o informado')
print("‚úÖ Valores nulos preenchidos!\n")

‚úÖ Valores nulos preenchidos!



## 1.3 Revis√£o dos tipos de dados


#### O que foi feito:
- **`VALOR_REEMBOLSADO` ‚Üí `float`**  
  - Utilizamos `pd.to_numeric()` para garantir que os valores sejam num√©ricos, convertendo qualquer erro em `NaN` (`errors='coerce'`).  
  - Isso evita problemas com valores mal formatados no dataset.  

- **`DATA` ‚Üí `datetime64`**  
  - Utilizamos `pd.to_datetime()` para transformar a coluna de data no formato correto.  
  - O par√¢metro `dayfirst=True` garante que o formato seja **DD/MM/YYYY** (padr√£o brasileiro).  
  - Caso alguma data esteja inv√°lida, ela ser√° convertida para `NaT` (nulo).  

- **Convers√£o de colunas para `string`**  
  - Definimos explicitamente que algumas colunas s√£o texto (`string`) para evitar problemas de interpreta√ß√£o.  
  - Isso garante que colunas como `SENADOR`, `TIPO_DESPESA`, `CNPJ_CPF`, `FORNECEDOR`, `DOCUMENTO` e `DETALHAMENTO` sejam tratadas corretamente como texto.  

In [7]:
print(df_ceaps.dtypes)  # Checar os tipos de dados

ANO                    int64
MES                    int64
SENADOR               object
TIPO_DESPESA          object
CNPJ_CPF              object
FORNECEDOR            object
DOCUMENTO             object
DATA                  object
DETALHAMENTO          object
VALOR_REEMBOLSADO    float64
COD_DOCUMENTO          int64
dtype: object


In [8]:
# Convertendo tipos de dados para facilitar a an√°lise
df_ceaps['VALOR_REEMBOLSADO'] = pd.to_numeric(df_ceaps['VALOR_REEMBOLSADO'], errors='coerce')  # Garante que os valores de reembolso sejam float
df_ceaps['DATA'] = pd.to_datetime(df_ceaps['DATA'], errors='coerce', dayfirst=True)  # Converte datas
df_ceaps = df_ceaps.astype({
    'SENADOR': 'string', 'TIPO_DESPESA': 'string', 'CNPJ_CPF': 'string',
    'FORNECEDOR': 'string', 'DOCUMENTO': 'string', 'DETALHAMENTO': 'string', 'MES': 'string'
}) # Padroniza colunas como string
print("‚úÖ Tipos de dados ajustados.\n")
display(df_ceaps.dtypes)  # Checar os tipos de dados ap√≥s as altera√ß√µes

‚úÖ Tipos de dados ajustados.



ANO                           int64
MES                  string[python]
SENADOR              string[python]
TIPO_DESPESA         string[python]
CNPJ_CPF             string[python]
FORNECEDOR           string[python]
DOCUMENTO            string[python]
DATA                 datetime64[ns]
DETALHAMENTO         string[python]
VALOR_REEMBOLSADO           float64
COD_DOCUMENTO                 int64
dtype: object

## 1.4 Normaliza√ß√£o de CNPJ/CPF

#### O que foi feito:
1. Removemos caracteres especiais (pontos, tra√ßos, barras) para manter apenas os n√∫meros.   
2. Contamos a distribui√ß√£o dos tamanhos dos valores ap√≥s a normaliza√ß√£o.  
3. Identificamos poss√≠veis erros filtrando registros com tamanhos inv√°lidos (diferentes de 11 para CPF ou 14 para CNPJ).  
4. Exibimos uma mensagem de alerta caso valores inv√°lidos sejam encontrados.

In [9]:
# Limpeza diretamente na coluna existente
df_ceaps['CNPJ_CPF'] = df_ceaps['CNPJ_CPF'].str.replace(r'\D', '', regex=True)

# Contagem de caracteres ap√≥s a limpeza
tamanhos = df_ceaps['CNPJ_CPF'].str.len().value_counts()
print("Distribui√ß√£o dos tamanhos de CNPJ/CPF:\n", tamanhos, "\n")

# Identificar valores inv√°lidos
df_erro = df_ceaps[~df_ceaps['CNPJ_CPF'].str.len().isin([11, 14])]
if not df_erro.empty:
    print("‚ö†Ô∏è Valores inv√°lidos detectados em CNPJ/CPF:")
    print(df_erro[['CNPJ_CPF']].head())
else:
    print("‚úÖ Todos os CNPJs/CPFs possuem tamanhos corretos (11 ou 14 caracteres).\n")

Distribui√ß√£o dos tamanhos de CNPJ/CPF:
 CNPJ_CPF
14    91739
11     2109
Name: count, dtype: Int64 

‚úÖ Todos os CNPJs/CPFs possuem tamanhos corretos (11 ou 14 caracteres).



## 1.5 Convers√£o de meses num√©ricos para nomes de meses

#### O que foi feito:
Foi utilizada a fun√ß√£o `map` do pandas para aplicar essa transforma√ß√£o na coluna `MES` do DataFrame, melhorando a legibilidade dos dados e tornando as an√°lises mais intuitivas.
1. Cria√ß√£o de um dicion√°rio que associa n√∫meros (1 a 12) aos nomes dos meses.
2. Substitui√ß√£o dos valores na coluna `MES` pelo nome correspondente utilizando o m√©todo `map`.
3. Verifica√ß√£o do resultado para garantir que a transforma√ß√£o foi aplicada corretamente.

In [10]:
# Dicion√°rio para mapear n√∫meros de meses para nomes de meses
meses_map = {
    '1': 'Janeiro', '2': 'Fevereiro', '3': 'Mar√ßo', '4': 'Abril', '5': 'Maio', '6': 'Junho',
    '7': 'Julho', '8': 'Agosto', '9': 'Setembro', '10': 'Outubro', '11': 'Novembro', '12': 'Dezembro'
}

# Substituindo os n√∫meros de m√™s pelos nomes dos meses
df_ceaps['MES'] = df_ceaps['MES'].map(meses_map).astype('string')

# Verificando a mudan√ßa
print(df_ceaps[['ANO', 'MES']].head())


    ANO        MES
0  2018    Janeiro
1  2018    Janeiro
2  2018    Janeiro
3  2018    Janeiro
4  2018  Fevereiro


## 1.6 Padronizar nomes dos fornecedores

In [11]:
# Ajustar tipo da coluna para evitar problemas com pandas string dtype
df_ceaps["FORNECEDOR"] = df_ceaps["FORNECEDOR"].astype(str)

# Fun√ß√£o para normalizar nomes de fornecedores
def normalizar_fornecedor(nome):
    nome = nome.strip().lower()  # Remover espa√ßos extras e converter para min√∫sculas
    nome = unidecode(nome)  # Remover acentos
    nome = re.sub(r"[^\w\s]", "", nome)  # Remove pontua√ß√£o (pontos, v√≠rgulas, etc.)
    nome = re.sub(r"\b(ltda|eireli|me|sa|s/a|s.a)\b", "", nome, flags=re.IGNORECASE)  # Remove tipos de empresa
    nome = re.sub(r"\s+", " ", nome)  # Substituir m√∫ltiplos espa√ßos por um √∫nico
    return nome.strip()  # Retorna o nome limpo

# Aplicar a normaliza√ß√£o
df_ceaps["FORNECEDOR"] = df_ceaps["FORNECEDOR"].apply(normalizar_fornecedor)

# Verificar os valores normalizados
print(df_ceaps["FORNECEDOR"].value_counts().head(10))  # Mostra os 10 mais frequentes

FORNECEDOR
adria viagens e turismo                                                                         6515
latam                                                                                           2554
gol                                                                                             1329
telefonica brasil                                                                                894
claro                                                                                            866
uber do brasil tecnologia                                                                        835
lm turismo                                                                                       645
sindicato dos permissionarios de taxis e motoristas auxiliares do distrito federal sinpetaxi     617
azul                                                                                             594
posto de gasolina e garagem echeverria                                          

## 1.7 Corre√ß√£o de valores monet√°rios

### 1.7.1 An√°lise estat√≠stica b√°sica

In [12]:
descricao = df_ceaps['VALOR_REEMBOLSADO'].describe()
print("Estat√≠sticas b√°sicas de VALOR_REEMBOLSADO:\n", descricao, "\n")
#display(df_ceaps[df_ceaps['VALOR_REEMBOLSADO'] < 0])  # Confere se h√° valores negativos

Estat√≠sticas b√°sicas de VALOR_REEMBOLSADO:
 count     93848.000000
mean       1317.147702
std        3007.744489
min           0.010000
25%         150.000000
50%         392.870000
75%        1469.155000
max      120000.000000
Name: VALOR_REEMBOLSADO, dtype: float64 



### 1.7.2 Identificar outliers

In [13]:
df_ceaps.groupby('TIPO_DESPESA')['VALOR_REEMBOLSADO'].describe()  # Outliers entre tipo de despesa e valor reembolsado

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
TIPO_DESPESA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"Aluguel de im√≥veis para escrit√≥rio pol√≠tico, compreendendo despesas concernentes a eles.",20248.0,1046.081178,1560.366122,0.02,172.91,381.735,1095.43,15000.0
"Aquisi√ß√£o de material de consumo para uso no escrit√≥rio pol√≠tico, inclusive aquisi√ß√£o ou loca√ß√£o de software, despesas postais, aquisi√ß√£o de publica√ß√µes, loca√ß√£o de m√≥veis e de equipamentos.",6768.0,690.750197,1379.38309,0.01,66.3,199.9,570.0,40000.0
"Contrata√ß√£o de consultorias, assessorias, pesquisas, trabalhos t√©cnicos e outros servi√ßos de apoio ao exerc√≠cio do mandato parlamentar",5056.0,5804.37484,8566.408199,3.56,800.0,2500.0,7500.0,120000.0
Divulga√ß√£o da atividade parlamentar,5237.0,2957.428726,5154.072238,27.0,1000.0,1500.0,2950.0,103900.0
"Locomo√ß√£o, hospedagem, alimenta√ß√£o, combust√≠veis e lubrificantes",35665.0,656.183278,1840.321478,0.03,99.9,173.29,286.4,66730.0
"Passagens a√©reas, aqu√°ticas e terrestres nacionais",20717.0,1409.834754,919.923201,0.01,735.53,1270.5,1851.89,10871.78
Servi√ßos de Seguran√ßa Privada,157.0,1976.63586,4075.691955,6.57,231.45,440.24,1800.0,23986.02


### 1.7.3 Remo√ß√£o de outliers com Intervalo Interquartil (IQR)

In [14]:
# Definir limites para outliers
Q1 = df_ceaps['VALOR_REEMBOLSADO'].quantile(0.25)  # Primeiro quartil (25%)
Q3 = df_ceaps['VALOR_REEMBOLSADO'].quantile(0.75)  # Terceiro quartil (75%)
IQR = Q3 - Q1  # Intervalo interquartil

# Definir os limites inferior e superior
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtrar os dados, removendo outliers
df_ceaps_limpo = df_ceaps[
    (df_ceaps['VALOR_REEMBOLSADO'] >= limite_inferior) & 
    (df_ceaps['VALOR_REEMBOLSADO'] <= limite_superior)
]

# Ver quantas linhas sobraram
print(f"Removendo outliers...\nLinhas antes: {len(df_ceaps)}\nLinhas depois: {len(df_ceaps_limpo)}\nRemovidos: {len(df_ceaps) - len(df_ceaps_limpo)} outliers.\n")
print("‚úÖ Dados limpos e prontos para an√°lise!\n")

Removendo outliers...
Linhas antes: 93848
Linhas depois: 85857
Removidos: 7991 outliers.

‚úÖ Dados limpos e prontos para an√°lise!



# 2 Exportar os dados limpos

In [15]:
# Salvar o DataFrame limpo em um arquivo pickle
df_ceaps_limpo.to_pickle('data/processed/despesa_ceaps_2018_2022_limpo.pkl')
print("Dados salvos na pasta 'data/processed'")

Dados salvos na pasta 'data/processed'


## Conclus√£o

- No primeiro dia do desafio, realizamos a limpeza e prepara√ß√£o dos dados, removendo valores ausentes e ajustando os tipos de dados para garantir qualidade na an√°lise.
- Com os dados tratados, agora podemos partir para a **an√°lise explorat√≥ria**, onde come√ßaremos a investigar padr√µes e identificar insights interessantes.
- A ideia √© gerar visualiza√ß√µes para criar uma narrativa sobre os dados, respondendo perguntas e apresentando os resultados de maneira clara e impactante.

üîú **Pr√≥ximos passos:**  
A pr√≥xima etapa ser√° a **an√°lise explorat√≥ria** seguida da cria√ß√£o de gr√°ficos e visualiza√ß√µes que nos ajudem a contar uma hist√≥ria a partir dos dados. Vamos focar em descobrir padr√µes e insights relevantes.