# **Ciência de Dados e Machine Learning**

## **Projeto Final do Curso**

---

### **Alunos:**

> Charles Bezerra - 52400351

> Jheferson Warley - 52400071

> Paulo Machado - 52400245

---

### Tema: **Despesas pela Cota para Exercício da Atividade Parlamentar**

### Base de Dados: https://dadosabertos.camara.leg.br/swagger/api.html?tab=staticfile

---

Este projeto final do curso de **Ciência de Dados e Machine** Learning do UniCEUB se baseia na metodologia *Cross-Industry Standard Process for Data Mining - CRISP-DM* (https://www.sv-europe.com/crisp-dm-methodology/), oferecendo uma abordagem estruturada para planejar um projeto de mineração de dados de uma forma robusta.

Este modelo representa uma sequência idealizada de eventos. Na prática, muitas das tarefas podem ser realizadas em uma ordem diferente, e frequentemente será necessário voltar a tarefas anteriores e repetir certas ações.

<div>
<img src="FasesCRISP-DM.png" width="50%">
</div>

---

## **Etapas do Processo CRISP-DM**

### 1. [Entendimento do Negócio](#business-understanding)
Compreensão dos objetivos de negócio, contexto organizacional e definição das metas analíticas.

- [1.1 Avaliação da Situação Atual](#avaliacao-da-situacao)
- [1.2 Resultados Esperados](#resultados-esperados)
- [1.3 Questões de Pesquisa](#questoes-de-pesquisa)
<!-- - [1.4 Plano de Projeto](#plano-do-projeto) -->

---

### 2. [Entendimento dos Dados](#entendimento-dados)
Exploração inicial dos dados, coleta e verificação da qualidade.

- [2.1 Relatorio Inicial](#relatorio-inicial)
- [2.2 Descrição dos Dados](#descricao-dados)
- [2.3 Exploração dos Dados](#exploracao-dados)
- [2.4 Verificação da Qualidade dos Dados](#qualidade-dos-dados)

---

### 3. [Preparação dos Dados](#preparacao-dados)
Construção do dataset final que será utilizado para modelagem.

- [3.1 Seleção dos Dados](#selecao-dados)
- [3.2 Limpeza dos Dados](#limpeza-dados)
- [3.3 Análise Exploratória de Dados](#analise-dados)

---

### 4. [Modelagem](#modelagem)
Aplicação de técnicas de modelagem estatística ou de machine learning.

- [4.1 Técnicas de Modelagem](#tecnicas-modelagem)
- [4.2 Teste de Modelos](#teste-modelos)
- [4.3 Construção dos Modelos](#construcao-modelo)
- [4.4 Avaliação de Performance](#avaliacao-modelo)

---

### 5. [Avaliação do Modelo](#avaliacao-modelo)
Verificação se os modelos preditivos atendem aos objetivos de negócio definidos para estimativa dos gastos parlamentares.

- [5.1 Avaliação da Performance dos Modelos](#Avaliação-da-Performance-dos-Modelos)
- [5.2 Interpretação dos Resultados](#interpretacao-dos-resultados)
- [5.3 Revisão do Processo e Próximos Passos](#revisao-do-processo-e-proximos-passos)


---

### 6. [Implementação (Deployment)](#implementacao)
Entrega prática do modelo, seja em relatório, dashboard, sistema ou API.

- [6.1 Planejamento da Implementação](#planejamento-implementacao)
- [6.2 Monitoramento e Manutenção](#monitoramento)
- [6.3 Documentação Final](#documentacao-final)


## 1. Entendimento do Negócio  <a class="anchor" id="business-understanding"></a>

Atualmente, o cenário político brasileiro se mostra em foco, principalmente quando se trata de despesas relacionadas à sustentação do governo como todo. Neste contexto, as despesas parlamentares, limitadas por uma cota, são frequentemente noticiadas devido a seu alto custo. As cotas parlamentares variam conforme o estado do deputado e é destinado ao custeio de despesas relacionadas ao exercício do mandato. As despesas incluem passagens aéreas, locomoção, hospedagens, serviços de segurança, divulgação de atividades parlamentares e contratação de pessoal.


A Câmara dos Deputados divulga através da plataforma de dados abertos do governo (https://dadosabertos.camara.leg.br/swagger/api.html?tab=staticfile) as despesas refentes ao consumo de cotas separadas por ano, Deputado, UF, tipo de despesas, entre outras classificações. Os arquivos podem ser baixador por ano, disponíveis desde o ano 2018, nos formatos XML, JSON, CSV, XLSX e ODS.


Para este projeto, selecionamos os dados relativos ao ano de 2024 (ano completo mais recente) com arquivos no formato CSV para melhor tratamento dos dados.



## 1.1 Avaliação da Situação Atual<a class="anchor" id="avaliacao-da-situacao"></a>

A transparência nos gastos públicos tem ganhado relevância nos debates sociais e institucionais, principalmente no contexto político brasileiro. A Câmara dos Deputados disponibiliza, por meio do portal de Dados Abertos, informações detalhadas sobre a utilização da Cota para o Exercício da Atividade Parlamentar (CEAP), que contempla diversos tipos de despesas efetuadas pelos parlamentares no desempenho de suas funções.

Apesar da disponibilidade dos dados, observa-se uma subutilização dessas informações por parte da sociedade civil e dos órgãos fiscalizadores. O volume e a complexidade dos dados dificultam análises diretas e conclusivas, exigindo ferramentas adequadas de tratamento, análise e visualização. Diante disso, este projeto visa utilizar técnicas de análise de dados e aprendizado de máquina para transformar os dados brutos em insights relevantes e acessíveis.

## 1.2 Resultados Esperados<a class="anchor" id="resultaods-esperados"></a>

Este projeto tem como objetivo geral analisar os gastos parlamentares por meio da base de dados da CEAP, abrangendo os anos de 2023, 2024 e 2025. Os resultados esperados incluem:

- Desenvolvimento de relatórios e dashboards analíticos para visualização dos dados por deputado, partido político, unidade federativa (UF), tipo de despesa, fornecedor e período (mês e ano).
- Análises estatísticas descritivas e comparativas, a fim de identificar padrões de gastos e variações relevantes entre diferentes grupos.
- Detecção de anomalias e possíveis irregularidades nos registros de despesas.
- Aplicação de técnicas de aprendizado de máquina (Machine Learning) com o objetivo de construir modelos preditivos capazes de estimar os gastos parlamentares futuros por partido ou UF, com base nos dados históricos.

O projeto segue a metodologia CRISP-DM, com foco na reprodutibilidade dos resultados e na criação de documentação clara e acessível.

## 1.3 Questões de Pesquisa<a class="anchor" id="questoes-de-pesquisa"></a>

O projeto é orientado por um conjunto de questões exploratórias e preditivas, que servirão como guia para as etapas analíticas e de modelagem.

### Questões Exploratórias

- Quais partidos políticos apresentaram os maiores volumes de gasto no período analisado?
- Quais unidades federativas concentram os maiores gastos?
- Quais são os tipos de despesa mais recorrentes e qual seu impacto nos valores totais?
- Como os gastos variam ao longo do tempo? Existe sazonalidade ou tendência?
- Há fornecedores recorrentes nos maiores gastos? Qual seu perfil?

### Questões Preditivas

- É possível prever os gastos parlamentares futuros com base no histórico de dados?
- Quais variáveis mais influenciam no volume de gastos (ex.: partido, UF, tipo de despesa, mês)?
- Quais partidos ou unidades federativas têm maior propensão a apresentar aumentos nos gastos em futuros mandatos?

Estas perguntas direcionam a construção dos indicadores, visualizações e modelos preditivos ao longo do projeto.

# 2. Entendimento dos Dados <a class="anchor" id="entendimento-dados"></a>
A etapa de entendimento dos dados tem como objetivo fornecer uma visão inicial e aprofundada da estrutura, conteúdo e qualidade do conjunto de dados disponível para análise. Trata-se de uma fase fundamental no processo analítico, pois permite identificar características importantes dos dados, potenciais inconsistências, ausência de valores e padrões que podem influenciar diretamente na preparação, modelagem e interpretação dos resultados.


## 2.1 Relatório Inicial <a class="anchor" id="relatorio-inicial"></a>
O conjunto de dados utilizado neste projeto refere-se às despesas parlamentares registradas na Cota para o Exercício da Atividade Parlamentar (CEAP), compreendendo os anos de 2023, 2024 e 2025. Os dados foram extraídos da API pública da Câmara dos Deputados, que disponibiliza os registros em diversos formatos. Para este trabalho, optou-se pelo formato `.csv`, considerando a facilidade de leitura e manipulação em ambientes Python.


In [None]:
# Importação das Bibliotecas
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.io as pio
import plotly.express as px
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
from catboost import CatBoostRegressor,Pool
from sklearn.compose import ColumnTransformer
from IPython.display import display, Markdown
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier



import warnings
# Ignora todos os FutureWarning
warnings.filterwarnings('ignore', category=FutureWarning)


In [None]:
# Leitura dos dados
df_2023 = pd.read_csv("DataBase/Ano-2023.csv", sep=";", encoding="utf-8", low_memory=False)
df_2024 = pd.read_csv("DataBase/Ano-2024.csv", sep=";", encoding="utf-8", low_memory=False)
df_2025 = pd.read_csv("DataBase/Ano-2025.csv", sep=";", encoding="utf-8", low_memory=False)

# Combinação dos três dataframes
df_completo = pd.concat([df_2023, df_2024, df_2025], ignore_index=True)

In [None]:
# Exibição das 5 primeiras linhas
display(df_completo.head())

In [None]:
df_completo.info()

## 2.2 Descrição dos Dados <a class="anchor" id="descricao-dados"></a>
A seguir, são apresentados o nome das colunas disponíveis no dataset e o seu formato dimensional (linhas x colunas).



A tabela abaixo apresenta a descrição de cada uma das variáveis disponíveis no conjunto de dados utilizado.

| Nome da Coluna                 | Descrição                                                        |
|-------------------------------|------------------------------------------------------------------|
| `txNomeParlamentar`           | Nome do parlamentar                                              |
| `cpf`                         | CPF do parlamentar (quando disponível)                          |
| `ideCadastro`                 | ID único do parlamentar                                          |
| `nuCarteiraParlamentar`       | Número da carteira parlamentar                                   |
| `nuLegislatura`               | Número da legislatura em exercício                               |
| `sgUF`                        | Unidade Federativa (estado)                                      |
| `sgPartido`                   | Sigla do partido político                                        |
| `codLegislatura`              | Código da legislatura                                            |
| `numSubCota`                  | Código da subcota utilizada                                      |
| `txtDescricao`                | Descrição da subcota                                             |
| `numEspecificacaoSubCota`     | Código da especificação da subcota                               |
| `txtDescricaoEspecificacao`   | Descrição detalhada da subcota                                   |
| `txtFornecedor`               | Nome do fornecedor                                               |
| `txtCNPJCPF`                  | CNPJ ou CPF do fornecedor                                        |
| `txtNumero`                   | Número do documento fiscal                                       |
| `indTipoDocumento`            | Tipo do documento (nota fiscal, recibo, etc.)                   |
| `datEmissao`                  | Data de emissão do documento                                     |
| `vlrDocumento`                | Valor bruto do documento                                         |
| `vlrGlosa`                    | Valor glosado/desconsiderado                                     |
| `vlrLiquido`                  | Valor líquido aceito                                             |
| `numMes`                      | Mês de referência da despesa                                     |
| `numAno`                      | Ano de referência da despesa                                     |
| `numParcela`                  | Número da parcela, quando aplicável                              |
| `txtPassageiro`               | Nome do passageiro (se transporte aéreo)                         |
| `txtTrecho`                   | Trecho da viagem (ida/volta)                                     |
| `numLote`                     | Número do lote do documento                                      |
| `numRessarcimento`            | Número de protocolo de ressarcimento                             |
| `datPagamentoRestituicao`     | Data do pagamento de restituição                                 |
| `vlrRestituicao`              | Valor restituído                                                 |
| `nuDeputadoId`                | ID único do deputado                                             |
| `ideDocumento`                | ID do documento                                                  |
| `urlDocumento`                | Link para o documento oficial                                    |


In [None]:
# Nomes das colunas
df_completo.columns

In [None]:
# Dimensão do dataframe
df_completo.shape

## 2.3 Exploração dos Dados <a class="anchor" id="exploracao-dados"></a>

Essa etapa visa obter uma visão geral das características dos dados, incluindo tipos de variáveis, estatísticas descritivas e primeiros insights de distribuição.

In [None]:
# Verificação de duplicatas
qtde_duplicated = df_completo.duplicated().sum()
print(f'Quantidade de duplicados: {qtde_duplicated}')

In [None]:
# Estatísticas descritivas
df_completo.describe(include='all').T

In [None]:
# Verificando valores nulos por coluna
df_completo.isnull().sum().sort_values(ascending=False)

In [None]:
# Verificando a quantidade de valores únicos em algumas colunas-chave
print("UFs:", df_completo['sgUF'].nunique())
print("Partidos:", df_completo['sgPartido'].nunique())
print("Tipos de despesa:", df_completo['txtDescricao'].nunique())

### Distribuição dos principais campos categóricos

In [None]:
# UF
uf_counts = df_completo['sgUF'].value_counts().reset_index()
uf_counts.columns = ['UF', 'Total de Registros']
display(Markdown("### Distribuição por Unidade Federativa"))
plt.figure(figsize=(10,5))
ax1 = sns.barplot(data=uf_counts, x='UF', y='Total de Registros', palette='Blues_d', legend=False, hue='UF')
plt.title('Distribuição por Unidade Federativa')
plt.xlabel('UF')
plt.ylabel('Total de Registros')
plt.xticks(rotation=45)
for p in ax1.patches:
    ax1.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                 ha='center', va='bottom', fontsize=9, color='black', xytext=(0, 3), textcoords='offset points')
plt.tight_layout()
plt.show()

In [None]:
# Partido
partido_counts = df_completo['sgPartido'].value_counts().reset_index()
partido_counts.columns = ['Partido', 'Total de Registros']
display(Markdown("### Distribuição por Partido"))
plt.figure(figsize=(12,5))
ax2 = sns.barplot(data=partido_counts, x='Partido', y='Total de Registros', palette='Greens_d', legend=False, hue='Partido')
plt.title('Distribuição por Partido')
plt.xlabel('Partido')
plt.ylabel('Total de Registros')
plt.xticks(rotation=45)
for p in ax2.patches:
    ax2.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                 ha='center', va='bottom', fontsize=9, color='black', xytext=(0, 3), textcoords='offset points')
plt.tight_layout()
plt.show()

In [None]:
# Tipo de Despesa
despesa_counts = df_completo['txtDescricao'].value_counts().reset_index()
despesa_counts.columns = ['Tipo de Despesa', 'Total de Registros']
display(Markdown("### Distribuição por Tipo de Despesa (Top 15)"))
plt.figure(figsize=(12,6))
ax3 = sns.barplot(data=despesa_counts.head(15), x='Tipo de Despesa', y='Total de Registros', palette='Oranges_d', legend=False, hue='Tipo de Despesa', )
plt.title('Distribuição por Tipo de Despesa (Top 15)')
plt.xlabel('Tipo de Despesa')
plt.ylabel('Total de Registros')
plt.xticks(rotation=75)
for p in ax3.patches:
    ax3.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                 ha='center', va='bottom', fontsize=9, color='black', xytext=(0, 3), textcoords='offset points')
plt.tight_layout()
plt.show()

## 2.4 Verificação da Qualidade dos Dados<a class="anchor" id="qualidade-dos-dados"></a>
Abaixo está um resumo quantitativo da qualidade dos dados após a análise exploratória inicial.

In [None]:
# Resumo geral do dataset
resumo_geral = pd.DataFrame({
    "Indicador": [
        "Total de registros",
        "Total de variáveis (colunas)",
        "Registros duplicados",
        "Valores inconsistentes (vlrDocumento < vlrLiquido)",
        "Total valor liquido negativo"
    ],
    "Valor": [
        df_completo.shape[0],
        df_completo.shape[1],
        df_completo.duplicated().sum(),
        (df_completo['vlrDocumento'] < df_completo['vlrLiquido']).sum(),
        (df_completo['vlrLiquido'] < 0 ).sum()
    ]
})

display(Markdown("### Resumo Geral da Base de Dados"))
display(resumo_geral)

# Colunas com valores nulos
nulls = df_completo.isnull().sum()
nulls = nulls[nulls > 0].sort_values(ascending=False).reset_index()
nulls.columns = ['Coluna', 'Valores Nulos']

display(Markdown("### Colunas com Valores Ausentes"))
display(nulls)

# 3. Preparação dos Dados <a class="anchor" id="preparacao-dados"></a>


Nesta etapa, realizamos o tratamento necessário para transformar os dados brutos em uma base estruturada e adequada para aplicação de modelos de aprendizado supervisionado. As ações incluem: seleção e limpeza de dados, geração de atributos derivados e integração das bases históricas.


## 3.1 Seleção dos Dados <a class="anchor" id="selecao-dados"></a>

Nesta etapa inicial da **Preparação dos Dados**, realizamos a seleção criteriosa das variáveis mais relevantes para o problema de predição do **valor líquido da despesa parlamentar (`vlrLiquido`)**.

O objetivo é filtrar os dados brutos e manter somente as informações que possuem **relação direta com o comportamento dos gastos parlamentares**, otimizando o desempenho dos algoritmos de machine learning.

---

#### 🔸 Critérios de Seleção

Selecionamos as colunas que possuem potencial explicativo e que apresentam valor informacional para o modelo supervisionado. As variáveis escolhidas foram:

- **`sgUF`**: unidade federativa, que pode refletir realidades regionais de gastos.
- **`sgPartido`**: partido político, possível fator explicativo para padrões de despesa.
- **`txtDescricao`**: tipo de despesa (ex: alimentação, aluguel, combustível).
- **`vlrDocumento`**: valor bruto do documento fiscal apresentado.
- **`numAno`**: período da despesa, para análise sazonal ou temporal.
- **`vlrLiquido`**: variável-alvo que será predita pelo modelo.

---


## 3.2 Limpeza dos Dados <a class="anchor" id="limpeza-dados"></a>


Nesta etapa, realizamos uma série de ações de limpeza para garantir que os dados utilizados nos modelos estejam consistentes, sem ruídos e com alta qualidade informacional. A preparação adequada dos dados é essencial para que qualquer modelo de aprendizado de máquina produza resultados confiáveis.

As ações tomadas nesta fase incluem:

---

#### 🔸 Remoção de Registros Inconsistentes

Eliminamos os registros em que o valor líquido (`vlrLiquido`) era superior ao valor bruto do documento (`vlrDocumento`). Essa inconsistência viola a lógica financeira da base de dados e poderia comprometer análises futuras. Esses registros foram identificados, quantificados e removidos de forma criteriosa.



In [None]:
df_completo.shape

In [None]:
# Remove linhas onde vlrLiquido > vlrDocumento
df_modelo = df_completo[df_completo['vlrLiquido'] <= df_completo['vlrDocumento']].reset_index(drop=True)

In [None]:
df_modelo.shape

---

#### 🔸 Tratamento de Valores Negativos

Foram identificados valores negativos na coluna `vlrLiquido` — o que não representa um cenário válido para gastos parlamentares. Esses valores estavam presentes em todas as bases de 2023, 2024 e 2025:

- **2023:** 9.383 registros
- **2024:** 10.327 registros
- **2025:** 2.626 registros

Todos foram removidos após verificação e exibição de amostras por ano. A limpeza foi validada com uma checagem final, confirmando que **nenhum valor negativo permaneceu**.





In [None]:
df_modelo.shape

In [None]:
# Remove registros onde vlrLiquido é negativo
df_modelo = df_modelo[df_modelo['vlrLiquido'] >= 0].reset_index(drop=True)

In [None]:
df_modelo.shape

---

#### 🔸 Eliminação de Registros com Valores Ausentes (NaN)

Após a seleção e transformação das colunas relevantes, identificamos **2.135 registros com valores ausentes**, totalizando **4.270 células com `NaN`**. Esses dados foram descartados para evitar viés no processo de modelagem, uma vez que a imputação poderia comprometer a acurácia dos modelos.


In [None]:
df_modelo.shape

In [None]:
# Remove registros onde a coluna 'sgUF' possui valores nulos (NaN)
df_modelo = df_modelo[df_modelo['sgUF'].notnull()].reset_index(drop=True)

In [None]:
# Remove registros onde a coluna 'sgPartido' possui valores nulos (NaN)
df_modelo = df_modelo[df_modelo['sgPartido'].notnull()].reset_index(drop=True)

In [None]:
df_modelo.shape

---

#### 🔸 Remoção de Registros Duplicados

Realizamos a verificação de duplicatas no conjunto de dados e removemos entradas repetidas para garantir que cada linha representasse uma observação única. Essa prática evita sobrepeso em certas categorias e garante imparcialidade nas análises estatísticas.

**Na base tratado não há registros duplicados**



---

#### 🔸 Remoção de Colunas Desnecessárias

Foram excluídas colunas que não contribuíam para os objetivos do projeto, como identificadores únicos (`CPF`, `CNPJ`, códigos legislativos), atributos com alta cardinalidade ou informações redundantes. Essa etapa reduziu a complexidade do modelo e aumentou a interpretabilidade.



In [None]:
df_modelo.shape

In [None]:
# Mantém apenas as colunas desejadas em df_modelo
colunas_desejadas = ['sgUF', 'sgPartido', 'txtDescricao', 'numAno', 'vlrLiquido']
df_modelo = df_modelo[colunas_desejadas].copy()

In [None]:
df_modelo.shape

---

#### 🔸 Conversão da coluna numAno em valor categórico

Quando uma variável como numAno representa categorias (por exemplo, anos como 2019, 2020, 2021 etc.) e não uma medida contínua, faz total sentido tratá-la como variável categórica. Isso evita que o modelo interprete erroneamente relações ordinais ou contínuas entre os anos.


In [None]:
df_modelo['numAno'] = df_modelo['numAno'].astype('int').astype('str')

In [None]:
df_modelo.info()

---

#### 🔸 Agregação através da soma do vlrLiquido

Agregação através da soma do vlrLiquido, classificado pelos demais campos.


In [None]:
# Cria um novo DataFrame agregando pela soma do vlrLiquido
df_modelo = (
    df_modelo
    .groupby(['sgUF', 'sgPartido', 'txtDescricao', 'numAno'], as_index=False)
    .agg(vlrLiquidoTotal=('vlrLiquido', 'sum'))
)


# Exibe as primeiras linhas do novo DataFrame
display(df_modelo.head())

In [None]:
df_modelo.shape

---

###  Resultado Final

Após todas as etapas de limpeza, o novo DataFrame final (`df_modelo`) apresenta:

- **6490 registros**
- **5 colunas relevantes**
- Nenhum valor `NaN` ou negativo
- Dados prontos para modelagem supervisionada


---
####  Amostra dos dados tratados:


Nesta etapa, realizamos um processo criterioso de saneamento da base de dados, com o objetivo de **garantir a integridade, consistência e confiabilidade das informações** que alimentarão os modelos de aprendizado supervisionado.

A limpeza dos dados é uma fase crítica, pois **modelos de Machine Learning são altamente sensíveis a ruídos, valores inválidos e informações incompletas**. Um dado inconsistente pode comprometer toda a performance do modelo — e pior, gerar conclusões enganosas para decisões reais.

### Ações realizadas:

1. **Remoção de valores negativos em `vlrLiquido`:**  
   Foram detectados e eliminados milhares de registros com valores negativos, o que representa **erros claros de entrada de dados**. Como o `vlrLiquido` representa o valor final pago em uma despesa, não é plausível que ele seja negativo.

2. **Eliminação de registros com `vlrLiquido` maior que `vlrDocumento`:**  
   Foram identificados **2 registros** em que o valor líquido ultrapassava o valor bruto do documento, o que é logicamente incorreto. Esses registros foram removidos.

3. **Remoção de valores ausentes (`NaN`)**  
   Após as transformações e construções de variáveis, foram encontrados **2.135 registros com valores ausentes** em colunas relevantes. Esses registros foram removidos para **evitar viés nos algoritmos de predição** e assegurar que todas as variáveis estejam completas.

4. **Exclusão de colunas irrelevantes ao modelo:**  
   Diversas colunas foram descartadas por não contribuírem para a modelagem ou por conterem informações sensíveis e desnecessárias (como CPF, CNPJ, códigos internos da Câmara, etc.).

---

### Benefícios diretos dessa etapa:

- **Redução de ruídos** que impactariam negativamente na acurácia dos modelos.
- **Evita o overfitting** com dados duplicados ou corrompidos.
- **Aumenta a confiabilidade das previsões**, ao garantir que os dados sigam uma lógica de negócios clara.
- **Permite extração de insights mais precisos**, facilitando comparações, agrupamentos e análises de tendência.



## 3.3 Análise Exploratória dos Dados (EDA) <a class="anchor" id="analise-dados"></a>


A análise exploratória foi fundamental para entender o comportamento dos gastos parlamentares e detectar padrões interessantes no dataset. Abaixo, são apresentados os principais destaques visuais:

---

### 🔹 UFs com Maior Média de Gastos

O primeiro gráfico mostra a média dos valores líquidos por Unidade Federativa (UF). A visualização permite identificar quais estados concentram os maiores gastos médios.

- **Insight:** Estados com maior representatividade política ou maior número de parlamentares podem influenciar esses valores.

---

### 🔹 Partidos com Maior Média de Gastos

Neste gráfico, analisamos os partidos políticos com maiores médias de despesas líquidas entre seus representantes.

- **Insight:** Partidos com mais cadeiras no Congresso tendem a apresentar maiores valores agregados. No entanto, o foco está na **média por parlamentar**, revelando padrões internos de gastos por legenda.

---

### 🔹 Tipos de Despesa com Maior Valor Médio por Transação

Este gráfico horizontal apresenta os **tipos de despesas** com maior valor médio por transação realizada.

- **Insight:** Gastos como **locação de veículos**, **divulgação da atividade parlamentar** e **manutenção de escritório** aparecem entre os maiores custos médios, indicando despesas pontuais de alto valor.



---

Essas visualizações são essenciais para gerar hipóteses que poderão ser testadas na modelagem preditiva e ajudar na construção de variáveis derivadas com potencial explicativo.



In [None]:
# Código para visualizações agregadas com Plotly

# Define um template padrão para o Plotly
pio.templates.default = "plotly_white"

# Converte apresentação do valor para brasileiro (R$)
def formatar_valor(valor):
    return f"R$ {valor:,.2f}".replace(",", "X").replace(".", ",").replace("X", ".")

In [None]:
# 1 UFs por Gasto Total
top_ufs = (
    df_modelo.groupby('sgUF')['vlrLiquidoTotal']
    .mean()
    .sort_values(ascending=False)
    .reset_index()
)
top_ufs['texto'] = top_ufs['vlrLiquidoTotal'].apply(formatar_valor)

fig1 = px.bar(
    top_ufs,
    x='sgUF',
    y='vlrLiquidoTotal',
    orientation='v',
    title='<b>UFs por Gastos Totais</b>',
    labels={'vlrLiquidoTotal': 'Gasto Total (R$)', 'sgUF': 'UF'},
    text='texto'
)
fig1.update_layout(showlegend=False, yaxis={'categoryorder':'total ascending'})
fig1.update_traces(textposition='outside', marker_color='#EF553B')
fig1.show()

In [None]:
# 2 Partidos por Gasto Total
top_partidos = (
    df_modelo.groupby('sgPartido')['vlrLiquidoTotal']
    .mean()
    .sort_values(ascending=False)
    .reset_index()
)
top_partidos['texto'] = top_partidos['vlrLiquidoTotal'].apply(formatar_valor)

fig2 = px.bar(
    top_partidos,
    x='sgPartido',
    y='vlrLiquidoTotal',
    orientation='v',
    title='<b>Partidos por Gastos Totais</b>',
    labels={'vlrLiquidoTotal': 'Gasto Total (R$)', 'sgPartido': 'Partido'},
    text='texto'
)
fig2.update_layout(showlegend=False, yaxis={'categoryorder':'total ascending'})
fig2.update_traces(textposition='outside', marker_color='#00CC96')
fig2.show()

In [None]:
# Top Tipos de Despesa com Maior Valor Médio 

top_tipos = (
    df_modelo.groupby('txtDescricao')['vlrLiquidoTotal']
    .mean()
    .sort_values(ascending=False)
    .reset_index()
)

# Formatando valores como texto no padrão brasileiro
top_tipos['texto'] = top_tipos['vlrLiquidoTotal'].apply(formatar_valor)

# Gráfico com tipos de despesa no eixo Y (barra horizontal)
fig3 = px.bar(
    top_tipos,
    x='vlrLiquidoTotal',
    y='txtDescricao',
    orientation='h',
    title='<b>Tipos de Despesa com Maior Valor Médio por Transação</b>',
    labels={'vlrLiquidoTotal': 'Valor Médio (R$)', 'txtDescricao': 'Tipo de Despesa'},
    text='texto'
)

fig3.update_layout(
    showlegend=False,
    xaxis_tickformat=',.2f',
    yaxis=dict(categoryorder='total ascending'),
    height=800  # aumenta a altura do gráfico para caber melhor os rótulos
)

fig3.update_traces(
    textposition='outside',
    marker_color='#AB63FA'
)

fig3.show()


# 4. Modelagem <a class="anchor" id="modelagem"></a>
Nesta etapa, construímos e testamos diferentes modelos de regressão para prever os valores líquidos (`vlrLiquidoTotal`) das despesas parlamentares, com foco na performance e interpretabilidade. Duas abordagens foram adotadas: Random Forest e CatBoost.



## 4.1. Técnicas de Modelagem <a class="anchor" id="tecnicas-modelagem"></a>
Foram selecionadas duas técnicas supervisionadas de regressão:

- **Random Forest Regressor**: um modelo de ensemble baseado em árvores de decisão. Requer tratamento explícito das variáveis categóricas (via OneHotEncoder).
- **CatBoost Regressor**: algoritmo especializado para lidar com variáveis categóricas de forma nativa, sem a necessidade de codificação manual.

Essas abordagens foram encapsuladas em pipelines que garantem consistência no pré-processamento e na modelagem.

In [None]:
# Separação da variável target
X = df_modelo.drop('vlrLiquidoTotal', axis=1)
y = df_modelo['vlrLiquidoTotal']

categorical_cols = ['sgUF', 'sgPartido', 'txtDescricao', 'numAno']

# Divisão dos dados
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=105)

In [None]:
# Pipeline 1: Random Forest com OneHotEncoder
preprocessor_rf = ColumnTransformer(
    transformers=[('cat', OneHotEncoder(handle_unknown='ignore'), categorical_cols)]
)

pipeline_rf = Pipeline(steps=[
    ('preprocessamento', preprocessor_rf),
    ('modelo', RandomForestRegressor(random_state=42))
])

In [None]:
# Pipeline 2: CatBoost (lida com categorias diretamente)
pipeline_cb = Pipeline(steps=[
    ('modelo', CatBoostRegressor(verbose=0, cat_features=categorical_cols))
])

## 4.2. Teste de Modelos <a class="anchor" id="teste-modelos"></a>
Ambos os modelos foram treinados e avaliados com **Root Mean Squared Error (RMSE)** como métrica principal.

**Resultados iniciais (sem otimização):**
- Random Forest – RMSE: `14428982591.47198`
- CatBoost – RMSE: `8239011221.177081`

> A partir disso, foi possível observar que ambos os modelos conseguiram aprender padrões relevantes, mas havia espaço para otimização.


In [None]:
# Treinamento e avaliação
pipeline_rf.fit(X_train, y_train)
y_pred_rf = pipeline_rf.predict(X_test)
print("Random Forest - RMSE:", mean_squared_error(y_test, y_pred_rf))

pipeline_cb.fit(X_train, y_train)
y_pred_cb = pipeline_cb.predict(X_test)
print("CatBoost - RMSE:", mean_squared_error(y_test, y_pred_cb))

## 4.3. Construção do Modelo (Build) <a class="anchor" id="construcao-modelo"></a>

Nesta etapa, realizamos o **ajuste fino (tuning)** dos modelos utilizando a técnica de validação cruzada com `GridSearchCV`. Esse processo é essencial para **maximizar a performance preditiva** e evitar o sobreajuste.

---

### Random Forest com GridSearchCV

A busca por hiperparâmetros ótimos foi aplicada ao modelo de Random Forest, com os seguintes parâmetros testados:

- `n_estimators`: número de árvores na floresta → [50, 100]
- `max_depth`: profundidade máxima de cada árvore → [None, 5, 10]

O ajuste foi feito com validação cruzada (`cv=3`) e a métrica de avaliação foi o **RMSE negativo** (porque o `GridSearchCV` busca maximizar scores).

**Melhores parâmetros encontrados:**
```python
Melhores parâmetros: {'modelo__max_depth': 10, 'modelo__n_estimators': 100}
Melhor RMSE: 191.567, aproximadamente


### 4.3.1. Random Forest: Ajustar os melhores hiperparâmetros de forma automática.

In [None]:
param_grid = {
    'modelo__n_estimators': [50, 100],
    'modelo__max_depth': [None, 5, 10]
}

grid_rf = GridSearchCV(pipeline_rf, param_grid, cv=3, scoring='neg_root_mean_squared_error')
grid_rf.fit(X_train, y_train)

# 🔹 Resultados do GridSearchCV - Random Forest
melhores_param_rf = grid_rf.best_params_
melhor_rmse_rf = -grid_rf.best_score_

display(Markdown(f"""
###  Resultados do Random Forest (GridSearchCV)
- **Melhores Parâmetros:** `{melhores_param_rf}`
- **Melhor RMSE (validação cruzada):** `{melhor_rmse_rf:,.2f}`
"""))

### 4.3.2. Random Forest: Visualizar as categorias mais influentes na previsão do preço.

In [None]:

# Importância das features (após o one-hot encoding)
modelo_treinado = grid_rf.best_estimator_.named_steps['modelo']
nomes_features = grid_rf.best_estimator_.named_steps['preprocessamento'].transformers_[0][1].get_feature_names_out(categorical_cols)

importancias = pd.Series(modelo_treinado.feature_importances_, index=nomes_features).sort_values(ascending=False)

# Top 20 features mais importantes
top_n = 20
importancias_top = importancias.head(top_n)

plt.figure(figsize=(12, 8))
sns.barplot(x=importancias_top.values, y=importancias_top.index, palette="crest")
plt.title(f"Top {top_n} Variáveis Mais Importantes - Random Forest", fontsize=14)
plt.xlabel("Importância", fontsize=12)
plt.ylabel("Variáveis", fontsize=12)
plt.tight_layout()
plt.show()

### 4.3.3. CatBoost: Ajustar os melhores hiperparâmetros de forma automática.

In [None]:
# Ajustando pipeline para uso com GridSearchCV
# Precisamos criar uma função para embutir o Pool do CatBoost, já que ele lida com categorias internamente
class CatBoostPipeline(Pipeline):
    def fit(self, X, y=None, **fit_params):
        # Identifica colunas categóricas por índice
        cat_features = [X.columns.get_loc(col) for col in X.select_dtypes(include='object').columns]
        self.steps[-1][1].fit(X, y, cat_features=cat_features)
        return self

    def predict(self, X, **predict_params):
        return self.steps[-1][1].predict(X)

# Novo pipeline com CatBoost
pipeline_cb = CatBoostPipeline(steps=[('modelo', CatBoostRegressor(verbose=0))])

param_grid_cb = {
    'modelo__depth': [4, 6, 8],
    'modelo__learning_rate': [0.01, 0.1],
    'modelo__iterations': [100, 200]
}

grid_cb = GridSearchCV(pipeline_cb, param_grid_cb, cv=3, scoring='neg_root_mean_squared_error')
grid_cb.fit(X_train, y_train)


melhores_param_cb = grid_cb.best_params_
melhor_rmse_cb = -grid_cb.best_score_

display(Markdown(f"""
### Resultados do CatBoost (GridSearchCV)
- **Melhores Parâmetros:** `{melhores_param_cb}`
- **Melhor RMSE (validação cruzada):** `{melhor_rmse_cb:,.2f}`
"""))

### 4.3.4. CatBoost: Visualizar as categorias mais influentes na previsão do preço.

In [None]:
# Importância das variáveis
modelo_cb = grid_cb.best_estimator_.named_steps['modelo']
importancias_cb = modelo_cb.get_feature_importance()
nomes_cb = X_train.columns

df_importancias = pd.Series(importancias_cb, index=nomes_cb).sort_values(ascending=False)

plt.figure(figsize=(8, 4))
sns.barplot(x=df_importancias.values, y=df_importancias.index)
plt.title("Importância das Variáveis - CatBoost")
plt.tight_layout()
plt.show()

## 4.4. Avaliação de Performance <a class="anchor" id="avaliacao-modelo"></a>



### 4.4.1. Análise comparativa entre os modelos

Antes de prosseguirmos com a avaliaão de performance dos modelos testados, seguem algumas métricas fundamentais úteis:

- **RMSE (Root Mean Squared Error)** – Penaliza mais erros grandes.
- **MAE (Mean Absolute Error)** – Mais robusta a outliers.
- **R² (Coeficiente de Determinação)** – Mede o quão bem os dados se ajustam à regressão.

In [None]:
# Previsões
y_pred_rf = grid_rf.predict(X_test)
y_pred_cb = grid_cb.predict(X_test)

# Função para consolidar as métricas
def avaliar_modelo(y_true, y_pred):
    return {
        'RMSE': mean_squared_error(y_true, y_pred),
        'MAE': mean_absolute_error(y_true, y_pred),
        'R²': r2_score(y_true, y_pred)
    }

# Avaliação dos modelos
avaliacao_rf = avaliar_modelo(y_test, y_pred_rf)
avaliacao_cb = avaliar_modelo(y_test, y_pred_cb)

# 🔹 Comparativo Final dos Modelos
avaliacao_rf = avaliar_modelo(y_test, y_pred_rf)
avaliacao_cb = avaliar_modelo(y_test, y_pred_cb)
df_resultados = pd.DataFrame([avaliacao_rf, avaliacao_cb], index=['Random Forest', 'CatBoost'])

display(Markdown("### Comparativo de Métricas dos Modelos (conjunto de teste):"))
display(df_resultados.style.format("{:,.2f}"))

In [None]:
import joblib

# Primeiro, pegue o melhor pipeline encontrado pelo GridSearchCV
melhor_pipeline = grid_cb.best_estimator_

# Agora, extraia APENAS o passo do modelo treinado de dentro do pipeline
modelo_final = melhor_pipeline.named_steps['modelo']

# Salve APENAS o modelo final. Este será um objeto CatBoostRegressor padrão.
joblib.dump(modelo_final, 'Modelo/Artefatos/modelo.bin')

print("Modelo CatBoost final salvo com sucesso!")

In [None]:
df_resultados.plot(kind='bar', figsize=(8, 5))
plt.title('Comparação de Desempenho dos Modelos')
plt.ylabel('Valor')
plt.xticks(rotation=0)
plt.legend(loc='best')
plt.tight_layout()
plt.show()

In [None]:

# Filtro apenas da métrica R²
r2_resultados = df_resultados[['R²']].copy().reset_index()
r2_resultados.columns = ['Modelo', 'R²']

# Plot
plt.figure(figsize=(7, 4))
sns.barplot(data=r2_resultados, x='Modelo', y='R²', palette='coolwarm')

plt.title("Comparativo do R² entre os Modelos")
plt.ylim(0, 1)
plt.ylabel("Coeficiente de Determinação (R²)")
plt.xlabel("Modelo")

# Adiciona os valores nas barras
for index, row in r2_resultados.iterrows():
    plt.text(x=index, y=row['R²'] + 0.02, s=f"{row['R²']:.2f}", ha='center', fontsize=10)

plt.tight_layout()
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()


# 5. Avaliação do Modelo <a class="anchor" id="avaliacao-modelo"></a>


Nesta etapa, avaliamos se os modelos treinados atendem aos objetivos do projeto, especialmente no que diz respeito à **precisão na estimativa dos gastos parlamentares**.

---


### 5.1 Avaliação da Performance dos Modelos <a class="anchor" id="avaliacao-da-performance-dos-modelos"></a>

Nesta etapa, avaliamos a performance dos modelos de regressão treinados para prever o valor líquido das despesas parlamentares (`vlrLiquidoTotal`). Foram aplicados dois algoritmos:

- **Random Forest Regressor**, com pré-processamento via OneHotEncoder.
- **CatBoost Regressor**, que lida nativamente com variáveis categóricas.

#### Métricas Utilizadas:

- **RMSE (Root Mean Squared Error)**: mede o erro quadrático médio. Quanto menor, melhor.
- **MAE (Mean Absolute Error)**: erro absoluto médio entre valores reais e previstos.
- **R² (Coeficiente de Determinação)**: mede o quanto o modelo explica da variabilidade dos dados.

#### Resultados Obtidos:

| Modelo         | RMSE                  | MAE           | R²    |
|----------------|------------------------|----------------|-------|
| Random Forest  | R$ 14.428.982.591,47   | R$ 55.159,50   | 0.56  |
| CatBoost       | R$ 8.963.990.729,78    | R$ 42.582,03   | 0.73  |

*Conclusão:* O **CatBoost superou o Random Forest** em todas as métricas avaliadas, especialmente no RMSE e no R², mostrando-se mais eficiente em prever o valor final das despesas com menor erro e maior capacidade explicativa.

---


### 5.2 Interpretação dos Resultados <a class="anchor" id="interpretacao-dos-resultados"></a>

A análise da importância das variáveis indicou que os fatores que mais influenciam o valor líquido das despesas são:

- **Tipo de Despesa (`txtDescricao`)**: foi a variável mais relevante em ambos os modelos.
- **UF e Partido**: também aparecem com forte impacto, indicando possíveis variações regionais e partidárias.
- **Ano (`numAno`)**: pode refletir padrões anuais de gastos ou ciclos eleitorais.

A partir dos gráficos gerados, foi possível visualizar:

- Os partidos e estados com maiores valores médios de despesas.
- O impacto médio por tipo de despesa.
- A comparação direta entre os modelos com gráficos de barras e o R² individual.

---

### 5.3 Revisão do Processo e Próximos Passos <a class="anchor" id="revisao-do-processo-e-proximos-passos"></a>

#### Revisão do Processo
O projeto seguiu todas as etapas da metodologia **CRISP-DM**, desde o entendimento do problema de negócio até a modelagem e avaliação:

1. Coleta de dados de diferentes anos do portal da Câmara.
2. Limpeza, integração e criação de variáveis derivadas.
3. Análise exploratória e visualizações interativas.
4. Modelagem preditiva com dois algoritmos robustos.
5. Avaliação com métricas de regressão e interpretação dos resultados.

#### Próximos Passos

- **Implantar uma API com FastAPI** que disponibilize o modelo CatBoost para uso em produção (endpoint `/predict`).
- **Salvar artefatos do modelo** (`.pkl` ou `.cbm`) e aplicá-los no backend.
---


# 6. Aplicação prática (Deployment)

## Descrever como foi implementada a API.