# **Ciência de Dados e Machine Learning**

## **Projeto Final do Curso**

---

### **Alunos:**

> Charles Bezerra - 52400351

> Jheferson Warley - 52400071

> Paulo Machado - 52400245

---

### Tema: **Despesas pela Cota para Exercício da Atividade Parlamentar**

### Base de Dados: https://dadosabertos.camara.leg.br/swagger/api.html?tab=staticfile

---

Este projeto final do curso de **Ciência de Dados e Machine** Learning do UniCEUB se baseia na metodologia *Cross-Industry Standard Process for Data Mining - CRISP-DM* (https://www.sv-europe.com/crisp-dm-methodology/), oferecendo uma abordagem estruturada para planejar um projeto de mineração de dados de uma forma robusta.

Este modelo representa uma sequência idealizada de eventos. Na prática, muitas das tarefas podem ser realizadas em uma ordem diferente, e frequentemente será necessário voltar a tarefas anteriores e repetir certas ações.

<div>
<img src="FasesCRISP-DM.png" width="50%">
</div>

---

## **Etapas do Processo CRISP-DM**

### 1. [Entendimento do Negócio](#business-understanding)
Compreensão dos objetivos de negócio, contexto organizacional e definição das metas analíticas.

- [1.1 Avaliação da Situação Atual](#avaliacao-da-situacao)
- [1.2 Resultados Esperados](#resultados-esperados)
- [1.3 Questões de Pesquisa](#questoes-de-pesquisa)
<!-- - [1.4 Plano de Projeto](#plano-do-projeto) -->

---

### 2. [Entendimento dos Dados](#entendimento-dados)
Exploração inicial dos dados, coleta e verificação da qualidade.

- [2.1 Relatorio Inicial](#relatorio-inicial)
- [2.2 Descrição dos Dados](#descricao-dados)
- [2.3 Exploração dos Dados](#exploracao-dados)
- [2.4 Verificação da Qualidade dos Dados](#qualidade-dos-dados)

---

### 3. [Preparação dos Dados](#preparacao-dados)
Construção do dataset final que será utilizado para modelagem.

- [3.1 Seleção dos Dados](#selecao-dados)
- [3.2 Limpeza dos Dados](#limpeza-dados)
- [3.3 Construção de Dados Derivados](#dados-derivados)
- [3.4 Integração de Dados](#integracao-dados)
- [3.5 Análise Exploratória de Dados](#analise-dados)

---

### 4. [Modelagem](#modelagem)
Aplicação de técnicas de modelagem estatística ou de machine learning.

- [5.1 Técnicas de Modelagem](#tecnicas-modelagem)
- [5.2 Teste de Modelos](#teste-modelos)
- [5.3 Construção dos Modelos](#construcao-modelo)
- [5.4 Avaliação de Performance](#avaliacao-modelo)

---

### 5. [Avaliação](#avaliacao-modelo)
Verificação se o modelo atende os objetivos de negócio definidos.

- [6.1 Regressão Logística](#regressao-logistica)
- [6.2 Revisão do Processo](#revisao-processo)
- [6.3 Determinação dos Próximos Passos](#proximos-passos)

---

### 6. [Implementação (Deployment)](#implementacao)
Entrega prática do modelo, seja em relatório, dashboard, sistema ou API.

- [6.1 Planejamento da Implementação](#planejamento-implementacao)
- [6.2 Monitoramento e Manutenção](#monitoramento)
- [6.3 Documentação Final](#documentacao-final)


## 1. Entendimento do Negócio  <a class="anchor" id="business-understanding"></a>

Atualmente, o cenário político brasileiro se mostra em foco, principalmente quando se trata de despesas relacionadas à sustentação do governo como todo. Neste contexto, as despesas parlamentares, limitadas por uma cota, são frequentemente noticiadas devido a seu alto custo. As cotas parlamentares variam conforme o estado do deputado e é destinado ao custeio de despesas relacionadas ao exercício do mandato. As despesas incluem passagens aéreas, locomoção, hospedagens, serviços de segurança, divulgação de atividades parlamentares e contratação de pessoal.


A Câmara dos Deputados divulga através da plataforma de dados abertos do governo (https://dadosabertos.camara.leg.br/swagger/api.html?tab=staticfile) as despesas refentes ao consumo de cotas separadas por ano, Deputado, UF, tipo de despesas, entre outras classificações. Os arquivos podem ser baixador por ano, disponíveis desde o ano 2018, nos formatos XML, JSON, CSV, XLSX e ODS.


Para este projeto, selecionamos os dados relativos ao ano de 2024 (ano completo mais recente) com arquivos no formato CSV para melhor tratamento dos dados.



## 1.1 Avaliação da Situação Atual<a class="anchor" id="avaliacao-da-situacao"></a>

A transparência nos gastos públicos tem ganhado relevância nos debates sociais e institucionais, principalmente no contexto político brasileiro. A Câmara dos Deputados disponibiliza, por meio do portal de Dados Abertos, informações detalhadas sobre a utilização da Cota para o Exercício da Atividade Parlamentar (CEAP), que contempla diversos tipos de despesas efetuadas pelos parlamentares no desempenho de suas funções.

Apesar da disponibilidade dos dados, observa-se uma subutilização dessas informações por parte da sociedade civil e dos órgãos fiscalizadores. O volume e a complexidade dos dados dificultam análises diretas e conclusivas, exigindo ferramentas adequadas de tratamento, análise e visualização. Diante disso, este projeto visa utilizar técnicas de análise de dados e aprendizado de máquina para transformar os dados brutos em insights relevantes e acessíveis.

## 1.2 Resultados Esperados<a class="anchor" id="resultaods-esperados"></a>

Este projeto tem como objetivo geral analisar os gastos parlamentares por meio da base de dados da CEAP, abrangendo os anos de 2023, 2024 e 2025. Os resultados esperados incluem:

- Desenvolvimento de relatórios e dashboards analíticos para visualização dos dados por deputado, partido político, unidade federativa (UF), tipo de despesa, fornecedor e período (mês e ano).
- Análises estatísticas descritivas e comparativas, a fim de identificar padrões de gastos e variações relevantes entre diferentes grupos.
- Detecção de anomalias e possíveis irregularidades nos registros de despesas.
- Aplicação de técnicas de aprendizado de máquina (Machine Learning) com o objetivo de construir modelos preditivos capazes de estimar os gastos parlamentares futuros por partido ou UF, com base nos dados históricos.

O projeto segue a metodologia CRISP-DM, com foco na reprodutibilidade dos resultados e na criação de documentação clara e acessível.

## 1.3 Questões de Pesquisa<a class="anchor" id="questoes-de-pesquisa"></a>

O projeto é orientado por um conjunto de questões exploratórias e preditivas, que servirão como guia para as etapas analíticas e de modelagem.

### Questões Exploratórias

- Quais partidos políticos apresentaram os maiores volumes de gasto no período analisado?
- Quais unidades federativas concentram os maiores gastos?
- Quais são os tipos de despesa mais recorrentes e qual seu impacto nos valores totais?
- Como os gastos variam ao longo do tempo? Existe sazonalidade ou tendência?
- Há fornecedores recorrentes nos maiores gastos? Qual seu perfil?

### Questões Preditivas

- É possível prever os gastos parlamentares futuros com base no histórico de dados?
- Quais variáveis mais influenciam no volume de gastos (ex.: partido, UF, tipo de despesa, mês)?
- Quais partidos ou unidades federativas têm maior propensão a apresentar aumentos nos gastos em futuros mandatos?

Estas perguntas direcionam a construção dos indicadores, visualizações e modelos preditivos ao longo do projeto.

# 2. Entendimento dos Dados <a class="anchor" id="entendimento-dados"></a>
A etapa de entendimento dos dados tem como objetivo fornecer uma visão inicial e aprofundada da estrutura, conteúdo e qualidade do conjunto de dados disponível para análise. Trata-se de uma fase fundamental no processo analítico, pois permite identificar características importantes dos dados, potenciais inconsistências, ausência de valores e padrões que podem influenciar diretamente na preparação, modelagem e interpretação dos resultados.


## 2.1 Relatório Inicial <a class="anchor" id="relatorio-inicial"></a>
O conjunto de dados utilizado neste projeto refere-se às despesas parlamentares registradas na Cota para o Exercício da Atividade Parlamentar (CEAP), compreendendo os anos de 2023, 2024 e 2025. Os dados foram extraídos da API pública da Câmara dos Deputados, que disponibiliza os registros em diversos formatos. Para este trabalho, optou-se pelo formato `.csv`, considerando a facilidade de leitura e manipulação em ambientes Python.


In [None]:
# Importação das Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, Markdown

In [None]:
# Leitura dos dados
df_2023 = pd.read_csv("DataBase/Ano-2023.csv", sep=";", encoding="utf-8", low_memory=False)
df_2024 = pd.read_csv("DataBase/Ano-2024.csv", sep=";", encoding="utf-8", low_memory=False)
df_2025 = pd.read_csv("DataBase/Ano-2025.csv", sep=";", encoding="utf-8", low_memory=False)

# Combinação dos três dataframes
df_completo = pd.concat([df_2023, df_2024, df_2025], ignore_index=True)

In [None]:
# Exibição das 5 primeiras linhas
display(df_completo.head())

## 2.2 Descrição dos Dados <a class="anchor" id="descricao-dados"></a>
A seguir, são apresentados o nome das colunas disponíveis no dataset e o seu formato dimensional (linhas x colunas).



A tabela abaixo apresenta a descrição de cada uma das variáveis disponíveis no conjunto de dados utilizado.

| Nome da Coluna                 | Descrição                                                        |
|-------------------------------|------------------------------------------------------------------|
| `txNomeParlamentar`           | Nome do parlamentar                                              |
| `cpf`                         | CPF do parlamentar (quando disponível)                          |
| `ideCadastro`                 | ID único do parlamentar                                          |
| `nuCarteiraParlamentar`       | Número da carteira parlamentar                                   |
| `nuLegislatura`               | Número da legislatura em exercício                               |
| `sgUF`                        | Unidade Federativa (estado)                                      |
| `sgPartido`                   | Sigla do partido político                                        |
| `codLegislatura`              | Código da legislatura                                            |
| `numSubCota`                  | Código da subcota utilizada                                      |
| `txtDescricao`                | Descrição da subcota                                             |
| `numEspecificacaoSubCota`     | Código da especificação da subcota                               |
| `txtDescricaoEspecificacao`   | Descrição detalhada da subcota                                   |
| `txtFornecedor`               | Nome do fornecedor                                               |
| `txtCNPJCPF`                  | CNPJ ou CPF do fornecedor                                        |
| `txtNumero`                   | Número do documento fiscal                                       |
| `indTipoDocumento`            | Tipo do documento (nota fiscal, recibo, etc.)                   |
| `datEmissao`                  | Data de emissão do documento                                     |
| `vlrDocumento`                | Valor bruto do documento                                         |
| `vlrGlosa`                    | Valor glosado/desconsiderado                                     |
| `vlrLiquido`                  | Valor líquido aceito                                             |
| `numMes`                      | Mês de referência da despesa                                     |
| `numAno`                      | Ano de referência da despesa                                     |
| `numParcela`                  | Número da parcela, quando aplicável                              |
| `txtPassageiro`               | Nome do passageiro (se transporte aéreo)                         |
| `txtTrecho`                   | Trecho da viagem (ida/volta)                                     |
| `numLote`                     | Número do lote do documento                                      |
| `numRessarcimento`            | Número de protocolo de ressarcimento                             |
| `datPagamentoRestituicao`     | Data do pagamento de restituição                                 |
| `vlrRestituicao`              | Valor restituído                                                 |
| `nuDeputadoId`                | ID único do deputado                                             |
| `ideDocumento`                | ID do documento                                                  |
| `urlDocumento`                | Link para o documento oficial                                    |


In [None]:
# Nomes das colunas
df_completo.columns

In [None]:
# Dimensão do dataframe
df_completo.shape

## 2.3 Exploração dos Dados <a class="anchor" id="exploracao-dados"></a>

Essa etapa visa obter uma visão geral das características dos dados, incluindo tipos de variáveis, estatísticas descritivas e primeiros insights de distribuição.

In [None]:
# Verificação de duplicatas
df_completo.duplicated().sum()

In [None]:
# Estatísticas descritivas
df_completo.describe(include='all')

In [None]:
# Estatísticas descritivas
df_completo.info()

In [None]:
# Verificando valores nulos por coluna
df_completo.isnull().sum().sort_values(ascending=False)

In [None]:
# Verificando a quantidade de valores únicos em algumas colunas-chave
print("UFs:", df_completo['sgUF'].nunique())
print("Partidos:", df_completo['sgPartido'].nunique())
print("Tipos de despesa:", df_completo['txtDescricao'].nunique())

In [None]:
# Distribuição dos principais campos categóricos
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, Markdown

# UF
uf_counts = df_completo['sgUF'].value_counts().reset_index()
uf_counts.columns = ['UF', 'Total de Registros']
display(Markdown("### Distribuição por Unidade Federativa"))
plt.figure(figsize=(10,5))
ax1 = sns.barplot(data=uf_counts, x='UF', y='Total de Registros', palette='Blues_d')
plt.title('Distribuição por Unidade Federativa')
plt.xlabel('UF')
plt.ylabel('Total de Registros')
plt.xticks(rotation=45)
for p in ax1.patches:
    ax1.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                 ha='center', va='bottom', fontsize=9, color='black', xytext=(0, 3), textcoords='offset points')
plt.tight_layout()
plt.show()

# Partido
partido_counts = df_completo['sgPartido'].value_counts().reset_index()
partido_counts.columns = ['Partido', 'Total de Registros']
display(Markdown("### Distribuição por Partido"))
plt.figure(figsize=(12,5))
ax2 = sns.barplot(data=partido_counts, x='Partido', y='Total de Registros', palette='Greens_d')
plt.title('Distribuição por Partido')
plt.xlabel('Partido')
plt.ylabel('Total de Registros')
plt.xticks(rotation=45)
for p in ax2.patches:
    ax2.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                 ha='center', va='bottom', fontsize=9, color='black', xytext=(0, 3), textcoords='offset points')
plt.tight_layout()
plt.show()

# Tipo de Despesa
# Exibir apenas os 15 principais tipos para melhor visualização
despesa_counts = df_completo['txtDescricao'].value_counts().reset_index()
despesa_counts.columns = ['Tipo de Despesa', 'Total de Registros']
display(Markdown("### Distribuição por Tipo de Despesa (Top 15)"))
plt.figure(figsize=(12,6))
ax3 = sns.barplot(data=despesa_counts.head(15), x='Tipo de Despesa', y='Total de Registros', palette='Oranges_d')
plt.title('Distribuição por Tipo de Despesa (Top 15)')
plt.xlabel('Tipo de Despesa')
plt.ylabel('Total de Registros')
plt.xticks(rotation=75)
for p in ax3.patches:
    ax3.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                 ha='center', va='bottom', fontsize=9, color='black', xytext=(0, 3), textcoords='offset points')
plt.tight_layout()
plt.show()

## 2.4 Verificação da Qualidade dos Dados<a class="anchor" id="qualidade-dos-dados"></a>
Abaixo está um resumo quantitativo da qualidade dos dados após a análise exploratória inicial.

In [None]:
# Resumo geral do dataset
resumo_geral = pd.DataFrame({
    "Indicador": [
        "Total de registros",
        "Total de variáveis (colunas)",
        "Registros duplicados",
        "Valores inconsistentes (vlrDocumento < vlrLiquido)",
        "Total valor liquido negativo",
        "Total UF NULOS"
    ],
    "Valor": [
        df_completo.shape[0],
        df_completo.shape[1],
        df_completo.duplicated().sum(),
        (df_completo['vlrDocumento'] < df_completo['vlrLiquido']).sum(),
        (df_completo['vlrLiquido'] < 0 ).sum(),
    ]
})

display(Markdown("### Resumo Geral da Base de Dados"))
display(resumo_geral)

# Colunas com valores nulos
nulls = df_completo.isnull().sum()
nulls = nulls[nulls > 0].sort_values(ascending=False).reset_index()
nulls.columns = ['Coluna', 'Valores Nulos']

display(Markdown("### Colunas com Valores Ausentes"))
display(nulls)

# 3. Preparação dos Dados <a class="anchor" id="preparacao-dados"></a>


Nesta etapa, realizamos o tratamento necessário para transformar os dados brutos em uma base estruturada e adequada para aplicação de modelos de aprendizado supervisionado. As ações incluem: seleção e limpeza de dados, geração de atributos derivados e integração das bases históricas.


## 3.1 Seleção dos Dados <a class="anchor" id="selecao-dados"></a>

Nesta etapa inicial da **Preparação dos Dados**, realizamos a seleção criteriosa das variáveis mais relevantes para o problema de predição do **valor líquido da despesa parlamentar (`vlrLiquido`)**.

O objetivo é filtrar os dados brutos e manter somente as informações que possuem **relação direta com o comportamento dos gastos parlamentares**, otimizando o desempenho dos algoritmos de machine learning.

---

#### 🔸 Critérios de Seleção

Selecionamos as colunas que possuem potencial explicativo e que apresentam valor informacional para o modelo supervisionado. As variáveis escolhidas foram:

- **`txNomeParlamentar`**: nome do deputado. Utilizada para gerar uma feature derivada de custo total por parlamentar.
- **`sgUF`**: unidade federativa, que pode refletir realidades regionais de gastos.
- **`sgPartido`**: partido político, possível fator explicativo para padrões de despesa.
- **`txtDescricao`**: tipo de despesa (ex: alimentação, aluguel, combustível).
- **`vlrDocumento`**: valor bruto do documento fiscal apresentado.
- **`numMes` e `numAno`**: período da despesa, para análise sazonal ou temporal.
- **`vlrLiquido`**: variável-alvo que será predita pelo modelo.

---


In [None]:
# # Seleção de colunas relevantes
# colunas_selecionadas = [
#     'sgUF', 'sgPartido','numMes', 'numAno', 'vlrLiquido']

# df_modelo = df_completo[colunas_selecionadas].copy()

# # Custo total por ano (valor agregado no projeto)
# custo_anual = df_modelo.groupby('sgUF', 'sgPartido','numMes', 'numAno', 'vlrLiquido')['vlrLiquido'].transform('sum')
# df_modelo['custo_total_anual'] = custo_anual

# from IPython.display import display, Markdown
# display(Markdown("**Amostra da base com colunas selecionadas e nova feature de custo por parlamentar:**"))
# display(df_modelo.head())


## 3.2 Limpeza dos Dados <a class="anchor" id="limpeza-dados"></a>


Nesta etapa, realizamos uma série de ações de limpeza para garantir que os dados utilizados nos modelos estejam consistentes, sem ruídos e com alta qualidade informacional. A preparação adequada dos dados é essencial para que qualquer modelo de aprendizado de máquina produza resultados confiáveis.

As ações tomadas nesta fase incluem:

---

#### 🔸 Remoção de Registros Inconsistentes

Eliminamos os registros em que o valor líquido (`vlrLiquido`) era superior ao valor bruto do documento (`vlrDocumento`). Essa inconsistência viola a lógica financeira da base de dados e poderia comprometer análises futuras. Esses registros foram identificados, quantificados e removidos de forma criteriosa.

---

#### 🔸 Tratamento de Valores Negativos

Foram identificados valores negativos na coluna `vlrLiquido` — o que não representa um cenário válido para gastos parlamentares. Esses valores estavam presentes em todas as bases de 2023, 2024 e 2025:

- **2023:** 9.383 registros
- **2024:** 10.327 registros
- **2025:** 2.626 registros

Todos foram removidos após verificação e exibição de amostras por ano. A limpeza foi validada com uma checagem final, confirmando que **nenhum valor negativo permaneceu**.

---

#### 🔸 Eliminação de Registros com Valores Ausentes (NaN)

Após a seleção e transformação das colunas relevantes, identificamos **2.135 registros com valores ausentes**, totalizando **4.270 células com `NaN`**. Esses dados foram descartados para evitar viés no processo de modelagem, uma vez que a imputação poderia comprometer a acurácia dos modelos.

---

#### 🔸 Remoção de Registros Duplicados

Realizamos a verificação de duplicatas no conjunto de dados e removemos entradas repetidas para garantir que cada linha representasse uma observação única. Essa prática evita sobrepeso em certas categorias e garante imparcialidade nas análises estatísticas.

---

#### 🔸 Remoção de Colunas Desnecessárias

Foram excluídas colunas que não contribuíam para os objetivos do projeto, como identificadores únicos (`CPF`, `CNPJ`, códigos legislativos), atributos com alta cardinalidade ou informações redundantes. Essa etapa reduziu a complexidade do modelo e aumentou a interpretabilidade.

---

#### 🔸 Criação de Feature Agregada: `custo_total_parlamentar`

Para enriquecer a base de dados, criamos a variável `custo_total_parlamentar`, que representa o total de gastos acumulados por parlamentar ao longo dos anos. Essa feature é útil tanto para análises descritivas quanto para futuras previsões.

---

###  Resultado Final

Após todas as etapas de limpeza, o novo DataFrame final (`df_modelo`) apresenta:

- **518.989 registros**
- **9 colunas relevantes**
- Nenhum valor `NaN` ou negativo
- Dados prontos para modelagem supervisionada

---

####  Amostra dos dados tratados:

| txNomeParlamentar | sgUF | sgPartido | txtDescricao | vlrDocumento | numMes | numAno | vlrLiquido | custo_total_parlamentar |
|-------------------|------|-----------|-----------------------------|----------------|---------|--------|-------------|--------------------------|
| Danilo Forte      | CE   | UNIÃO     | MANUTENÇÃO DE ESCRITÓRIO... | 400.00         | 1       | 2023   | 400.00      | 1.389.529,54             |
| Danilo Forte      | CE   | UNIÃO     | MANUTENÇÃO DE ESCRITÓRIO... | 2.215.00       | 1       | 2023   | 2.215.00    | 1.389.529,54             |
| ...               | ...  | ...       | ...                         | ...            | ...     | ...    | ...         | ...                      |

---



In [None]:
# Caminhos corrigidos com separador ";"
arquivos = {
    '2023': 'DataBase/Ano-2023.csv',
    '2024': 'DataBase/Ano-2024.csv',
    '2025': 'DataBase/Ano-2025.csv'
}

# Lista para armazenar os DataFrames limpos
dfs_limpos = []

display(Markdown("## Limpeza de valores negativos em `vlrLiquido` por ano"))

# Loop pelos arquivos
for ano, caminho in arquivos.items():
    # Leitura com separador ";" e encoding
    df = pd.read_csv(caminho, sep=';', encoding='utf-8', low_memory=False)
    
    # Conversão segura para float
    df['vlrLiquido'] = pd.to_numeric(df['vlrLiquido'], errors='coerce')
    
    # Identificação de negativos
    negativos_df = df[df['vlrLiquido'] < 0]
    qtd_negativos = negativos_df.shape[0]

    # Exibição dos resultados
    display(Markdown(f"### Limpeza de valores negativos na base de {ano}"))
    display(Markdown(f"**Total de registros negativos encontrados:** `{qtd_negativos}`"))

    if qtd_negativos > 0:
        display(negativos_df[['txNomeParlamentar', 'sgUF', 'sgPartido', 'vlrLiquido']].head())
    
    # Remoção dos registros negativos
    df = df[df['vlrLiquido'] >= 0]
    
    # Adiciona a coluna de ano para controle futuro
    df['ano_base'] = int(ano)
    
    # Salva na lista
    dfs_limpos.append(df)

# Unificação dos DataFrames limpos
df_completo = pd.concat(dfs_limpos, ignore_index=True)

# Exibição final
display(Markdown("## Dados unificados e limpos com sucesso"))
display(Markdown(f"**Total de registros no `df_completo`:** `{df_completo.shape[0]}`"))
display(Markdown(f"**Total de variáveis:** `{df_completo.shape[1]}`"))
display(df_completo.head())


In [None]:

# Verificando se restaram valores negativos após a limpeza
negativos_restantes = df_completo[df_completo['vlrLiquido'] < 0]
qtd_restantes = negativos_restantes.shape[0]

# Exibir o resultado da verificação
if qtd_restantes == 0:
    display(Markdown(" **Nenhum valor negativo encontrado na coluna `vlrLiquido`. A limpeza foi bem-sucedida!**"))
else:
    display(Markdown(f" **Ainda existem `{qtd_restantes}` registros com valores negativos em `vlrLiquido`.**"))
    display(negativos_restantes[['txNomeParlamentar', 'sgUF', 'sgPartido', 'vlrLiquido']].head())


In [None]:
#Continuação do 3.1 Seleção dos Dados com os dados limpos 

# 2️ - Seleção de colunas relevantes e criação da nova feature
colunas_selecionadas = [
    'txNomeParlamentar', 'sgUF', 'sgPartido', 'txtDescricao',
    'vlrDocumento', 'numMes', 'numAno', 'vlrLiquido'
]

# Cria uma nova base apenas com as colunas relevantes
df_modelo = df_completo[colunas_selecionadas].copy()

# 3️ - Criação da coluna de custo total por parlamentar
df_modelo['custo_total_parlamentar'] = df_modelo.groupby('txNomeParlamentar')['vlrLiquido'].transform('sum')

# 4️ - Exibição final
from IPython.display import display, Markdown
display(Markdown("### Amostra da base `df_modelo` com coluna `custo_total_parlamentar`:"))
display(df_modelo.head())

In [None]:

# 1️ Identificar registros com valores ausentes
na_total = df_modelo.isnull().sum().sum()
linhas_nan = df_modelo[df_modelo.isnull().any(axis=1)]

display(Markdown("## Verificação de valores ausentes (`NaN`) em `df_modelo`"))
display(Markdown(f"**Total de registros com valores ausentes:** `{linhas_nan.shape[0]}`"))
display(Markdown(f"**Total de valores `NaN` na base:** `{na_total}`"))

if linhas_nan.shape[0] > 0:
    display(Markdown("**Exemplo de registros com valores ausentes:**"))
    display(linhas_nan.head())

# 2️ Remover registros com qualquer valor ausente
df_modelo = df_modelo.dropna().reset_index(drop=True)

# 3️ Exibir como ficou a base depois da limpeza
display(Markdown("##  `df_modelo` após remoção dos registros com valores ausentes"))
display(Markdown(f"**Total de registros restantes:** `{df_modelo.shape[0]}`"))
display(Markdown(f"**Total de colunas:** `{df_modelo.shape[1]}`"))
display(df_modelo.head())


In [None]:
# Remover registros onde vlrLiquido > vlrDocumento
df_modelo = df_modelo[df_modelo['vlrLiquido'] <= df_modelo['vlrDocumento']].reset_index(drop=True)

display(Markdown("✅ **Registros inconsistentes removidos com sucesso!**"))



In [None]:
# Criar a coluna faixa_valor com base no valor líquido
df_modelo['faixa_valor'] = pd.cut(
    df_modelo['vlrLiquido'],
    bins=[0, 250, 1000, 2500, 10000, float('inf')],
    labels=['Muito Baixo', 'Baixo', 'Médio', 'Alto', 'Muito Alto']
)

display(Markdown("✅ **Coluna `faixa_valor` recriada com sucesso!**"))
display(df_modelo[['vlrLiquido', 'faixa_valor']].sample(5))



Nesta etapa, realizamos um processo criterioso de saneamento da base de dados, com o objetivo de **garantir a integridade, consistência e confiabilidade das informações** que alimentarão os modelos de aprendizado supervisionado.

A limpeza dos dados é uma fase crítica, pois **modelos de Machine Learning são altamente sensíveis a ruídos, valores inválidos e informações incompletas**. Um dado inconsistente pode comprometer toda a performance do modelo — e pior, gerar conclusões enganosas para decisões reais.

### Ações realizadas:

1. **Remoção de valores negativos em `vlrLiquido`:**  
   Foram detectados e eliminados milhares de registros com valores negativos, o que representa **erros claros de entrada de dados**. Como o `vlrLiquido` representa o valor final pago em uma despesa, não é plausível que ele seja negativo.

2. **Eliminação de registros com `vlrLiquido` maior que `vlrDocumento`:**  
   Foram identificados **2 registros** em que o valor líquido ultrapassava o valor bruto do documento, o que é logicamente incorreto. Esses registros foram removidos.

3. **Remoção de valores ausentes (`NaN`)**  
   Após as transformações e construções de variáveis, foram encontrados **2.135 registros com valores ausentes** em colunas relevantes. Esses registros foram removidos para **evitar viés nos algoritmos de predição** e assegurar que todas as variáveis estejam completas.

4. **Exclusão de colunas irrelevantes ao modelo:**  
   Diversas colunas foram descartadas por não contribuírem para a modelagem ou por conterem informações sensíveis e desnecessárias (como CPF, CNPJ, códigos internos da Câmara, etc.).

5. **Reconstrução da variável `faixa_valor`:**  
   Foi recriada uma variável categórica com base no valor líquido (`vlrLiquido`), segmentando os gastos em faixas como:
   - Muito Baixo (até R$250)
   - Baixo (até R$1.000)
   - Médio (até R$2.500)
   - Alto (até R$10.000)
   - Muito Alto (acima de R$10.000)

   Essa variável poderá ser **utilizada em análises estatísticas, visualizações e até como feature para modelos classificatórios**.

---

### Benefícios diretos dessa etapa:

- **Redução de ruídos** que impactariam negativamente na acurácia dos modelos.
- **Evita o overfitting** com dados duplicados ou corrompidos.
- **Aumenta a confiabilidade das previsões**, ao garantir que os dados sigam uma lógica de negócios clara.
- **Permite extração de insights mais precisos**, facilitando comparações, agrupamentos e análises de tendência.



## 3.3 Construção de Dados Derivados   <a class="anchor" id="dados-derivados"></a>


Nesta etapa do CRISP-DM, realizamos a **engenharia de atributos** — um passo estratégico onde criamos novas variáveis a partir das já existentes com o objetivo de enriquecer a base de dados, ampliar a capacidade preditiva dos modelos e facilitar análises exploratórias.

### Objetivo
Criar **atributos derivados** que ajudem a capturar padrões de comportamento de gastos dos parlamentares ao longo do tempo, considerando variáveis como UF, partido político e tipos de despesas.

---

### Variáveis Derivadas Criadas:

1. **`gasto_uf`**: soma do valor líquido (`vlrLiquido`) por UF  
   → Ajuda a entender qual estado apresenta maior volume de gastos.

2. **`gasto_partido`**: soma do valor líquido por partido político (`sgPartido`)  
   → Permite investigar se há padrão de gasto por filiação partidária.

3. **`vlr_medio_por_tipo`**: valor médio por tipo de despesa (`txtDescricao`)  
   → Evidencia quais tipos de despesa têm maior custo médio.

4. **`ano_mes`**: coluna criada combinando `numAno` e `numMes`  
   → Facilita análises temporais e séries históricas.

5. **`faixa_valor`**: categorização dos valores líquidos em faixas ("Até 500", "500–1000", "1000–2000", "Acima de 2000")  
   → Essencial para entender a distribuição dos valores e criar segmentações visuais.

---

### Benefícios das variáveis derivadas para o modelo

-  **Aumentam o poder explicativo dos modelos supervisionados**, ao fornecer mais contexto.
-  **Melhoram a visualização e a interpretação dos dados**, tanto em análises exploratórias quanto em relatórios gerenciais.
-  **Permitem identificar padrões, desvios ou inconsistências** com mais facilidade.
-  **Transformam dados brutos em informações mais robustas e contextualizadas**, aproximando os dados da realidade do negócio.




In [None]:
# 3.3 Construção de Dados Derivados


# Média de gastos mensais por parlamentar
gastos_mensais = df_modelo.groupby(['txNomeParlamentar', 'numAno', 'numMes'])['vlrLiquido'].sum().reset_index()
media_mensal = gastos_mensais.groupby('txNomeParlamentar')['vlrLiquido'].mean()
df_modelo['media_mensal_parlamentar'] = df_modelo['txNomeParlamentar'].map(media_mensal)

# Total de gasto por UF
gasto_uf = df_modelo.groupby('sgUF')['vlrLiquido'].sum()
df_modelo['gasto_uf'] = df_modelo['sgUF'].map(gasto_uf)

# Total de gasto por partido
gasto_partido = df_modelo.groupby('sgPartido')['vlrLiquido'].sum()
df_modelo['gasto_partido'] = df_modelo['sgPartido'].map(gasto_partido)

# Quantidade de despesas por parlamentar
qtd_despesas = df_modelo['txNomeParlamentar'].value_counts()
df_modelo['qtd_despesas_parlamentar'] = df_modelo['txNomeParlamentar'].map(qtd_despesas)

# Valor médio por tipo de despesa
vlr_medio_tipo = df_modelo.groupby('txtDescricao')['vlrLiquido'].mean()
df_modelo['vlr_medio_por_tipo'] = df_modelo['txtDescricao'].map(vlr_medio_tipo)

# Exibição
display(Markdown("## Novas variáveis derivadas adicionadas com sucesso"))
display(Markdown(f"**Shape atual do `df_modelo`:** {df_modelo.shape[0]} registros e {df_modelo.shape[1]} colunas"))
display(df_modelo.head())


## 3.4 Integração de Dados  <a class="anchor" id="integracao-dados"></a>


Nesta etapa, consolidamos os dados de diferentes anos (2023, 2024 e 2025) em um único DataFrame (`df_completo`). Isso foi fundamental para garantir que a análise futura tenha **visão longitudinal** e **comparabilidade temporal**.

### Ações realizadas:
- Leitura dos arquivos separados por ano, com estrutura padronizada
- Conversão de tipos de dados (ex: `vlrLiquido` como float)
- Inclusão da coluna `ano_base` para identificação da origem temporal
- Remoção de registros inválidos (valores negativos, `NaN`)
- Eliminação de registros duplicados
- Concatenação das três bases em um único conjunto integrado

### Benefícios da Integração:
- Permite análises históricas e temporais
- Garante coesão estrutural para uso em modelos preditivos
- Aumenta o volume de dados, fortalecendo a robustez estatística



In [None]:
# Verificando se existe a coluna 'ano_base'
print(df_completo['ano_base'].unique())  # Deve retornar: [2023, 2024, 2025]

# Verificando a quantidade de registros por ano
df_completo['ano_base'].value_counts()

# Verificando duplicatas (caso já não tenha sido feito)
duplicatas = df_completo.duplicated()
print(f"Total de registros duplicados: {duplicatas.sum()}")

display(Markdown("""
### 🔗 Integração de Dados Realizada com Sucesso

Durante a etapa 3.4 da metodologia CRISP-DM, realizamos a integração das bases históricas de **gastos parlamentares dos anos de 2023, 2024 e 2025**. A consolidação foi feita com base na padronização das colunas e no uso da variável `ano_base` para identificar a origem de cada registro.

#### ✅ Validações realizadas:

- **Anos presentes na base integrada**: `2023`, `2024`, `2025`
- **Verificação de duplicatas**: Nenhum registro duplicado encontrado (`0 registros duplicados`)

Essas validações garantem que o `DataFrame df_completo` está pronto para ser utilizado nas próximas etapas do projeto, com **confiança na qualidade e integridade dos dados**.
"""))

### Construct Our Primary Data Set
Join data

## 3.5. Análise Exploratória dos Dados (EDA) <a class="anchor" id="analise-dados"></a>

A fase de Análise Exploratória de Dados (EDA) é crucial para aprofundar nosso entendimento sobre as despesas parlamentares. O objetivo aqui é utilizar visualizações e estatísticas para descobrir padrões, identificar anomalias e responder às questões exploratórias que levantamos na primeira fase do projeto.
Para conduzir esta análise de forma estruturada, seguiremos um caminho que vai do geral ao específico, dividido em três abordagens principais:

1.  **Visão Agregada dos Gastos:** Iniciaremos com uma visão macro, utilizando gráficos de barras para identificar os principais atores e fatores de custo. Analisaremos os totais e médias de gastos para responder a perguntas como:
    * Quais parlamentares acumularam os maiores custos?

    * Quais UFs e Partidos concentram o maior volume financeiro?
    * Quais tipos de despesa possuem o maior valor médio por transação?

2.  **Análise da Distribuição dos Valores:** Em seguida, vamos além dos totais e médias. Com o uso de boxplots, investigaremos a **distribuição** dos valores de despesa (`vlrLiquido`) dentro das principais categorias (Partido e UF). Isso nos ajudará a entender a variabilidade, a mediana dos gastos e a presença de valores discrepantes em cada grupo.

3.  **Análise de Perfil Específico (Drill-Down):** Por fim, faremos uma análise de "drill-down", focando em um insight específico obtido na primeira etapa. Vamos isolar o parlamentar com o maior gasto acumulado e investigar em detalhe o seu perfil de despesas, entendendo quais são suas categorias mais frequentes.

Ao final desta seção, teremos um conjunto de insights visuais que não apenas respondem às nossas questões, mas também fornecem uma base sólida para as decisões que tomaremos na etapa de **Modelagem**.


### **Análise das Principais Dimensões de Gasto**


### 1️ - Top 5 Parlamentares por Custo Total
> **O que mostra:** Os parlamentares com maior volume de gastos no período analisado.  
> **Insight:** Permite identificar concentrações de gastos por indivíduo e investigar comportamentos fora do padrão.

### 2️ - Top 10 UFs por Gastos
> **O que mostra:** Os estados da federação com maior soma de despesas parlamentares.  
> **Insight:** Auxilia a visualizar a distribuição geográfica dos gastos.

### 3️ - Top 10 Partidos por Gastos
> **O que mostra:** Os partidos políticos com maiores gastos médios agregados.  
> **Insight:** Pode revelar padrões partidários nos gastos, com possíveis implicações políticas.

### 4️ - Tipos de Despesa com Maior Valor Médio
> **O que mostra:** Quais tipos de despesa apresentam maior média de valores reembolsados.  
> **Insight:** Ajuda a identificar os tipos de gastos mais onerosos, que podem demandar auditoria ou justificativa.

In [None]:
# Código para visualizações agregadas com Plotly
import plotly.express as px
import plotly.io as pio

# Define um template padrão para o Plotly
pio.templates.default = "plotly_white"
df_modelo = pd.DataFrame(df_completo)

# Função para formatar como R$ com ponto de milhar e vírgula decimal
def formatar_valor(valor):
# Garante que está lidando com o DataFrame correto
    return f"R$ {valor:,.2f}".replace(",", "X").replace(".", ",").replace("X", ".")

# 1️ Top 5 Parlamentares por Custo Total
top_parlamentares = (
    df_modelo.groupby('txNomeParlamentar')['custo_total_parlamentar']
    .mean()
    .sort_values(ascending=False)
    .head(5)
    .reset_index()
)
top_parlamentares['texto'] = top_parlamentares['custo_total_parlamentar'].apply(formatar_valor)

fig1 = px.bar(
    top_parlamentares,
    x='custo_total_parlamentar',
    y='txNomeParlamentar',
    orientation='h',
    title='<b>Top 5 Parlamentares por Custo Total Acumulado</b>',
    labels={'custo_total_parlamentar': 'Custo Total (R$)', 'txNomeParlamentar': 'Parlamentar'},
    text='texto'
)
fig1.update_layout(showlegend=False, yaxis={'categoryorder':'total ascending'})
fig1.update_traces(textposition='outside', marker_color='#636EFA')


# 2️ Top 10 UFs por Gasto Total
top_ufs = (
    df_modelo.groupby('sgUF')['gasto_uf']
    .mean()
    .sort_values(ascending=False)
    .head(10)
    .reset_index()
)
top_ufs['texto'] = top_ufs['gasto_uf'].apply(formatar_valor)

fig2 = px.bar(
    top_ufs,
    x='gasto_uf',
    y='sgUF',
    orientation='h',
    title='<b>Top 10 UFs por Gastos Totais</b>',
    labels={'gasto_uf': 'Gasto Total (R$)', 'sgUF': 'UF'},
    text='texto'
)
fig2.update_layout(showlegend=False, yaxis={'categoryorder':'total ascending'})
fig2.update_traces(textposition='outside', marker_color='#EF553B')


# 3️ Top 10 Partidos por Gasto Total
top_partidos = (
    df_modelo.groupby('sgPartido')['gasto_partido']
    .mean()
    .sort_values(ascending=False)
    .head(10)
    .reset_index()
)
top_partidos['texto'] = top_partidos['gasto_partido'].apply(formatar_valor)

fig3 = px.bar(
    top_partidos,
    x='gasto_partido',
    y='sgPartido',
    orientation='h',
    title='<b>Top 10 Partidos por Gastos Totais</b>',
    labels={'gasto_partido': 'Gasto Total (R$)', 'sgPartido': 'Partido'},
    text='texto'
)
fig3.update_layout(showlegend=False, yaxis={'categoryorder':'total ascending'})
fig3.update_traces(textposition='outside', marker_color='#00CC96')


# 4️ Top 10 Tipos de Despesa por Valor Médio
top_tipos = (
    df_modelo.groupby('txtDescricao')['vlr_medio_por_tipo']
    .mean()
    .sort_values(ascending=False)
    .head(10)
    .reset_index()
)
top_tipos['texto'] = top_tipos['vlr_medio_por_tipo'].apply(formatar_valor)

fig4 = px.bar(
    top_tipos,
    x='vlr_medio_por_tipo',
    y='txtDescricao',
    orientation='v',
    title='<b>Top 10 Tipos de Despesa com Maior Valor Médio por Transação</b>',
    labels={'vlr_medio_por_tipo': 'Valor Médio (R$)', 'txtDescricao': 'Tipo de Despesa'},
    text='texto'
)
fig4.update_layout(showlegend=False, yaxis={'categoryorder':'total ascending'})
fig4.update_traces(textposition='outside', marker_color='#AB63FA')


# Exibir os gráficos
fig1.show()
fig2.show()
fig3.show()
fig4.show()

### **Análise Bivariada e Multivariada**

Nesta seção, cruzamos variáveis para encontrar relações e padrões mais complexos. Vamos focar em como o valor das despesas (`vlrLiquido`) varia entre as diferentes categorias.

In [None]:
# Função para plotar boxplots interativos com Plotly
def plot_boxplot_by_category(df, category_col, value_col, title, n=10):
    top_categories = df[category_col].value_counts().nlargest(n).index
    df_filtered = df[df[category_col].isin(top_categories)]
    
    fig = px.box(df_filtered, 
                 x=category_col, 
                 y=value_col,
                 title=title,
                 points=False) # 'points=False' para não poluir com outliers
    fig.update_layout(xaxis={'categoryorder':'total descending'})
    fig.show()

# Gasto por Partido
plot_boxplot_by_category(df_modelo, 'sgPartido', 'vlrLiquido', 'Distribuição do Valor Líquido por Partido (Top 10)')

# Gasto por UF
plot_boxplot_by_category(df_modelo, 'sgUF', 'vlrLiquido', 'Distribuição do Valor Líquido por UF (Top 10)')


display(Markdown("""
**Interpretação:**
* **Valor por Partido:** Os boxplots mostram a mediana, os quartis e a dispersão dos valores de despesa por partido. Embora a frequência seja alta para PL e PT, a análise dos valores pode revelar que outros partidos têm despesas com mediana ou valores máximos mais altos. É importante observar a altura das "caixas" (intervalo interquartil) e a posição da linha da mediana.
"""))


* **Valor por UF:** Alguns estados podem ter uma mediana de gastos mais alta que outros, mesmo com menos registros. Isso pode ser devido a custos de vida regionais mais altos ou a uma cultura de gastos diferente entre as bancadas.

### **Análise de Perfil Detalhada**

A EDA também serve para aprofundar a análise em pontos de interesse. Vamos investigar o perfil de gasto do parlamentar que mais gastou e, em seguida, analisar quais partidos mais utilizam o tipo de despesa de maior valor médio.

#### **Perfil de Gastos do Top 1 Parlamentar**

In [None]:
# 1. Identificar o parlamentar com o maior custo total
top_parlamentar_nome = top_parlamentares.iloc[0]['txNomeParlamentar']

# 2. Filtrar o DataFrame para conter apenas as despesas desse parlamentar
df_top_parlamentar = df_modelo[df_modelo['txNomeParlamentar'] == top_parlamentar_nome]

# 3. Gerar um gráfico dos tipos de despesa para esse parlamentar
fig = px.bar(
    df_top_parlamentar['txtDescricao'].value_counts().reset_index(),
    x='count',
    y='txtDescricao',
    orientation='h',
    title=f'<b>Tipos de Despesa Mais Frequentes para: {top_parlamentar_nome}</b>',
    labels={'count': 'Frequência', 'txtDescricao': 'Tipo de Despesa'}
)
fig.update_layout(yaxis={'categoryorder':'total ascending'})
fig.show()

# 5. Modelagem <a class="anchor" id="modelagem"></a>
As the first step in modelling, you'll select the actual modelling technique that you'll be using. Although you may have already selected a tool during the business understanding phase, at this stage you'll be selecting the specific modelling technique e.g. decision-tree building with C5.0, or neural network generation with back propagation. If multiple techniques are applied, perform this task separately for each technique.



## 5.1. Técnicas de Modelagem <a class="anchor" id="tecnicas-modelagem"></a>
Document the actual modelling technique that is to be used.

Import Models below:

In [None]:
X = df.drop('y', axis=1)
y = df['y']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=105)

In [None]:
# Normalização dos dados numéricos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

categorical_features = ['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'month', 'poutcome']
numeric_features = ['age', 'balance', 'duration', 'campaign', 'pdays', 'previous']

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

## 5.2. Teste de Modelos <a class="anchor" id="teste-modelos"></a>
Many modelling techniques make specific assumptions about the data, for example that all attributes have uniform distributions, no missing values allowed, class attribute must be symbolic etc. Record any assumptions made.

-
-



In [None]:
pipeline_lr = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(C=1.0, solver='liblinear'))
])

pipeline_rf = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(n_estimators=100, max_depth=None, min_samples_split=2))
])

pipeline_gb = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3))
])

## 5.3. Construção do Modelo (Build) <a class="anchor" id="construcao-modelo"></a>
Run the modelling tool on the prepared dataset to create one or more models.

**Parameter settings** - With any modelling tool there are often a large number of parameters that can be adjusted. List the parameters and their chosen values, along with the rationale for the choice of parameter settings.

**Models** - These are the actual models produced by the modelling tool, not a report on the models.

**Model descriptions** - Describe the resulting models, report on the interpretation of the models and document any difficulties encountered with their meanings.

In [None]:
pipeline_lr.fit(X_train, y_train)
pipeline_rf.fit(X_train, y_train)
pipeline_gb.fit(X_train, y_train)

## 5.4. Avaliação de Performance <a class="anchor" id="avaliacao-modelo"></a>
Interpret the models according to your domain knowledge, your data mining success criteria and your desired test design. Judge the success of the application of modelling and discovery techniques technically, then contact business analysts and domain experts later in order to discuss the data mining results in the business context. This task only considers models, whereas the evaluation phase also takes into account all other results that were produced in the course of the project.

At this stage you should rank the models and assess them according to the evaluation criteria. You should take the business objectives and business success criteria into account as far as you can here. In most data mining projects a single technique is applied more than once and data mining results are generated with several different techniques.

**Model assessment** - Summarise the results of this task, list the qualities of your generated models (e.g.in terms of accuracy) and rank their quality in relation to each other.

**Revised parameter settings** - According to the model assessment, revise parameter settings and tune them for the next modelling run. Iterate model building and assessment until you strongly believe that you have found the best model(s). Document all such revisions and assessments.

In [None]:
model_metrics = {}

# Lista de modelos para avaliar
models = ['lr', 'rf', 'gb']

for model_key in models:
    try:
        pipelines[model_key].fit(X_train, y_train)

        y_pred = pipelines[model_key].predict(X_test)
        y_proba = pipelines[model_key].predict_proba(X_test)[:, 1]  # Probabilidades para AUC-ROC

        precision = precision_score(y_test, y_pred)
        recall = recall_score(y_test, y_pred)
        f1 = f1_score(y_test, y_pred)
        auc_roc = roc_auc_score(y_test, y_proba)

        model_metrics[model_key] = {
            'Precision': precision,
            'Recall': recall,
            'F1-Score': f1,
            'AUC-ROC': auc_roc
        }

        print(f"Resultados para {model_key}:")
        print(f"Precisão: {precision:.4f}")
        print(f"Recall: {recall:.4f}")
        print(f"F1-Score: {f1:.4f}")
        print(f"AUC-ROC: {auc_roc:.4f}")
        print("-----")

    except Exception as e:
        print(f"Erro ao treinar ou avaliar o modelo {model_key}: {e}")

for model_key in models:
    try:
        y_pred = pipelines[model_key].predict(X_test)
        cm = confusion_matrix(y_test, y_pred)
        print(f"Matriz de Confusão para {model_key}:")
        print(cm)
        print("-----")
    except Exception as e:
        print(f"Erro ao gerar matriz de confusão para {model_key}: {e}")

# 6. Avaliação do Modelo <a class="anchor" id="avaliacao-modelo"></a>

## 6.1. Regressão Logística (lr): <a class="anchor" id="regressao-logistica"></a>

Precisão: 69.26% - Este modelo tem uma boa taxa de precisão, indicando que quando prevê que um cliente se inscreverá, está correto aproximadamente 69.26% das vezes.
Recall: 40.30% - Capta 40.30% dos casos positivos reais, o que é moderado.
F1-Score: 50.95% - Um equilíbrio razoável entre precisão e recall.
AUC-ROC: 92.92% - Excelente capacidade de discriminação entre as classes positivas e negativas.
Matriz de Confusão: Com um número relativamente baixo de falsos positivos (83) e uma quantidade moderada de falsos negativos (277).
Random Forest (rf):

Precisão: 65.06% - Ligeiramente inferior à regressão logística em termos de precisão.
Recall: 37.72% - Menor do que a regressão logística, indicando uma capacidade mais fraca de capturar todos os positivos reais.
F1-Score: 47.75% - Reflete o compromisso entre precisão e recall inferior ao da regressão logística.
AUC-ROC: 92.58% - Muito boa, mas ligeiramente inferior à regressão logística.
Matriz de Confusão: Mais falsos positivos (94) e falsos negativos (289) do que a regressão logística, indicando uma eficiência geral mais baixa.
Gradient Boosting (gb):

Precisão: 69.42% - Similar à regressão logística e ligeiramente superior ao Random Forest.
Recall: 41.59% - O melhor recall dos três modelos, capturando uma proporção maior de casos positivos.
F1-Score: 52.02% - O melhor F1-Score, indicando o melhor equilíbrio entre precisão e recall.
AUC-ROC: 93.58% - A melhor das três, mostrando a superioridade do Gradient Boosting em discriminar entre as classes.
Matriz de Confusão: Semelhante ao Random Forest em termos de falsos positivos, mas com menos falsos negativos, melhorando tanto a precisão quanto o recall.
Conclusões e Recomendações
Gradient Boosting parece ser o modelo mais forte em geral, apresentando o melhor equilíbrio entre todas as métricas. Com a maior AUC-ROC e o melhor F1-Score, ele demonstra uma capacidade superior de manejar a classificação de uma maneira equilibrada, tornando-o ideal para situações onde tanto a precisão quanto o recall são importantes.

Regressão Logística ainda se mostra uma opção viável, especialmente se a interpretabilidade do modelo é uma prioridade, visto que modelos lineares como este oferecem insights mais diretos sobre como as características estão influenciando as previsões.

Random Forest, embora robusto e com um bom desempenho geral, parece ser ligeiramente superado pelos outros modelos em termos de métricas chave neste cenário específico.

# 7. Aplicação prática (Deployment)