# üéì Aula 2: Engenharia de Dados para IA e Compliance - RAG

## Performance ‚Äì IA para Devs | Desenvolvimento e Orquestra√ß√£o de Agentes de IA para o Setor Financeiro

---

### üìã Objetivos desta Aula

Ao final desta aula, voc√™ ser√° capaz de:

1. **Diferenciar** Chat gen√©rico de Extra√ß√£o estruturada
2. **Implementar RAG** (Retrieval-Augmented Generation) para auditoria e conformidade banc√°ria
3. **Dominar Function Calling** para estrutura√ß√£o de sa√≠das (Output Parsers)
4. **Criar pipelines de ingest√£o** de documentos PDF
5. **Desenvolver o projeto "O Auditor de Contratos"**: Extra√ß√£o autom√°tica de dados validados

---

### üõ†Ô∏è Stack Tecnol√≥gico

- **Python 3.10+**
- **LangChain Core** - Framework para RAG
- **ChromaDB** - Vector Store para embeddings
- **PyPDF** - Extra√ß√£o de texto de PDFs
- **Pydantic** - Valida√ß√£o de schemas de sa√≠da
- **Modelos de Embedding** - OpenAI Embeddings

---

### üìö Pr√©-requisitos

- Ter completado a **Aula 1** (Agentes Cognitivos)
- Entendimento b√°sico de **vetores e similaridade**

---

## üöÄ Parte 0: Configura√ß√£o do Ambiente

Vamos instalar as depend√™ncias adicionais necess√°rias para esta aula.

In [1]:
# Instala√ß√£o das depend√™ncias necess√°rias para RAG
# Execute esta c√©lula apenas uma vez

%pip install langchain langchain-openai langchain-community langchain-chroma --quiet
%pip install chromadb pypdf pydantic python-dotenv --quiet
%pip install tiktoken --quiet

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [None]:
# Configura√ß√£o das vari√°veis de ambiente

import os
from dotenv import load_dotenv

# Carrega vari√°veis do arquivo .env (se existir)
load_dotenv()

# Configure sua chave de API da OpenAI
if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = "sua-chave-aqui"  # Substitua pela sua chave

print("‚úÖ Ambiente configurado com sucesso!")

‚úÖ Ambiente configurado com sucesso!


---

## üìö Parte 1: Chat Gen√©rico vs Extra√ß√£o Estruturada

### 1.1 O Problema do Chat Gen√©rico

Quando usamos um LLM para **chat gen√©rico**, a sa√≠da √© **texto livre** - dif√≠cil de processar programaticamente.

```
Pergunta: "Analise este contrato e me diga o valor e prazo."

Resposta Gen√©rica:
"O contrato apresenta um valor total de R$ 150.000,00 com prazo de 24 meses...
Al√©m disso, h√° cl√°usulas de reajuste anual baseadas no IPCA..."
```

**Problemas:**
- ‚ùå Como extrair o valor "150000" programaticamente?
- ‚ùå Como garantir que sempre teremos os mesmos campos?
- ‚ùå Como validar se os dados est√£o corretos?

### 1.2 A Solu√ß√£o: Extra√ß√£o Estruturada

Com **extra√ß√£o estruturada**, for√ßamos o LLM a retornar dados em um **formato predefinido**:

```json
{
    "valor_contrato": 150000.00,
    "moeda": "BRL",
    "prazo_meses": 24,
    "indice_reajuste": "IPCA",
    "score_risco": "M√âDIO"
}
```

**Vantagens:**
- ‚úÖ Dados estruturados e tipados
- ‚úÖ F√°cil integra√ß√£o com sistemas
- ‚úÖ Valida√ß√£o autom√°tica com Pydantic

---

### üíª Demonstra√ß√£o: Chat vs Extra√ß√£o Estruturada

In [3]:
# Exemplo de texto de contrato para an√°lise

TEXTO_CONTRATO_EXEMPLO = """
CONTRATO DE EMPR√âSTIMO PESSOAL N¬∫ 2024-00892

PARTES:
CREDOR: Banco XYZ S.A., CNPJ 00.000.000/0001-00
DEVEDOR: Carlos Eduardo Mendes, CPF 123.456.789-00

CL√ÅUSULA PRIMEIRA - DO OBJETO
O presente contrato tem por objeto a concess√£o de empr√©stimo pessoal 
no valor de R$ 75.000,00 (setenta e cinco mil reais).

CL√ÅUSULA SEGUNDA - DO PRAZO E PAGAMENTO
O empr√©stimo ser√° pago em 36 (trinta e seis) parcelas mensais e consecutivas,
no valor de R$ 2.847,22 cada, com vencimento todo dia 10 de cada m√™s.
Taxa de juros: 1,99% ao m√™s (26,68% ao ano).

CL√ÅUSULA TERCEIRA - DAS GARANTIAS
O devedor oferece como garantia:
- Aliena√ß√£o fiduci√°ria de ve√≠culo: Honda Civic 2022, placa ABC-1234
- Valor de avalia√ß√£o da garantia: R$ 95.000,00

CL√ÅUSULA QUARTA - DA INADIMPL√äNCIA
Em caso de atraso no pagamento, incidir√°:
- Multa de 2% sobre o valor da parcela
- Juros de mora de 1% ao m√™s

CL√ÅUSULA QUINTA - DO VENCIMENTO ANTECIPADO
O contrato vencer√° antecipadamente em caso de:
a) Inadimpl√™ncia superior a 60 dias
b) Fal√™ncia ou insolv√™ncia do devedor
c) Deteriora√ß√£o ou perecimento da garantia

S√£o Paulo, 15 de Janeiro de 2024.

[Assinaturas]
"""

print("üìÑ TEXTO DO CONTRATO DE EXEMPLO:")
print("=" * 60)
print(TEXTO_CONTRATO_EXEMPLO)

üìÑ TEXTO DO CONTRATO DE EXEMPLO:

CONTRATO DE EMPR√âSTIMO PESSOAL N¬∫ 2024-00892

PARTES:
CREDOR: Banco XYZ S.A., CNPJ 00.000.000/0001-00
DEVEDOR: Carlos Eduardo Mendes, CPF 123.456.789-00

CL√ÅUSULA PRIMEIRA - DO OBJETO
O presente contrato tem por objeto a concess√£o de empr√©stimo pessoal 
no valor de R$ 75.000,00 (setenta e cinco mil reais).

CL√ÅUSULA SEGUNDA - DO PRAZO E PAGAMENTO
O empr√©stimo ser√° pago em 36 (trinta e seis) parcelas mensais e consecutivas,
no valor de R$ 2.847,22 cada, com vencimento todo dia 10 de cada m√™s.
Taxa de juros: 1,99% ao m√™s (26,68% ao ano).

CL√ÅUSULA TERCEIRA - DAS GARANTIAS
O devedor oferece como garantia:
- Aliena√ß√£o fiduci√°ria de ve√≠culo: Honda Civic 2022, placa ABC-1234
- Valor de avalia√ß√£o da garantia: R$ 95.000,00

CL√ÅUSULA QUARTA - DA INADIMPL√äNCIA
Em caso de atraso no pagamento, incidir√°:
- Multa de 2% sobre o valor da parcela
- Juros de mora de 1% ao m√™s

CL√ÅUSULA QUINTA - DO VENCIMENTO ANTECIPADO
O contrato vencer√° antecip

In [4]:
# ABORDAGEM 1: Chat Gen√©rico (problem√°tico)

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

prompt_generico = ChatPromptTemplate.from_messages([
    ("system", "Voc√™ √© um analista de contratos. Analise o contrato fornecido."),
    ("human", "Analise este contrato e extraia as informa√ß√µes principais:\n\n{contrato}")
])

chain_generica = prompt_generico | llm

resposta_generica = chain_generica.invoke({"contrato": TEXTO_CONTRATO_EXEMPLO})

print("‚ùå ABORDAGEM 1: Chat Gen√©rico")
print("=" * 60)
print(resposta_generica.content)
print("\n‚ö†Ô∏è PROBLEMA: Como extrair o valor 75000 deste texto programaticamente?")
print("   O formato √© inconsistente e dif√≠cil de processar.")

‚ùå ABORDAGEM 1: Chat Gen√©rico
Aqui est√£o as informa√ß√µes principais extra√≠das do contrato de empr√©stimo pessoal:

**CONTRATO DE EMPR√âSTIMO PESSOAL N¬∫ 2024-00892**

**PARTES:**
- **CREDOR:** Banco XYZ S.A.
  - **CNPJ:** 00.000.000/0001-00
- **DEVEDOR:** Carlos Eduardo Mendes
  - **CPF:** 123.456.789-00

**CL√ÅUSULA PRIMEIRA - DO OBJETO:**
- **Valor do Empr√©stimo:** R$ 75.000,00 (setenta e cinco mil reais).

**CL√ÅUSULA SEGUNDA - DO PRAZO E PAGAMENTO:**
- **N√∫mero de Parcelas:** 36 (trinta e seis) parcelas mensais.
- **Valor de Cada Parcela:** R$ 2.847,22.
- **Vencimento:** Todo dia 10 de cada m√™s.
- **Taxa de Juros:** 1,99% ao m√™s (26,68% ao ano).

**CL√ÅUSULA TERCEIRA - DAS GARANTIAS:**
- **Garantia Oferecida:** Aliena√ß√£o fiduci√°ria de ve√≠culo.
  - **Ve√≠culo:** Honda Civic 2022, placa ABC-1234.
  - **Valor de Avalia√ß√£o da Garantia:** R$ 95.000,00.

**CL√ÅUSULA QUARTA - DA INADIMPL√äNCIA:**
- **Multa por Atraso:** 2% sobre o valor da parcela.
- **Juros de Mora:** 1% a

### üîß Abordagem 2: Extra√ß√£o Estruturada com Pydantic

Agora vamos usar **Pydantic** para definir exatamente o formato de sa√≠da que queremos do LLM.

**O que √© Pydantic?**
- Uma biblioteca Python para **valida√ß√£o de dados** usando type hints
- Permite definir **schemas** (modelos de dados) com campos tipados
- O LangChain usa esses schemas para "for√ßar" o LLM a retornar dados estruturados

**Como funciona:**

1. **Definimos classes** que herdam de `BaseModel` com campos tipados
2. Usamos `Field()` para adicionar **descri√ß√µes** que orientam o LLM
3. Podemos usar `Enum` para restringir valores a op√ß√µes espec√≠ficas
4. O m√©todo `with_structured_output()` do LLM garante que a resposta siga o schema

**Vantagens:**
- ‚úÖ Sa√≠da sempre no formato esperado (JSON v√°lido)
- ‚úÖ Tipos validados automaticamente (int, float, str, etc.)
- ‚úÖ Campos obrigat√≥rios vs opcionais bem definidos
- ‚úÖ F√°cil exporta√ß√£o para JSON com `model_dump_json()`

In [5]:
# ABORDAGEM 2: Extra√ß√£o Estruturada com Pydantic

from pydantic import BaseModel, Field
from typing import Optional, List
from enum import Enum

# Defini√ß√£o do schema de sa√≠da
class NivelRisco(str, Enum):
    BAIXO = "BAIXO"
    MEDIO = "M√âDIO"
    ALTO = "ALTO"
    MUITO_ALTO = "MUITO_ALTO"

class TipoGarantia(str, Enum):
    ALIENACAO_FIDUCIARIA = "ALIENA√á√ÉO_FIDUCI√ÅRIA"
    HIPOTECA = "HIPOTECA"
    AVAL = "AVAL"
    FIANCA = "FIAN√áA"
    SEM_GARANTIA = "SEM_GARANTIA"

class Garantia(BaseModel):
    """Informa√ß√µes sobre garantia do contrato."""
    tipo: TipoGarantia = Field(description="Tipo de garantia oferecida")
    descricao: str = Field(description="Descri√ß√£o da garantia")
    valor_avaliacao: Optional[float] = Field(default=None, description="Valor de avalia√ß√£o da garantia em reais")

class ContratoExtraido(BaseModel):
    """Schema para extra√ß√£o estruturada de contratos de empr√©stimo."""
    
    numero_contrato: str = Field(description="N√∫mero identificador do contrato")
    nome_devedor: str = Field(description="Nome completo do devedor")
    cpf_devedor: str = Field(description="CPF do devedor")
    
    valor_emprestimo: float = Field(description="Valor total do empr√©stimo em reais")
    prazo_meses: int = Field(description="Prazo total em meses")
    valor_parcela: float = Field(description="Valor de cada parcela em reais")
    
    taxa_juros_mensal: float = Field(description="Taxa de juros mensal em percentual")
    taxa_juros_anual: float = Field(description="Taxa de juros anual em percentual")
    
    garantias: List[Garantia] = Field(description="Lista de garantias oferecidas")
    
    multa_atraso_percentual: float = Field(description="Percentual de multa por atraso")
    juros_mora_mensal: float = Field(description="Juros de mora mensal em percentual")
    
    data_contrato: str = Field(description="Data de assinatura do contrato")
    
    # Campos calculados/avaliados pelo modelo
    score_risco: NivelRisco = Field(description="Avalia√ß√£o de risco do contrato")
    justificativa_risco: str = Field(description="Justificativa para o score de risco atribu√≠do")

print("‚úÖ Schema ContratoExtraido definido com sucesso!")
print(f"\nüìã Campos do schema:")
for field_name, field_info in ContratoExtraido.model_fields.items():
    print(f"   ‚Ä¢ {field_name}: {field_info.annotation.__name__ if hasattr(field_info.annotation, '__name__') else field_info.annotation}")

‚úÖ Schema ContratoExtraido definido com sucesso!

üìã Campos do schema:
   ‚Ä¢ numero_contrato: str
   ‚Ä¢ nome_devedor: str
   ‚Ä¢ cpf_devedor: str
   ‚Ä¢ valor_emprestimo: float
   ‚Ä¢ prazo_meses: int
   ‚Ä¢ valor_parcela: float
   ‚Ä¢ taxa_juros_mensal: float
   ‚Ä¢ taxa_juros_anual: float
   ‚Ä¢ garantias: List
   ‚Ä¢ multa_atraso_percentual: float
   ‚Ä¢ juros_mora_mensal: float
   ‚Ä¢ data_contrato: str
   ‚Ä¢ score_risco: NivelRisco
   ‚Ä¢ justificativa_risco: str


In [6]:
# Usando with_structured_output para extra√ß√£o

from langchain_openai import ChatOpenAI

# LLM configurado para sa√≠da estruturada
llm_estruturado = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Cria uma vers√£o do LLM que retorna objetos Pydantic
extrator = llm_estruturado.with_structured_output(ContratoExtraido)

# Prompt para extra√ß√£o
prompt_extracao = ChatPromptTemplate.from_messages([
    ("system", """Voc√™ √© um especialista em an√°lise de contratos financeiros.
Extraia TODAS as informa√ß√µes solicitadas do contrato fornecido.
Seja preciso com valores num√©ricos e datas.
Avalie o risco considerando: taxa de juros, garantias, prazo e valor.

Crit√©rios de Risco:
- BAIXO: Garantia > 100% do valor, taxa < 2% a.m., prazo < 24 meses
- M√âDIO: Garantia entre 80-100%, taxa 2-3% a.m., prazo 24-48 meses
- ALTO: Garantia < 80% ou taxa > 3% a.m. ou prazo > 48 meses
- MUITO_ALTO: Sem garantia ou m√∫ltiplos fatores de risco"""),
    ("human", "Extraia as informa√ß√µes deste contrato:\n\n{contrato}")
])

chain_estruturada = prompt_extracao | extrator

print("üîß Chain de extra√ß√£o estruturada configurada!")

üîß Chain de extra√ß√£o estruturada configurada!


In [7]:
# Executando a extra√ß√£o estruturada

contrato_extraido = chain_estruturada.invoke({"contrato": TEXTO_CONTRATO_EXEMPLO})

print("‚úÖ ABORDAGEM 2: Extra√ß√£o Estruturada")
print("=" * 60)
print(f"\nüìã DADOS EXTRA√çDOS DO CONTRATO:")
print(f"\nüî¢ N√∫mero: {contrato_extraido.numero_contrato}")
print(f"üë§ Devedor: {contrato_extraido.nome_devedor} (CPF: {contrato_extraido.cpf_devedor})")
print(f"\nüí∞ VALORES:")
print(f"   Valor do Empr√©stimo: R$ {contrato_extraido.valor_emprestimo:,.2f}")
print(f"   Prazo: {contrato_extraido.prazo_meses} meses")
print(f"   Valor da Parcela: R$ {contrato_extraido.valor_parcela:,.2f}")
print(f"\nüìä TAXAS:")
print(f"   Juros Mensal: {contrato_extraido.taxa_juros_mensal}%")
print(f"   Juros Anual: {contrato_extraido.taxa_juros_anual}%")
print(f"\nüõ°Ô∏è GARANTIAS:")
for g in contrato_extraido.garantias:
    print(f"   ‚Ä¢ {g.tipo.value}: {g.descricao}")
    if g.valor_avaliacao:
        print(f"     Valor: R$ {g.valor_avaliacao:,.2f}")
print(f"\n‚ö†Ô∏è RISCO:")
print(f"   Score: {contrato_extraido.score_risco.value}")
print(f"   Justificativa: {contrato_extraido.justificativa_risco}")

‚úÖ ABORDAGEM 2: Extra√ß√£o Estruturada

üìã DADOS EXTRA√çDOS DO CONTRATO:

üî¢ N√∫mero: 2024-00892
üë§ Devedor: Carlos Eduardo Mendes (CPF: 123.456.789-00)

üí∞ VALORES:
   Valor do Empr√©stimo: R$ 75,000.00
   Prazo: 36 meses
   Valor da Parcela: R$ 2,847.22

üìä TAXAS:
   Juros Mensal: 1.99%
   Juros Anual: 26.68%

üõ°Ô∏è GARANTIAS:
   ‚Ä¢ ALIENA√á√ÉO_FIDUCI√ÅRIA: Aliena√ß√£o fiduci√°ria de ve√≠culo: Honda Civic 2022, placa ABC-1234
     Valor: R$ 95,000.00

‚ö†Ô∏è RISCO:
   Score: ALTO
   Justificativa: Garantia de 126.67% do valor do empr√©stimo, taxa de juros de 1.99% ao m√™s e prazo de 36 meses.


In [8]:
# Agora podemos usar os dados programaticamente!

print("\nüéØ USANDO OS DADOS PROGRAMATICAMENTE:")
print("=" * 60)

# C√°lculo de cobertura da garantia
valor_total_garantias = sum(g.valor_avaliacao or 0 for g in contrato_extraido.garantias)
cobertura = (valor_total_garantias / contrato_extraido.valor_emprestimo) * 100

print(f"\nüìä AN√ÅLISE AUTOM√ÅTICA:")
print(f"   Valor total das garantias: R$ {valor_total_garantias:,.2f}")
print(f"   Cobertura: {cobertura:.1f}%")

# C√°lculo do custo total
custo_total = contrato_extraido.valor_parcela * contrato_extraido.prazo_meses
juros_total = custo_total - contrato_extraido.valor_emprestimo

print(f"\nüíµ CUSTO TOTAL DO EMPR√âSTIMO:")
print(f"   Total a pagar: R$ {custo_total:,.2f}")
print(f"   Juros totais: R$ {juros_total:,.2f}")
print(f"   Percentual de juros: {(juros_total/contrato_extraido.valor_emprestimo)*100:.1f}%")

# Decis√£o autom√°tica baseada em regras
print(f"\nü§ñ DECIS√ÉO AUTOM√ÅTICA:")
if cobertura >= 100 and contrato_extraido.score_risco in [NivelRisco.BAIXO, NivelRisco.MEDIO]:
    print("   ‚úÖ APROVAR - Garantia adequada e risco aceit√°vel")
elif cobertura >= 80 and contrato_extraido.score_risco == NivelRisco.MEDIO:
    print("   ‚ö†Ô∏è APROVAR COM RESSALVAS - Revisar condi√ß√µes")
else:
    print("   ‚ùå ENCAMINHAR PARA COMIT√ä - Requer an√°lise manual")

# Exportar como JSON
print(f"\nüì§ EXPORTAR COMO JSON:")
print(contrato_extraido.model_dump_json(indent=2))


üéØ USANDO OS DADOS PROGRAMATICAMENTE:

üìä AN√ÅLISE AUTOM√ÅTICA:
   Valor total das garantias: R$ 95,000.00
   Cobertura: 126.7%

üíµ CUSTO TOTAL DO EMPR√âSTIMO:
   Total a pagar: R$ 102,499.92
   Juros totais: R$ 27,499.92
   Percentual de juros: 36.7%

ü§ñ DECIS√ÉO AUTOM√ÅTICA:
   ‚ùå ENCAMINHAR PARA COMIT√ä - Requer an√°lise manual

üì§ EXPORTAR COMO JSON:
{
  "numero_contrato": "2024-00892",
  "nome_devedor": "Carlos Eduardo Mendes",
  "cpf_devedor": "123.456.789-00",
  "valor_emprestimo": 75000.0,
  "prazo_meses": 36,
  "valor_parcela": 2847.22,
  "taxa_juros_mensal": 1.99,
  "taxa_juros_anual": 26.68,
  "garantias": [
    {
      "tipo": "ALIENA√á√ÉO_FIDUCI√ÅRIA",
      "descricao": "Aliena√ß√£o fiduci√°ria de ve√≠culo: Honda Civic 2022, placa ABC-1234",
      "valor_avaliacao": 95000.0
    }
  ],
  "multa_atraso_percentual": 2.0,
  "juros_mora_mensal": 1.0,
  "data_contrato": "2024-01-15",
  "score_risco": "ALTO",
  "justificativa_risco": "Garantia de 126.67% do valor do 

---

## üìö Parte 2: Introdu√ß√£o ao RAG (Retrieval-Augmented Generation)

### 2.1 O Problema: Conhecimento Limitado do LLM

LLMs t√™m **conhecimento est√°tico** (data de corte do treinamento) e **n√£o conhecem seus documentos internos**.

```
Pergunta: "Qual √© a pol√≠tica de cr√©dito do nosso banco para clientes PJ?"
LLM: "N√£o tenho acesso a documentos internos da sua empresa..."
```

### 2.2 A Solu√ß√£o: RAG

**RAG** combina:
1. **Retrieval (Busca)**: Encontrar documentos relevantes em uma base de conhecimento
2. **Augmented (Aumentado)**: Adicionar esses documentos ao contexto do LLM
3. **Generation (Gera√ß√£o)**: LLM gera resposta baseada no contexto fornecido

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                         ARQUITETURA RAG                                  ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ                                                                          ‚îÇ
‚îÇ   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê        ‚îÇ
‚îÇ   ‚îÇ  Documentos  ‚îÇ ‚îÄ‚îÄ‚ñ∂ ‚îÇ  Chunking +      ‚îÇ ‚îÄ‚îÄ‚ñ∂ ‚îÇ Vector Store ‚îÇ        ‚îÇ
‚îÇ   ‚îÇ  (PDFs,etc)  ‚îÇ     ‚îÇ  Embedding       ‚îÇ     ‚îÇ  (ChromaDB)  ‚îÇ        ‚îÇ
‚îÇ   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò        ‚îÇ
‚îÇ                                                         ‚îÇ               ‚îÇ
‚îÇ                                                         ‚ñº               ‚îÇ
‚îÇ   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê        ‚îÇ
‚îÇ   ‚îÇ   Pergunta   ‚îÇ ‚îÄ‚îÄ‚ñ∂ ‚îÇ  Embedding da    ‚îÇ ‚îÄ‚îÄ‚ñ∂ ‚îÇ   Busca      ‚îÇ        ‚îÇ
‚îÇ   ‚îÇ   do Usu√°rio ‚îÇ     ‚îÇ  Pergunta        ‚îÇ     ‚îÇ   Sem√¢ntica  ‚îÇ        ‚îÇ
‚îÇ   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò        ‚îÇ
‚îÇ                                                         ‚îÇ               ‚îÇ
‚îÇ                                                         ‚ñº               ‚îÇ
‚îÇ   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê        ‚îÇ
‚îÇ   ‚îÇ   Resposta   ‚îÇ ‚óÄ‚îÄ‚îÄ ‚îÇ      LLM         ‚îÇ ‚óÄ‚îÄ‚îÄ ‚îÇ  Documentos  ‚îÇ        ‚îÇ
‚îÇ   ‚îÇ   Final      ‚îÇ     ‚îÇ   + Contexto     ‚îÇ     ‚îÇ  Relevantes  ‚îÇ        ‚îÇ
‚îÇ   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò        ‚îÇ
‚îÇ                                                                          ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### 2.3 Conceitos Fundamentais

| Conceito | Descri√ß√£o |
|----------|----------|
| **Embedding** | Representa√ß√£o num√©rica (vetor) de texto |
| **Vector Store** | Banco de dados especializado em vetores |
| **Chunking** | Divis√£o de documentos grandes em peda√ßos menores |
| **Similaridade** | Medida de qu√£o parecidos s√£o dois vetores |

---

In [9]:
# Demonstra√ß√£o visual de Embeddings

from langchain_openai import OpenAIEmbeddings
import numpy as np

# Inicializa o modelo de embeddings
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# Textos de exemplo
textos = [
    "Contrato de empr√©stimo pessoal com garantia",
    "Financiamento de ve√≠culo com aliena√ß√£o fiduci√°ria",
    "Receita de bolo de chocolate com cobertura",
    "Pol√≠tica de cr√©dito para pessoa jur√≠dica",
]

# Gera embeddings
vetores = embeddings.embed_documents(textos)

print("üî¢ DEMONSTRA√á√ÉO DE EMBEDDINGS")
print("=" * 60)
print(f"\nDimens√£o dos vetores: {len(vetores[0])} dimens√µes")
print(f"\nPrimeiros 10 valores do embedding do texto 1:")
print(f"   {vetores[0][:10]}")

üî¢ DEMONSTRA√á√ÉO DE EMBEDDINGS

Dimens√£o dos vetores: 1536 dimens√µes

Primeiros 10 valores do embedding do texto 1:
   [-0.0067872400395572186, 0.03852217271924019, -0.0045932140201330185, 0.03574162721633911, -0.0616740956902504, -0.019106611609458923, -0.053177978843450546, 0.0506291426718235, 0.00847198162227869, -0.03352104872465134]


### 3.3 Similaridade de Cosseno

A **similaridade de cosseno** mede o √¢ngulo entre dois vetores, indicando qu√£o parecidos eles s√£o.

**F√≥rmula:**
$$\text{similaridade} = \frac{\vec{v_1} \cdot \vec{v_2}}{|\vec{v_1}| \times |\vec{v_2}|}$$

Onde:
- $\vec{v_1} \cdot \vec{v_2}$ = produto escalar dos vetores
- $|\vec{v_1}|$ = norma (magnitude) do vetor 1
- $|\vec{v_2}|$ = norma do vetor 2

**Interpreta√ß√£o:**
- Valor = **1**: Vetores id√™nticos (mesma dire√ß√£o)
- Valor = **0**: Vetores ortogonais (nenhuma similaridade)
- Valor = **-1**: Vetores opostos (dire√ß√µes completamente diferentes)

**Exemplo pr√°tico:**
- "taxa de administra√ß√£o" e "custos de gest√£o" ‚Üí similaridade ‚âà 0.95 (muito similares!)
- "taxa de administra√ß√£o" e "receita de bolo" ‚Üí similaridade ‚âà 0.10 (muito diferentes)

In [10]:
# Calculando similaridade entre textos

from numpy import dot
from numpy.linalg import norm

def similaridade_cosseno(v1, v2):
    """Calcula a similaridade de cosseno entre dois vetores."""
    return dot(v1, v2) / (norm(v1) * norm(v2))

print("üìä MATRIZ DE SIMILARIDADE")
print("=" * 60)
print("\nTextos:")
for i, t in enumerate(textos):
    print(f"   [{i}] {t}")

print("\nSimilaridade entre textos (0 = nada similar, 1 = id√™ntico):")
print("\n        [0]    [1]    [2]    [3]")
for i in range(len(textos)):
    linha = f"   [{i}] "
    for j in range(len(textos)):
        sim = similaridade_cosseno(vetores[i], vetores[j])
        linha += f"{sim:.3f}  "
    print(linha)

print("\nüí° Observe:")
print("   - Textos [0], [1] e [3] s√£o sobre finan√ßas ‚Üí alta similaridade entre si")
print("   - Texto [2] √© sobre culin√°ria ‚Üí baixa similaridade com os demais")

üìä MATRIZ DE SIMILARIDADE

Textos:
   [0] Contrato de empr√©stimo pessoal com garantia
   [1] Financiamento de ve√≠culo com aliena√ß√£o fiduci√°ria
   [2] Receita de bolo de chocolate com cobertura
   [3] Pol√≠tica de cr√©dito para pessoa jur√≠dica

Similaridade entre textos (0 = nada similar, 1 = id√™ntico):

        [0]    [1]    [2]    [3]
   [0] 1.000  0.505  0.261  0.516  
   [1] 0.505  1.000  0.210  0.505  
   [2] 0.261  0.210  1.000  0.197  
   [3] 0.516  0.505  0.197  1.000  

üí° Observe:
   - Textos [0], [1] e [3] s√£o sobre finan√ßas ‚Üí alta similaridade entre si
   - Texto [2] √© sobre culin√°ria ‚Üí baixa similaridade com os demais


---

## üìö Parte 3: Construindo um Sistema RAG Completo

Vamos construir um sistema RAG passo a passo para an√°lise de documentos de compliance banc√°rio.

In [11]:
# Passo 1: Criando documentos de exemplo (simulando PDFs de pol√≠ticas banc√°rias)

DOCUMENTOS_COMPLIANCE = [
    {
        "titulo": "Pol√≠tica de Cr√©dito PF - Vers√£o 2024",
        "conteudo": """
POL√çTICA DE CONCESS√ÉO DE CR√âDITO PARA PESSOA F√çSICA
Documento: POL-CRED-PF-2024 | Vers√£o: 3.2 | Vig√™ncia: 01/01/2024

1. CRIT√âRIOS DE ELEGIBILIDADE
1.1. Score m√≠nimo de cr√©dito: 650 pontos
1.2. Renda m√≠nima comprovada: R$ 2.500,00
1.3. Tempo m√≠nimo de conta: 6 meses
1.4. Idade: entre 18 e 75 anos
1.5. Sem restri√ß√µes no SERASA/SPC nos √∫ltimos 12 meses

2. LIMITES DE CR√âDITO
2.1. Limite m√°ximo sem garantia: 10x a renda mensal
2.2. Limite m√°ximo com garantia: 30x a renda mensal
2.3. Comprometimento m√°ximo de renda: 35% para cr√©dito pessoal

3. TAXAS DE JUROS
3.1. Cr√©dito pessoal sem garantia: 2,49% a 4,99% ao m√™s
3.2. Cr√©dito com garantia de ve√≠culo: 1,49% a 2,49% ao m√™s
3.3. Cr√©dito com garantia de im√≥vel: 0,99% a 1,49% ao m√™s

4. DOCUMENTA√á√ÉO NECESS√ÅRIA
4.1. Documento de identidade (RG ou CNH)
4.2. CPF
4.3. Comprovante de renda dos √∫ltimos 3 meses
4.4. Comprovante de resid√™ncia (√∫ltimos 90 dias)
        """
    },
    {
        "titulo": "Pol√≠tica de Cr√©dito PJ - Vers√£o 2024",
        "conteudo": """
POL√çTICA DE CONCESS√ÉO DE CR√âDITO PARA PESSOA JUR√çDICA
Documento: POL-CRED-PJ-2024 | Vers√£o: 2.1 | Vig√™ncia: 01/01/2024

1. CRIT√âRIOS DE ELEGIBILIDADE
1.1. Tempo m√≠nimo de atividade: 12 meses
1.2. Faturamento m√≠nimo anual: R$ 240.000,00
1.3. Certid√µes negativas de d√©bitos federais, estaduais e municipais
1.4. Regularidade no CNPJ

2. LIMITES DE CR√âDITO
2.1. Capital de giro: at√© 50% do faturamento mensal m√©dio
2.2. Financiamento de equipamentos: at√© 80% do valor do bem
2.3. Antecipa√ß√£o de receb√≠veis: at√© 90% do valor das duplicatas

3. GARANTIAS ACEITAS
3.1. Aliena√ß√£o fiduci√°ria de bens m√≥veis
3.2. Hipoteca de im√≥veis
3.3. Receb√≠veis (duplicatas, cheques)
3.4. Aval dos s√≥cios

4. TAXAS DE JUROS
4.1. Capital de giro: 1,89% a 3,49% ao m√™s
4.2. Financiamento de equipamentos: 1,29% a 2,29% ao m√™s
4.3. Antecipa√ß√£o de receb√≠veis: 1,49% a 2,49% ao m√™s
        """
    },
    {
        "titulo": "Pol√≠tica de Preven√ß√£o √† Lavagem de Dinheiro",
        "conteudo": """
POL√çTICA DE PREVEN√á√ÉO √Ä LAVAGEM DE DINHEIRO E FINANCIAMENTO AO TERRORISMO
Documento: POL-PLD-2024 | Vers√£o: 5.0 | Vig√™ncia: 01/01/2024

1. OPERA√á√ïES QUE REQUEREM COMUNICA√á√ÉO AO COAF
1.1. Dep√≥sitos em esp√©cie acima de R$ 50.000,00
1.2. Transfer√™ncias internacionais acima de R$ 10.000,00
1.3. Opera√ß√µes com caracter√≠sticas at√≠picas
1.4. Movimenta√ß√µes incompat√≠veis com o perfil do cliente

2. PROCEDIMENTOS DE KYC (Know Your Customer)
2.1. Atualiza√ß√£o cadastral obrigat√≥ria a cada 24 meses
2.2. Verifica√ß√£o de PEP (Pessoa Exposta Politicamente)
2.3. Consulta a listas restritivas internacionais
2.4. An√°lise de origem dos recursos para valores > R$ 100.000,00

3. ALERTAS AUTOM√ÅTICOS
3.1. Fragmenta√ß√£o de dep√≥sitos (structuring)
3.2. Movimenta√ß√£o em hor√°rios at√≠picos
3.3. M√∫ltiplas transfer√™ncias para mesma conta
3.4. Opera√ß√µes em localidades de alto risco

4. RESPONSABILIDADES
4.1. Gerente de conta: primeira linha de defesa
4.2. Compliance: an√°lise e comunica√ß√£o ao COAF
4.3. Diretoria: aprova√ß√£o de opera√ß√µes at√≠picas
        """
    },
    {
        "titulo": "Manual de Auditoria de Contratos",
        "conteudo": """
MANUAL DE AUDITORIA DE CONTRATOS DE CR√âDITO
Documento: MAN-AUD-2024 | Vers√£o: 1.5 | Vig√™ncia: 01/03/2024

1. CHECKLIST DE AUDITORIA
1.1. Verificar assinaturas de todas as partes
1.2. Conferir valores num√©ricos e por extenso
1.3. Validar taxas dentro dos limites aprovados
1.4. Confirmar registro de garantias em cart√≥rio
1.5. Verificar aprova√ß√£o de al√ßada competente

2. CRIT√âRIOS DE CONFORMIDADE
2.1. Taxa de juros n√£o pode exceder 150% da taxa m√©dia BACEN
2.2. Multa de atraso limitada a 2%
2.3. Juros de mora limitados a 1% ao m√™s
2.4. CET (Custo Efetivo Total) deve estar claramente informado

3. CLASSIFICA√á√ÉO DE N√ÉO CONFORMIDADES
3.1. Cr√≠tica: Requer corre√ß√£o imediata e reporte √† diretoria
3.2. Maior: Requer corre√ß√£o em at√© 30 dias
3.3. Menor: Requer corre√ß√£o em at√© 90 dias
3.4. Observa√ß√£o: Melhoria recomendada

4. FREQU√äNCIA DE AUDITORIA
4.1. Contratos > R$ 1.000.000: auditoria 100%
4.2. Contratos R$ 100.000 - R$ 1.000.000: amostragem 30%
4.3. Contratos < R$ 100.000: amostragem 10%
        """
    },
]

print("üìö DOCUMENTOS DE COMPLIANCE CARREGADOS")
print("=" * 60)
for i, doc in enumerate(DOCUMENTOS_COMPLIANCE):
    print(f"\n{i+1}. {doc['titulo']}")
    print(f"   Caracteres: {len(doc['conteudo'])}")

üìö DOCUMENTOS DE COMPLIANCE CARREGADOS

1. Pol√≠tica de Cr√©dito PF - Vers√£o 2024
   Caracteres: 917

2. Pol√≠tica de Cr√©dito PJ - Vers√£o 2024
   Caracteres: 864

3. Pol√≠tica de Preven√ß√£o √† Lavagem de Dinheiro
   Caracteres: 1032

4. Manual de Auditoria de Contratos
   Caracteres: 1005


In [12]:
# Passo 2: Chunking - Dividindo documentos em peda√ßos menores

from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document

# Configura√ß√£o do text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,         # Tamanho m√°ximo de cada chunk
    chunk_overlap=50,        # Sobreposi√ß√£o entre chunks
    length_function=len,
    separators=["\n\n", "\n", ". ", " ", ""]  # Prioridade de separa√ß√£o
)

# Criar documentos LangChain com metadados
documentos_langchain = []
for doc in DOCUMENTOS_COMPLIANCE:
    chunks = text_splitter.split_text(doc["conteudo"])
    for i, chunk in enumerate(chunks):
        documento = Document(
            page_content=chunk,
            metadata={
                "titulo": doc["titulo"],
                "chunk_id": i,
                "total_chunks": len(chunks)
            }
        )
        documentos_langchain.append(documento)

print("‚úÇÔ∏è CHUNKING REALIZADO")
print("=" * 60)
print(f"\nDocumentos originais: {len(DOCUMENTOS_COMPLIANCE)}")
print(f"Total de chunks gerados: {len(documentos_langchain)}")
print(f"\nüìÑ Exemplo de chunk:")
print(f"   Conte√∫do: {documentos_langchain[0].page_content[:200]}...")
print(f"   Metadados: {documentos_langchain[0].metadata}")

‚úÇÔ∏è CHUNKING REALIZADO

Documentos originais: 4
Total de chunks gerados: 12

üìÑ Exemplo de chunk:
   Conte√∫do: POL√çTICA DE CONCESS√ÉO DE CR√âDITO PARA PESSOA F√çSICA
Documento: POL-CRED-PF-2024 | Vers√£o: 3.2 | Vig√™ncia: 01/01/2024

1. CRIT√âRIOS DE ELEGIBILIDADE
1.1. Score m√≠nimo de cr√©dito: 650 pontos
1.2. Renda ...
   Metadados: {'titulo': 'Pol√≠tica de Cr√©dito PF - Vers√£o 2024', 'chunk_id': 0, 'total_chunks': 3}


In [13]:
# Passo 3: Criando o Vector Store com ChromaDB

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

# Inicializa o modelo de embeddings
embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

# Cria o vector store em mem√≥ria
vector_store = Chroma.from_documents(
    documents=documentos_langchain,
    embedding=embedding_model,
    collection_name="compliance_docs"
)

print("üóÑÔ∏è VECTOR STORE CRIADO")
print("=" * 60)
print(f"\nBanco de dados: ChromaDB (em mem√≥ria)")
print(f"Modelo de embedding: text-embedding-3-small")
print(f"Documentos indexados: {len(documentos_langchain)}")

üóÑÔ∏è VECTOR STORE CRIADO

Banco de dados: ChromaDB (em mem√≥ria)
Modelo de embedding: text-embedding-3-small
Documentos indexados: 12


In [14]:
# Passo 4: Testando a busca sem√¢ntica

print("üîç TESTE DE BUSCA SEM√ÇNTICA")
print("=" * 60)

# Pergunta de teste
pergunta = "Qual √© o score m√≠nimo para aprovar cr√©dito para pessoa f√≠sica?"

# Busca os documentos mais relevantes
docs_relevantes = vector_store.similarity_search(pergunta, k=3)

print(f"\n‚ùì Pergunta: {pergunta}")
print(f"\nüìÑ Top 3 documentos mais relevantes:")
for i, doc in enumerate(docs_relevantes):
    print(f"\n--- Documento {i+1} ---")
    print(f"Fonte: {doc.metadata['titulo']}")
    print(f"Conte√∫do: {doc.page_content[:300]}...")

üîç TESTE DE BUSCA SEM√ÇNTICA

‚ùì Pergunta: Qual √© o score m√≠nimo para aprovar cr√©dito para pessoa f√≠sica?

üìÑ Top 3 documentos mais relevantes:

--- Documento 1 ---
Fonte: Pol√≠tica de Cr√©dito PF - Vers√£o 2024
Conte√∫do: POL√çTICA DE CONCESS√ÉO DE CR√âDITO PARA PESSOA F√çSICA
Documento: POL-CRED-PF-2024 | Vers√£o: 3.2 | Vig√™ncia: 01/01/2024

1. CRIT√âRIOS DE ELEGIBILIDADE
1.1. Score m√≠nimo de cr√©dito: 650 pontos
1.2. Renda m√≠nima comprovada: R$ 2.500,00
1.3. Tempo m√≠nimo de conta: 6 meses
1.4. Idade: entre 18 e 75 anos
1....

--- Documento 2 ---
Fonte: Pol√≠tica de Cr√©dito PJ - Vers√£o 2024
Conte√∫do: POL√çTICA DE CONCESS√ÉO DE CR√âDITO PARA PESSOA JUR√çDICA
Documento: POL-CRED-PJ-2024 | Vers√£o: 2.1 | Vig√™ncia: 01/01/2024

1. CRIT√âRIOS DE ELEGIBILIDADE
1.1. Tempo m√≠nimo de atividade: 12 meses
1.2. Faturamento m√≠nimo anual: R$ 240.000,00
1.3. Certid√µes negativas de d√©bitos federais, estaduais e munici...

--- Documento 3 ---
Fonte: Pol√≠tica de Cr√©dito PF - Vers

In [15]:
# Passo 5: Criando a Chain RAG completa

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

# Configura√ß√£o do retriever
retriever = vector_store.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 4}  # Retorna os 4 documentos mais relevantes
)

# Prompt para RAG
rag_prompt = ChatPromptTemplate.from_messages([
    ("system", """Voc√™ √© um especialista em compliance banc√°rio.
Use APENAS as informa√ß√µes fornecidas no contexto para responder.
Se a informa√ß√£o n√£o estiver no contexto, diga que n√£o encontrou nos documentos dispon√≠veis.
Sempre cite o documento fonte da informa√ß√£o.

Contexto dos documentos:
{context}"""),
    ("human", "{question}")
])

# LLM
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Fun√ß√£o para formatar documentos
def format_docs(docs):
    formatted = []
    for doc in docs:
        formatted.append(f"[Fonte: {doc.metadata['titulo']}]\n{doc.page_content}")
    return "\n\n---\n\n".join(formatted)

# Chain RAG
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | rag_prompt
    | llm
    | StrOutputParser()
)

print("‚úÖ CHAIN RAG CONFIGURADA!")
print("   Retriever: similarity search (k=4)")
print("   LLM: gpt-4o-mini")

‚úÖ CHAIN RAG CONFIGURADA!
   Retriever: similarity search (k=4)
   LLM: gpt-4o-mini


In [16]:
# Testando o RAG com perguntas sobre compliance

perguntas_teste = [
    "Qual √© o score m√≠nimo de cr√©dito para pessoa f√≠sica?",
    "Quais opera√ß√µes devem ser comunicadas ao COAF?",
    "Qual √© o limite m√°ximo de comprometimento de renda?",
    "De quanto em quanto tempo deve ser feita atualiza√ß√£o cadastral?",
    "Qual a frequ√™ncia de auditoria para contratos acima de R$ 1 milh√£o?",
]

print("ü§ñ SISTEMA RAG - CONSULTA DE COMPLIANCE")
print("=" * 60)

for pergunta in perguntas_teste:
    print(f"\n‚ùì {pergunta}")
    resposta = rag_chain.invoke(pergunta)
    print(f"\nüí¨ {resposta}")
    print("\n" + "-" * 60)

ü§ñ SISTEMA RAG - CONSULTA DE COMPLIANCE

‚ùì Qual √© o score m√≠nimo de cr√©dito para pessoa f√≠sica?

üí¨ O score m√≠nimo de cr√©dito para pessoa f√≠sica √© de 650 pontos. (Fonte: Pol√≠tica de Cr√©dito PF - Vers√£o 2024)

------------------------------------------------------------

‚ùì Quais opera√ß√µes devem ser comunicadas ao COAF?

üí¨ As opera√ß√µes que devem ser comunicadas ao COAF s√£o:

1. Dep√≥sitos em esp√©cie acima de R$ 50.000,00
2. Transfer√™ncias internacionais acima de R$ 10.000,00
3. Opera√ß√µes com caracter√≠sticas at√≠picas
4. Movimenta√ß√µes incompat√≠veis com o perfil do cliente

(Fonte: Pol√≠tica de Preven√ß√£o √† Lavagem de Dinheiro)

------------------------------------------------------------

‚ùì Qual √© o limite m√°ximo de comprometimento de renda?

üí¨ O limite m√°ximo de comprometimento de renda √© de 35% para cr√©dito pessoal. (Fonte: Pol√≠tica de Cr√©dito PF - Vers√£o 2024)

------------------------------------------------------------

‚ùì De quanto 

---

## üìö Parte 4: Ingest√£o de Documentos PDF

Agora vamos aprender a processar documentos PDF reais, que √© o formato mais comum em ambientes corporativos.

In [17]:
# Criando um PDF de exemplo para demonstra√ß√£o
# Em produ√ß√£o, voc√™ carregaria PDFs reais

import os

# Conte√∫do do PDF de exemplo (proposta de cr√©dito)
PROPOSTA_CREDITO_TEXTO = """
PROPOSTA DE CR√âDITO EMPRESARIAL
Protocolo: PROP-2024-00547
Data: 20/01/2024

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    DADOS DO PROPONENTE
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Raz√£o Social: Tech Solutions Ltda.
CNPJ: 12.345.678/0001-90
Data de Funda√ß√£o: 15/03/2019
Faturamento Anual (2023): R$ 3.500.000,00
N√∫mero de Funcion√°rios: 45
Setor: Tecnologia da Informa√ß√£o

S√≥cios:
- Roberto Almeida (60%) - CPF: 111.222.333-44
- Fernanda Costa (40%) - CPF: 555.666.777-88

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    DADOS DA OPERA√á√ÉO
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Tipo de Opera√ß√£o: Capital de Giro
Valor Solicitado: R$ 500.000,00 (quinhentos mil reais)
Prazo Desejado: 24 meses
Finalidade: Expans√£o da equipe de desenvolvimento e aquisi√ß√£o de equipamentos

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    GARANTIAS OFERECIDAS
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

1. Aliena√ß√£o Fiduci√°ria de Equipamentos
   - Descri√ß√£o: Servidores e equipamentos de TI
   - Valor de Avalia√ß√£o: R$ 180.000,00

2. Receb√≠veis (Duplicatas)
   - Descri√ß√£o: Contratos de presta√ß√£o de servi√ßos
   - Valor: R$ 250.000,00
   - Vencimento m√©dio: 60 dias

3. Aval dos S√≥cios
   - Roberto Almeida - Patrim√¥nio declarado: R$ 800.000,00
   - Fernanda Costa - Patrim√¥nio declarado: R$ 450.000,00

Total de Garantias: R$ 1.680.000,00
Cobertura: 336% do valor solicitado

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    AN√ÅLISE FINANCEIRA
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Indicadores (√∫ltimos 12 meses):
- Margem EBITDA: 18%
- Liquidez Corrente: 1,45
- Endividamento/PL: 0,65
- Cobertura de Juros (EBITDA/Despesas Financeiras): 4,2x

Hist√≥rico de Cr√©dito:
- Score Serasa PJ: 850/1000
- Sem protestos ou pend√™ncias judiciais
- Cliente do banco desde: 2020
- Opera√ß√µes anteriores: 2 (todas quitadas sem atraso)

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    CONDI√á√ïES PROPOSTAS
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Taxa de Juros: 1,89% ao m√™s (25,12% ao ano)
Sistema de Amortiza√ß√£o: PRICE
Valor da Parcela: R$ 25.847,33
IOF: R$ 4.750,00
TAC (Taxa de Abertura): R$ 2.500,00
CET (Custo Efetivo Total): 28,45% ao ano

Data de Vencimento: Todo dia 10
Car√™ncia: Sem car√™ncia

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    PARECER DA √ÅREA COMERCIAL
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Cliente com bom hist√≥rico e relacionamento s√≥lido com o banco.
Empresa em crescimento no setor de tecnologia.
Garantias robustas que cobrem mais de 3x o valor da opera√ß√£o.

Recomenda√ß√£o: FAVOR√ÅVEL √Ä APROVA√á√ÉO

Gerente Respons√°vel: Patricia Mendon√ßa
Matr√≠cula: 45678
Ag√™ncia: 0001 - Centro

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
"""

# Salvar como arquivo de texto (simulando PDF)
os.makedirs("documentos", exist_ok=True)
with open("documentos/proposta_credito.txt", "w", encoding="utf-8") as f:
    f.write(PROPOSTA_CREDITO_TEXTO)

print("üìÑ PROPOSTA DE CR√âDITO CRIADA")
print("=" * 60)
print(f"Arquivo: documentos/proposta_credito.txt")
print(f"Tamanho: {len(PROPOSTA_CREDITO_TEXTO)} caracteres")

üìÑ PROPOSTA DE CR√âDITO CRIADA
Arquivo: documentos/proposta_credito.txt
Tamanho: 3002 caracteres


In [18]:
# Criando mais documentos de exemplo

CONTRATO_EXEMPLO_2 = """
PROPOSTA DE FINANCIAMENTO DE VE√çCULO
Protocolo: FIN-VEI-2024-01234
Data: 22/01/2024

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    DADOS DO CLIENTE
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Nome: Mariana Santos Oliveira
CPF: 987.654.321-00
Data de Nascimento: 10/05/1985
Profiss√£o: M√©dica
Renda Mensal Comprovada: R$ 35.000,00

Endere√ßo: Av. Paulista, 1000, Apto 121
Bairro: Bela Vista - S√£o Paulo/SP
CEP: 01310-100

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    DADOS DO VE√çCULO
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Marca/Modelo: BMW X5 xDrive40i
Ano/Modelo: 2024/2024
Cor: Preto Safira
Valor do Ve√≠culo: R$ 650.000,00
Valor de Entrada: R$ 200.000,00 (30,77%)

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    DADOS DA OPERA√á√ÉO
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Valor Financiado: R$ 450.000,00
Prazo: 48 meses
Taxa de Juros: 1,29% ao m√™s (16,59% ao ano)
Valor da Parcela: R$ 12.856,78
CET: 18,92% ao ano

Garantia: Aliena√ß√£o fiduci√°ria do pr√≥prio ve√≠culo
Seguro: Obrigat√≥rio - Cobertura total

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    AN√ÅLISE DE CR√âDITO
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Score de Cr√©dito: 920/1000
Comprometimento de Renda Atual: 15%
Comprometimento com esta opera√ß√£o: 36,7%
Comprometimento Total: 51,7%

ALERTA: Comprometimento acima do limite de 35%!

Hist√≥rico:
- Cliente desde 2018
- Financiamento anterior quitado (2020-2023)
- Sem atrasos registrados

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
                    PARECER
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

Embora o comprometimento de renda esteja acima do limite padr√£o,
a cliente possui:
- Score excelente (920)
- Entrada expressiva (30,77%)
- Hist√≥rico impec√°vel
- Patrim√¥nio declarado de R$ 2.500.000,00

Recomenda√ß√£o: APROVAR COM RESSALVAS
Exig√™ncias adicionais:
1. Seguro de prote√ß√£o financeira
2. D√©bito autom√°tico obrigat√≥rio

Analista: Carlos Alberto
Matr√≠cula: 78901
"""

with open("documentos/financiamento_veiculo.txt", "w", encoding="utf-8") as f:
    f.write(CONTRATO_EXEMPLO_2)

print("üìÑ Documento adicional criado: financiamento_veiculo.txt")

üìÑ Documento adicional criado: financiamento_veiculo.txt


---

## üèóÔ∏è Parte 5: Projeto Pr√°tico - O Auditor de Contratos

Vamos construir um sistema completo que:
1. Recebe documentos de propostas/contratos
2. Extrai dados estruturados automaticamente
3. Valida contra regras de neg√≥cio
4. Gera um relat√≥rio de auditoria

In [19]:
# Schema completo para extra√ß√£o de propostas de cr√©dito

from pydantic import BaseModel, Field, field_validator
from typing import Optional, List
from enum import Enum
from datetime import date

class TipoPessoa(str, Enum):
    PF = "PESSOA_F√çSICA"
    PJ = "PESSOA_JUR√çDICA"

class TipoOperacao(str, Enum):
    CAPITAL_GIRO = "CAPITAL_DE_GIRO"
    FINANCIAMENTO_VEICULO = "FINANCIAMENTO_VE√çCULO"
    FINANCIAMENTO_IMOVEL = "FINANCIAMENTO_IM√ìVEL"
    CREDITO_PESSOAL = "CR√âDITO_PESSOAL"
    ANTECIPACAO_RECEBIVEIS = "ANTECIPA√á√ÉO_RECEB√çVEIS"

class ScoreRisco(str, Enum):
    BAIXO = "BAIXO"
    MEDIO = "M√âDIO"
    ALTO = "ALTO"
    MUITO_ALTO = "MUITO_ALTO"

class Recomendacao(str, Enum):
    APROVAR = "APROVAR"
    APROVAR_COM_RESSALVAS = "APROVAR_COM_RESSALVAS"
    REVISAR = "REVISAR"
    REJEITAR = "REJEITAR"

class GarantiaExtraida(BaseModel):
    """Garantia extra√≠da do documento."""
    tipo: str = Field(description="Tipo de garantia (aliena√ß√£o, hipoteca, aval, etc.)")
    descricao: str = Field(description="Descri√ß√£o detalhada da garantia")
    valor: Optional[float] = Field(default=None, description="Valor da garantia em reais")

class NaoConformidade(BaseModel):
    """N√£o conformidade identificada."""
    codigo: str = Field(description="C√≥digo da n√£o conformidade")
    severidade: str = Field(description="CR√çTICA, MAIOR, MENOR ou OBSERVA√á√ÉO")
    descricao: str = Field(description="Descri√ß√£o do problema identificado")
    acao_requerida: str = Field(description="A√ß√£o necess√°ria para corre√ß√£o")

class PropostaExtraida(BaseModel):
    """Schema completo para extra√ß√£o de proposta de cr√©dito."""
    
    # Identifica√ß√£o
    numero_proposta: str = Field(description="N√∫mero/protocolo da proposta")
    data_proposta: str = Field(description="Data da proposta")
    tipo_pessoa: TipoPessoa = Field(description="Se √© pessoa f√≠sica ou jur√≠dica")
    tipo_operacao: TipoOperacao = Field(description="Tipo da opera√ß√£o de cr√©dito")
    
    # Dados do cliente
    nome_cliente: str = Field(description="Nome/Raz√£o Social do cliente")
    documento_cliente: str = Field(description="CPF ou CNPJ do cliente")
    
    # Dados financeiros do cliente
    renda_faturamento: float = Field(description="Renda mensal (PF) ou faturamento anual (PJ)")
    score_credito: Optional[int] = Field(default=None, description="Score de cr√©dito (0-1000)")
    
    # Dados da opera√ß√£o
    valor_solicitado: float = Field(description="Valor solicitado em reais")
    prazo_meses: int = Field(description="Prazo em meses")
    taxa_juros_mensal: float = Field(description="Taxa de juros mensal (%)")
    taxa_juros_anual: float = Field(description="Taxa de juros anual (%)")
    valor_parcela: float = Field(description="Valor de cada parcela")
    cet_anual: Optional[float] = Field(default=None, description="Custo Efetivo Total anual (%)")
    
    # Garantias
    garantias: List[GarantiaExtraida] = Field(description="Lista de garantias oferecidas")
    valor_total_garantias: float = Field(description="Soma de todas as garantias")
    cobertura_garantias: float = Field(description="Percentual de cobertura (garantias/valor)")
    
    # An√°lise de risco
    comprometimento_renda: Optional[float] = Field(default=None, description="% de comprometimento de renda")
    score_risco: ScoreRisco = Field(description="Score de risco calculado")
    
    # N√£o conformidades identificadas
    nao_conformidades: List[NaoConformidade] = Field(
        default_factory=list,
        description="Lista de n√£o conformidades identificadas"
    )
    
    # Parecer final
    recomendacao: Recomendacao = Field(description="Recomenda√ß√£o de aprova√ß√£o")
    justificativa_recomendacao: str = Field(description="Justificativa detalhada da recomenda√ß√£o")

print("‚úÖ Schema PropostaExtraida definido!")
print(f"\nüìã Total de campos: {len(PropostaExtraida.model_fields)}")

‚úÖ Schema PropostaExtraida definido!

üìã Total de campos: 22


In [20]:
# Classe do Auditor de Contratos

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from typing import List, Dict, Any
import json

class AuditorContratos:
    """
    Sistema de Auditoria de Contratos com RAG e Extra√ß√£o Estruturada.
    
    Funcionalidades:
    - Extra√ß√£o autom√°tica de dados de propostas/contratos
    - Valida√ß√£o contra pol√≠ticas de compliance (RAG)
    - Identifica√ß√£o de n√£o conformidades
    - Gera√ß√£o de parecer de auditoria
    """
    
    def __init__(self, vector_store: Chroma):
        self.vector_store = vector_store
        self.llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
        self.extrator = self.llm.with_structured_output(PropostaExtraida)
        self.retriever = vector_store.as_retriever(search_kwargs={"k": 4})
        self._setup_prompts()
    
    def _setup_prompts(self):
        """Configura os prompts do sistema."""
        
        self.prompt_extracao = ChatPromptTemplate.from_messages([
            ("system", """Voc√™ √© um auditor especializado em an√°lise de propostas de cr√©dito.

Sua tarefa √© extrair TODAS as informa√ß√µes do documento fornecido e avaliar a conformidade.

## REGRAS DE COMPLIANCE (use para identificar n√£o conformidades):

{politicas}

## CRIT√âRIOS DE AVALIA√á√ÉO DE RISCO:

BAIXO:
- Cobertura de garantias > 150%
- Score > 800
- Taxa de juros dentro da m√©dia de mercado
- Comprometimento de renda < 30%

M√âDIO:
- Cobertura de garantias entre 100-150%
- Score entre 700-800
- Comprometimento entre 30-40%

ALTO:
- Cobertura de garantias entre 80-100%
- Score entre 600-700
- Comprometimento entre 40-50%

MUITO_ALTO:
- Cobertura < 80%
- Score < 600
- Comprometimento > 50%
- M√∫ltiplos fatores de risco

## IDENTIFICA√á√ÉO DE N√ÉO CONFORMIDADES:

- NC-001: Comprometimento de renda acima do limite (severidade: MAIOR)
- NC-002: Taxa de juros acima do permitido (severidade: CR√çTICA)
- NC-003: Garantias insuficientes (severidade: MAIOR)
- NC-004: Score abaixo do m√≠nimo (severidade: CR√çTICA)
- NC-005: Documenta√ß√£o incompleta (severidade: MENOR)
- NC-006: CET n√£o informado (severidade: CR√çTICA)

Seja preciso e criterioso na an√°lise."""),
            ("human", "Analise esta proposta e extraia todos os dados:\n\n{documento}")
        ])
    
    def _buscar_politicas(self, tipo_operacao: str) -> str:
        """Busca pol√≠ticas relevantes no vector store."""
        query = f"pol√≠tica de cr√©dito {tipo_operacao} limites taxas garantias"
        docs = self.retriever.invoke(query)
        return "\n\n".join([doc.page_content for doc in docs])
    
    def auditar(self, documento: str) -> PropostaExtraida:
        """
        Realiza a auditoria completa de um documento.
        
        Args:
            documento: Texto do documento a ser auditado
            
        Returns:
            PropostaExtraida com todos os dados e an√°lise
        """
        # Busca pol√≠ticas relevantes
        politicas = self._buscar_politicas("pessoa f√≠sica pessoa jur√≠dica")
        
        # Cria a chain de extra√ß√£o
        chain = self.prompt_extracao | self.extrator
        
        # Executa a extra√ß√£o
        resultado = chain.invoke({
            "documento": documento,
            "politicas": politicas
        })
        
        return resultado
    
    def gerar_relatorio(self, proposta: PropostaExtraida) -> str:
        """
        Gera um relat√≥rio formatado da auditoria.
        """
        relatorio = []
        relatorio.append("="*70)
        relatorio.append("           RELAT√ìRIO DE AUDITORIA DE PROPOSTA DE CR√âDITO")
        relatorio.append("="*70)
        
        relatorio.append(f"\nüìã IDENTIFICA√á√ÉO")
        relatorio.append(f"   Proposta: {proposta.numero_proposta}")
        relatorio.append(f"   Data: {proposta.data_proposta}")
        relatorio.append(f"   Tipo: {proposta.tipo_operacao.value}")
        
        relatorio.append(f"\nüë§ CLIENTE")
        relatorio.append(f"   Nome: {proposta.nome_cliente}")
        relatorio.append(f"   Documento: {proposta.documento_cliente}")
        relatorio.append(f"   Tipo: {proposta.tipo_pessoa.value}")
        if proposta.score_credito:
            relatorio.append(f"   Score: {proposta.score_credito}/1000")
        
        relatorio.append(f"\nüí∞ OPERA√á√ÉO")
        relatorio.append(f"   Valor Solicitado: R$ {proposta.valor_solicitado:,.2f}")
        relatorio.append(f"   Prazo: {proposta.prazo_meses} meses")
        relatorio.append(f"   Taxa Mensal: {proposta.taxa_juros_mensal}%")
        relatorio.append(f"   Taxa Anual: {proposta.taxa_juros_anual}%")
        relatorio.append(f"   Parcela: R$ {proposta.valor_parcela:,.2f}")
        if proposta.cet_anual:
            relatorio.append(f"   CET Anual: {proposta.cet_anual}%")
        
        relatorio.append(f"\nüõ°Ô∏è GARANTIAS")
        for g in proposta.garantias:
            valor_str = f" - R$ {g.valor:,.2f}" if g.valor else ""
            relatorio.append(f"   ‚Ä¢ {g.tipo}: {g.descricao}{valor_str}")
        relatorio.append(f"   Total: R$ {proposta.valor_total_garantias:,.2f}")
        relatorio.append(f"   Cobertura: {proposta.cobertura_garantias:.1f}%")
        
        relatorio.append(f"\n‚ö†Ô∏è AN√ÅLISE DE RISCO")
        relatorio.append(f"   Score de Risco: {proposta.score_risco.value}")
        if proposta.comprometimento_renda:
            relatorio.append(f"   Comprometimento de Renda: {proposta.comprometimento_renda:.1f}%")
        
        if proposta.nao_conformidades:
            relatorio.append(f"\n‚ùå N√ÉO CONFORMIDADES IDENTIFICADAS")
            for nc in proposta.nao_conformidades:
                relatorio.append(f"   [{nc.severidade}] {nc.codigo}: {nc.descricao}")
                relatorio.append(f"      A√ß√£o: {nc.acao_requerida}")
        else:
            relatorio.append(f"\n‚úÖ NENHUMA N√ÉO CONFORMIDADE IDENTIFICADA")
        
        relatorio.append(f"\nüìù PARECER FINAL")
        relatorio.append(f"   Recomenda√ß√£o: {proposta.recomendacao.value}")
        relatorio.append(f"   Justificativa: {proposta.justificativa_recomendacao}")
        
        relatorio.append("\n" + "="*70)
        
        return "\n".join(relatorio)

print("‚úÖ Classe AuditorContratos definida!")

‚úÖ Classe AuditorContratos definida!


In [21]:
# Instanciando o Auditor

auditor = AuditorContratos(vector_store=vector_store)

print("üîç AUDITOR DE CONTRATOS")
print("=" * 60)
print("Sistema iniciado e pronto para auditar documentos!")

üîç AUDITOR DE CONTRATOS
Sistema iniciado e pronto para auditar documentos!


In [22]:
# Auditando a proposta de cr√©dito empresarial

print("üîç AUDITORIA 1: Proposta de Cr√©dito Empresarial")
print("=" * 60)

# L√™ o documento
with open("documentos/proposta_credito.txt", "r", encoding="utf-8") as f:
    documento_pj = f.read()

# Executa a auditoria
resultado_pj = auditor.auditar(documento_pj)

# Gera e exibe o relat√≥rio
relatorio_pj = auditor.gerar_relatorio(resultado_pj)
print(relatorio_pj)

üîç AUDITORIA 1: Proposta de Cr√©dito Empresarial
           RELAT√ìRIO DE AUDITORIA DE PROPOSTA DE CR√âDITO

üìã IDENTIFICA√á√ÉO
   Proposta: PROP-2024-00547
   Data: 20/01/2024
   Tipo: CAPITAL_DE_GIRO

üë§ CLIENTE
   Nome: Tech Solutions Ltda.
   Documento: 12.345.678/0001-90
   Tipo: PESSOA_JUR√çDICA
   Score: 850/1000

üí∞ OPERA√á√ÉO
   Valor Solicitado: R$ 500,000.00
   Prazo: 24 meses
   Taxa Mensal: 1.89%
   Taxa Anual: 25.12%
   Parcela: R$ 25,847.33
   CET Anual: 28.45%

üõ°Ô∏è GARANTIAS
   ‚Ä¢ Aliena√ß√£o Fiduci√°ria: Servidores e equipamentos de TI - R$ 180,000.00
   ‚Ä¢ Receb√≠veis: Contratos de presta√ß√£o de servi√ßos - R$ 250,000.00
   ‚Ä¢ Aval dos S√≥cios: Roberto Almeida - Patrim√¥nio declarado: R$ 800.000,00; Fernanda Costa - Patrim√¥nio declarado: R$ 450.000,00 - R$ 1,250,000.00
   Total: R$ 1,680,000.00
   Cobertura: 336.0%

‚ö†Ô∏è AN√ÅLISE DE RISCO
   Score de Risco: BAIXO

‚úÖ NENHUMA N√ÉO CONFORMIDADE IDENTIFICADA

üìù PARECER FINAL
   Recomenda√ß√£o: APRO

In [23]:
# Auditando a proposta de financiamento de ve√≠culo

print("üîç AUDITORIA 2: Financiamento de Ve√≠culo")
print("=" * 60)

# L√™ o documento
with open("documentos/financiamento_veiculo.txt", "r", encoding="utf-8") as f:
    documento_veiculo = f.read()

# Executa a auditoria
resultado_veiculo = auditor.auditar(documento_veiculo)

# Gera e exibe o relat√≥rio
relatorio_veiculo = auditor.gerar_relatorio(resultado_veiculo)
print(relatorio_veiculo)

üîç AUDITORIA 2: Financiamento de Ve√≠culo
           RELAT√ìRIO DE AUDITORIA DE PROPOSTA DE CR√âDITO

üìã IDENTIFICA√á√ÉO
   Proposta: FIN-VEI-2024-01234
   Data: 22/01/2024
   Tipo: FINANCIAMENTO_VE√çCULO

üë§ CLIENTE
   Nome: Mariana Santos Oliveira
   Documento: 987.654.321-00
   Tipo: PESSOA_F√çSICA
   Score: 920/1000

üí∞ OPERA√á√ÉO
   Valor Solicitado: R$ 450,000.00
   Prazo: 48 meses
   Taxa Mensal: 1.29%
   Taxa Anual: 16.59%
   Parcela: R$ 12,856.78
   CET Anual: 18.92%

üõ°Ô∏è GARANTIAS
   ‚Ä¢ aliena√ß√£o fiduci√°ria: Aliena√ß√£o fiduci√°ria do pr√≥prio ve√≠culo - R$ 650,000.00
   Total: R$ 650,000.00
   Cobertura: 100.0%

‚ö†Ô∏è AN√ÅLISE DE RISCO
   Score de Risco: ALTO
   Comprometimento de Renda: 36.7%

‚ùå N√ÉO CONFORMIDADES IDENTIFICADAS
   [MAIOR] NC-001: Comprometimento de renda acima do limite (36,7%)
      A√ß√£o: Revisar comprometimento de renda e considerar a aprova√ß√£o com ressalvas.

üìù PARECER FINAL
   Recomenda√ß√£o: APROVAR_COM_RESSALVAS
   Justificat

In [24]:
# Exportando resultados como JSON

print("üì§ EXPORTANDO RESULTADOS")
print("=" * 60)

# Exporta para JSON
resultado_json_pj = resultado_pj.model_dump_json(indent=2)
resultado_json_veiculo = resultado_veiculo.model_dump_json(indent=2)

# Salva em arquivos
with open("documentos/auditoria_pj.json", "w", encoding="utf-8") as f:
    f.write(resultado_json_pj)

with open("documentos/auditoria_veiculo.json", "w", encoding="utf-8") as f:
    f.write(resultado_json_veiculo)

print("\n‚úÖ Arquivos exportados:")
print("   ‚Ä¢ documentos/auditoria_pj.json")
print("   ‚Ä¢ documentos/auditoria_veiculo.json")

print("\nüìÑ Preview do JSON (Proposta PJ):")
print(resultado_json_pj[:1000] + "...")

üì§ EXPORTANDO RESULTADOS

‚úÖ Arquivos exportados:
   ‚Ä¢ documentos/auditoria_pj.json
   ‚Ä¢ documentos/auditoria_veiculo.json

üìÑ Preview do JSON (Proposta PJ):
{
  "numero_proposta": "PROP-2024-00547",
  "data_proposta": "20/01/2024",
  "tipo_pessoa": "PESSOA_JUR√çDICA",
  "tipo_operacao": "CAPITAL_DE_GIRO",
  "nome_cliente": "Tech Solutions Ltda.",
  "documento_cliente": "12.345.678/0001-90",
  "renda_faturamento": 3500000.0,
  "score_credito": 850,
  "valor_solicitado": 500000.0,
  "prazo_meses": 24,
  "taxa_juros_mensal": 1.89,
  "taxa_juros_anual": 25.12,
  "valor_parcela": 25847.33,
  "cet_anual": 28.45,
  "garantias": [
    {
      "tipo": "Aliena√ß√£o Fiduci√°ria",
      "descricao": "Servidores e equipamentos de TI",
      "valor": 180000.0
    },
    {
      "tipo": "Receb√≠veis",
      "descricao": "Contratos de presta√ß√£o de servi√ßos",
      "valor": 250000.0
    },
    {
      "tipo": "Aval dos S√≥cios",
      "descricao": "Roberto Almeida - Patrim√¥nio declarado: 

---

## üìö Parte 6: Valida√ß√£o com Regras de Neg√≥cio

Vamos adicionar valida√ß√£o autom√°tica usando Pydantic validators.

In [25]:
# Classe de valida√ß√£o com regras de neg√≥cio

from pydantic import BaseModel, Field, model_validator
from typing import List, Optional

class ValidacaoProposta(BaseModel):
    """Valida√ß√£o de proposta com regras de neg√≥cio."""
    
    valor_solicitado: float
    prazo_meses: int
    taxa_juros_mensal: float
    valor_total_garantias: float
    score_credito: Optional[int] = None
    comprometimento_renda: Optional[float] = None
    
    # Resultados da valida√ß√£o
    validacoes: List[str] = Field(default_factory=list)
    alertas: List[str] = Field(default_factory=list)
    bloqueios: List[str] = Field(default_factory=list)
    
    @model_validator(mode='after')
    def validar_regras_negocio(self):
        """Valida todas as regras de neg√≥cio."""
        
        # Regra 1: Cobertura de garantias
        cobertura = (self.valor_total_garantias / self.valor_solicitado) * 100
        if cobertura >= 100:
            self.validacoes.append(f"‚úÖ Cobertura de garantias adequada: {cobertura:.1f}%")
        elif cobertura >= 80:
            self.alertas.append(f"‚ö†Ô∏è Cobertura de garantias marginal: {cobertura:.1f}%")
        else:
            self.bloqueios.append(f"‚ùå Cobertura de garantias insuficiente: {cobertura:.1f}%")
        
        # Regra 2: Taxa de juros
        if self.taxa_juros_mensal <= 2.5:
            self.validacoes.append(f"‚úÖ Taxa de juros dentro do limite: {self.taxa_juros_mensal}% a.m.")
        elif self.taxa_juros_mensal <= 3.5:
            self.alertas.append(f"‚ö†Ô∏è Taxa de juros acima da m√©dia: {self.taxa_juros_mensal}% a.m.")
        else:
            self.bloqueios.append(f"‚ùå Taxa de juros excessiva: {self.taxa_juros_mensal}% a.m.")
        
        # Regra 3: Prazo
        if self.prazo_meses <= 60:
            self.validacoes.append(f"‚úÖ Prazo dentro do limite: {self.prazo_meses} meses")
        else:
            self.alertas.append(f"‚ö†Ô∏è Prazo longo: {self.prazo_meses} meses - requer aprova√ß√£o especial")
        
        # Regra 4: Score de cr√©dito
        if self.score_credito:
            if self.score_credito >= 700:
                self.validacoes.append(f"‚úÖ Score de cr√©dito bom: {self.score_credito}")
            elif self.score_credito >= 600:
                self.alertas.append(f"‚ö†Ô∏è Score de cr√©dito m√©dio: {self.score_credito}")
            else:
                self.bloqueios.append(f"‚ùå Score de cr√©dito abaixo do m√≠nimo: {self.score_credito}")
        
        # Regra 5: Comprometimento de renda
        if self.comprometimento_renda:
            if self.comprometimento_renda <= 35:
                self.validacoes.append(f"‚úÖ Comprometimento de renda adequado: {self.comprometimento_renda}%")
            elif self.comprometimento_renda <= 50:
                self.alertas.append(f"‚ö†Ô∏è Comprometimento de renda elevado: {self.comprometimento_renda}%")
            else:
                self.bloqueios.append(f"‚ùå Comprometimento de renda excessivo: {self.comprometimento_renda}%")
        
        return self
    
    def pode_aprovar(self) -> bool:
        """Retorna True se n√£o houver bloqueios."""
        return len(self.bloqueios) == 0
    
    def gerar_parecer(self) -> str:
        """Gera parecer da valida√ß√£o."""
        linhas = ["\nüîç VALIDA√á√ÉO DE REGRAS DE NEG√ìCIO", "="*50]
        
        if self.validacoes:
            linhas.append("\n‚úÖ APROVA√á√ïES:")
            linhas.extend([f"   {v}" for v in self.validacoes])
        
        if self.alertas:
            linhas.append("\n‚ö†Ô∏è ALERTAS:")
            linhas.extend([f"   {a}" for a in self.alertas])
        
        if self.bloqueios:
            linhas.append("\n‚ùå BLOQUEIOS:")
            linhas.extend([f"   {b}" for b in self.bloqueios])
        
        linhas.append("\n" + "="*50)
        if self.pode_aprovar():
            if self.alertas:
                linhas.append("üìã PARECER: APROVAR COM RESSALVAS")
            else:
                linhas.append("üìã PARECER: APROVAR")
        else:
            linhas.append("üìã PARECER: NECESSITA AN√ÅLISE MANUAL")
        
        return "\n".join(linhas)

print("‚úÖ Classe ValidacaoProposta definida!")

‚úÖ Classe ValidacaoProposta definida!


In [26]:
# Testando a valida√ß√£o com os resultados das auditorias

print("üìä VALIDA√á√ÉO DA PROPOSTA PJ (Tech Solutions)")
print("=" * 60)

validacao_pj = ValidacaoProposta(
    valor_solicitado=resultado_pj.valor_solicitado,
    prazo_meses=resultado_pj.prazo_meses,
    taxa_juros_mensal=resultado_pj.taxa_juros_mensal,
    valor_total_garantias=resultado_pj.valor_total_garantias,
    score_credito=resultado_pj.score_credito
)

print(validacao_pj.gerar_parecer())

üìä VALIDA√á√ÉO DA PROPOSTA PJ (Tech Solutions)

üîç VALIDA√á√ÉO DE REGRAS DE NEG√ìCIO

‚úÖ APROVA√á√ïES:
   ‚úÖ Cobertura de garantias adequada: 336.0%
   ‚úÖ Taxa de juros dentro do limite: 1.89% a.m.
   ‚úÖ Prazo dentro do limite: 24 meses
   ‚úÖ Score de cr√©dito bom: 850

üìã PARECER: APROVAR


In [27]:
# Valida√ß√£o do financiamento de ve√≠culo

print("\nüìä VALIDA√á√ÉO DO FINANCIAMENTO DE VE√çCULO (Mariana)")
print("=" * 60)

validacao_veiculo = ValidacaoProposta(
    valor_solicitado=resultado_veiculo.valor_solicitado,
    prazo_meses=resultado_veiculo.prazo_meses,
    taxa_juros_mensal=resultado_veiculo.taxa_juros_mensal,
    valor_total_garantias=resultado_veiculo.valor_total_garantias,
    score_credito=resultado_veiculo.score_credito,
    comprometimento_renda=resultado_veiculo.comprometimento_renda
)

print(validacao_veiculo.gerar_parecer())


üìä VALIDA√á√ÉO DO FINANCIAMENTO DE VE√çCULO (Mariana)

üîç VALIDA√á√ÉO DE REGRAS DE NEG√ìCIO

‚úÖ APROVA√á√ïES:
   ‚úÖ Cobertura de garantias adequada: 144.4%
   ‚úÖ Taxa de juros dentro do limite: 1.29% a.m.
   ‚úÖ Prazo dentro do limite: 48 meses
   ‚úÖ Score de cr√©dito bom: 920

‚ö†Ô∏è ALERTAS:
   ‚ö†Ô∏è Comprometimento de renda elevado: 36.7%

üìã PARECER: APROVAR COM RESSALVAS


---

## üìö Parte 7: Sistema Integrado Final

Vamos consolidar tudo em uma classe que pode ser reutilizada em produ√ß√£o.

In [49]:
# Sistema Integrado de Auditoria com RAG

from typing import Tuple
from datetime import datetime

class SistemaAuditoriaRAG:
    """
    Sistema completo de auditoria de contratos com:
    - Extra√ß√£o estruturada de dados
    - Valida√ß√£o RAG contra pol√≠ticas
    - Valida√ß√£o de regras de neg√≥cio
    - Gera√ß√£o de relat√≥rios
    """
    
    def __init__(self, documentos_politicas: List[dict]):
        """Inicializa o sistema com documentos de pol√≠ticas."""
        print("üîÑ Inicializando Sistema de Auditoria RAG...")
        
        # Configura embeddings
        self.embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
        
        # Configura LLM para consultas
        self.llm = ChatOpenAI(model="gpt-4o", temperature=0)
        
        # Processa documentos de pol√≠ticas
        self._carregar_politicas(documentos_politicas)
        
        # Configura o auditor
        self.auditor = AuditorContratos(vector_store=self.vector_store)
        
        # Configura RAG chain para consultas
        self._configurar_rag_chain()
        
        print("‚úÖ Sistema inicializado com sucesso!")
    
    def _carregar_politicas(self, documentos: List[dict]):
        """Carrega e indexa documentos de pol√≠ticas."""
        from langchain_text_splitters import RecursiveCharacterTextSplitter
        from langchain_core.documents import Document
        
        splitter = RecursiveCharacterTextSplitter(
            chunk_size=500,
            chunk_overlap=50
        )
        
        docs_processados = []
        for doc in documentos:
            chunks = splitter.split_text(doc["conteudo"])
            for i, chunk in enumerate(chunks):
                docs_processados.append(Document(
                    page_content=chunk,
                    metadata={"titulo": doc["titulo"], "chunk": i}
                ))
        
        self.vector_store = Chroma.from_documents(
            documents=docs_processados,
            embedding=self.embeddings,
            collection_name="politicas_compliance"
        )
        
        print(f"   üìö {len(documentos)} documentos carregados ({len(docs_processados)} chunks)")
    
    def _configurar_rag_chain(self):
        """Configura a chain RAG para consultas √†s pol√≠ticas."""
        from langchain_core.prompts import ChatPromptTemplate
        from langchain_core.runnables import RunnablePassthrough
        from langchain_core.output_parsers import StrOutputParser
        
        self.retriever = self.vector_store.as_retriever(search_kwargs={"k": 4})
        
        prompt = ChatPromptTemplate.from_messages([
            ("system", """Voc√™ √© um especialista em compliance banc√°rio.
Use APENAS as informa√ß√µes fornecidas no contexto para responder.
Se a informa√ß√£o n√£o estiver no contexto, diga que n√£o encontrou nos documentos dispon√≠veis.
Seja conciso e direto na resposta.

Contexto dos documentos:
{context}"""),
            ("human", "{question}")
        ])
        
        def format_docs(docs):
            return "\n\n".join([f"[{doc.metadata['titulo']}]\n{doc.page_content}" for doc in docs])
        
        self.rag_chain = (
            {"context": self.retriever | format_docs, "question": RunnablePassthrough()}
            | prompt
            | self.llm
            | StrOutputParser()
        )
    
    def consultar_politica(self, pergunta: str) -> str:
        """
        Consulta as pol√≠ticas de compliance usando RAG.
        
        Args:
            pergunta: Pergunta sobre as pol√≠ticas
            
        Returns:
            Resposta baseada nos documentos de pol√≠tica
        """
        return self.rag_chain.invoke(pergunta)
    
    def processar_proposta(self, texto_proposta: str) -> Tuple[PropostaExtraida, ValidacaoProposta, str]:
        """
        Processa uma proposta completa.
        
        Returns:
            Tuple com (dados extra√≠dos, valida√ß√£o, relat√≥rio)
        """
        # 1. Extrai dados
        proposta = self.auditor.auditar(texto_proposta)
        
        # 2. Calcula valor total das garantias
        valor_total_garantias = 0.0
        if proposta.garantias:
            valor_total_garantias = sum(g.valor for g in proposta.garantias if g.valor)
        
        # 3. Valida regras de neg√≥cio
        validacao = ValidacaoProposta(
            valor_solicitado=proposta.valor_solicitado,
            prazo_meses=proposta.prazo_meses,
            taxa_juros_mensal=proposta.taxa_juros_mensal,
            valor_total_garantias=valor_total_garantias,
            comprometimento_renda=proposta.comprometimento_renda,
            score_credito=proposta.score_credito
        )
        
        # 4. Gera relat√≥rio
        relatorio = self._gerar_relatorio(proposta, validacao)
        
        return proposta, validacao, relatorio
    
    def _classificar_risco(self, validacao: ValidacaoProposta) -> str:
        """Classifica o n√≠vel de risco baseado na valida√ß√£o."""
        if validacao.bloqueios:
            return "ALTO"
        elif validacao.alertas:
            return "M√âDIO"
        else:
            return "BAIXO"
    
    def _gerar_relatorio(self, proposta: PropostaExtraida, validacao: ValidacaoProposta) -> str:
        """Gera relat√≥rio completo de auditoria."""
        # Usa RAG para buscar pol√≠ticas relevantes
        retriever = self.vector_store.as_retriever(search_kwargs={"k": 3})
        
        contexto = f"""
        Tipo de Opera√ß√£o: {proposta.tipo_operacao}
        Valor: R$ {proposta.valor_solicitado:,.2f}
        Tipo de Cliente: {proposta.tipo_pessoa}
        """
        
        docs = retriever.invoke(contexto)
        politicas = "\n".join([d.page_content for d in docs])
        
        # Classifica o risco
        nivel_risco = self._classificar_risco(validacao)
        
        # Trata valores opcionais
        score_str = f"{proposta.score_credito}/1000" if proposta.score_credito else "N/A"
        comprometimento_str = f"{proposta.comprometimento_renda:.1f}%" if proposta.comprometimento_renda else "N/A"
        
        relatorio = f"""
‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
‚ïë              RELAT√ìRIO DE AUDITORIA - SISTEMA RAG                 ‚ïë
‚ï†‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï£
‚ïë Data: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}                                      ‚ïë
‚ïë Protocolo: {proposta.numero_proposta or 'N/A':12}                                    ‚ïë
‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù

üìã DADOS DA PROPOSTA
{'='*60}
‚Ä¢ Cliente: {proposta.nome_cliente}
‚Ä¢ Tipo: {proposta.tipo_pessoa.value if proposta.tipo_pessoa else 'N/A'}
‚Ä¢ Opera√ß√£o: {proposta.tipo_operacao.value if proposta.tipo_operacao else 'N/A'}
‚Ä¢ Valor: R$ {proposta.valor_solicitado:,.2f}
‚Ä¢ Prazo: {proposta.prazo_meses} meses
‚Ä¢ Taxa: {proposta.taxa_juros_mensal:.2f}% a.m.

üìä AN√ÅLISE DE RISCO
{'='*60}
‚Ä¢ Score de Cr√©dito: {score_str}
‚Ä¢ Comprometimento de Renda: {comprometimento_str}
‚Ä¢ Classifica√ß√£o de Risco: {nivel_risco}

‚úÖ VALIDA√á√ïES
{'='*60}
{validacao.gerar_parecer()}

üìö POL√çTICAS APLIC√ÅVEIS
{'='*60}
{politicas[:500]}...

{'='*60}
                    FIM DO RELAT√ìRIO
{'='*60}
"""
        return relatorio
    
    def processar_lote(self, propostas: List[str]) -> List[dict]:
        """Processa um lote de propostas."""
        resultados = []
        for i, proposta in enumerate(propostas, 1):
            print(f"\nüìÑ Processando proposta {i}/{len(propostas)}...")
            dados, validacao, relatorio = self.processar_proposta(proposta)
            resultados.append({
                "proposta": dados,
                "validacao": validacao,
                "relatorio": relatorio
            })
        return resultados

print("‚úÖ Classe SistemaAuditoriaRAG definida!")

‚úÖ Classe SistemaAuditoriaRAG definida!


In [50]:
# Testando o Sistema Integrado

print("üöÄ INICIALIZANDO SISTEMA DE AUDITORIA INTEGRADO")
print("=" * 60)

# Cria o sistema
sistema = SistemaAuditoriaRAG(documentos_politicas=DOCUMENTOS_COMPLIANCE)

print("\n" + "="*60)

üöÄ INICIALIZANDO SISTEMA DE AUDITORIA INTEGRADO
üîÑ Inicializando Sistema de Auditoria RAG...
   üìö 4 documentos carregados (12 chunks)
‚úÖ Sistema inicializado com sucesso!



In [51]:
# Processando a proposta empresarial pelo sistema integrado

print("\nüìã PROCESSANDO PROPOSTA: Tech Solutions Ltda.")
print("="*60)

proposta_extraida, validacao_regras, relatorio_final = sistema.processar_proposta(PROPOSTA_CREDITO_TEXTO)

print(relatorio_final)


üìã PROCESSANDO PROPOSTA: Tech Solutions Ltda.

‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
‚ïë              RELAT√ìRIO DE AUDITORIA - SISTEMA RAG                 ‚ïë
‚ï†‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï£
‚ïë Data: 28/01/2026 13:19:12                                      ‚ïë
‚ïë Protocolo: PROP-2024-00547                                    ‚ïë
‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù

üìã DADOS DA PROPOSTA
‚Ä¢ Cliente: Tech Solutions Ltda.
‚Ä¢ Tipo: PESSOA_JUR√çDICA
‚Ä¢ Opera√ß√£o: CAPITAL_DE_GIRO
‚Ä

In [48]:
# Consultando pol√≠ticas via RAG

print("\nüîç CONSULTAS √ÄS POL√çTICAS (RAG)")
print("="*60)

perguntas = [
    "Qual o limite m√°ximo de financiamento para capital de giro PJ?",
    "Quais s√£o os crit√©rios de elegibilidade para cr√©dito PJ?",
    "O que caracteriza uma n√£o conformidade cr√≠tica em auditoria?"
]

for p in perguntas:
    print(f"\n‚ùì {p}")
    resposta = sistema.consultar_politica(p)
    print(f"\nüí¨ {resposta}")
    print("-" * 60)


üîç CONSULTAS √ÄS POL√çTICAS (RAG)

‚ùì Qual o limite m√°ximo de financiamento para capital de giro PJ?

üí¨ O limite m√°ximo de financiamento para capital de giro PJ √© at√© 50% do faturamento mensal m√©dio.
------------------------------------------------------------

‚ùì Quais s√£o os crit√©rios de elegibilidade para cr√©dito PJ?

üí¨ N√£o encontrei nos documentos dispon√≠veis informa√ß√µes sobre os crit√©rios de elegibilidade para cr√©dito PJ.
------------------------------------------------------------

‚ùì O que caracteriza uma n√£o conformidade cr√≠tica em auditoria?

üí¨ Uma n√£o conformidade cr√≠tica em auditoria √© caracterizada por requerer corre√ß√£o imediata e reporte √† diretoria.
------------------------------------------------------------


---

## üìù Resumo da Aula 2

### O que aprendemos:

1. **Chat Gen√©rico vs Extra√ß√£o Estruturada**
   - Chat gen√©rico retorna texto livre, dif√≠cil de processar
   - Extra√ß√£o estruturada usa Pydantic para garantir formato
   - `with_structured_output()` for√ßa o LLM a seguir um schema

2. **RAG (Retrieval-Augmented Generation)**
   - Permite que o LLM use conhecimento de documentos internos
   - Componentes: Embeddings ‚Üí Vector Store ‚Üí Retriever ‚Üí LLM
   - ChromaDB √© uma op√ß√£o leve para Vector Store

3. **Embeddings e Similaridade**
   - Embeddings convertem texto em vetores num√©ricos
   - Similaridade de cosseno mede proximidade sem√¢ntica
   - Chunking divide documentos grandes em peda√ßos gerenci√°veis

4. **Function Calling e Output Parsers**
   - Pydantic valida e estrutura sa√≠das do LLM
   - Validators permitem regras de neg√≥cio customizadas
   - JSON export facilita integra√ß√£o com sistemas

5. **Projeto: O Auditor de Contratos**
   - Sistema completo de extra√ß√£o e valida√ß√£o
   - Integra√ß√£o com base de pol√≠ticas via RAG
   - Gera√ß√£o autom√°tica de relat√≥rios de auditoria

---

### üìö Pr√≥xima Aula: Orquestra√ß√£o de Estado com LangGraph

Na Aula 3, voc√™ aprender√°:
- Grafos Computacionais: N√≥s e Arestas
- Gerenciamento de Estado Global
- Persist√™ncia com Checkpoints
- Human-in-the-loop para aprova√ß√µes
- Projeto: O Motor de Decis√£o

---

**Parab√©ns por completar a Aula 2!** üéâ