# üìò Exerc√≠cio Guiado: RAG de Regulamento de Fundos

## Performance ‚Äì IA para Devs | Desenvolvimento e Orquestra√ß√£o de Agentes de IA para o Setor Financeiro

---

### üéØ Objetivo do Exerc√≠cio

Neste exerc√≠cio guiado, voc√™ ir√° construir um sistema de **RAG (Retrieval-Augmented Generation)** para consultar e extrair informa√ß√µes estruturadas do **Regulamento do Fundo KNCR** (Kinea Rendimentos Imobili√°rios).

Ao final deste exerc√≠cio, voc√™ ser√° capaz de:

1. **Carregar e processar** documentos PDF com PyPDF
2. **Criar embeddings** e armazenar em um Vector Store
3. **Implementar RAG** para consultas sobre o regulamento
4. **Extrair dados estruturados** com Pydantic
5. **Desenvolver um assistente** especializado em regulamentos de fundos

---

### üõ†Ô∏è Stack Tecnol√≥gico

| Tecnologia | Uso |
|------------|-----|
| **LangChain** | Framework para RAG |
| **PyPDF** | Extra√ß√£o de texto de PDFs |
| **ChromaDB** | Vector Store para embeddings |
| **Pydantic** | Valida√ß√£o e estrutura√ß√£o de sa√≠das |
| **OpenAI** | Embeddings e LLM |

---

### üìÑ Sobre o Documento

O **KNCR11** (Kinea Rendimentos Imobili√°rios) √© um Fundo de Investimento Imobili√°rio (FII) que investe predominantemente em Certificados de Receb√≠veis Imobili√°rios (CRI).

O regulamento cont√©m informa√ß√µes importantes como:
- Pol√≠tica de investimentos
- Taxas de administra√ß√£o e gest√£o
- Regras de distribui√ß√£o de rendimentos
- Direitos e deveres dos cotistas

---

## üöÄ Parte 0: Configura√ß√£o do Ambiente

Primeiro, vamos instalar e importar as depend√™ncias necess√°rias.

In [None]:
# Instala√ß√£o das depend√™ncias
# Execute esta c√©lula apenas uma vez

%pip install langchain langchain-openai langchain-community langchain-chroma --quiet
%pip install chromadb pypdf pydantic python-dotenv --quiet
%pip install tiktoken --quiet

In [None]:
# Configura√ß√£o das vari√°veis de ambiente

import os
from dotenv import load_dotenv

# Carrega vari√°veis do arquivo .env (se existir)
load_dotenv()

# Configure sua chave de API da OpenAI
if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = "sua-chave-aqui"  # Substitua pela sua chave

print("‚úÖ Ambiente configurado com sucesso!")

‚úÖ Ambiente configurado com sucesso!


---

## üìö Parte 1: Carregando o PDF do Regulamento

### 1.1 O que √© PyPDF?

**PyPDF** √© uma biblioteca Python para manipula√ß√£o de arquivos PDF. No contexto de RAG, usamos para:

- üìñ **Extrair texto** de documentos PDF
- üìÑ **Preservar metadados** como n√∫mero da p√°gina
- üîç **Preparar conte√∫do** para processamento pelo LLM

O LangChain oferece o `PyPDFLoader` que facilita a integra√ß√£o com o pipeline de RAG.

---

In [2]:
# Instalando pypdf diretamente no kernel atual
%pip install pypdf --quiet

Note: you may need to restart the kernel to use updated packages.


In [3]:
# Carregando o PDF do Regulamento KNCR

from langchain_community.document_loaders import PyPDFLoader

# Caminho do arquivo PDF
CAMINHO_PDF = "KNCR_Regulamento_05-2025.pdf"

# Carrega o PDF
loader = PyPDFLoader(CAMINHO_PDF)
paginas = loader.load()

print("üìÑ REGULAMENTO KNCR CARREGADO")
print("=" * 60)
print(f"Total de p√°ginas: {len(paginas)}")
print(f"\nüìñ Preview da primeira p√°gina:")
print(f"{paginas[0].page_content[:500]}...")
print(f"\nüìã Metadados: {paginas[0].metadata}")

üìÑ REGULAMENTO KNCR CARREGADO
Total de p√°ginas: 40

üìñ Preview da primeira p√°gina:
1 
REGULAMENTO DO KINEA RENDIMENTOS IMOBILI√ÅRIOS FUNDO DE INVESTIMENTO IMOBILI√ÅRIO 
RESPONSABILIDADE LIMITADA 
CNPJ: 16.706.958/0001-32 
 
PARTE GERAL 
 
1. PRESTADORES DE SERVI√áOS ESSENCIAIS.  
 
1.1. ADMINISTRA√á√ÉO. A administra√ß√£o do KINEA RENDIMENTOS IMOBILI√ÅRIOS FUNDO DE 
INVESTIMENTO IMOBILI√ÅRIO  RESPONSABILIDADE LIMITADA  inscrito no Cadastro Nacional da Pessoa 
Jur√≠dica do Minist√©rio da Fazenda (‚ÄúCNPJ‚Äù) sob o n¬∞ 16.706.958/0001-32 (‚ÄúFUNDO‚Äù) ser√° exercida pela INTRAG 
DISTRIBUIDORA DE T√çTU...

üìã Metadados: {'producer': 'Microsoft¬Æ Word para Microsoft 365', 'creator': 'Microsoft¬Æ Word para Microsoft 365', 'creationdate': '2025-05-14T09:27:21-03:00', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_enabled': 'true', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_setdate': '2023-09-21T16:31:37Z', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_method': 'Privileged',

### üí° Exerc√≠cio 1.1: Explore o documento

Use a c√©lula abaixo para explorar o conte√∫do do documento. Tente encontrar:
- Em qual p√°gina est√° a pol√≠tica de investimentos?
- Onde est√£o definidas as taxas de administra√ß√£o?

In [None]:
# üéØ SEU C√ìDIGO AQUI
# Explore o documento carregado
# Dica: use paginas[numero].page_content para ver o conte√∫do de cada p√°gina

# Exemplo: visualizar p√°gina 5
# print(paginas[4].page_content)


---

## üìö Parte 2: Chunking - Dividindo o Documento

### 2.1 Por que fazer Chunking?

Documentos grandes precisam ser divididos em **chunks** (peda√ßos menores) porque:

1. **Limite de contexto** - LLMs t√™m limite de tokens por requisi√ß√£o
2. **Precis√£o na busca** - Chunks menores permitem busca mais precisa
3. **Custo** - Enviar menos texto reduz custos de API

### 2.2 Par√¢metros importantes:

| Par√¢metro | Descri√ß√£o | Valor t√≠pico |
|-----------|-----------|-------------|
| `chunk_size` | Tamanho m√°ximo de cada chunk | 500-1000 caracteres |
| `chunk_overlap` | Sobreposi√ß√£o entre chunks | 50-100 caracteres |
| `separators` | Caracteres para dividir | `["\n\n", "\n", ". "]` |

A **sobreposi√ß√£o** garante que informa√ß√µes n√£o sejam cortadas no meio de uma frase.

---

In [4]:
# Configurando o Text Splitter

from langchain_text_splitters import RecursiveCharacterTextSplitter

# Configura√ß√£o do splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,           # Tamanho m√°ximo de cada chunk
    chunk_overlap=100,         # Sobreposi√ß√£o entre chunks
    length_function=len,
    separators=["\n\n", "\n", ". ", " ", ""]  # Prioridade de separa√ß√£o
)

# Aplica o chunking
chunks = text_splitter.split_documents(paginas)

print("‚úÇÔ∏è CHUNKING REALIZADO")
print("=" * 60)
print(f"P√°ginas originais: {len(paginas)}")
print(f"Chunks gerados: {len(chunks)}")
print(f"\nüìÑ Exemplo de chunk:")
print(f"Conte√∫do: {chunks[20].page_content[:300]}...")
print(f"Metadados: {chunks[20].metadata}")

‚úÇÔ∏è CHUNKING REALIZADO
P√°ginas originais: 40
Chunks gerados: 186

üìÑ Exemplo de chunk:
Conte√∫do: item 1. 7.3., o FUNDO deve ser liquidado, nos termos da regulamenta√ß√£o aplic√°vel , devendo o GESTOR 
permanecer no exerc√≠cio de suas fun√ß√µes at√© a conclus√£o da liquida√ß√£o  e o ADMINISTRADOR at√© o 
cancelamento do registro do fundo na CVM. 
 
1.7.5. No caso de descredenciamento de prestador de servi√ß...
Metadados: {'producer': 'Microsoft¬Æ Word para Microsoft 365', 'creator': 'Microsoft¬Æ Word para Microsoft 365', 'creationdate': '2025-05-14T09:27:21-03:00', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_enabled': 'true', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_setdate': '2023-09-21T16:31:37Z', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_method': 'Privileged', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_name': 'Compartilhamento Externo', 'msip_label_59f6b450-b779-4ed9-b37e-4a5b0cc9de23_siteid': '591669a0-183f-49a5-98f4-9aa0d0b63d81', 'msip_label_59f6b4

---

## üìö Parte 3: Criando o Vector Store

### 3.1 O que s√£o Embeddings?

**Embeddings** s√£o representa√ß√µes num√©ricas (vetores) de texto que capturam o **significado sem√¢ntico**.

```
"taxa de administra√ß√£o"  ‚Üí  [0.23, -0.45, 0.12, ...] (1536 dimens√µes)
"custos de gest√£o"       ‚Üí  [0.21, -0.42, 0.15, ...] (vetores similares!)
"previs√£o do tempo"      ‚Üí  [-0.78, 0.33, -0.56, ...] (vetor diferente)
```

### 3.2 O que √© um Vector Store?

Um **Vector Store** √© um banco de dados especializado em armazenar e buscar vetores por similaridade.

O **ChromaDB** √© uma op√ß√£o leve e f√°cil de usar, ideal para desenvolvimento e prototipa√ß√£o.

---

In [None]:
# Instalando depend√™ncias do Vector Store
%pip install langchain-chroma chromadb --quiet
%pip install --upgrade chromadb --quiet

In [5]:
# Criando o Vector Store com ChromaDB

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

# Inicializa o modelo de embeddings
embedding_model = OpenAIEmbeddings(model="text-embedding-3-small")

# Cria o vector store
vector_store = Chroma.from_documents(
    documents=chunks,
    embedding=embedding_model,
    collection_name="regulamento_kncr"
)

print("üóÑÔ∏è VECTOR STORE CRIADO")
print("=" * 60)
print(f"Banco de dados: ChromaDB (em mem√≥ria)")
print(f"Modelo de embedding: text-embedding-3-small")
print(f"Documentos indexados: {len(chunks)}")

üóÑÔ∏è VECTOR STORE CRIADO
Banco de dados: ChromaDB (em mem√≥ria)
Modelo de embedding: text-embedding-3-small
Documentos indexados: 186


### üí° Exerc√≠cio 3.1: Teste a busca sem√¢ntica

Vamos testar se o Vector Store est√° funcionando corretamente.

In [7]:
# Testando a busca sem√¢ntica

# Pergunta de teste
pergunta = "Qual √© a taxa de administra√ß√£o do fundo?"

# Busca os documentos mais relevantes
docs_relevantes = vector_store.similarity_search(pergunta, k=3)

print("üîç TESTE DE BUSCA SEM√ÇNTICA")
print("=" * 60)
print(f"\n‚ùì Pergunta: {pergunta}")
print(f"\nüìÑ Top 1 chunks mais relevantes:")

for i, doc in enumerate(docs_relevantes):
    print(f"\n--- Chunk {i+1} (P√°gina {doc.metadata.get('page', 'N/A')}) ---")
    print(f"{doc.page_content[:400]}...")

üîç TESTE DE BUSCA SEM√ÇNTICA

‚ùì Pergunta: Qual √© a taxa de administra√ß√£o do fundo?

üìÑ Top 1 chunks mais relevantes:

--- Chunk 1 (P√°gina 17) ---
aplic√°vel.  
 
10.4. Tendo em vista que o FUNDO admite a aplica√ß√£o nos Fundos Investidos que tamb√©m cobram taxa de 
administra√ß√£o, taxa de gest√£o/ performance e/ou taxa de ingresso/sa√≠da, a Taxa Global prevista no item 10 
contemplar√° quaisquer taxas de administra√ß√£o  e gest√£o/performance e/ou taxa de ingresso/sa√≠da cobradas na 
realiza√ß√£o de tais investimentos pelo FUNDO.  
 
10.5. O ADMINISTRADO...

--- Chunk 2 (P√°gina 16) ---
as transfer√™ncias n√£o onerosas de Cotas por meio de doa√ß√£o, heran√ßa e sucess√£o. 
 
10. REMUNERA√á√ÉO 
 
10.1. Pela presta√ß√£o dos servi√ßos de administra√ß√£o fiduci√°ria, escritura√ß√£o e gest√£o, ser√° devida pelo FUNDO 
uma taxa global correspondente a 1,00% (um por cento) ao ano sobre o valor cont√°bil do patrim√¥nio l√≠quido do 
FUNDO, calculado conforme item 10.3 abaixo, ou calcu

---

## üìö Parte 4: Construindo a Chain RAG

### 4.1 Arquitetura da Chain RAG

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  Pergunta   ‚îÇ ‚îÄ‚îÄ‚ñ∂ ‚îÇ  Retriever  ‚îÇ ‚îÄ‚îÄ‚ñ∂ ‚îÇ   Prompt    ‚îÇ ‚îÄ‚îÄ‚ñ∂ ‚îÇ     LLM     ‚îÇ
‚îÇ  do Usu√°rio ‚îÇ     ‚îÇ  (Busca)    ‚îÇ     ‚îÇ  (Contexto) ‚îÇ     ‚îÇ  (Resposta) ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### 4.2 Componentes:

1. **Retriever** - Busca documentos relevantes no Vector Store
2. **Prompt Template** - Formata a pergunta + contexto para o LLM
3. **LLM** - Gera a resposta baseada no contexto
4. **Output Parser** - Processa a sa√≠da do LLM

---

In [10]:
# Criando a Chain RAG

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

# Configura√ß√£o do retriever
retriever = vector_store.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 5}  # Retorna os 5 documentos mais relevantes
)

# Prompt para RAG
rag_prompt = ChatPromptTemplate.from_messages([
    ("system", """Voc√™ √© um especialista em fundos de investimento imobili√°rio (FII).
Use APENAS as informa√ß√µes fornecidas no contexto para responder.
Se a informa√ß√£o n√£o estiver no contexto, diga que n√£o encontrou no regulamento.
Sempre cite a p√°gina ou se√ß√£o de onde tirou a informa√ß√£o quando poss√≠vel.

Contexto do Regulamento:
{context}"""),
    ("human", "{question}")
])

# LLM
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Fun√ß√£o para formatar documentos
def format_docs(docs):
    formatted = []
    for doc in docs:
        page = doc.metadata.get('page', 'N/A')
        formatted.append(f"[P√°gina {page}]\n{doc.page_content}")
    return "\n\n---\n\n".join(formatted)

# Chain RAG
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | rag_prompt
    | llm
    | StrOutputParser()
)

print("‚úÖ CHAIN RAG CONFIGURADA!")
print("   Retriever: similarity search (k=5)")
print("   LLM: gpt-4o-mini")

‚úÖ CHAIN RAG CONFIGURADA!
   Retriever: similarity search (k=5)
   LLM: gpt-4o-mini


In [11]:
# Testando o RAG com perguntas sobre o regulamento

perguntas_teste = [
    "Qual √© a taxa de administra√ß√£o do fundo KNCR?",
    "Quais tipos de ativos o fundo pode investir?",
    "Como s√£o distribu√≠dos os rendimentos aos cotistas?",
    "Qual √© o prazo de dura√ß√£o do fundo?",
]

print("ü§ñ SISTEMA RAG - CONSULTA AO REGULAMENTO KNCR")
print("=" * 60)

for pergunta in perguntas_teste:
    print(f"\n‚ùì {pergunta}")
    resposta = rag_chain.invoke(pergunta)
    print(f"\nüí¨ {resposta}")
    print("\n" + "-" * 60)

ü§ñ SISTEMA RAG - CONSULTA AO REGULAMENTO KNCR

‚ùì Qual √© a taxa de administra√ß√£o do fundo KNCR?

üí¨ A taxa de administra√ß√£o do fundo Kinea Rendimentos Imobili√°rios (KNCR) √© de 1,00% (um por cento) ao ano sobre o valor cont√°bil do patrim√¥nio l√≠quido do fundo, conforme descrito na se√ß√£o 10.1 do regulamento (p√°gina 16).

------------------------------------------------------------

‚ùì Quais tipos de ativos o fundo pode investir?

üí¨ O fundo pode investir nos seguintes tipos de ativos:

1. CRI Eleg√≠veis (Certificados de Receb√≠veis Imobili√°rios);
2. LCI Eleg√≠veis (Letras de Cr√©dito Imobili√°rio);
3. LH Eleg√≠veis (Letras Hipotec√°rias);
4. Outros ativos financeiros, t√≠tulos e valores mobili√°rios permitidos pela regulamenta√ß√£o aplic√°vel, que tenham rendimento pr√©-determinado ou rentabilidade alvo pr√©-determinada, e que possuam classifica√ß√£o de risco "AA" emitida pela Standard&Poors, Fitch ou equivalente pela Moody's (conforme p√°gina 10, item 6.2). 

Al√©m 

### üí° Exerc√≠cio 4.1: Fa√ßa suas pr√≥prias perguntas

Use o sistema RAG para fazer perguntas sobre o regulamento.

In [16]:
# üéØ SEU C√ìDIGO AQUI
# Fa√ßa suas pr√≥prias perguntas ao sistema RAG

minha_pergunta = ""  # Preencha aqui

if minha_pergunta:
    resposta = rag_chain.invoke(minha_pergunta)
    print(f"‚ùì {minha_pergunta}")
    print(f"\nüí¨ {resposta}")

‚ùì quem √© o administrador do fundo?

üí¨ O administrador do fundo √© a KINEA INVESTIMENTOS LTDA., conforme mencionado na p√°gina 0 do regulamento.


---

## üìö Parte 5: Extra√ß√£o Estruturada com Pydantic

### 5.1 Por que usar Pydantic?

Em sistemas de produ√ß√£o, precisamos de **dados estruturados** para:
- Integrar com outros sistemas
- Armazenar em bancos de dados
- Gerar relat√≥rios automatizados

**Pydantic** permite definir **schemas** que for√ßam o LLM a retornar dados no formato esperado.

### 5.2 Estrutura do Schema:

```python
class MeuSchema(BaseModel):
    campo_obrigatorio: str = Field(description="Descri√ß√£o para o LLM")
    campo_opcional: Optional[float] = Field(default=None, description="...")
    campo_enum: TipoEnum = Field(description="Valor restrito")
```

---

In [32]:
# Definindo o schema para extra√ß√£o de informa√ß√µes do fundo

from pydantic import BaseModel, Field
from typing import Optional, List
from enum import Enum

class TipoFundo(str, Enum):
    FII = "FII"
    FIP = "FIP"
    FIDC = "FIDC"
    FIAGRO = "FIAGRO"
    OUTRO = "OUTRO"

class PerfilRisco(str, Enum):
    CONSERVADOR = "CONSERVADOR"
    MODERADO = "MODERADO"
    ARROJADO = "ARROJADO"

class AtivoPermitido(BaseModel):
    """Ativo permitido para investimento pelo fundo."""
    tipo: str = Field(description="Tipo do ativo (CRI, LCI, Im√≥veis, etc.)")
    limite_percentual: Optional[float] = Field(default=None, description="Limite percentual do patrim√¥nio")

class TaxaFundo(BaseModel):
    """Taxa cobrada pelo fundo."""
    nome: str = Field(description="Nome da taxa (administra√ß√£o, gest√£o, performance, etc.)")
    valor_percentual: float = Field(description="Valor percentual da taxa ao ano")
    base_calculo: Optional[str] = Field(default=None, description="Base de c√°lculo da taxa")

class InformacoesFundo(BaseModel):
    """Schema completo para extra√ß√£o de informa√ß√µes de regulamento de fundo."""
    
    # Identifica√ß√£o
    nome_fundo: str = Field(description="Nome completo do fundo")
    cnpj: Optional[str] = Field(default=None, description="CNPJ do fundo")
    codigo_negociacao: Optional[str] = Field(default=None, description="C√≥digo de negocia√ß√£o em bolsa (ticker)")
    tipo_fundo: TipoFundo = Field(description="Tipo do fundo de investimento")
    
    # Administra√ß√£o
    administrador: str = Field(description="Nome do administrador do fundo")
    gestor: Optional[str] = Field(default=None, description="Nome da empresa respons√°vel pela GEST√ÉO da carteira do fundo. Procure no texto por 'GEST√ÉO' ou 'gest√£o da carteira do FUNDO ser√° exercida pela' seguido do nome da empresa gestora (ex: KINEA INVESTIMENTOS LTDA)")
    custodiante: Optional[str] = Field(default=None, description="Nome do custodiante")
    
    # Taxas
    taxas: List[TaxaFundo] = Field(description="Lista de taxas cobradas pelo fundo")
    
    # Pol√≠tica de Investimentos
    objetivo: str = Field(description="Objetivo do fundo")
    ativos_permitidos: List[AtivoPermitido] = Field(description="Lista de ativos permitidos para investimento")
    perfil_risco: PerfilRisco = Field(description="Perfil de risco do fundo")
    
    # Distribui√ß√£o
    periodicidade_distribuicao: Optional[str] = Field(default=None, description="Periodicidade de distribui√ß√£o de rendimentos")
    percentual_minimo_distribuicao: Optional[float] = Field(default=None, description="Percentual m√≠nimo de distribui√ß√£o do resultado")
    
    # Prazo e Liquidez
    prazo_duracao: Optional[str] = Field(default=None, description="Prazo de dura√ß√£o do fundo")
    
    # Observa√ß√µes
    observacoes: Optional[str] = Field(default=None, description="Observa√ß√µes importantes sobre o fundo")

print("‚úÖ Schema InformacoesFundo definido!")
print(f"\nüìã Total de campos: {len(InformacoesFundo.model_fields)}")

‚úÖ Schema InformacoesFundo definido!

üìã Total de campos: 15


### 5.3 Usando `with_structured_output()`

O m√©todo `with_structured_output()` do LangChain faz o LLM retornar **diretamente um objeto Pydantic**, garantindo:

- ‚úÖ Formato JSON v√°lido
- ‚úÖ Tipos corretos (string, float, int, etc.)
- ‚úÖ Campos obrigat√≥rios preenchidos
- ‚úÖ Valores de Enum respeitados

In [33]:
# Criando o extrator estruturado

from langchain_openai import ChatOpenAI

# LLM configurado para sa√≠da estruturada
llm_estruturado = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Cria uma vers√£o do LLM que retorna objetos Pydantic
extrator = llm_estruturado.with_structured_output(InformacoesFundo)

# Prompt para extra√ß√£o
prompt_extracao = ChatPromptTemplate.from_messages([
    ("system", """Voc√™ √© um especialista em an√°lise de regulamentos de fundos de investimento.
Extraia TODAS as informa√ß√µes solicitadas do regulamento fornecido.
Seja preciso com valores num√©ricos e percentuais.

Regulamento:
{contexto}"""),
    ("human", "Extraia as informa√ß√µes principais deste regulamento de fundo.")
])

print("üîß Extrator estruturado configurado!")

üîß Extrator estruturado configurado!


In [37]:
# Executando a extra√ß√£o estruturada

# Busca documentos relevantes para extra√ß√£o - incluindo termos sobre gest√£o
docs_para_extracao = vector_store.similarity_search(
    "taxa administra√ß√£o gest√£o objetivo pol√≠tica investimento rendimentos distribui√ß√£o nome fundo CNPJ administrador gestor custodiante",
    k=20  # Mais documentos para ter contexto completo
)

# Busca adicional espec√≠fica para o gestor
docs_gestor = vector_store.similarity_search(
    "gest√£o da carteira do fundo ser√° exercida KINEA gestor",
    k=5
)

# Combina os documentos (removendo duplicatas pelo conte√∫do)
conteudos_vistos = set()
docs_combinados = []
for doc in docs_para_extracao + docs_gestor:
    if doc.page_content not in conteudos_vistos:
        conteudos_vistos.add(doc.page_content)
        docs_combinados.append(doc)

# Formata o contexto
contexto_extracao = format_docs(docs_combinados)

# Cria a chain de extra√ß√£o
chain_extracao = prompt_extracao | extrator

# Executa a extra√ß√£o
info_fundo = chain_extracao.invoke({"contexto": contexto_extracao})

print("‚úÖ EXTRA√á√ÉO ESTRUTURADA CONCLU√çDA")
print("=" * 60)
print(f"   Documentos utilizados: {len(docs_combinados)}")

‚úÖ EXTRA√á√ÉO ESTRUTURADA CONCLU√çDA
   Documentos utilizados: 23


In [38]:
# Exibindo os dados extra√≠dos

print("üìä INFORMA√á√ïES EXTRA√çDAS DO FUNDO KNCR")
print("=" * 60)

print(f"\nüè¶ IDENTIFICA√á√ÉO")
print(f"   Nome: {info_fundo.nome_fundo}")
print(f"   CNPJ: {info_fundo.cnpj}")
print(f"   Ticker: {info_fundo.codigo_negociacao}")
print(f"   Tipo: {info_fundo.tipo_fundo.value}")

print(f"\nüëî ADMINISTRA√á√ÉO")
print(f"   Administrador: {info_fundo.administrador}")
print(f"   Gestor: {info_fundo.gestor}")
print(f"   Custodiante: {info_fundo.custodiante}")

print(f"\nüí∞ TAXAS")
for taxa in info_fundo.taxas:
    base = f" ({taxa.base_calculo})" if taxa.base_calculo else ""
    print(f"   ‚Ä¢ {taxa.nome}: {taxa.valor_percentual}% a.a.{base}")

print(f"\nüéØ OBJETIVO")
print(f"   {info_fundo.objetivo}")

print(f"\nüìà ATIVOS PERMITIDOS")
for ativo in info_fundo.ativos_permitidos:
    limite = f" (limite: {ativo.limite_percentual}%)" if ativo.limite_percentual else ""
    print(f"   ‚Ä¢ {ativo.tipo}{limite}")

print(f"\nüíµ DISTRIBUI√á√ÉO")
print(f"   Periodicidade: {info_fundo.periodicidade_distribuicao}")
print(f"   M√≠nimo: {info_fundo.percentual_minimo_distribuicao}%" if info_fundo.percentual_minimo_distribuicao else "   M√≠nimo: N√£o especificado")

print(f"\n‚è±Ô∏è PRAZO")
print(f"   Dura√ß√£o: {info_fundo.prazo_duracao}")

print(f"\n‚ö†Ô∏è PERFIL DE RISCO: {info_fundo.perfil_risco.value}")

üìä INFORMA√á√ïES EXTRA√çDAS DO FUNDO KNCR

üè¶ IDENTIFICA√á√ÉO
   Nome: KINEA RENDIMENTOS IMOBILI√ÅRIOS FUNDO DE INVESTIMENTO IMOBILI√ÅRIO RESPONSABILIDADE LIMITADA
   CNPJ: 16.706.958/0001-32
   Ticker: None
   Tipo: FII

üëî ADMINISTRA√á√ÉO
   Administrador: INTRAG DISTRIBUIDORA DE T√çTULOS E VALORES MOBILI√ÅRIOS LTDA.
   Gestor: KINEA INVESTIMENTOS LTDA.
   Custodiante: None

üí∞ TAXAS
   ‚Ä¢ Taxa Global: 1.0% a.a. (valor cont√°bil do patrim√¥nio l√≠quido do FUNDO)

üéØ OBJETIVO
   Investir em ativos imobili√°rios e ativos de liquidez.

üìà ATIVOS PERMITIDOS
   ‚Ä¢ Im√≥veis
   ‚Ä¢ Ativos de Liquidez

üíµ DISTRIBUI√á√ÉO
   Periodicidade: None
   M√≠nimo: N√£o especificado

‚è±Ô∏è PRAZO
   Dura√ß√£o: Indeterminado

‚ö†Ô∏è PERFIL DE RISCO: MODERADO


In [39]:
# Exportando como JSON

print("üì§ EXPORTANDO COMO JSON")
print("=" * 60)

json_resultado = info_fundo.model_dump_json(indent=2)
print(json_resultado)

# Salvando em arquivo
with open("kncr_info_extraida.json", "w", encoding="utf-8") as f:
    f.write(json_resultado)

print("\n‚úÖ Arquivo salvo: kncr_info_extraida.json")

üì§ EXPORTANDO COMO JSON
{
  "nome_fundo": "KINEA RENDIMENTOS IMOBILI√ÅRIOS FUNDO DE INVESTIMENTO IMOBILI√ÅRIO RESPONSABILIDADE LIMITADA",
  "cnpj": "16.706.958/0001-32",
  "codigo_negociacao": null,
  "tipo_fundo": "FII",
  "administrador": "INTRAG DISTRIBUIDORA DE T√çTULOS E VALORES MOBILI√ÅRIOS LTDA.",
  "gestor": "KINEA INVESTIMENTOS LTDA.",
  "custodiante": null,
  "taxas": [
    {
      "nome": "Taxa Global",
      "valor_percentual": 1.0,
      "base_calculo": "valor cont√°bil do patrim√¥nio l√≠quido do FUNDO"
    }
  ],
  "objetivo": "Investir em ativos imobili√°rios e ativos de liquidez.",
  "ativos_permitidos": [
    {
      "tipo": "Im√≥veis",
      "limite_percentual": null
    },
    {
      "tipo": "Ativos de Liquidez",
      "limite_percentual": null
    }
  ],
  "perfil_risco": "MODERADO",
  "periodicidade_distribuicao": null,
  "percentual_minimo_distribuicao": null,
  "prazo_duracao": "Indeterminado",
  "observacoes": "O fundo n√£o permite resgates de cotas, exceto e

---

## üìö Parte 6: Assistente Especializado em Regulamentos

Vamos criar um assistente completo que combina RAG + Extra√ß√£o Estruturada para an√°lise de regulamentos de fundos.

In [40]:
# Classe do Assistente de Regulamentos

class AssistenteRegulamentos:
    """
    Assistente especializado em an√°lise de regulamentos de fundos.
    
    Funcionalidades:
    - Consultas via RAG
    - Extra√ß√£o estruturada de informa√ß√µes
    - Compara√ß√£o de fundos
    """
    
    def __init__(self, vector_store):
        self.vector_store = vector_store
        self.retriever = vector_store.as_retriever(search_kwargs={"k": 5})
        self.llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
        self._setup_chains()
    
    def _setup_chains(self):
        """Configura as chains de consulta e extra√ß√£o."""
        
        # Chain de consulta RAG
        prompt_consulta = ChatPromptTemplate.from_messages([
            ("system", """Voc√™ √© um especialista em fundos de investimento.
Responda baseado APENAS no regulamento fornecido.
Seja preciso e cite as se√ß√µes/p√°ginas quando poss√≠vel.

Regulamento:
{context}"""),
            ("human", "{question}")
        ])
        
        self.chain_consulta = (
            {"context": self.retriever | format_docs, "question": RunnablePassthrough()}
            | prompt_consulta
            | self.llm
            | StrOutputParser()
        )
        
        # Chain de extra√ß√£o estruturada
        self.extrator = self.llm.with_structured_output(InformacoesFundo)
    
    def consultar(self, pergunta: str) -> str:
        """Faz uma consulta ao regulamento via RAG."""
        return self.chain_consulta.invoke(pergunta)
    
    def extrair_info(self) -> InformacoesFundo:
        """Extrai informa√ß√µes estruturadas do regulamento."""
        docs = self.vector_store.similarity_search(
            "taxa administra√ß√£o gest√£o objetivo pol√≠tica investimento",
            k=15
        )
        contexto = format_docs(docs)
        
        prompt = ChatPromptTemplate.from_messages([
            ("system", "Extraia as informa√ß√µes do regulamento:\n\n{contexto}"),
            ("human", "Extraia todas as informa√ß√µes principais.")
        ])
        
        chain = prompt | self.extrator
        return chain.invoke({"contexto": contexto})
    
    def gerar_resumo(self) -> str:
        """Gera um resumo executivo do fundo."""
        info = self.extrair_info()
        
        resumo = []
        resumo.append("=" * 60)
        resumo.append(f"RESUMO EXECUTIVO - {info.nome_fundo}")
        resumo.append("=" * 60)
        resumo.append(f"\nüè¶ Tipo: {info.tipo_fundo.value}")
        resumo.append(f"üëî Gestor: {info.gestor}")
        resumo.append(f"‚ö†Ô∏è Risco: {info.perfil_risco.value}")
        
        if info.taxas:
            total_taxas = sum(t.valor_percentual for t in info.taxas)
            resumo.append(f"üí∞ Custo Total (taxas): {total_taxas:.2f}% a.a.")
        
        resumo.append(f"\nüéØ Objetivo: {info.objetivo[:200]}...")
        
        return "\n".join(resumo)

print("‚úÖ Classe AssistenteRegulamentos definida!")

‚úÖ Classe AssistenteRegulamentos definida!


In [41]:
# Instanciando o assistente

assistente = AssistenteRegulamentos(vector_store=vector_store)

print("ü§ñ ASSISTENTE DE REGULAMENTOS")
print("=" * 60)
print("Sistema pronto para consultas!")

ü§ñ ASSISTENTE DE REGULAMENTOS
Sistema pronto para consultas!


In [42]:
# Gerando resumo executivo

print("\nüìã GERANDO RESUMO EXECUTIVO...")
print(assistente.gerar_resumo())


üìã GERANDO RESUMO EXECUTIVO...
RESUMO EXECUTIVO - Fundo de Investimento Imobili√°rio

üè¶ Tipo: FII
üëî Gestor: Kinea Investimentos Ltda
‚ö†Ô∏è Risco: MODERADO
üí∞ Custo Total (taxas): 3.00% a.a.

üéØ Objetivo: Investir em ativos imobili√°rios e ativos de liquidez...


In [31]:
# Interface de consulta interativa

print("\nüí¨ MODO DE CONSULTA INTERATIVO")
print("=" * 60)
print("Exemplos de perguntas:")
print("  - Quais s√£o as taxas do fundo?")
print("  - O fundo pode investir em a√ß√µes?")
print("  - Como funcionam as assembleias de cotistas?")
print("  - Quais s√£o os riscos do fundo?")

# Fa√ßa sua consulta
pergunta = "Quais s√£o as taxas cobradas pelo fundo?"  # Modifique aqui

print(f"\n‚ùì {pergunta}")
print(f"\nüí¨ {assistente.consultar(pergunta)}")


üí¨ MODO DE CONSULTA INTERATIVO
Exemplos de perguntas:
  - Quais s√£o as taxas do fundo?
  - O fundo pode investir em a√ß√µes?
  - Como funcionam as assembleias de cotistas?
  - Quais s√£o os riscos do fundo?

‚ùì Quais s√£o as taxas cobradas pelo fundo?

üí¨ O fundo cobra as seguintes taxas:

1. **Taxa Global**: Correspondente a 1,00% (um por cento) ao ano sobre o valor cont√°bil do patrim√¥nio l√≠quido do fundo, conforme descrito na se√ß√£o 10.1 (p√°gina 16).

2. **Taxa de Cust√≥dia**: O fundo pagar√° ao custodiante uma taxa m√°xima de at√© 0,08% (oito cent√©simos por cento) ao ano do patrim√¥nio l√≠quido do fundo, com um m√≠nimo mensal de at√© R$ 20.000,00 (vinte mil reais), conforme descrito na se√ß√£o 10.7 (p√°gina 17).

Al√©m disso, a Taxa Global pode incluir taxas de administra√ß√£o e gest√£o/performance cobradas pelos Fundos Investidos em que o fundo aplica, conforme mencionado na se√ß√£o 10.4 (p√°gina 17).


### üí° Exerc√≠cio Final: Crie suas pr√≥prias consultas

Use o assistente para explorar o regulamento do fundo KNCR.

In [43]:
# üéØ SEU C√ìDIGO AQUI
# Fa√ßa suas pr√≥prias consultas ao assistente

minhas_perguntas = [
    # Adicione suas perguntas aqui
    "",
    "",
]

for p in minhas_perguntas:
    if p:
        print(f"\n‚ùì {p}")
        print(f"\nüí¨ {assistente.consultar(p)}")
        print("-" * 60)

---

## üìù Resumo do Exerc√≠cio

### O que voc√™ aprendeu:

1. **Carregamento de PDFs**
   - Usar `PyPDFLoader` para extrair texto de documentos PDF
   - Preservar metadados como n√∫mero da p√°gina

2. **Chunking**
   - Dividir documentos grandes em peda√ßos menores
   - Configurar `chunk_size` e `chunk_overlap`

3. **Vector Store**
   - Criar embeddings com OpenAI
   - Armazenar e buscar com ChromaDB

4. **RAG**
   - Combinar busca sem√¢ntica com gera√ß√£o de texto
   - Criar chains de consulta contextual

5. **Extra√ß√£o Estruturada**
   - Definir schemas com Pydantic
   - Usar `with_structured_output()` para garantir formato

---

### üéØ Pr√≥ximos Passos

- Adicionar mais regulamentos de fundos ao Vector Store
- Implementar compara√ß√£o entre fundos
- Criar alertas autom√°ticos para mudan√ßas em regulamentos
- Integrar com APIs de dados de mercado

---

**Parab√©ns por completar o exerc√≠cio!** üéâ