## üì¶ Passo 1: Importar Bibliotecas

**Novidade:** `QdrantVectorStore` e `QdrantClient`

In [1]:
import os
import requests
from pathlib import Path
from dotenv import load_dotenv

# LangChain core
from langchain_ollama import OllamaEmbeddings, OllamaLLM
from langchain_core.prompts import PromptTemplate
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader

# Qdrant
from langchain_qdrant import QdrantVectorStore
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams

# LCEL (Chains)
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

# Display
from IPython.display import Markdown, display
import pandas as pd

## ‚öôÔ∏è Passo 2: Configurar Ambiente

**L√™ vari√°veis de ambiente do `.env`:**
- `QDRANT_URL`: Endere√ßo do Qdrant (padr√£o: `http://localhost:6333`)
- `QDRANT_API_KEY`: Chave de autentica√ß√£o (opcional em dev)
- `OLLAMA_BASE_URL`: Endere√ßo do Ollama

**Dica:** Se estiver rodando no Docker Compose, use os hostnames internos (`http://qdrant:6333`).

In [3]:
# Carrega vari√°veis de ambiente
load_dotenv()

# Configura√ß√µes do Qdrant
QDRANT_URL = 'http://localhost:6333'
QDRANT_API_KEY = os.getenv('QDRANT_API_KEY')  # None se n√£o configurado
COLLECTION_NAME = os.getenv('QDRANT_COLLECTION_NAME', 'rag_documents')

# Configura√ß√µes do Ollama
OLLAMA_BASE_URL = 'http://localhost:11434'
EMBEDDING_MODEL = 'embeddinggemma'
LLM_MODEL = 'llama3.2:1b'

# Paths
BASE_DIR = Path(__file__).parent if "__file__" in globals() else Path.cwd()
PDF_DIR = BASE_DIR.parent.parent / "data" / "pdfs"

# Par√¢metros de chunking
CHUNK_SIZE = 1000
CHUNK_OVERLAP = 200
K = 4  # top-k documentos retornados

print(f"üìÅ Diret√≥rio de PDFs: {PDF_DIR}")
print(f"üóÑÔ∏è  Qdrant URL: {QDRANT_URL}")
print(f"üñºÔ∏è  Dashboard URL {QDRANT_URL}/dashboard")
print(f"üì¶ Collection: {COLLECTION_NAME}")
print(f"ü§ñ Ollama URL: {OLLAMA_BASE_URL}")
print(f"üî¢ Par√¢metros: chunk_size={CHUNK_SIZE}, k={K}")

üìÅ Diret√≥rio de PDFs: e:\01-projetos\11-work\11.34-engenharia-vetorial\data\pdfs
üóÑÔ∏è  Qdrant URL: http://localhost:6333
üñºÔ∏è  Dashboard URL http://localhost:6333/dashboard
üì¶ Collection: documents_collection
ü§ñ Ollama URL: http://localhost:11434
üî¢ Par√¢metros: chunk_size=1000, k=4


## üîç Passo 3: Verificar Conex√£o com Qdrant

Checagem simples para garantir que o Qdrant est√° acess√≠vel.

In [4]:
# Testa conex√£o com Qdrant
print('Verificando Qdrant...')
resp = requests.get(f"{QDRANT_URL.replace('http://qdrant', 'http://localhost')}/")
print(f'Qdrant status: {resp.status_code} ({resp.reason})')
print(f'Vers√£o: {resp.json().get("version", "N/A")}')

# Testa Ollama
print('\nVerificando Ollama...')
resp_ollama = requests.post(f"{OLLAMA_BASE_URL.replace('http://ollama', 'http://localhost')}/api/show")
print(f'Ollama status: {resp_ollama.status_code}')

Verificando Qdrant...
Qdrant status: 200 (OK)
Vers√£o: 1.16.1

Verificando Ollama...
Ollama status: 400


## üìÑ Passo 4: Carregar Documentos

Mesmo processo do lab anterior: carrega PDFs e cria lista de documentos.

In [5]:
# Carrega documentos
documents = []
pdf_paths = list(PDF_DIR.glob("*.pdf"))
print(f"üìö Encontrados {len(pdf_paths)} PDFs\n")

for pdf_path in pdf_paths:
    loader = PyPDFLoader(str(pdf_path))
    docs = loader.load()
    documents.extend(docs)
    print(f"  ‚úì {pdf_path.name}: {len(docs)} p√°ginas")

print(f"\n‚úÖ Total de p√°ginas carregadas: {len(documents)}")

incorrect startxref pointer(1)
parsing for Object Streams
incorrect startxref pointer(1)
parsing for Object Streams
incorrect startxref pointer(1)
parsing for Object Streams
incorrect startxref pointer(1)
parsing for Object Streams


üìö Encontrados 4 PDFs

  ‚úì api_documentation.pdf: 3 p√°ginas
  ‚úì livro_receitas.pdf: 5 p√°ginas
  ‚úì manual_futebol.pdf: 4 p√°ginas
  ‚úì manual_iphone15.pdf: 3 p√°ginas

‚úÖ Total de p√°ginas carregadas: 15


## ‚úÇÔ∏è Passo 5: Dividir em Chunks

Mesmo processo: divide documentos em chunks menores.

In [6]:
# Chunking
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP,
    length_function=len,
    separators=["\n\n", "\n", " ", ""]
)

chunks = text_splitter.split_documents(documents=documents)

print(f"‚úÇÔ∏è  Total de chunks criados: {len(chunks)}")
print(f"üìä Expans√£o de chunking: {len(chunks)/len(documents):.1f}x")

‚úÇÔ∏è  Total de chunks criados: 33
üìä Expans√£o de chunking: 2.2x


## üßÆ Passo 6: Criar Embeddings

Usamos o Ollama para gerar embeddings (mesmo do lab anterior).

In [8]:
# Cria embeddings
embeddings = OllamaEmbeddings(
    model=EMBEDDING_MODEL,
    base_url=OLLAMA_BASE_URL
)

print(f"üß† Modelo de embeddings: {EMBEDDING_MODEL}")
print("‚úÖ Embeddings configurados!")

# Testa com um texto de exemplo
test_embedding = embeddings.embed_query("teste")
print(f"üìê Dimens√µes do embedding: {len(test_embedding)}")

üß† Modelo de embeddings: embeddinggemma
‚úÖ Embeddings configurados!
üìê Dimens√µes do embedding: 768


## üóÑÔ∏è Passo 7: Conectar ao Qdrant e Criar Collection

### O que √© uma Collection?

No Qdrant, uma **collection** √© como uma "tabela" em bancos SQL. Ela armazena:
- **Vetores** (embeddings)
- **Payloads** (metadados em JSON: source, page, etc.)
- **IDs** √∫nicos para cada documento

### Configura√ß√£o da Collection

- **`vectors_config`**: Define dimens√£o e m√©trica de dist√¢ncia
- **`Distance.COSINE`**: Usa similaridade cosseno (mesma do FAISS)
- **Persist√™ncia autom√°tica**: Dados salvos em `/qdrant/storage` (volume Docker)

### Idempot√™ncia

O c√≥digo verifica se a collection j√° existe. Se sim, **reutiliza** (n√£o recria).

In [9]:
# Conecta ao Qdrant
qdrant_client = QdrantClient(
    url=QDRANT_URL,
    api_key=QDRANT_API_KEY,
    timeout=60
)

print(f"üîå Conectado ao Qdrant: {QDRANT_URL}")

# Lista collections existentes
collections = qdrant_client.get_collections()
existing_names = [c.name for c in collections.collections]
print(f"üì¶ Collections existentes: {existing_names}")

# Cria collection se n√£o existir
if COLLECTION_NAME not in existing_names:
    print(f"\nüÜï Criando collection '{COLLECTION_NAME}'...")
    qdrant_client.create_collection(
        collection_name=COLLECTION_NAME,
        vectors_config=VectorParams(
            size=len(test_embedding),  # Dimens√£o do embedding
            distance=Distance.COSINE    # M√©trica: cosseno
        )
    )
    print("‚úÖ Collection criada!")
else:
    print(f"\n‚ôªÔ∏è  Reutilizando collection existente '{COLLECTION_NAME}'")

# Info da collection
collection_info = qdrant_client.get_collection(COLLECTION_NAME)
print(f"\nüìä Collection Info:")
print(f"   Vetores: {collection_info.points_count}")
print(f"   Dimens√µes: {collection_info.config.params.vectors.size}")
print(f"   Dist√¢ncia: {collection_info.config.params.vectors.distance}")

üîå Conectado ao Qdrant: http://localhost:6333
üì¶ Collections existentes: ['test_collection', 'tech_docs']

üÜï Criando collection 'documents_collection'...
‚úÖ Collection criada!

üìä Collection Info:
   Vetores: 0
   Dimens√µes: 768
   Dist√¢ncia: Cosine


  qdrant_client = QdrantClient(


## üì• Passo 8: Indexar Documentos no Qdrant

### Como funciona?

O `QdrantVectorStore.from_documents()` faz automaticamente:
1. Gera embeddings para cada chunk
2. Cria um ID √∫nico para cada documento
3. Armazena embedding + metadata (payload) no Qdrant
4. **Persiste no disco** (volume Docker)

### Persist√™ncia

Diferente do FAISS (que precisa de `save_local()`), o Qdrant **persiste automaticamente**. Os dados ficam em:
- Container: `/qdrant/storage`
- Host: Volume Docker `qdrant_storage`

**Vantagem:** Ao reiniciar o container, os dados permanecem!

In [11]:
# Indexa documentos no Qdrant
print("‚è≥ Indexando documentos no Qdrant...")
print("   (Isso pode demorar alguns minutos na primeira vez)\n")

vectorstore = QdrantVectorStore.from_documents(
    documents=chunks,
    embedding=embeddings,
    url=QDRANT_URL,
    api_key=QDRANT_API_KEY,
    collection_name=COLLECTION_NAME,
    force_recreate=False  # False = reutiliza se existir
)

print("‚úÖ Documentos indexados!")

# Estat√≠sticas p√≥s-indexa√ß√£o
collection_info = qdrant_client.get_collection(COLLECTION_NAME)
print(f"\nüìä Collection atualizada:")
print(f"   Total de vetores: {collection_info.points_count}")
print(f"   Status: {collection_info.status}")

‚è≥ Indexando documentos no Qdrant...
   (Isso pode demorar alguns minutos na primeira vez)

‚úÖ Documentos indexados!

üìä Collection atualizada:
   Total de vetores: 66
   Status: green


## üîç Passo 9: Criar Retriever

O retriever do Qdrant funciona igual ao do FAISS, mas com mais op√ß√µes:
- **`search_type="similarity"`**: Busca por similaridade cosseno
- **`search_type="mmr"`**: Maximum Marginal Relevance (diversidade)
- **`search_kwargs`**: Configura√ß√µes extras (k, score_threshold, etc.)

In [13]:
# Cria retriever
retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": K}
)

print(f"üîç Retriever criado!")
print(f"üìã Configura√ß√£o: top-{K} chunks mais similares")

üîç Retriever criado!
üìã Configura√ß√£o: top-4 chunks mais similares


## üí¨ Passo 10: Criar Prompt e LLM

Mesmos componentes do lab anterior.

In [14]:
# Template de prompt
template = """Use o seguinte contexto para responder √† pergunta.
Se voc√™ n√£o souber a resposta baseado no contexto, diga "N√£o encontrei essa informa√ß√£o nos documentos fornecidos."

Importante: Cite sempre a fonte (nome do arquivo e p√°gina) quando poss√≠vel.

Contexto:
{context}

Pergunta: {question}

Resposta detalhada:"""

prompt = PromptTemplate(
    template=template,
    input_variables=['context', 'question']
)

# Cria LLM
llm = OllamaLLM(
    model=LLM_MODEL,
    base_url=OLLAMA_BASE_URL.replace('http://ollama', 'http://localhost')
)

print("üìù Prompt template criado!")
print(f"ü§ñ LLM configurado: {LLM_MODEL}")

üìù Prompt template criado!
ü§ñ LLM configurado: llama3.2:1b


## üîó Passo 11: Criar Chain RAG com LCEL

Mesma chain do lab anterior, mas agora usando o retriever do Qdrant!

In [15]:
# Helper para formatar documentos
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Cria a Chain RAG
rag_chain = (
    {
        "context": retriever | format_docs,
        "question": RunnablePassthrough()
    }
    | prompt
    | llm
    | StrOutputParser()
)

print("üîó Chain RAG criada com sucesso!")
print("‚úÖ Sistema pronto para uso!")

üîó Chain RAG criada com sucesso!
‚úÖ Sistema pronto para uso!


## üöÄ Passo 12: Testar o Sistema RAG

Vamos fazer uma pergunta e ver a resposta!

In [16]:
# Pergunta de teste
query = "Quais s√£o as principais forma√ß√µes t√°ticas do futebol?"

print(f"‚ùì Pergunta: {query}\n")
print("‚è≥ Processando...\n")
print("=" * 80)

# Invoca a chain
response = rag_chain.invoke(query)

print("\nü§ñ Resposta:")
print("=" * 80)
print(response)
print("=" * 80)

‚ùì Pergunta: Quais s√£o as principais forma√ß√µes t√°ticas do futebol?

‚è≥ Processando...


ü§ñ Resposta:
As principais forma√ß√µes t√°ticas utilizadas no futebol podem ser classificadas em duas categorias principais: a Forma√ß√£o Equilibrada Cl√°ssica e a Forma√ß√£o Ofensiva com Wingers.

A Forma√ß√£o Equilibrada Cl√°ssica √© caracterizada por uma estrutura defensiva robusta, onde dois zagueiros centrais defendem o centro do campo, seguidos por quatro zagueiros laterais que mant√™m boa cobertura defensiva. Al√©m disso, h√° dois meias campistas e duas alas (direitas e esquerdas) para jogar pelo meio-campo. Essa forma√ß√£o √© conhecida como 4-4-2.

A Forma√ß√£o Ofensiva com Wingers √© caracterizada por uma estrutura de centroavante, onde um atacante central flancia pelo meio do campo enquanto dois wingers laterais seguem em dire√ß√£o ao advers√°rio. Al√©m disso, h√° tr√™s meias campistas e um volante para jogar pelo meio-campo. Essa forma√ß√£o √© conhecida como 4-3-3.

No entanto, √©

## üîç Passo 13: Inspecionar Documentos Recuperados

Vamos ver quais chunks o Qdrant retornou.

In [17]:
# Busca manual para inspe√ß√£o
relevant_docs = retriever.invoke(query)

print(f"üìö Documentos recuperados: {len(relevant_docs)}\n")

# Exibe em formato tabular
rows = []
for i, doc in enumerate(relevant_docs, 1):
    rows.append({
        'doc': i,
        'source': doc.metadata.get('source', 'N/A'),
        'page': doc.metadata.get('page', 'N/A'),
        'snippet': doc.page_content[:200].replace('\n', ' ')
    })

df = pd.DataFrame(rows)
display(df)

üìö Documentos recuperados: 4



Unnamed: 0,doc,source,page,snippet
0,1,e:\01-projetos\11-work\11.34-engenharia-vetori...,2,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o Eq...
1,2,e:\01-projetos\11-work\11.34-engenharia-vetori...,2,Forma√ß√µes T√°ticas Cl√°ssicas 4-4-2 (Forma√ß√£o Eq...
2,3,e:\01-projetos\11-work\11.34-engenharia-vetori...,3, Mant√©m organiza√ß√£o espacial do time  Dificu...
3,4,e:\01-projetos\11-work\11.34-engenharia-vetori...,3, Mant√©m organiza√ß√£o espacial do time  Dificu...


## üåä Passo 14: Streaming (Bonus)

Resposta em tempo real, palavra por palavra!

In [18]:
# Teste com streaming
query_stream = "Como fazer uma lasanha?"

print(f"‚ùì Pergunta: {query_stream}\n")
print("üåä Resposta (streaming):")
print("=" * 80)

for chunk in rag_chain.stream(query_stream):
    print(chunk, end="", flush=True)

print("\n" + "=" * 80)
print("\n‚úÖ Streaming conclu√≠do!")

‚ùì Pergunta: Como fazer uma lasanha?

üåä Resposta (streaming):
Para preparar uma lasanha, voc√™ precisar√° seguir os passos abaixo:

1. **Preparar o molho branco**: Em uma panela m√©dia, derreta a manteiga em fogo m√©dio-baixo, adicione a farinha de trigo e mexa vigorosamente por 2 minutos para formar um roux (pasta dourada). Adicione o leite aos poucos, mexendo constantemente, at√© engrossar e come√ßar a ferver (8-10 minutos).

   Para essa parte, √© importante lembrar de n√£o economizar no molho branco. Continue mexendo at√© que ele esteja bem cozido.

2. **Preparar o bechamel**: Em outra panela, derreta a manteiga em fogo baixo e adicione a farinha de trigo, mexendo vigorosamente por 1 minuto para formar uma crosta (pasta dourada). Adicione a leite aos poucos, mexendo constantemente, at√© engrossar. Continue mexendo por mais 2 minutos.

3. **Preparar as conchas de molho**: Espalhe 2 conchas de molho bolonhesa no fundo de um refrat√°rio grande (35x25cm).

4. **Montagem da lasanha*

---

## üìä Estat√≠sticas do Sistema

Vamos ver estat√≠sticas completas do nosso sistema RAG com Qdrant.

In [19]:
# Estat√≠sticas
print("üìä Estat√≠sticas do Sistema RAG com Qdrant\n")
print("=" * 80)

# Dados
print(f"\nüìö Dados:")
print(f"   Total de PDFs: {len(pdf_paths)}")
print(f"   Total de p√°ginas: {len(documents)}")
print(f"   Total de chunks: {len(chunks)}")
print(f"   Expans√£o de chunking: {len(chunks)/len(documents):.1f}x")

# Chunks
tamanhos = [len(c.page_content) for c in chunks]
print(f"\nüìè Chunks:")
print(f"   Tamanho m√©dio: {sum(tamanhos)/len(tamanhos):.0f} caracteres")
print(f"   Tamanho m√≠nimo: {min(tamanhos)} caracteres")
print(f"   Tamanho m√°ximo: {max(tamanhos)} caracteres")

# Qdrant collection
collection_info = qdrant_client.get_collection(COLLECTION_NAME)
print(f"\nüóÑÔ∏è  Qdrant Collection '{COLLECTION_NAME}':")
print(f"   Total de vetores: {collection_info.points_count}")
print(f"   Dimens√µes: {collection_info.config.params.vectors.size}")
print(f"   Dist√¢ncia: {collection_info.config.params.vectors.distance}")
print(f"   Status: {collection_info.status}")

# Chain
print(f"\nüîó Chain RAG:")
print(f"   Componentes: 5 (retriever ‚Üí format ‚Üí prompt ‚Üí llm ‚Üí parser)")
print(f"   Suporte a streaming: ‚úÖ Sim")
print(f"   Persist√™ncia: ‚úÖ Autom√°tica (Qdrant)")

print("\n" + "=" * 80)

üìä Estat√≠sticas do Sistema RAG com Qdrant


üìö Dados:
   Total de PDFs: 4
   Total de p√°ginas: 15
   Total de chunks: 33
   Expans√£o de chunking: 2.2x

üìè Chunks:
   Tamanho m√©dio: 815 caracteres
   Tamanho m√≠nimo: 262 caracteres
   Tamanho m√°ximo: 997 caracteres

üóÑÔ∏è  Qdrant Collection 'documents_collection':
   Total de vetores: 66
   Dimens√µes: 768
   Dist√¢ncia: Cosine
   Status: green

üîó Chain RAG:
   Componentes: 5 (retriever ‚Üí format ‚Üí prompt ‚Üí llm ‚Üí parser)
   Suporte a streaming: ‚úÖ Sim
   Persist√™ncia: ‚úÖ Autom√°tica (Qdrant)

