# üìò Projeto RAG com LLM Open-Source (Phi-3)

Este notebook apresenta um **pipeline completo de Retrieval-Augmented Generation (RAG)** utilizando um **LLM open-source (Phi-3 Mini)**.

O objetivo √© demonstrar, de forma did√°tica, como combinar **m√∫ltiplas fontes de dados**, **busca sem√¢ntica** e **gera√ß√£o de texto** em um √∫nico fluxo.

---
### üß† O que voc√™ ver√° neste notebook
- Carregamento e uso de um LLM open-source
- Ingest√£o de dados locais e da web
- Chunking e embeddings de texto
- Busca sem√¢ntica com FAISS
- Gera√ß√£o de respostas baseada em contexto (RAG)


## ü§ñ Etapa 1 ‚Äî Carregamento do LLM (Phi-3)

Nesta etapa, carregamos o **modelo de linguagem Phi-3 Mini**, respons√°vel pela gera√ß√£o final das respostas.

**Pontos importantes:**
- O modelo √© carregado em **GPU** (`device_map="cuda"`) quando dispon√≠vel
- Utilizamos `float16` para reduzir uso de mem√≥ria
- O cache √© desativado para evitar incompatibilidades do Phi-3 no Colab


In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

model_id = "microsoft/Phi-3-mini-4k-instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype=torch.float16,
    trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(model_id)

llm = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=300,
    temperature=0.1,
    do_sample=True,
    return_full_text=False,
    use_cache=False  # Evita problemas de compatibilidade na gera√ß√£o
)


## üì¶ Etapa 2 ‚Äî Imports do LangChain

Aqui importamos as ferramentas do **LangChain** respons√°veis por:
- Carregar documentos da web
- Representar documentos de forma estruturada
- Dividir textos grandes em chunks menores


In [None]:
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.documents import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter


## üìÑ Etapa 3 ‚Äî Fonte de Dados Local (TXT)

Nesta etapa, carregamos um **arquivo de texto local**, simulando documentos internos como:
- Pol√≠ticas
- Manuais
- FAQs

O texto √© convertido em um objeto `Document`, que ser√° usado ao longo do pipeline.

In [None]:
with open("data/politica_reembolso.txt", "r", encoding="utf-8") as file:
    texto_arquivo = file.read()

doc_txt = Document(
    page_content=texto_arquivo,
    metadata={"source": "politica_reembolso.txt"}
)


## üåê Etapa 4 ‚Äî Fonte de Dados Web

Aqui carregamos conte√∫do diretamente da **web**, utilizando uma URL p√∫blica.

Isso simula cen√°rios reais onde o sistema precisa responder com base em:
- Not√≠cias
- Blogs
- Documenta√ß√£o online


In [None]:
loader = WebBaseLoader(
    web_paths=("https://www.bbc.com/portuguese/articles/cd19vexw0y1o",)
)

docs_web = loader.load()


## üîó Etapa 5 ‚Äî Unifica√ß√£o das Fontes

Unificamos todas as fontes de dados em uma √∫nica lista de documentos.

A partir deste ponto, o pipeline trata **todas as fontes de forma uniforme**, independentemente da origem.

In [None]:
docs = [doc_txt] + docs_web


## ‚úÇÔ∏è Etapa 6 ‚Äî Chunking dos Documentos

Documentos grandes s√£o divididos em **chunks menores** para:
- Melhorar a busca sem√¢ntica
- Evitar estouro de contexto no LLM

Utilizamos sobreposi√ß√£o (`overlap`) para preservar continuidade sem√¢ntica.

In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    add_start_index=True
)

splits = text_splitter.split_documents(docs)


## üß† Etapa 7 ‚Äî Embeddings + Vector Store (FAISS)

Nesta etapa:
- Cada chunk √© convertido em um **vetor num√©rico (embedding)**
- Os vetores s√£o armazenados em um **√≠ndice FAISS**, permitindo busca sem√¢ntica eficiente


In [None]:
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS

hf_embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

vectorstore = FAISS.from_documents(
    documents=splits,
    embedding=hf_embeddings
)

print("Vector store criado com sucesso!")
print(f"Total de vetores indexados: {vectorstore.index.ntotal}")


## üîé Etapa 8 ‚Äî Retriever (Busca Sem√¢ntica)

O **retriever** √© respons√°vel por buscar os chunks mais relevantes dado uma pergunta.

Neste exemplo, usamos `k=1` para retornar apenas o chunk mais relevante, reduzindo ru√≠do e custo computacional.

In [None]:
retriever = vectorstore.as_retriever(search_kwargs={"k": 1})

query = "Qual √© a pol√≠tica de reembolso?"
docs_relevantes = retriever.invoke(query)


## ü§ñ Etapa 9 ‚Äî Prompt + Gera√ß√£o da Resposta (RAG)

Na etapa final, combinamos:
- üìÑ Contexto recuperado
- ‚ùì Pergunta do usu√°rio
- ü§ñ LLM

O modelo gera a resposta **baseando-se explicitamente no contexto fornecido**, caracterizando o padr√£o RAG.

In [None]:
template = """
<|begin_of_text|>
<|start_header_id|>system<|end_header_id|>
Use o contexto para responder a pergunta.
Se n√£o souber, diga que n√£o sabe.
<|eot_id|>
<|start_header_id|>user<|end_header_id|>
Contexto:
{contexto}

Pergunta:
{pergunta}
<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
"""

contexto = docs_relevantes[0].page_content

resposta = llm(
    template.format(pergunta=query, contexto=contexto),
    max_new_tokens=150
)

print(resposta[0]["generated_text"])


---
## ‚úÖ Conclus√£o

Neste notebook, foi constru√≠do um **pipeline RAG completo**, integrando:
- M√∫ltiplas fontes de dados
- Busca sem√¢ntica
- Gera√ß√£o de respostas condicionadas ao contexto

Este padr√£o √© amplamente utilizado em **assistentes inteligentes**, **chatbots corporativos** e **sistemas de busca avan√ßados**.
