# üìì 04 - Pipeline RAG usando LangChain `RetrievalQAChain`

Neste notebook, vamos:
‚úÖ Usar FAISS como banco vetorial.  
‚úÖ Integrar um LLM (OpenAI API) para respostas contextuais.  
‚úÖ Usar `RetrievalQAChain` para pipeline de RAG ‚Äúoficial‚Äù do LangChain.

---

## ‚öôÔ∏è Setup inicial

```python
# !pip install langchain langchain-community langchain-openai sentence-transformers faiss-cpu
# !pip install python-dotenv
```

In [1]:
import os
from dotenv import load_dotenv
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader
from langchain.schema import Document
from langchain.chains import RetrievalQA

### 1Ô∏è‚É£ Configura√ß√£o de ambiente

In [2]:
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

### 2Ô∏è‚É£ Preparar documentos e chunking

In [3]:
# Exemplo de textos/documentos
texts = [
    "Retrieval-Augmented Generation (RAG) combina recupera√ß√£o de informa√ß√µes e gera√ß√£o de linguagem natural.",
    "A IA est√° revolucionando setores como sa√∫de e finan√ßas.",
    "Python √© uma linguagem de programa√ß√£o muito popular e vers√°til."
]

# Documentos com LangChain
docs = [Document(page_content=txt) for txt in texts]

# Splitter para criar chunks menores
splitter = RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=10)
docs_split = splitter.split_documents(docs)

print(f"üîπ {len(docs_split)} chunks criados.")

üîπ 7 chunks criados.


### 3Ô∏è‚É£ Indexar no FAISS via LangChain

In [4]:
embeddings = OpenAIEmbeddings(api_key=openai_api_key)
vectorstore = FAISS.from_documents(docs_split, embeddings)

print("üîπ FAISS indexado com LangChain!")

üîπ FAISS indexado com LangChain!


### 4Ô∏è‚É£ Criar RetrievalQAChain

In [5]:
# Inicializar LLM
llm = ChatOpenAI(api_key=openai_api_key, model="gpt-3.5-turbo")  #"gpt-4o")

# Criar Chain
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # "stuff" = coloca tudo no prompt
    retriever=vectorstore.as_retriever(search_kwargs={"k": 2}),
    return_source_documents=True
)

### 5Ô∏è‚É£ Testar o pipeline com qa_chain

In [6]:
query = "Como a IA est√° mudando a ind√∫stria?"

result = qa_chain({"query": query})

print("üîπ Resposta final:\n", result["result"])
print("\nüîπ Documentos recuperados:")
for doc in result["source_documents"]:
    print("-", doc.page_content)

  result = qa_chain({"query": query})


üîπ Resposta final:
 A IA est√° revolucionando setores como sa√∫de e linguagem natural.

üîπ Documentos recuperados:
- A IA est√° revolucionando setores como sa√∫de e
- de linguagem natural.


### Extras

### Adicionando metadados aos documentos

In [7]:
from langchain.schema import Document

# Agora cada documento tem metadados
docs = [
    Document(
        page_content="Retrieval-Augmented Generation (RAG) combina recupera√ß√£o de informa√ß√µes e gera√ß√£o de linguagem natural.",
        metadata={"source": "Blog IA", "date": "2024-01-10"}
    ),
    Document(
        page_content="A IA est√° revolucionando setores como sa√∫de e finan√ßas.",
        metadata={"source": "Revista Tech", "date": "2024-03-22"}
    ),
    Document(
        page_content="Python √© uma linguagem de programa√ß√£o muito popular e vers√°til.",
        metadata={"source": "Blog Python", "date": "2023-11-05"}
    )
]

### Splitter + FAISS com metadados

In [8]:
splitter = RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=10)
docs_split = splitter.split_documents(docs)

embeddings = OpenAIEmbeddings(api_key=openai_api_key)
vectorstore = FAISS.from_documents(docs_split, embeddings)

print("üîπ FAISS indexado com LangChain e metadados!")

üîπ FAISS indexado com LangChain e metadados!


### Chain usando RetrievalQAChain com metadados

In [9]:
from langchain.chains import RetrievalQA

llm = ChatOpenAI(api_key=openai_api_key, model="gpt-3.5-turbo")  #"gpt-4o")

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 2}),
    return_source_documents=True
)

### Consulta e exibi√ß√£o dos metadados dos chunks recuperados

In [10]:
query = "Como a IA est√° mudando as ind√∫strias?"

result = qa_chain({"query": query})

print("üîπ Resposta final:\n", result["result"])

print("\nüîπ Documentos recuperados e metadados:")
for doc in result["source_documents"]:
    print(f"- Fonte: {doc.metadata['source']} (Data: {doc.metadata['date']})")
    print("  Texto:", doc.page_content)


üîπ Resposta final:
 A IA est√° revolucionando setores como sa√∫de e finan√ßas.

üîπ Documentos recuperados e metadados:
- Fonte: Revista Tech (Data: 2024-03-22)
  Texto: A IA est√° revolucionando setores como sa√∫de e
- Fonte: Revista Tech (Data: 2024-03-22)
  Texto: sa√∫de e finan√ßas.


### Testando outros chain_types

O LangChain tem v√°rios tipos de Chains que influenciam como o contexto √© formatado:

| **chain_type** | **Descri√ß√£o resumida**                                                                                   |
|-----------------|----------------------------------------------------------------------------------------------------------|
| stuff           | Insere todos os documentos no prompt (padr√£o, r√°pido e simples)                                          |
| map_reduce      | Divide em partes menores e combina as respostas (bom para documentos muito grandes)                      |
| refine          | Processa o 1¬∫ doc, depois vai ‚Äúrefinando‚Äù com os demais (iterativo, mais preciso)                        |

In [11]:
qa_chain_mapreduce = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="map_reduce",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 2}),
    return_source_documents=True
)

result_mapreduce = qa_chain_mapreduce({"query": query})
print("\nüîπ Resposta com map_reduce:\n", result_mapreduce["result"])


üîπ Resposta com map_reduce:
 A IA est√° revolucionando diversas ind√∫strias ao redor do mundo, melhorando a efici√™ncia, a precis√£o, a automa√ß√£o e a personaliza√ß√£o em setores como sa√∫de e financeiro. Na √°rea da sa√∫de, ela est√° possibilitando diagn√≥sticos mais precisos, an√°lise de grandes conjuntos de dados e personaliza√ß√£o de tratamentos. J√° no setor financeiro, a IA est√° sendo usada para detectar fraudes, fazer previs√µes de mercado mais precisas e melhorar a experi√™ncia do cliente. Em resumo, a IA est√° transformando a maneira como as ind√∫strias operam, tornando os processos mais eficientes, inteligentes e adapt√°veis √†s demandas do mercado.


In [12]:
qa_chain_refine = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="refine",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 2}),
    return_source_documents=True
)

result_refine = qa_chain_refine({"query": query})
print("\nüîπ Resposta com refine:\n", result_refine["result"])


üîπ Resposta com refine:
 A intelig√™ncia artificial (IA) est√° revolucionando diversas ind√∫strias de diferentes maneiras. Al√©m dos exemplos anteriores, √© importante destacar o impacto da IA nos setores de sa√∫de e finan√ßas.

Na √°rea da sa√∫de, a IA est√° sendo amplamente utilizada para otimizar diagn√≥sticos m√©dicos, personalizar tratamentos com base em dados espec√≠ficos de cada paciente, gerenciar de forma eficiente registros eletr√¥nicos de sa√∫de, prever surtos de doen√ßas e at√© mesmo desenvolver novos medicamentos e terapias.

No setor financeiro, a IA tem sido fundamental para prever tend√™ncias de mercado, detectar fraudes em transa√ß√µes financeiras, automatizar processos de an√°lise de risco, criar assistentes virtuais para atendimento ao cliente e at√© mesmo desenvolver algoritmos de negocia√ß√£o de alta frequ√™ncia.

Esses avan√ßos tecnol√≥gicos est√£o transformando significativamente as ind√∫strias de sa√∫de e finan√ßas, proporcionando benef√≠cios como maior efici