# Exercício 1 – Teórico: Fundamentos de RAG

Explique, com suas próprias palavras:

1. O que é RAG (Retrieval-Augmented Generation) e qual problema ele resolve na geração de texto usando modelos de linguagem?
2. Quais são as vantagens de utilizar RAG em vez de depender apenas do modelo base?
3. Quais são as principais etapas de um pipeline de RAG? Explique brevemente cada uma das seguintes fases:
- Chunking
- Indexing
- Retrieval
- Reranking
- Geração (Generation)

1: RAG combina as partes mais funcionais dos sistemas de recuperação de informações tradicionais com os recursos de tratamento de dados de big data, visando melhorar o output da IA usando dados do mundo real.

2: Uma das maiores vantagens de utilizar RAG seria o acesso a informações muito vastas e atualizadas, permitindo que exista um maior número de dados e um contexto maior para ser utilizado no output gerado pelo modelo, isso também pode ajudar um agente que é focado para uma função específica, aliado aos dados especializados em que houve o treinamento, é possível integrar novos dados externos que podem ser usados para melhorar o resultado solicitado.

3: 

Chunking: Técnica usada para analisar textos, que quando são muito longos acabam perdendo a relevância para o treinamento, o chunking realiza a quebra do texto em pedaços para que cada parte não seja muito longa.

Indexing: Usado junto ao chunking para vetorizar as informações que foram separadas anteriormente, permitindo que sejam usadas no modelo.

Retrieval: Aplicação da vetorização no prompt com o intuito de utilizar os vetores para calcular a similaridade entre o prompt e os vetores dos chunks vindo dos documentos que serão analisados, trazendo uma listagem fechada de documentos com maior similaridade.

Reranking: No processo acima de retrieval, nem todos os documentos podem ser realmente relevantes, então são usados modelos para avaliar mais a fundo esses dados, trazendo principalmente os que são relevantes para o prompt que foi dado, limitando ainda mais os dados que foram trazidos no retrieval, tirando um pouco de ruído.

Geração: É o processo de retorno para o usuário, usando todos os processos anteriores, o modelo irá gerar uma resposta levando em conta o prompt feito, e os documentos relevantes que foram selecionados anteriormente e utilizando uam base de dados externa para melhorar a resposta que foi gerada.

# Exercício 2 – Prático: Chunking de Documentos

Implemente uma função que realiza o *chunking* de um documento de texto longo.

Requisitos:
- A função deve dividir o texto em pedaços (chunks) de tamanho configurável (ex.: 500 tokens ou 1000 caracteres).
- Deve permitir uma sobreposição (*overlap*) entre os chunks (ex.: 20% de sobreposição).
- O output esperado é uma lista de chunks.

Exemplo de uso esperado:
```python
chunks = chunk_text(long_text, chunk_size=500, overlap=100)
```

In [35]:
def chunk_text(text, chunk_size=1000, overlap=200):

    if chunk_size <= 0:
        raise ValueError("chunk_size deve ser maior que zero.")
    if overlap >= chunk_size:
        raise ValueError("overlap deve ser menor que chunk_size.")

    chunks = []
    start = 0
    text_length = len(text)

    while start < text_length:
        end = start + chunk_size
        chunk = text[start:end]
        chunks.append(chunk)
        start += chunk_size - overlap  

    return chunks

In [36]:
receitas = 'C:\\Users\\pedro estofados\\Downloads\\receitas.txt'


with open(receitas, 'r', encoding='utf-8') as f:
    long_text = f.read()

#long_text = "Uma deliciosa receita de bolo de cenoura de liquidificador. Você poderá seguir ao vídeo ou a receita escrita, o resultado sairá perfeito dos 2 modos. Para fazer seu bolo de cenoura de liquidificador de uma vez só é preciso um liquidificador potente, mas se achar a massa pesada para o seu aparelho, corte a cenoura em pedaços bem pequenos e só bata no aparelho os ingredientes úmidos. Depois que estiver tudo homogêneo, incorpore a mistura líquida aos ingredientes secos, mexendo bem e delicadamente. Além de poupar o seu liquidificador, misturar os ingredientes secos delicadamente com a mão também é o segredo para o seu bolo de cenoura não solar. A receita de bolo de cenoura pode ser complicada porque exige alguns pequenos detalhes que garantem o resultado perfeito. Uma delas é a proporção de cenoura, que precisa ser correta para a receita que você está fazendo. Por isso, para ter certeza de que não irá fazer um bolo solado, você pode utilizar a mesma medida da nossa receita de ovo bolo de cenoura, cerca de 250 g de cenoura para 2 copos de farinha de trigo. Para garantir o seu bolo de cenoura fofinho, lembre-se de testar o fermento antes de adicioná-lo à massa e peneire a farinha de trigo! Isso vai garantir que um bolo de cenoura fofo, leve e ainda mais delicioso! Se você prefere um bolo de cenoura cremoso, faça uma calda para umedecer seu bolo! Basta adicionar 1 xícara de açúcar e 1 xícara de água em uma leiteira e, assim que levantar fervura, desligue o fogo. Quando esfriar completamente, você pode regar seu bolo. Se quiser incrementar essa mistura para deixar ainda mais gostoso e dar um perfume ao seu bolo de cenoura, você pode adicionar raspas de laranja, essência de baunilha ou um pouco de canela. Dessa forma, você vai ter um bolo de cenoura molhadinho e delicioso! Quer ir além do bolo de cenoura simples? O bolo de cenoura é delicioso de qualquer jeito: se quiser um bolo de cenoura simples, daqueles que vão bem com um cafezinho, basta não fazer a calda. Mas se você não perde a oportunidade de comer chocolate e não abre mão da calda para bolo de cenoura, confira nesse vídeo 3 receitas de cobertura de chocolate para bolo e escolha qual você quer colocar no seu bolo de cenoura com calda de chocolate! Se você está de dieta e está morrendo de vontade de comer um bolo de cenoura, que tal conferir outras opções de bolo de cenoura do TudoGostoso como bolo de cenoura fit, bolo de cenoura vegano, bolo de cenoura low carb, bolo de cenoura com aveia, bolo de cenoura integral e mais! Essa receita de bolo de cenoura fácil é perfeita pra quem precisa de uma receita rápida, mas se você tem mais tempo que tal fazer um bolo de cenoura recheado ou bolo de cenoura vulcão? Ninguém vai resistir! Que tal conferir outras receitas de bolo no TudoGostoso? Além da receita de bolo de cenoura com cobertura de chocolate, no TudoGostoso você encontra muitas outras deliciosas receitas de bolo. Confira: bolo de banana caramelada, bolo de milho cremoso, bolo gelado, bolo de chocolate fofinho, bolo prestígio, bolo simples, bolo de fubá, bolo de laranja, bolo de coco com doce de leite, bolo formigueiro, bolo vulcão de chocolate, bolo de chocolate com calda de chocolate, bolo de limão, bolo 3 leites, bolo pão de ló e bolo de aniversário."

chunks = chunk_text(long_text, chunk_size=500, overlap=100)

for i, chunk in enumerate(chunks):
    print(f"Chunk {i+1}:\n{chunk}\n{'-'*180}")

Chunk 1:
Confira essa deliciosa receita de bolo fofinho de chocolate, realizada pela Daniela, do MasterChef 2020. Aprenda a fazer em casa em 1 hora!
Ingredientes
Massa
1/2 xícara(s) de óleo
3 unidade(s) ovo
1 1/2 xícara(s) de leite
2 xícara(s) de farinha de trigo
2 xícara(s) de açúcar
1 xícara(s) de chocolate em pó
1 colher(es) de sopa de fermento
Cobertura
1 caixinha(s) de creme de leite
2 barra(s) de chocolate
Modo de Preparo
Bata os ovos, o óleo e o leite no fouet, liquidificador ou batedeira. Em segu
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Chunk 2:
colate
Modo de Preparo
Bata os ovos, o óleo e o leite no fouet, liquidificador ou batedeira. Em seguida, acrescente os ingredientes secos e misture bem. Coloque a massa em uma forma untada e leve ao forno a 180°C por 45 minutos ou até furar com o palito e sair sequinho. Enquanto isso, derreta o choc

# Exercício 3 – Prático: Indexação Vetorial

Com os chunks criados no exercício anterior:

1. Gere embeddings para cada chunk usando um modelo de embeddings (ex.: `sentence-transformers`, OpenAI embeddings ou outro de sua escolha).
2. Crie um índice vetorial (FAISS, ChromaDB, Elasticsearch, etc.).
3. Implemente uma função para realizar buscas no índice, retornando os Top-K documentos mais similares a uma query.

Exemplo de uso esperado:
```python
results = search_index(query="Qual o impacto da inflação?", top_k=5)
```

In [3]:
#pip install -U sentence_transformers
#pip install faiss-cpu
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

  from .autonotebook import tqdm as notebook_tqdm


In [37]:
def embed_chunks(chunks, model_name='all-MiniLM-L6-v2'):
    model = SentenceTransformer(model_name)
    embeddings = model.encode(chunks, convert_to_numpy=True, normalize_embeddings=True)
    return model, embeddings

def create_faiss_index(embeddings):
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatIP(dimension)  
    index.add(embeddings)
    return index

def search_index(query, model, index, chunks, top_k=3):
    query_embedding = model.encode([query], convert_to_numpy=True, normalize_embeddings=True)
    distances, indices = index.search(query_embedding, top_k)
    results = [(chunks[i], float(distances[0][j])) for j, i in enumerate(indices[0])]
    return results

In [38]:
model, embeddings = embed_chunks(chunks)
index = create_faiss_index(embeddings)

query = "quanto tempo demora para fazer o bolo?"
results = search_index(query, model, index, chunks, top_k=3)

for i, (text, score) in enumerate(results):
    print(f"{i+1}. Score: {score:.4f}\n{text}\n{'-'*40}")

1. Score: 0.5463
a poucos ingredientes e fica pronto rapidinho.
O bolo de cenoura é uma opção simples e prática para o café da manhã, lanche da tarde ou para uma ocasião especial com famílias e amigos. Essa receita é feita no liquidificador e fica pronta em menos de 1 hora. É ideal para quando você está com pouco tempo para cozinhar.
Fácil de fazer, o bolo de cenoura leva ingredientes que você provavelmente tem em casa: farinha de trigo, açúcar, óleo, fermento, cenoura e ovos. Para finalizar, você pode preparar 
----------------------------------------
2. Score: 0.5000
o de tapioca simples e despeje numa forma com furo central untada e enfarinhada.
Agora é hora de assar o bolo de tapioca simples. Leve para assar em 230°C por aproximadamente 50 minutos ou até que esteja dourado e, ao espetar com um palito, ele saia limpo.
Pronto, é só servir. Agora você já sabe como fazer bolo de tapioca simples.
Saiba como fazer um bolo de cenoura fácil no liquidificador que leva poucos ingredientes e 

# Exercício 4 – Prático: Recuperação de Contexto + Geração de Resposta

Implemente uma função que faça o seguinte:

1. Receba uma query do usuário.
2. Recupere os Top-K chunks mais relevantes do índice vetorial.
3. Monte um *prompt* contendo a query + os textos dos chunks recuperados.
4. Envie o prompt para um LLM (ex.: OpenAI, Mistral, Llama ou outro) para gerar uma resposta.

Exemplo de uso esperado:
```python
response = rag_pipeline(query="Explique o conceito de inflação")
print(response)
```

In [None]:
from groq import Groq
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

In [None]:
client = Groq(api_key="")

def generate_answer_groq(query, chunks):
    context_text = "\n\n".join(chunks)

    prompt = f"""Responda à pergunta abaixo com base nas informações do contexto fornecido.

### CONTEXTO
{context_text}

### PERGUNTA
{query}

### RESPOSTA
"""
    response = client.chat.completions.create(
        model="llama3-70b-8192",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.7,
        max_tokens=512
    )
    return response.choices[0].message.content

def rag_pipeline(query, chunks, index, embed_model):
    top_chunks_with_scores = search_index(query, embed_model, index, chunks, top_k=3)
    top_chunks_text_only = [chunk_text for chunk_text, score in top_chunks_with_scores]
    return generate_answer_groq(query, top_chunks_text_only)


model, embeddings = embed_chunks(chunks)
index = create_faiss_index(embeddings)


query = "como posso fazer um bolo?"
response = rag_pipeline(query=query, chunks=chunks, index=index, embed_model=model)

print(response)

Você pode fazer um bolo de cenoura fácil no liquidificador que leva poucos ingredientes e fica pronto rapidinho. Para isso, você precisará de farinha de trigo, açúcar, óleo, fermento, cenoura e ovos. Basta misturar todos os ingredientes no liquidificador, despejar a massa em uma forma com furo central untada e enfarinhada e assar em 230°C por aproximadamente 50 minutos ou até que esteja dourado.


# Exercício 5 – Prático: Reranking

Implemente uma etapa de reranking para melhorar a qualidade dos documentos recuperados:

1. Após o retrieval inicial (ex.: Top-10), use um modelo de reranking (ex.: um `cross-encoder` da `sentence-transformers`) para reordenar os documentos com base na relevância para a query.
2. Compare as respostas geradas pelo RAG antes e depois do reranking.
3. Discuta brevemente se o reranking trouxe melhorias na qualidade da resposta.

Exemplo de uso esperado:
```python
ranked_results = rerank(query, retrieved_docs)
response = generate_answer(query, ranked_results)
```

In [None]:
from sentence_transformers import SentenceTransformer, util, CrossEncoder 


In [42]:
def rerank(query, retrieved_docs, reranker_model_name='cross-encoder/ms-marco-TinyBERT-L-2'):
    reranker = CrossEncoder(reranker_model_name)
    sentence_pairs = [[query, doc[0]] for doc in retrieved_docs]  # doc[0] é o texto
    cross_scores = reranker.predict(sentence_pairs)
    reranked_results = [(retrieved_docs[i][0], float(score)) for i, score in enumerate(cross_scores)]
    reranked_results.sort(key=lambda x: x[1], reverse=True)
    return reranked_results

def rag_pipeline(query, chunks, index, embed_model, use_reranking=False, top_k_retrieval=5, top_k_reranked=3):
    retrieved_docs_with_scores = search_index(query, embed_model, index, chunks, top_k=top_k_retrieval)
    
    if use_reranking:
        ranked_results = rerank(query, retrieved_docs_with_scores)
        final_context_chunks = [doc[0] for doc in ranked_results[:top_k_reranked]]
    else:
        final_context_chunks = [doc[0] for doc in retrieved_docs_with_scores[:top_k_reranked]]
    
    return generate_answer_groq(query, final_context_chunks)

model, embeddings = embed_chunks(chunks)
index = create_faiss_index(embeddings)

query = "como posso fazer um bolo?"

print("\n--- Resposta SEM Reranking ---")
response_no_rerank = rag_pipeline(query=query, chunks=chunks, index=index, embed_model=model, use_reranking=False)
print(response_no_rerank)


print("\n--- Resposta COM Reranking ---")
response_with_rerank = rag_pipeline(query=query, chunks=chunks, index=index, embed_model=model, use_reranking=True)
print(response_with_rerank)


--- Resposta SEM Reranking ---
Você pode fazer um bolo de cenoura fácil no liquidificador que leva poucos ingredientes e fica pronto rapidinho. É uma opção simples e prática para o café da manhã, lanche da tarde ou para uma ocasião especial com famílias e amigos. Você precisará de ingredientes como farinha de trigo, açúcar, óleo, fermento, cenoura e ovos. Basta misturar tudo no liquidificador, despejar na forma e assar em 230°C por aproximadamente 50 minutos ou até que esteja dourado.

--- Resposta COM Reranking ---
Para fazer um bolo, você pode seguir as receitas apresentadas acima. Existem três opções: bolo simples (também conhecido como bolo de farinha de trigo), bolo de cenoura e bolo de tapioca simples.

Para o bolo simples, você precisará dos seguintes ingredientes: 2 xícaras de açúcar, 3 xícaras de farinha de trigo, 4 colheres de margarina, 3 ovos e 1 e 1/2 xícara de leite.

Para o bolo de cenoura, você precisará de ingredientes como farinha de trigo, açúcar, óleo, fermento, ce