

<div style="text-align: center;">
    <img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRYCiS4085fuZUnAiyFRBsZxvIdDC_LsxCQCA&s" alt="Descrição da imagem">
</div>


# Introdução

Modelo prático para Engenharia de dados entre todas as etapas para criação de uma aplicação de **GenAI**

## Estrutura do Treinamento

O curso será dividido em quatro partes principais:

### Parte 1: Tratamento de Dados, Processamento e Criação de Embeddings

Nesta seção, vamos explorar o processo essencial de **preparação de dados** para  GenAI

- **Limpeza e normalização dos dados**: Técnicas para garantir que os dados estejam prontos para serem usados em modelos GenAI.
- **Processamento de dados não estruturados**: Como lidar com texto, imagens e outros tipos de dados não estruturados que são comuns em aplicações de IA generativa.
- **Criação de embeddings**: Entender o que são embeddings e como gerá-los.

### Parte 2: Configuração de Banco de Dados Vetorizado e Ingestão de Dados

 **banco de dados vetorizado** para armazenar os embeddings criados:

- **Setup do banco de dados**: Como iniciar um bancos de dados vetorizado
- **Ingestão de dados**: Como fazer a ingestão dos embeddings para o banco de dados e organizar as informações.
- **Vector search**: Como é realizada as buscas no banco de dados vetorizado.

### Parte 3: Criação de Prompts Eficientes para Modelos GenAI

Finalmente, vamos focar na **criação de prompts** para maximizar a performance dos modelos de IA generativa. Esta parte é crucial para garantir que os modelos produzam resultados de alta qualidade e contexto relevante. Abordaremos:

- **Estruturação de prompts**: Como criar prompts que guiem o modelo corretamente e gerem resultados consistentes.
- **Ajustes e refinamentos**: Técnicas para ajustar prompts com base nos resultados obtidos.
- **Prompt tuning**: Introdução ao conceito de **ajuste de prompt** como uma técnica para personalizar o comportamento de modelos.

In [1]:
from langchain_community.document_loaders import PyMuPDFLoader
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/angulskilucas/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


o que é **RAG**?

Nem sempre o modelo utilizado irá trazer a informação a qual foi perguntada, isso por que ela pode não ter sido treinada com o dado necessário para responder perguntas especificas.Essa falta de dados fazem que esses modelos não sejam ideais para `chatbots` ou uso para dar informação em bancos por exemplo.

**RAG** (Retrieval-augmented generation) resolve isso de forma simples: forneça contexto adicional ao modelo no prompt
 Por exemplo, se o modelo não tiver informações sobre "O que é uma quiche?" você pode modificar o prompt: "Uma quiche é uma torta salgada feita com ovos, creme e recheios como queijo ou vegetais. O que é uma quiche?"

# 1.0 Preprocessing Documents


Iremos utilizar um documento pdf como exemplo para criação desses embeddings.

O documento pdf nada mais é que um mini livro de receitas rápidas (cuja a marca não pode ser falada em voz alta)
zzz
Iremos tratar o dado desse documento (note que nesse momento não iremos nos importar com as imagens contidas no pdf) removendo textos desnecessarios e que podem confundir a LLM na hora de buscar esses dados

<div style="text-align: center;">
    <img src="https://media2.giphy.com/media/v1.Y2lkPTc5MGI3NjExM29qNG9xdmwxOTE2Mnptbm1tNTNweDA1ZW44MmthYmN5NG8yZnRxaiZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/LwHkZcEhYZYFhDrh8X/giphy.webp" alt="data clean">
</div>


## 1.1 Data Cleaning

In [6]:
loader = PyMuPDFLoader('/Users/angulskilucas/Downloads/102850628 (1).pdf')

In [7]:
data = loader.load()

In [8]:
########################
###     Clean text   ###
########################

def clean_width_unicode(text: str) -> str:
    return text.replace("\u200b", "")

def extract_title(text: str, max_title_length=30) -> str:

    stop_words = set(stopwords.words("english"))
    split_text = enumerate(text.split("\n", 3))
    title = []
    # Split text into lines and process each
    for iteration, word in split_text:
        word = word.strip()
        if iteration > 2 and word.split()[0].lower() in stop_words:
            word = ""
        if len(word) > max_title_length:  # Skip lines that are too long
            word = ""
        if word:
            title.append(word)

    return " ".join(title)


def extract_ingredients(text: str) -> str:
    stop_words = set(stopwords.words("english"))

    match = re.search(r"Ingredients\n(.*?)(?:\n[A-Z]|$)", text, re.DOTALL)
    if not match:
        return "Ingredients not found"

    ingredients_section = match.group(1).split("\n")

    valid_ingredients = []
    for line in ingredients_section:

        cleaned_line = line.strip()

        if cleaned_line and cleaned_line.split()[0].lower() in stop_words:
            break

        valid_ingredients.append(cleaned_line)

    return "\n".join(valid_ingredients)


def extract_cooking_instructions(text: str) -> str:
    instructions_list = []
    for instruction in text.split("Cook"):
        # Check if this part contains the first step '1.'

        if "\n1." in instruction:
            # Split the text by lines and gather the instructions
            bag = instruction.splitlines()
            in_instructions = False
            current_step = ""

            for line in bag:
                if re.match(r"^\d+\.", line.strip()):
                    if current_step:
                        instructions_list.append(current_step.strip())
                    # Start a new step
                    current_step = line.strip()
                    in_instructions = True
                elif in_instructions:
                    if any(
                        keyword in line
                        for keyword in ["Ingredients", "Spinach", "Cooking"]
                    ):
                        break
                    # Otherwise, append the line to the current instruction step
                    current_step += " " + line.strip()

            if current_step:
                instructions_list.append(current_step.strip())

    instructions = "\n".join(instructions_list)
    instructions = remove_unwanted_end(instructions)

    return instructions


def extract_cost_per_portion(text: str) -> str:
    match = re.search(r"£\d+\.\d+", text)
    if match:
        return match.group(0)
    return "unkown"


def remove_unwanted_end(text: str) -> str:
    """
    Removes unwanted text at the end of the recipe, like cost, portion size, etc.
    """
    unwanted_pattern = r"(\n£\d+.*?Cost.*?portion.*?recipes.*\d+\n?)"
    cleaned_text = re.sub(unwanted_pattern, "", text, flags=re.DOTALL)
    return cleaned_text


def clean_document(document_list: list) -> list:
    for document in document_list:
        page_content = document.page_content
        page_content = clean_width_unicode(page_content)
        portion_cost = extract_cost_per_portion(page_content)
        page_content = remove_unwanted_end(page_content)
        title = extract_title(page_content)
        ingrediants = extract_ingredients(page_content)
        instructions = extract_cooking_instructions(page_content)

        new_document = f"""Title: {title}
        Ingrediants:
        {ingrediants}
    
        Instructions:
        
        {instructions}
    
        Cost per portion: {portion_cost}
        """
        document.page_content = new_document
    return document_list


O Conteúdo que nos interessa começa a partir da 5 pagina

In [9]:
curated_data = data[4:]

In [10]:
curated_data = clean_document(curated_data)

# 1.2 Embeddings

Após a limpeza dos dados, a criação dos embeddings é relativamente simples.
Com o uso de uma API e um LLM de sua escolha (Gemini, OpenAI, Claude), podemos enviar o documento de texto para ela e em retorno receberemos um vetor `embedding` desses dados.

Note que um dos passos

<div style="text-align: center;">
    <img src="https://media0.giphy.com/media/v1.Y2lkPTc5MGI3NjExeWg5cjN2b2hneHJtY2g1c2h5ZXB1ODN2d2VmYTd0dWpxejI3cWRzcSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/0lGd2OXXHe4tFhb7Wh/giphy.webp" alt="data clean"width="30%">
</div>

In [11]:
import os

import nltk
nltk.download('punkt_tab')

from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.text_splitter import NLTKTextSplitter
from tqdm import tqdm
from time import sleep

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/angulskilucas/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [12]:
text_splitter = NLTKTextSplitter(chunk_size=1024, chunk_overlap=100)

def create_embbedings(text:str)->list:
    embedding_chunk_list = []
    text_split = text_splitter.split_text(text)

    for t in text_split:
        emb = embedding.embed_query(t)
        embedding_chunk_list.append(emb)

    return embedding_chunk_list

In [13]:
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
GEMINI_API_KEY ='AIzaSyBJgt_rRnw87jD39ahu4VltH3RFLuZ_8rs'

In [14]:
#Média do tamanho dos documentos
avg_doc_str_size = sum([len(curated_data[i].page_content) for i in range(len(curated_data))])/len(curated_data)
print(avg_doc_str_size)
#Chunk overlap deve ser entre 10% a 25% do tamanho do documento dependendo do documento processado.
# Nesse caso o documento é pequeno, não havendo necessidade de reajuste dos chunks

814.125


In [15]:
embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001",
                                         google_api_key=GEMINI_API_KEY)

In [16]:
embeddings_list = []
for index in tqdm(range(len(curated_data))):
    try:
        emb = create_embbedings(curated_data[index].page_content)
        embeddings_list.append(emb)
    except:
        print(f"Error while retriving embeddings for document number {index}.")

100%|███████████████████████████████████████████| 16/16 [00:35<00:00,  2.22s/it]


# 2.0 Configuração do banco de dados

Existem enúmeras opções para banco de dados vetorizados. nesse momento utizaremos um banco relacional `Postgres` com a extensão `PgVector`

 Essa extensão oferece diferentes funcionalidades que ajudam a identificar "nearest neighbors" de maneira exata ou aproximada. O Pgvector  funciona perfeitamente com outros recursos do PostgreSQL, como index e queries.

<div style="text-align: center;">
    <img src="https://api.pgxn.org/src/postgresql_anonymizer/postgresql_anonymizer-0.2.1/postgresql_anonymizer.logo.gif" alt="data clean"width="30%">
</div>



## 2.1 Criação do banco

Iremos utilizar um `Dockerfile`para criação de nosso banco, já fazendo a instalação da sua extensão.

```bash
FROM postgres:15

RUN apt-get update && \
    apt-get install -y postgresql-server-dev-all git build-essential && \
    git clone --branch v0.7.4 https://github.com/pgvector/pgvector.git && \
    cd pgvector && make && make install

COPY init.sql /docker-entrypoint-initdb.d/
```

note que estamos copiando o arquivo `init.sql` ele será responsável por iniciar a extensão

```sql
CREATE EXTENSION IF NOT EXISTS vector;
```

## 2.2 Configuração

In [17]:
import psycopg2
from psycopg2.extras import execute_values
from pgvector.psycopg2 import register_vector

In [18]:
connection_string = "postgresql://postgres:postgres@localhost:5432/postgres"

In [19]:
conn = psycopg2.connect(connection_string)
cur = conn.cursor()

In [20]:
register_vector(conn)

In [21]:
#Criando a tabela de embeddings

In [22]:
table_create_command = """
CREATE TABLE IF NOT EXISTS
    embeddings (
    id bigserial primary key, 
    content text,
    metadata json,
    embedding vector(768) --Verificar tamanho do vetor
    )
;
"""

cur.execute(table_create_command)
cur.close()
conn.commit()

## 2.3 Ingestão dos dados

In [23]:
import numpy as np
import json

In [24]:
ingestion_data = []
for document, embedded_doc in zip(curated_data, embeddings_list):
    #print(np.array(embedded_doc[0]).shape)
    doc_tuple = (
        document.page_content,
        json.dumps(document.metadata),
        np.array(embedded_doc[0])
    )
    ingestion_data.append(doc_tuple)



In [25]:
cur = conn.cursor()
execute_values(cur, "INSERT INTO embeddings (content, metadata, embedding) VALUES %s", ingestion_data)
conn.commit()

In [26]:
cur.execute("SELECT COUNT(*) as cnt FROM embeddings;")
num_records = cur.fetchone()[0]
print("qtd de docs", num_records,"\n")

qtd de docs 32 



## 2.4 Criaçao de index 

As vezes podemos nos deparar com uma grande quantidade de documentos, e para isso otimizar a busca é algo necessário.

O índice IVFFlat funciona dividindo os vetores na tabela em várias listas. O algoritmo calcula um número de centróides e encontra os clusters em torno desses centróides. Assim, existe uma lista para cada centróide, e os elementos dessas listas são os vetores que compõem o cluster correspondente.

Então quando executamos a busca, ao invés de calcular a distância para todos os vetores, o espaço de busca é enxugado para apenas para o subconjunto de uma lista.

<div style="text-align: center;">
    <img src="https://tembo.io/_astro/ivfflat.cTzzAfeL_1UaBoa.webp" alt="data clean"width="60%">
</div>


In [27]:

num_lists = num_records / 1000
if num_lists < 10:
   num_lists = 10
if num_records > 1000000:
   num_lists = math.sqrt(num_records)
cur.execute(f'CREATE INDEX ON embeddings USING ivfflat (embedding vector_cosine_ops) WITH (lists = {num_lists});')
conn.commit()


## 2.5 Vector Search

Por default, o PgVector utiliza a similaridade de cosseno para fazer a busca dos vetores, essa operação é descrita através do uso dos `<=>` na query.

A Similaridade Cosseno costuma ser mais eficiente que a Distância Euclidiana, pois lida melhor com vetores de diferentes comprimentos.


<div style="text-align: center;">
    <img src="https://miro.medium.com/v2/resize:fit:1400/1*LfW66-WsYkFqWc4XYJbEJg.png" alt="data clean"width="30%">
</div>


In [28]:
def get_embeddings(text):
    response = GoogleGenerativeAIEmbeddings(
        model="models/embedding-001",
        task_type="retrieval_query",
        google_api_key=GEMINI_API_KEY,
    ).embed_query(text.replace("\n", " "))
    return response

def retrive_similar_docs(query_embedding, conn, limit=3):
    embedding_array = np.array(query_embedding)
    register_vector(conn)
    cur = conn.cursor()
    cur.execute(
        f"SELECT content FROM embeddings ORDER BY embedding <=> %s LIMIT {limit}",
        (embedding_array,),
    )
    top_docs = cur.fetchall()
    return top_docs

In [29]:
input_embedding = get_embeddings('mushroom recipe')
recipes = retrive_similar_docs(input_embedding,conn,limit=3)

In [30]:
recipes

[('Title: Mushroom and Spinach Stroganoff\n        Ingrediants:\n        1 Knorr Vegetable Stock Cube\n600 g mushrooms sliced\n200 g spinach\n1 red pepper\n1 red onion chopped\n175 ml reduced-fat soured cream\n200 ml water\n2 tsp lemon juice\n1 garlic chopped\n1 tbsp paprika\nparsley chopped\n2 tbsp olive oil\n300 g basmati and wild rice mix\n    \n        Instructions:\n        \n        1.\t Heat the oil in a large frying pan, add the onion then cook on a medium heat for 5 minutes.\n2.\t Add the mushrooms, pepper, paprika and garlic then fry gently for 3-4 minutes until slightly browned. Then pour in the water and add the Knorr Vegetable Stock Cube.\n3.\t Bring to the boil for 2 minutes then reduce the heat and stir in the soured cream and spinach.\n4.\t Simmer for a minute or so, until thickened, then stir in the lemon juice and add the chopped parsley before serving with cooked rice or pappardelle pasta.\n    \n        Cost per portion: £1.16\n        ',),
 ('Title: Mushroom and Sp

# 3  Prompts e resgatando resultados

In [31]:
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.output_parsers import StrOutputParser
from langchain.schema.runnable import RunnablePassthrough
from langchain import PromptTemplate

In [32]:
def get_completion_from_messages(messages, temperature=0.6, max_tokens=1000):
    llm = ChatGoogleGenerativeAI(
        model="gemini-1.5-flash",
        google_api_key=GEMINI_API_KEY,
        temperature=temperature,
        top_p=0.7,
        max_tokens=max_tokens,
    )
    return llm.invoke(messages)

Tentaremos brincar com a LLM e ela se passar pelo Gordon Ramsay para ensinar aos nosso queridos usuários como se cozinha de verdade


<div style="text-align: center;">
    <img src="https://media2.giphy.com/media/v1.Y2lkPTc5MGI3NjExNnRycjVuc2k2enQ3dThsZmd3anlmemtid2ZwdzJ2YWYwNWoyOWt0eCZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/w8g5zUCbH215kUjycc/giphy.webp" alt="data clean"width="30%">
</div>


In [33]:

def process_input_with_retrieval(user_input):
    delimiter = "```"

    # Retrieve similar documents based on user input
    related_docs = retrive_similar_docs(get_embeddings(user_input), conn,limit=1)
    sleep(0.2)
    # Ensure there are at least 3 documents
    if len(related_docs) ==0:
        return "Not enough relevant documents found."

    system_message = f"""
        You are a chatbot with the personality and traits of Gordon Ramsay.\
        Users may ask you for quick recipes to cook, and you must answer based on the documents that best fit the user's query.\
        Your instructions must follow the order:1. Ingrediants, 2. Cooking Steps, 3. Cost per portion.
        Do not make up ingredients or cooking steps that are not in the documents, and be sure to include the cost per portion.
        Recipes: {related_docs[0]}
    """

    messages = [
    (
        "system",system_message,
    ),
    ("human", user_input),
]

    final_response = get_completion_from_messages(messages)
    
    # Handle empty responses
    if not final_response.content:
        return "Sorry, I couldn't generate a response. Please try again."

    return final_response.content

In [34]:
message = process_input_with_retrieval('how do I make a Ratatouille?')

In [35]:
print(message)

Listen, you want to make a proper Ratatouille, you need to follow these steps precisely. Don't get cocky, this isn't some microwave meal. 

**Ingredients:**

* 10 grams Knorr Aromat Seasoning
* 100 ml olive oil
* 2 aubergines finely diced
* 2 courgettes finely diced
* 2 green peppers finely diced
* 2 red peppers finely diced
* 4 cloves garlic, chopped
* handful of basil leaves, torn
* sprig of thyme
* 200g Passata

**Cooking Steps:**

1. Pour the olive oil into a large, deep frying pan and heat until really hot.
2. Add in the aubergine and courgette and sprinkle with Knorr Aromat seasoning. Fry for around 4–5 minutes stirring occasionally until lightly browned.
3. Remove the vegetables with a slotted spoon. In the same pan, add the diced peppers and garlic season with Aromat and fry until lightly browned, stirring occasionally.
4. Pour the tomato sauce into the frying pan, add the peppers and aubergines and cook for 5 minutes to heat through. Add the basil and thyme reserving a little 

For any queries

Angulski.lucas@bcg.com