## Enviroment Setup

Nesta primeira c√©lula, estamos reunindo as ‚Äúpe√ßas‚Äù essenciais que ser√£o os alicerces do nosso notebook de padroniza√ß√£o de dados de produtos. Pense nela como a bancada de laborat√≥rio onde voc√™ prepara todos os reagentes antes de come√ßar o experimento:

import json

Carrega e salva configura√ß√µes e resultados em formato JSON, nossa linguagem universal para trocar informa√ß√µes entre sistemas.

LangChain & Chroma (Vector Store)

from langchain_chroma import Chroma
from langchain_core.example_selectors import SemanticSimilarityExampleSelector

Aqui trazemos o Chroma, que vai armazenar vetores de embedding dos textos dos produtos, e o SemanticSimilarityExampleSelector, nosso ‚Äúcurador‚Äù que escolhe exemplos mais relevantes com base em similaridade sem√¢ntica.

Templates de Prompt

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.prompts.few_shot import FewShotChatMessagePromptTemplate

Essas classes permitem montar conversas estruturadas (prompts) com o modelo de IA. √â nelas que definiremos o ‚Äúroteiro‚Äù criativo para o ChatGPT transformar descri√ß√µes livres em campos padronizados.

OpenAI & Embeddings

from langchain_openai import ChatOpenAI, OpenAIEmbeddings

Aqui √© onde chamamos a m√°gica do ChatOpenAI para gerar texto e do OpenAIEmbeddings para converter frases dos produtos em vetores num√©ricos que o Chroma entende.

Dotenv

from dotenv import load_dotenv

Garante que suas chaves de API e outras vari√°veis sens√≠veis fiquem guardadas num arquivo .env, sem vazar no c√≥digo.

Modelo de Dom√≠nio

from product_model import Product

Importa a classe Product, que define como queremos que nossos dados padronizados de produto sejam estruturados: nome, categoria, atributos, etc.

Pandas & NumPy

import pandas as pd
import numpy as np

S√£o nossas lentes e escalpelo para ler, fatiar, transformar e manipular tabelas e matrizes de dados com agilidade.

üåü Por que isso importa?
Ao juntar essas bibliotecas, temos:

Leitura/Grava√ß√£o de configura√ß√µes (JSON).

Armazenamento de vetores sem√¢nticos (Chroma).

Sele√ß√£o Inteligente de exemplos (SemanticSimilarity).

Montagem de prompts din√¢micos (ChatPromptTemplate).

Chamada ao ponto de entrada da IA (ChatOpenAI).

Prote√ß√£o das credenciais (dotenv).

Estrutura√ß√£o do resultado (Product).

Manipula√ß√£o de dados em massa (pandas & numpy).

In [21]:
import json

from langchain_chroma import Chroma
from langchain_core.example_selectors import SemanticSimilarityExampleSelector
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.prompts.few_shot import FewShotChatMessagePromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from dotenv import load_dotenv
from product_model import Product

import pandas as pd
import numpy as np

load_dotenv(): carrega vari√°veis de ambiente a partir do arquivo .env.

llm = ChatOpenAI(temperature=0, model="gpt-4o-mini"): inicializa o GPT-4o-mini com temperatura zero, garantindo sa√≠das consistentes e reproduz√≠veis.

In [22]:
load_dotenv()
llm = ChatOpenAI(temperature=0, model="gpt-4o-mini")

## Load Examples

Prop√≥sito: transforma cada linha do DataFrame num par input/output pronto para alimentar o pipeline de IA.

‚Äúinput‚Äù: pega o texto livre em row["description"].

‚Äúoutput‚Äù: gera uma string JSON (com acentua√ß√£o preservada) contendo os campos padronizados do Product ‚Äî tipo, marcas, varia√ß√£o, embalagem, unidade e quantidade.

Em resumo, esta fun√ß√£o empacota seu dado bruto e a estrutura esperada num exemplo √∫nico, ideal para treinar ou chamar o modelo de forma consistente.

In [23]:
def row_to_json(row):
    return {
        "input": row["description"],
        "output": json.dumps(
            {
                "type": row.get("type"),
                "primary_brand": row.get("primary_brand"),
                "secondary_brand": row.get("secondary_brand"),
                "variation": row.get("variation"),
                "container": row.get("container"),
                "container_type": row.get("container_type"),
                "measure": row.get("measure"),
                "unity": row.get("unity"),
                "amount": row.get("amount"),
            },
            ensure_ascii=False,
        ),
    }

L√™ o arquivo examples.csv em um DataFrame.

Converte valores NaN em None para compatibilidade com JSON e IA.

Exibe as primeiras linhas (head) para verifica√ß√£o r√°pida dos exemplos dispon√≠veis.

In [24]:
examples_df = pd.read_csv("examples.csv").replace({np.nan: None})
examples_df.head()

Unnamed: 0,description,type,primary_brand,secondary_brand,variation,container,container_type,amount,measure,unity
0,CERVEJA ANTARCTICA PILSEN GARRAFA VIDRO 600ML,cerveja,antarctica,,pilsen,garrafa,vidro,1,600.0,ml
1,CERVEJA PATAGONIA BOHEMIAN PILSENER GARRAFA ON...,cerveja,patagonia,,bohemian pilsener,garrafa,one way,1,740.0,ml
2,CERVEJA SKOL BEATS SECRET LT 269ML,cerveja,skol,beats,secret,lata,,1,269.0,ml
3,CERV. CARACU LN 355ML C/6,cerveja,caracu,,,long neck,,6,355.0,ml
4,SUCO DE UVA ALIAN√áA TINTO INTEGRAL 1.5L,suco,alian√ßa,,uva tinto integral,,,1,1.5,L


Usa row_to_json para mapear cada linha de examples_df a um dicion√°rio {input, output}.

Converte a s√©rie resultante em uma lista Python (examples_json), pronta para alimentar prompts Few-Shot ou seletores sem√¢nticos.

In [25]:
examples_json = examples_df.apply(row_to_json, axis=1).tolist()

Cria um seletor que armazena os exemplos como vetores no Chroma, usando embeddings do modelo text-embedding-3-small.

k=2 garante que, a cada chamada, voc√™ receba os 2 exemplos mais semanticamente relevantes para enriquecer seu prompt ou few-shot.

In [26]:
example_selector = SemanticSimilarityExampleSelector.from_examples(
    examples=examples_json,
    embeddings=OpenAIEmbeddings(model="text-embedding-3-small"),
    vectorstore_cls=Chroma,
    k=2,
)

## Create prompt

Cria um ChatPromptTemplate com duas mensagens encadeadas:

Humano recebe {input} (descri√ß√£o bruta).

IA responde com {output} (JSON padronizado).

Esses placeholders ser√£o substitu√≠dos dinamicamente pelos exemplos ou inputs reais no momento da chamada ao modelo.

In [27]:
example_prompt = ChatPromptTemplate.from_messages(
    [("human", "{input}"), ("ai", "{output}")]
)

Instancia um FewShotChatMessagePromptTemplate que combina:

example_selector: busca os 2 exemplos mais relevantes via similaridade sem√¢ntica.

example_prompt: formata cada exemplo como pares ‚Äúhumano ‚Üí IA‚Äù (descri√ß√£o bruta e JSON padronizado).

Por que isso importa?
Ao chamar esse prompt, o sistema:

Seleciona automaticamente os exemplos mais pr√≥ximos do seu item atual.

Insere esses pares formatados no in√≠cio da conversa.

Garante que o modelo receba contexto personalizado, melhorando a precis√£o da padroniza√ß√£o.

In [28]:
few_shot_prompt = FewShotChatMessagePromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
)

Sistema: define o papel do modelo (‚Äúexpert extraction algorithm‚Äù) e for√ßa respostas em portugu√™s.

Few-Shot: injeta automaticamente os 2 exemplos sem√¢nticos mais relevantes para guiar a extra√ß√£o.

Humano: insere a descri√ß√£o real do produto ({input}) para que o modelo extraia e retorne o JSON padronizado.

Esse prompt une contexto, exemplos e entrada din√¢mica, garantindo que o LLM entenda exatamente o papel e o formato de sa√≠da desejado.

In [29]:
prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are an expert extraction algorithm. "
            "Your job is to retrieve information from the product description. "
            "Answer in portuguese and in portuguese only. "
            "Here are some examples on how to do this job:\n",
        ),
        few_shot_prompt,
        ("human", "{input}"),
    ]
)

## Calling chain

O que faz: envia ao llm o prompt completo (contexto de sistema, exemplos few-shot e o nosso novo input) usando prompt.invoke, e captura o fluxo de mensagens que o modelo gera.

Input de exemplo: "DESODORANTE REXONA MAN 120ml" um descritivo t√≠pico de produto.

Output: uma lista de objetos messages contendo:

A mensagem de sistema com instru√ß√µes.

Os exemplos selecionados e formatados.

A mensagem do usu√°rio com o input real.

A resposta da IA, que vir√° como JSON padronizado com campos como type, primary_brand, measure, etc.

Esse passo valida toda a configura√ß√£o: garante que, a partir de uma descri√ß√£o livre, o modelo retorne exatamente o JSON estruturado que voc√™ precisa para sua base de dados de produtos.

In [30]:
prompt.invoke({"input": "DESODORANTE REXONA MAN 120ml"}).messages

[SystemMessage(content='You are an expert extraction algorithm. Your job is to retrieve information from the product description. Answer in portuguese and in portuguese only. Here are some examples on how to do this job:\n', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='DESODORANTE REXONA V8 150ML', additional_kwargs={}, response_metadata={}),
 AIMessage(content='{"type": "desodorante", "primary_brand": "rexona", "secondary_brand": null, "variation": "v8", "container": null, "container_type": null, "measure": 150.0, "unity": "ml", "amount": 1}', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='DESODORANTE REXONA V8 150ML', additional_kwargs={}, response_metadata={}),
 AIMessage(content='{"type": "desodorante", "primary_brand": "rexona", "secondary_brand": null, "variation": "v8", "container": null, "container_type": null, "measure": 150.0, "unity": "ml", "amount": 1}', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='DESODORAN

O que faz: usa o operador | para encadear o prompt e o LLM configurado para sa√≠da estruturada.

llm.with_structured_output(schema=Product): instrui o modelo a devolver diretamente um objeto do tipo Product, respeitando o schema (campos e tipos) definidos na classe.

Vantagem: elimina parsing manual‚Äîvoc√™ recebe inst√¢ncias de Product validadas e prontas para uso no seu fluxo de padroniza√ß√£o.

In [31]:
chain = prompt | llm.with_structured_output(schema=Product)

response = chain.invoke({"input": "DESODORANTE REXONA MAN 120ml"}): executa todo o fluxo (prompt + LLM com sa√≠da estruturada) e retorna um objeto Product preenchido com os campos extra√≠dos.

O response j√° √© uma inst√¢ncia v√°lida de Product, pronta para uso imediato em an√°lises, grava√ß√£o em banco ou exporta√ß√£o.

In [32]:
response = chain.invoke({"input": "DESODORANTE REXONA MAN 120ml"})

response.__dict__: acessa o dicion√°rio interno do objeto Product, exibindo todos os atributos (tipo, marca, varia√ß√£o, medida, etc.) e seus valores extra√≠dos.

Objetivo: validar de forma r√°pida e leg√≠vel o conte√∫do da inst√¢ncia retornada pela pipeline, conferindo que cada campo foi preenchido conforme esperado.

Uso pr√°tico: ideal para debugging ou antes de persistir os dados em um banco ou exportar para outro formato.

In [33]:
response.__dict__

{'type': 'desodorante',
 'primary_brand': 'rexona',
 'secondary_brand': None,
 'variation': 'man',
 'container': None,
 'container_type': None,
 'amount': 1,
 'measure': 120.0,
 'unity': 'ml'}