# Utilizando Parserout

In [1]:
from langchain_ollama.llms import OllamaLLM
from pydantic import BaseModel, Field, field_validator, ValidationError
from langchain.prompts import PromptTemplate
from langchain.output_parsers import PydanticOutputParser
from langchain_core.output_parsers import JsonOutputParser
from datetime import datetime
import json

# ---------------------------------------------
# 1. Inicializar o LLM
# ---------------------------------------------
model = OllamaLLM(model="llama3.2:latest")

In [6]:
# ---------------------------------------------
# 2. Classe para validação dos dados de ENTRADA
# ---------------------------------------------
class ComentarioInput(BaseModel):
    """Valida o comentário antes de enviá-lo ao LLM."""
    comentario: str = Field(description="Texto do comentário.")
    estado: str = Field(
        description="Estado no Brasil em formato de sigla (ex: SP, RJ).",
        min_length=2, 
        max_length=2
    )
    data: str = Field(
        description="Data do comentário no formato YYYY-MM-DD."
    )

    @field_validator('data')
    def validar_data(cls, valor):
        try:
            datetime.strptime(valor, '%Y-%m-%d')
        except ValueError:
            raise ValueError("A data deve estar no formato YYYY-MM-DD.")
        return valor

# ---------------------------------------------
# 3. Classe para validação dos dados de SAÍDA
# ---------------------------------------------
class ComentarioCategorizado(BaseModel):
    """Valida a resposta do LLM, inclusive a categoria."""
    comentario: str = Field(description="Texto do comentário.")
    estado: str = Field(
        description="Estado no Brasil em formato de sigla (ex: SP, RJ).",
        min_length=2,
        max_length=2
    )
    data: str = Field(description="Data do comentário no formato YYYY-MM-DD.")
    categoria: str = Field(
        description="Categoria do comentário: positivo, negativo ou neutro."
    )

    @field_validator('categoria')
    def validar_categoria(cls, valor):
        categorias_validas = ["positivo", "negativo", "neutro"]
        if valor not in categorias_validas:
            raise ValueError(
                f"Categoria inválida: {valor}. "
                f"Use uma destas: {categorias_validas}."
            )
        return valor

# ---------------------------------------------
# 4. Função para gerar comentários de teste
# ---------------------------------------------
def gerar_comentarios():
    """Gera comentários fictícios para exemplificar o fluxo."""
    comentarios = [
        {"comentario": "Produto excelente, atendeu todas as expectativas!", "estado": "SP", "data": "2024-12-20"},
        {"comentario": "Não gostei do produto, veio com defeito.", "estado": "RJ", "data": "2024-12-21"},
        {"comentario": "Entrega rápida e produto bem embalado.", "estado": "MG", "data": "2024-12-22"},
        {"comentario": "Achei caro pelo que oferece.", "estado": "BA", "data": "2024-12-20"},
        {"comentario": "Atendimento ao cliente foi ótimo.", "estado": "RS", "data": "2024-12-21"},
        {"comentario": "Produto chegou quebrado.", "estado": "PE", "data": "2024-12-22"},
        {"comentario": "Cumpriu o que prometeu, muito bom!", "estado": "PR", "data": "2024-12-20"},
        {"comentario": "Não vale o preço, bem inferior.", "estado": "CE", "data": "2024-12-21"},
        {"comentario": "Produto razoável, esperava mais.", "estado": "GO", "data": "2024-12-22"},
        {"comentario": "Recomendo, qualidade ótima!", "estado": "AM", "data": "2024-12-20"},
        {"comentario": "Não recebi o produto até agora.", "estado": "SC", "data": "2024-12-21"},
        {"comentario": "Compra fácil, voltarei a comprar.", "estado": "ES", "data": "2024-12-22"},
        {"comentario": "Produto veio diferente do anunciado.", "estado": "PA", "data": "2024-12-20"},
        {"comentario": "Entrega super rápida, parabéns!", "estado": "MT", "data": "2024-12-21"},
        {"comentario": "Não gostei da embalagem.", "estado": "AL", "data": "2024-12-22"},
        {"comentario": "Produto muito bom pelo preço.", "estado": "MS", "data": "2024-12-20"},
        {"comentario": "Não recomendo, qualidade baixa.", "estado": "PI", "data": "2024-12-21"},
        {"comentario": "Gostei bastante, superou expectativas!", "estado": "MA", "data": "2024-12-22"},
        {"comentario": "Produto satisfatório, nada excepcional.", "estado": "RO", "data": "2024-12-20"},
        {"comentario": "Péssima experiência, não comprarei de novo.", "estado": "RR", "data": "2024-12-21"}
    ]
    return comentarios

In [7]:
# ---------------------------------------------
# 5. Execução principal
# ---------------------------------------------

# Passo A: Valida os dados de entrada (input)
comentarios_crus = gerar_comentarios()
comentarios_validos = []
for c in comentarios_crus:
    try:
        coment_input = ComentarioInput(**c)
        comentarios_validos.append(coment_input)
    except ValidationError as e:
        print(f"Erro de validação no INPUT: {e}")

In [None]:
# Passo B: Configura o parser de SAÍDA
parser_output = JsonOutputParser(pydantic_object=ComentarioCategorizado)

# Passo C: Cria o PromptTemplate, definindo instruções ao LLM
template = PromptTemplate(
    template="""
        Você é um sistema de categorização de comentários.
        Retorne no formato JSON (incluindo todos os campos recebidos), sem blocos de código ou texto adicional 
        e adicione a chave 'categoria' como 'positivo', 'negativo' ou 'neutro'.

        {format_instructions}

        Comentário: {comentario}
        Estado: {estado}
        Data: {data}
    """,
    input_variables=["comentario", "estado", "data"],
    partial_variables={
        "format_instructions": parser_output.get_format_instructions()
    }
)

# Passo D: Para cada comentário válido, gerar prompt e chamar o LLM
resultados = []
for comentario in comentarios_validos:
    prompt = template.format(
        comentario=comentario.comentario,
        estado=comentario.estado,
        data=comentario.data
    )

    # Invoca o LLM
    resposta_llm = model.invoke(prompt)

    # Passo E: Tenta parser da resposta do LLM
    try:
        categorizado = parser_output.parse(resposta_llm)
        resultados.append(categorizado)
    except ValidationError as e:
        print(f"Erro de validação no OUTPUT: {e}")

print(f"Exemplo de prompt gerado:\n{prompt}")
print(f"Resultaos: \n{resultados}")

Exemplo de prompt gerado:

        Você é um sistema de categorização de comentários.
        Retorne no formato JSON (incluindo todos os campos recebidos), sem blocos de código ou texto adicional 
        e adicione a chave 'categoria' como 'positivo', 'negativo' ou 'neutro'.

        The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"description": "Valida a resposta do LLM, inclusive a categoria.", "properties": {"comentario": {"description": "Texto do comentário.", "title": "Comentario", "type": "string"}, "estado": {"description": "Estado no Brasil em formato de sigla (ex: SP, RJ).", "ma

In [10]:
# Passo F: Salva os resultados em um arquivo JSON
with open("comentarios_categorizados.json", "w", encoding="utf-8") as f:
    json.dump(resultados, f, indent=4, ensure_ascii=False)

print("Comentários categorizados salvos em 'comentarios_categorizados.json'.")

Comentários categorizados salvos em 'comentarios_categorizados.json'.


In [11]:
# Utilizando cadeia de execução
chain = template | model | parser_output

output = chain.invoke(
    {
        "comentario": comentarios_validos[0].comentario,
        "estado": comentarios_validos[0].estado,
        "data": comentarios_validos[0].data
    }
)

print(f"Resposta da cadeia: {output}")


Resposta da cadeia: {'comentario': 'Produto excelente, atendeu todas as expectativas!', 'estado': 'SP', 'data': '2024-12-20', 'categoria': 'positivo'}
