<a href="https://colab.research.google.com/github/MarielaNina/-Guide-to-Advanced-LLM-Techniques-Public/blob/main/M%C3%B3dulo_1_LangChain_e_Sa%C3%ADdas_Estruturadas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# M√≥dulo 1: A Base - LangChain e Sa√≠das Estruturadas

# Introdu√ß√£o

Bem-vindo ao primeiro m√≥dulo do nosso tutorial! O objetivo aqui √© construir a funda√ß√£o para todas as t√©cnicas avan√ßadas que exploraremos. Antes de mergulhar em engenharia de prompt, ensembles ou fine-tuning, precisamos garantir que conseguimos nos comunicar com os Modelos de Linguagem de Grande Porte (LLMs) de forma eficiente, robusta e, mais importante, program√°tica.

Neste notebook, vamos abordar tr√™s pilares essenciais:
1. **Configura√ß√£o do Ambiente:** Como acessar LLMs poderosos atrav√©s de APIs, com foco em op√ß√µes gratuitas.
2. **Orquestra√ß√£o com LangChain:** Uma introdu√ß√£o √† biblioteca LangChain, que simplifica a cria√ß√£o de aplica√ß√µes com LLMs.
3. **Gera√ß√£o de Sa√≠das Estruturadas:** A t√©cnica crucial para transformar as respostas em texto livre dos LLMs em formatos de dados consistentes e utiliz√°veis, como JSON, que s√£o a base para qualquer aplica√ß√£o real.

Ao final deste m√≥dulo, voc√™ ter√° um ambiente configurado e ser√° capaz de instruir um LLM a retornar informa√ß√µes em um formato Python pr√©-definido, pronto para ser integrado em qualquer software.

# 1. Configura√ß√£o das APIs

Para interagir com a maioria dos LLMs de ponta, utilizamos uma Interface de Programa√ß√£o de Aplica√ß√µes (API). Ela funciona como uma "ponte" que permite que nosso c√≥digo envie requisi√ß√µes para o modelo e receba as respostas.

## 1.1. Groq

Groq √© uma plataforma de infer√™ncia de IA de alta performance. Ela oferece acesso via API a diversos modelos open-source de ponta.

Ela possui 2 atrativos principais. O primeiro √© que ela oferece um plano gratuito que permite rodar LLMs poderosos de forma gratuita (dentro de certos limites de uso). O segundo √© a velocidade de processamento, que √© extremamente r√°pida.

Voc√™ pode criar sua conta gratuitamente ([link](console.groq.com)) e, ap√≥s o login, gerar sua chave de API na aba ‚ÄúAPI Keys‚Äù. Depois de se cadastrar, siga o seguinte passo a passo:
1. Acesse a aba **Secrets** (representada por um √≠cone de chave na barra lateral do Colab)
2. Clique em **"Adicionar novo secret"**
3. Defina o Nome `"GROQ_API_KEY"`
4. Cole a chave de API que voc√™ gerou na plataforma

Neste tutorial, vamos utilizar a API da Groq, mas voce pode usar qualquer outro modelo com integra√ß√£o com o langchain.

In [14]:
!pip install -q langchain langchain-core langchain-community langchain-groq

In [16]:
from langchain_groq import ChatGroq
from google.colab import userdata

llm_groq = ChatGroq(
    model="deepseek-r1-distill-llama-70b",
    api_key=userdata.get('GROQ_API_KEY'),
    temperature=0.7
)

## 1.2. Sabi√° / Maritaca.AI

√â uma plataforma brasileira que disponibiliza modelos de linguagem treinados em portugu√™s com uma API compat√≠vel com a da OpenAI. Ao se cadastrar no servi√ßo [(link)](https://www.maritaca.ai/), voc√™ ganha R$20,00 de cr√©dito gr√°tis ap√≥s verificar um m√©todo de pagamento.

Esse cr√©dito inicial √© suficiente para realizar o tutorial. Opcionalmente, voc√™ pode fazer uma pequena recarga (mesmo o valor m√≠nimo) porque isso aumenta a velocidade de gera√ß√£o e eleva o limite de requisi√ß√µes por minuto consideravelmente. N√£o √© obrigat√≥rio para seguir o tutorial, mas se voc√™ notar lentid√£o, essa pode ser uma solu√ß√£o.

Por ser compat√≠vel com a API da OpenAI, usar o Sabi√° √© muito f√°cil: voc√™ pode utilizar bibliotecas pensadas para OpenAI apenas substituindo a chave de API e endpoint. Al√©m disso, o Sabi√° j√° suporta funcionalidades avan√ßadas como sa√≠das estruturadas e chamada de fun√ß√£o de forma nativa. Ou seja, √© uma alternativa local/nacional para usar LLMs poderosos a custo menor e com suporte ao portugu√™s.

Depois de se cadastrar, adicione a chave `MARITALK_API_KEY` √° aba Secrets do Colab seguindo os mesmos passos do Groq.

In [42]:
from langchain_community.chat_models import ChatMaritalk

llm_sabia = ChatMaritalk(
    model="sabiazinho-3",
    api_key=userdata.get('MARITALK_API_KEY'),
    temperature=0.7,
)

# 2. Introdu√ß√£o ao LangChain

## 2.1. Interagindo com o Modelo

Construir aplica√ß√µes com LLMs envolve mais do que apenas enviar um prompt para uma API. Frequentemente, precisamos encadear m√∫ltiplas chamadas, gerenciar o hist√≥rico da conversa, conectar o LLM a fontes de dados externas e formatar suas sa√≠das. Fazer tudo isso manualmente pode ser complexo e repetitivo.

√â aqui que entra o LangChain [1]. LangChain √© um framework de c√≥digo aberto projetado para simplificar o desenvolvimento de aplica√ß√µes baseadas em LLMs. Ele fornece um conjunto de abstra√ß√µes e componentes modulares que facilitam a cria√ß√£o de cadeias (chains) e agentes complexos.

J√° vimos como instanciar ambos os modelos, para chamar eles no nosso c√≥digo bastam chamar o m√©todo invoke com uma string.

In [46]:
resposta = llm_groq.invoke("Ol√°, tudo bem?")
print(resposta)

content='<think>\n\n</think>\n\nOl√°! Sim, estou bem, obrigado. Como posso ajudar voc√™ hoje? üòä' additional_kwargs={} response_metadata={'token_usage': {'completion_tokens': 27, 'prompt_tokens': 9, 'total_tokens': 36, 'completion_time': 0.096885119, 'prompt_time': 0.010130248, 'queue_time': 2.477559818, 'total_time': 0.107015367}, 'model_name': 'deepseek-r1-distill-llama-70b', 'system_fingerprint': 'fp_e98d30d035', 'service_tier': 'on_demand', 'finish_reason': 'stop', 'logprobs': None} id='run--51beb9ed-7ab7-44e4-8fa2-2e6ffb8765cf-0' usage_metadata={'input_tokens': 9, 'output_tokens': 27, 'total_tokens': 36}


Com apenas uma linha de c√≥digo, podemos interagir com as llms, com toda a complexidade da comunica√ß√£o via API abstra√≠da pelo LangChain.

## 2.2. Generaliza√ß√£o de Prompts
O langchain tamb√©m oferece uma forma de criar prompts din√¢micos reutilizaveis, fazemos isso atrav√©s do prompt template.

In [48]:
from langchain_core.prompts import PromptTemplate

template = "Escreva um poema {tamanho} sobre {tema}."
prompt = PromptTemplate.from_template(template)
prompt

PromptTemplate(input_variables=['tamanho', 'tema'], input_types={}, partial_variables={}, template='Escreva um poema {tamanho} sobre {tema}.')

A maioria das intera√ß√µes atrav√©s do langchain acontece atrav√©s do m√©todo `invoke`. Podemos gerar o prompt para a LLM da seguinte forma:

In [49]:
poema = prompt.invoke({"tamanho": "curto", "tema": "a lua"})
poema

StringPromptValue(text='Escreva um poema curto sobre a lua.')

## 2.3. Cadeias (Chains)

Agora que temos um prompt din√¢mico e um llm, podemos combin√°-los. A forma mais idiom√°tica e poderosa de fazer isso no LangChain √© atrav√©s de `chains`, utilizando o operador pipe (`|`). Isso cria um fluxo de dados leg√≠vel e modular, onde a sa√≠da de um componente se torna automaticamente a entrada do pr√≥ximo, simplificando a l√≥gica.

In [20]:
from langchain_core.output_parsers import StrOutputParser

In [21]:
entrada = prompt.invoke({"tamanho": "curto", "tema": "a lua"})
resposta = llm_groq.invoke(entrada)

parser = StrOutputParser()
resposta = parser.invoke(resposta)

print(resposta)

<think>
Okay, I need to write a short poem about the moon. Let me think about what the moon represents. It's often associated with night, beauty, mystery, and sometimes loneliness. I should use some imagery that evokes these feelings.

Maybe start with the moon in the sky, its glow. I can describe its color, like silver or white. Then, perhaps talk about its reflection on water, which is a common poetic image.

I should also consider the phases of the moon, maybe mention crescent or full moon. This adds variety to the poem. I can talk about how the moon affects the night, maybe personify it a bit, giving it actions or emotions.

Rhyme scheme is important. Let's go with something simple, like ABAB or AABB. Each stanza can have four lines. I'll keep the language simple and flowing, avoiding complicated words so it's easy to understand and has a nice rhythm.

Let me brainstorm some lines. First stanza: Introduce the moon in the sky, its glow, maybe its silence. Second stanza: Its reflecti

In [22]:
chain = prompt | llm_groq | StrOutputParser()
resposta = chain.invoke({"tamanho": "curto", "tema": "a lua"})
print(resposta)

<think>
Okay, I need to write a short poem about the moon. Hmm, where do I start? Well, the moon is such a beautiful and timeless subject. I should think about its characteristics. It's often associated with night, light, and maybe a bit of mystery.

Let me brainstorm some words related to the moon: glowing, silver, crescent, full moon, phases, night, sky, stars, light, shadow, dream, silent, beacon. That should give me a good foundation.

Now, I want the poem to flow well, so maybe I can structure it in a few stanzas. Let's see, perhaps start with describing the moon in the sky, then move on to its phases and its effect on the night.

I should also think about the rhythm and rhyme. Maybe a simple AABB rhyme scheme would work well for a short poem. Each stanza can have four lines, with the second and fourth lines rhyming.

First stanza: Introduce the moon in the sky. Something like "The moon ascends the velvet sky," and then another line about its glow. Maybe "With gentle glow, it catc

# 3. Sa√≠das Estruturadas

## 3.1.¬†A Necessidade de Sa√≠das Estruturadas

Um dos maiores desafios ao usar LLMs em aplica√ß√µes de software √© que, por natureza, eles geram texto n√£o estruturado. Para uma tarefa de classifica√ß√£o de sentimento, um LLM pode responder:
1. "O sentimento √© positivo"
2. "Positivo"
3. "Com base na an√°lise, o texto expressa um sentimento positivo."
4. ...

Todas essas respostas s√£o corretas para um humano, mas a varia√ß√£o torna dif√≠cil para um programa process√°-las de forma confi√°vel.

Quando pedimos algo a um modelo de linguagem, por padr√£o ele retorna texto livre, em linguagem natural, o que muitas vezes √© suficiente para uma conversa ou resposta direta. No entanto, em aplica√ß√µes pr√°ticas, frequentemente queremos que o modelo nos d√™ a resposta em um formato espec√≠fico e estruturado para podermos process√°-la automaticamente. Exemplos comuns:
- Preencher campos de um formul√°rio ou banco de dados (por exemplo, extrair de um texto o {"nome": ..., "email": ..., "telefone": ...} em formato JSON).
- Listar informa√ß√µes em forma de tabela (CSV) ou em bullet points bem definidos.
- Retornar um conjunto de pares chave-valor, XML ou outro formato que alguma outra parte do sistema espera.

Ter um formato de sa√≠da estruturado torna a integra√ß√£o entre LLMs e sistemas tradicionais muito mais confi√°vel. Se um modelo responde com um par√°grafo de texto explicativo, √© dif√≠cil para um programa extrair exatamente as partes relevantes sem risco de erro. Por outro lado, se conseguimos fazer o modelo responder, por exemplo, em JSON com campos definidos, podemos diretamente carregar esse JSON em uma estrutura de dados na nossa aplica√ß√£o (um dicion√°rio Python, por exemplo) e utilizar as informa√ß√µes de forma determin√≠stica.

$$\text{estrutura} = \text{automa√ß√£o simplificada}.$$

## 3.2. Instru√ß√£o via Prompt

A abordagem mais direta para obter uma sa√≠da estruturada √© simplesmente pedir explicitamente no prompt que o modelo formate a resposta de determinada forma. Por exemplo, podemos acrescentar √†s instru√ß√µes algo como: "Responda somente no formato JSON, contendo as seguintes chaves...". Essa t√©cnica de prompt engineering muitas vezes resolve casos simples.

In [33]:
template = """Extraia as seguintes informa√ß√µes do curr√≠culo abaixo:
- Nome
- Forma√ß√£o
- Anos de experi√™ncia

Formate a sa√≠da em JSON:
{{
    "nome": "Nome do candidato",
    "formacao": "Forma√ß√£o do candidato",
    "anos_experiencia": "Anos de experi√™ncia do candidato"
}}

Curr√≠culo:"{resume_text}"

JSON:
"""
prompt = PromptTemplate(
    template=template,
    input_variables=["resume_text"]
)

In [34]:
chain = prompt | llm_groq | StrOutputParser()
resume = "Meu nome √© Mariela Nina, tenho 24 anos. Sou Bacharel em Ci√™ncia da Computa√ß√£o pela Universidade Federal de Minas Gerais (UFMG). Fui Desenvolvedor de Software na Empresa X por 5 anos e Gestor de Projetos na Empresa Y por 3 anos onde trabalho atualmente."

resposta = chain.invoke({"resume_text": resume})
print(resposta)

<think>
Ok, estou vendo o pedido do usu√°rio. Ele quer que eu extraia informa√ß√µes espec√≠ficas de um curr√≠culo fornecido. As informa√ß√µes necess√°rias s√£o nome, forma√ß√£o e anos de experi√™ncia, e formatar em JSON.

Primeiro, vou ler o curr√≠culo cuidadosamente. O nome est√° logo no in√≠cio: "Mariela Nina". √ìtimo, isso √© direto.

Em seguida, a forma√ß√£o. Vejo que ela √© Bacharel em Ci√™ncia da Computa√ß√£o e menciona a Universidade Federal de Minas Gerais, UFMG. Vou anotar isso.

Agora, anos de experi√™ncia. Ela trabalhou como Desenvolvedor de Software na Empresa X por 5 anos e como Gestor de Projetos na Empresa Y por 3 anos. No total, s√£o 5 + 3 = 8 anos. Vou somar esses per√≠odos.

Preciso garantir que o JSON esteja formatado corretamente. Vou organizar as chaves: nome, formacao e anos_experiencia. Certificar que os valores estejam entre aspas e que o JSON inteiro esteja bem estruturado.

Vou revisar para garantir que n√£o haja erros de digita√ß√£o ou de c√°lculo. Nome: Mari

Observe que ainda recebemos informa√ß√µes fora da estrutura (pensamento no caso do DeepSeek), por√©m, o tratamento desse texto √© bem mais simples do que a sa√≠da comum.

## 3.3. Convers√£o para Objetos

LangChain oferece uma maneira elegante de implementar sa√≠das estruturadas usando a biblioteca Pydantic. Pydantic permite definir a estrutura dos seus dados usando classes Python. LangChain, ent√£o, usa essa defini√ß√£o para:
1. Gerar automaticamente uma instru√ß√£o de formata√ß√£o para o LLM.
2. Analisar a sa√≠da de texto do LLM e convert√™-la em um objeto Python.

O Pydantic √© uma biblioteca Python para valida√ß√£o de dados e gerenciamento de configura√ß√µes. Ela permite definir a estrutura de dados desejada usando classes Python normais, com tipos de dados for√ßados. Para nosso prop√≥sito, sua principal vantagem √© a capacidade de criar 'modelos de dados' que o LangChain pode usar para instruir o LLM sobre como formatar sua sa√≠da e, em seguida, validar se a sa√≠da do modelo corresponde a essa estrutura.

In [35]:
from pydantic import BaseModel, Field
from langchain.output_parsers import PydanticOutputParser

class InfoCurriculo(BaseModel):
    nome: str = Field(description="Nome do candidato")
    formacao: str = Field(description="Forma√ß√£o do candidato")
    anos_experiencia: float = Field(description="Anos de experi√™ncia do candidato")

parser = PydanticOutputParser(pydantic_object=InfoCurriculo)
formato = parser.get_format_instructions()
print(formato)

The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"nome": {"description": "Nome do candidato", "title": "Nome", "type": "string"}, "formacao": {"description": "Forma√ß√£o do candidato", "title": "Formacao", "type": "string"}, "anos_experiencia": {"description": "Anos de experi√™ncia do candidato", "title": "Anos Experiencia", "type": "number"}}, "required": ["nome", "formacao", "anos_experiencia"]}
```


In [36]:
template = """Extraia as seguintes informa√ß√µes do curr√≠culo abaixo:
- Nome
- Forma√ß√£o
- Anos de experi√™ncia

{format_instructions}

Curr√≠culo: "{resume_text}"

JSON:
"""

prompt = PromptTemplate(
    template=template,
    input_variables=["resume_text"],
    partial_variables={"format_instructions": formato}
)

In [37]:
chain = prompt | llm_groq | parser
resposta = chain.invoke({"resume_text": resume})
resposta


InfoCurriculo(nome='Mariela Nina', formacao='Bacharel em Ci√™ncia da Computa√ß√£o pela Universidade Federal de Minas Gerais (UFMG)', anos_experiencia=8.0)

In [38]:
resposta.nome

'Mariela Nina'

## 3.4. Abordagem Multi-LLM

Embora for√ßar a formata√ß√£o em um √∫nico passo seja conveniente, a complexidade de realizar duas tarefas simultaneamente ‚Äî extrair a informa√ß√£o e format√°-la perfeitamente ‚Äî pode, por vezes, degradar a qualidade do resultado. Para mitigar isso, podemos decompor o problema: uma primeira chamada ao LLM foca apenas em extrair a informa√ß√£o em linguagem natural, e uma segunda chamada, que pode usar um modelo mais simples e r√°pido, foca exclusivamente em converter essa extra√ß√£o para o formato JSON desejado.

In [39]:
template_extracao = """Extraia as seguintes informa√ß√µes do curr√≠culo abaixo:
- Nome
- Forma√ß√£o
- Anos de experi√™ncia

Apresente as informa√ß√µes extra√≠das de forma clara.

Curr√≠culo:
{curriculo}
"""
prompt_extracao = PromptTemplate.from_template(template_extracao)

chain_extracao = prompt_extracao | llm_groq | StrOutputParser()

In [40]:
template_formatacao = """
Formate a informa√ß√£o extra√≠da abaixo para um objeto JSON.
Siga estritamente o esquema JSON fornecido.

Informa√ß√£o Extra√≠da:
{info_extraida}

Esquema JSON:
{esquema_json}
"""
prompt_formatacao = PromptTemplate.from_template(template_formatacao)

# Modelo LLM para a segunda etapa (pode ser um modelo mais r√°pido/barato).
llm_formatador = ChatGroq(
    model="llama-3.1-8b-instant",
    api_key=userdata.get('GROQ_API_KEY'),
    temperature=0.0 # Temperatura 0 para a tarefa de formata√ß√£o, que deve ser determin√≠stica.
)


In [41]:
chain_multi_llm = (
    {
        "info_extraida": chain_extracao,
        "esquema_json": lambda x: formato
    }
    | prompt_formatacao
    | llm_formatador
    | parser
)

resposta = chain_multi_llm.invoke(resume)
resposta

InfoCurriculo(nome='Mariela Nina', formacao='Bacharel em Ci√™ncia da Computa√ß√£o pela Universidade Federal de Minas Gerais (UFMG)', anos_experiencia=8.0)

# 4. Atividade Pr√°tica: Classificador de Not√≠cias Financeiras

Agora √© sua vez de aplicar o que aprendeu! Vamos usar um pequeno conjunto de dados de not√≠cias financeiras para treinar suas habilidades.

**Seu objetivo:** Criar uma chain que recebe uma frase de uma not√≠cia e retorna um objeto estruturado com sua polaridade e emocao.

Passos:
1. **Defina a Estrutura:** Crie uma classe Pydantic chamada ClassificacaoNoticia com os campos nescess√°rios.
    - O dataset cont√©m not√≠cias financeiras em portugu√™s.
    - Cada not√≠cia foi resumida em 3 frases, que representam come√ßo (f1), meio (f2) e fim (f3).
    - Cada frase possui uma polaridade (positivo, neutro, negativo) e uma emo√ß√£o universal do ekman (felicidade, tristeza, raiva, nojo, medo, surpreza e desprezo)
2. **Crie o Parser:** Instancie um PydanticOutputParser com base na sua classe.
3. **Crie o Prompt:** Elabore um PromptTemplate que instrua o LLM a classificar o sentimento de um texto de not√≠cia, usando as instru√ß√µes de formato do seu parser.
4. **Construa a Chain:** Utilize a abordagem Multi-LLM com convers√£o para objetos com uma √∫nica chamada.
5. **Teste:** Execute sua implementa√ß√£o para alguns elementos do dataset e imprima os resultados.

In [32]:
import pandas as pd

file_path = "/content/drive/MyDrive/Curso LLMs/dataset.csv"
df = pd.read_csv(file_path)
df

FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/Curso LLMs/dataset.csv'

In [None]:
class ClassificacaoNoticia(BaseModel):
    pass

# Conclus√£o do M√≥dulo

Parab√©ns! Voc√™ configurou seu ambiente, aprendeu a usar o LangChain para interagir com um LLM e, o mais importante, implementou uma forma robusta de obter sa√≠das estruturadas. O objeto `ClassificacaoSentimento` que recebemos no final √© previs√≠vel e f√°cil de usar em qualquer sistema.

Essa habilidade √© o alicerce sobre o qual construiremos t√©cnicas mais sofisticadas. No pr√≥ximo m√≥dulo, vamos nos aprofundar na Engenharia de Prompt para melhorar drasticamente a qualidade e a precis√£o das respostas do modelo.

# Refer√™ncias

[1] Chase, H. (2022). LangChain. GitHub. https://github.com/langchain-ai/langchain