In [9]:
from dotenv import load_dotenv
from groq import Groq
import os

load_dotenv()

client = Groq(
    api_key=os.environ.get("GROQ_API_KEY")
)


Compreendendo os Roles

User: Mensagem do usuário
Assistant: Resposta do modelo
System: Intruções de comportamento para o modelo

In [11]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "Me explique de forma reduzida o que são LLMs",
        }
    ],
    model="openai/gpt-oss-120b",
)

print(chat_completion.choices[0].message.content)


LLM (Large Language Model) é um modelo de inteligência artificial treinado com enormes volumes de texto para entender e gerar linguagem natural. Ele usa redes neurais do tipo *transformer* e aprende padrões, gramática, fatos e até nuances de estilo a partir dos dados de treinamento. Com isso, consegue responder perguntas, resumir textos, traduzir, escrever códigos ou criar conteúdo de forma coerente e contextualizada. Quanto maior o número de parâmetros e a diversidade dos dados, mais amplo e preciso costuma ser o seu desempenho.


Definindo um comportamento para modelo

In [12]:
chat_completion = client.chat.completions.create(
    messages=[
         {
            "role": "user",
            "content": "Você é um especialista em IA que responde de forma clara e objetiva.",
        },
        {
            "role": "user",
            "content": "Me explique de forma reduzida o que são LLMs",
        }
    ],
    model="llama-3.3-70b-versatile",
)

print(chat_completion.choices[0].message.content)


**LLMs: Modelos de Linguagem de Grande Escala**

Um LLM (Large Language Model) é um tipo de modelo de inteligência artificial (IA) projetado para processar e entender linguagem natural. Ele é treinado com grandes conjuntos de dados textuais e utiliza algoritmos de aprendizado profundo para aprender padrões e relações linguísticas.

**Características principais:**

* **Treinamento com grandes conjuntos de dados**: LLMs são treinados com milhões ou bilhões de palavras e frases.
* **Aprendizado profundo**: Utilizam técnicas de aprendizado profundo, como redes neurais, para aprender padrões linguísticos.
* **Capacidade de gerar texto**: Podem gerar texto coerente e natural, respondendo a perguntas, completando frases, etc.

**Exemplos de aplicações:**

* Assistente virtual
* Tradução automática
* Resposta a perguntas
* Geração de conteúdo

Esses modelos têm mudado a forma como interagimos com a tecnologia e têm muitas aplicações práticas em áreas como a comunicação, a educação e a indústri

Controlando Resposta do Modelo

In [13]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "Você é um especialista em IA que responde de forma clara e objetiva.",
        },
        {
            "role": "user",
            "content": "Me explique de forma reduzida o que são LLMs",
        },
        {
            "role": "user",
            "content": "LLMs com baixa latência permitem respostas mais rápidas, o que melhora a experiência do usuário.",
        },
        {
            "role": "user",
            "content": "Pode me dar exemplos de aplicações práticas?",
        }
    ],
    model="openai/gpt-oss-120b",
)

print(chat_completion.choices[0].message.content)


**Exemplos práticos de uso de LLMs (Modelos de Linguagem de Grande Escala)**  

| Área | Aplicação concreta | Benefício principal |
|------|--------------------|---------------------|
| **Atendimento ao cliente** | Chatbots e assistentes virtuais 24/7 | Reduz tempo de espera e custos operacionais |
| **Suporte interno** | FAQ inteligente e busca de documentos corporativos | Acelera a resolução de dúvidas de colaboradores |
| **Produção de conteúdo** | Redação automática de artigos, posts de blog, descrições de produtos | Escala a criação de texto sem perder qualidade |
| **Tradução e localização** | Tradução quase‑instantânea de textos, legendas e interfaces | Expande alcance global de produtos e serviços |
| **Resumidores** | Geração de resumos de relatórios, artigos científicos ou reuniões gravadas | Economiza tempo de leitura e facilita a tomada de decisão |
| **Assistentes de programação** | Completação de código, geração de snippets e explicação de bugs | Aumenta a produtividade d

Usando System Prompt Refinados

In [16]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "system",
            "content": (
                "Você é um especialista em Inteligência Artificial focado em explicar conceitos"
                "de forma clara, extruturada e prática. Sempre inicie suas respostas com um"
                "resumo em até 3 linhas, depois detalhe com exmplos reais e aplicações no mundo "
                "e, quando necessário,,, use analogias simples."
                "Se o usuário pedir código, forneça exemplos em Python bem comentados."
                       ),
        },
        {
            "role": "user",
            "content": "Explique a importância de LLMs com baixa latência."
        }
    ],
    model="openai/gpt-oss-120b",
)

print(chat_completion.choices[0].message.content)

**Resumo (até 3 linhas)**  
LLMs com baixa latência respondem quase que instantaneamente, permitindo interações fluídas, decisões em tempo real e melhor experiência do usuário. Isso é crucial em aplicações críticas como assistentes de voz, suporte ao cliente e sistemas de controle automatizado.  

---  

## 1. O que é latência e por que “baixa latência” importa?  

| Conceito | Definição prática | Impacto de alta latência |
|----------|-------------------|--------------------------|
| **Latência** | Tempo decorrido entre a entrada do usuário (ex.: pergunta) e a resposta do modelo. Medida em milissegundos (ms). | Esperas perceptíveis (≥300 ms) causam frustração, interrupções no fluxo de trabalho e podem gerar perdas financeiras. |
| **Baixa latência** | Respostas entregues em < 100 ms (idealmente < 50 ms). | Interação quase em tempo real, sensação de “conversa natural”. |

**Analogia simples:** imagine conversar com alguém por walkie‑talkie. Se houver um atraso de alguns segundos, a con