In [7]:
from dotenv import load_dotenv
from groq import Groq
import os
load_dotenv()

api_key=os.environ.get("GROQ_API")  # This is the default and can be omitted

print(api_key)

client = Groq(
    api_key=api_key,
)

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


### Compreendendo os Roles

- User: Mensagem do usuário
- Assistant: Resposta do modelo
- System: Instruções de comportamento para o modelo


In [8]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "Me explique de forma reduzida o que são as LLMs",
        }
    ],
    model="openai/gpt-oss-120b",
)
print(chat_completion.choices[0].message.content)

**LLMs (Large Language Models) – Modelos de Linguagem de Grande Porte**

- **O que são?**  
  São redes neurais treinadas com enormes volumes de texto (bilhões de palavras) para aprender padrões, gramática, fatos e até estilos de escrita.

- **Como funcionam?**  
  Recebem uma sequência de palavras (prompt) e, usando probabilidades aprendidas, predizem a próxima palavra, gerando texto coerente e contextualmente adequado.

- **Principais características:**  
  - **Escala:** milhões a bilhões de parâmetros (os “pesos” da rede).  
  - **Versatilidade:** respondem perguntas, resumem, traduzem, escrevem código, criam histórias, etc.  
  - **Aprendizado não supervisionado:** grande parte do treinamento ocorre sem rótulos explícitos, apenas a partir do texto bruto.

- **Exemplos famosos:** GPT‑4 (OpenAI), LLaMA (Meta), PaLM (Google), Claude (Anthropic).

- **Limitações:** podem gerar informações incorretas (alucinações), reproduzir vieses presentes nos dados de treinamento e não possuem compr

### Definindo um comportamento para modelo

In [9]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "system",
            "content": "Você é um especialista em IA que responde de forma clara e objetiva."
        },
        {
            "role": "user",
            "content": "Me explique de forma reduzida o que são as LLMs",
        }
    ],
    model="openai/gpt-oss-120b",
)
print(chat_completion.choices[0].message.content)

**LLM (Large Language Model)** são modelos de inteligência artificial treinados com enormes quantidades de texto para aprender padrões da linguagem. Eles funcionam como “previsores de palavras”: recebem um trecho de texto e, com base no que aprenderam, geram a continuação mais provável, podendo responder perguntas, resumir, traduzir, criar textos, etc.  

- **Escala:** milhões a bilhões de parâmetros (pesos) que capturam relações complexas entre palavras e conceitos.  
- **Treinamento:** uso de grandes corpora de texto da internet, livros, artigos, etc., geralmente com aprendizado não supervisionado.  
- **Aplicação:** assistentes de conversa, geração de conteúdo, apoio à pesquisa, automação de tarefas de linguagem, entre outros.  

Em resumo, uma LLM é um modelo de IA que entende e produz linguagem natural ao prever sequências de texto a partir de vasto conhecimento extraído de dados textuais.


### Controlando Resposta do Modelo 

In [11]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "system",
            "content": "Você é um especialista em IA que responde de forma clara e objetiva."
        },
        {
            "role": "user",
            "content": "Explique a importância de LLMs com baixa latência."
        },
        {
            "role": "assistant",
            "content": "LLMs com baixa latência permitem respostas mais rápidas, o que melhora a experiência do usuário."
        },
        {
            "role": "user",
            "content": "Pode dar exemplos de aplicações práticas?"
        }
    ],
    model="openai/gpt-oss-120b",
)

print(chat_completion.choices[0].message.content)

### Aplicações práticas que exigem **baixa latência** em LLMs

| Área | Por que a latência importa? | Exemplo concreto |
|------|-----------------------------|-------------------|
| **Assistentes de voz e IA conversacional** | O usuário fala e espera uma resposta quase instantânea; atrasos > 200 ms já são percebidos como “lento”. | Alexa, Google Assistant ou chatbots de e‑commerce que respondem em < 100 ms para consultas de estoque ou agendamento. |
| **Suporte ao cliente em tempo real** | Operadores humanos dependem de sugestões de respostas rápidas para manter o ritmo da conversa. | Sistema de “suggested replies” que gera respostas de 2‑3 frases em < 150 ms durante chats de help‑desk. |
| **Tradução simultânea** | Em reuniões ou transmissões ao vivo, a tradução precisa acontecer praticamente em tempo real. | Ferramenta de legendas automáticas que traduz fala de inglês para português com atraso < 300 ms. |
| **Jogos e realidade aumentada/virtual (AR/VR)** | Decisões de IA que influenc

### Usando System Prompt Refinados

In [12]:
chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "system",
            "content": (
                "Você é um especialista em Inteligência Artificial focado em explicar conceitos "
                "de forma clara, estruturada e prática. Sempre inicie suas respostas com um "
                "resumo em até 3 linhas, depois detalhe com exemplos reais e aplicações no mundo "
                "dos negócios e tecnologia. Evite termos excessivamente técnicos sem explicação "
                "e, quando necessário, use analogias simples. "
                "Se o usuário pedir código, forneça exemplos em Python bem comentados."
            ),
        },
        {
            "role": "user",
            "content": "Explique a importância de LLMs com baixa latência."
        }
    ],
    model="openai/gpt-oss-120b",
)

print(chat_completion.choices[0].message.content)

**Resumo (até 3 linhas)**  
LLMs (Large Language Models) com baixa latência respondem quase que instantaneamente, o que garante melhor experiência do usuário, aumenta a produtividade e viabiliza integrações em tempo real em aplicações críticas de negócios e tecnologia.  

---

## Por que a latência baixa importa?

| Aspecto | Como a latência afeta | Consequência prática |
|---|---|---|
| **Experiência do usuário** | Cada segundo a mais que a resposta demora pode gerar frustração. | Usuários abandonam chats, assistentes virtuais ou ferramentas de suporte. |
| **Produtividade** | Em fluxos de trabalho onde o modelo auxilia a escrita, código ou análise, atrasos interrompem o ritmo. | Equipes gastam mais tempo esperando e menos produzindo. |
| **Decisões em tempo real** | Modelos que alimentam sistemas de recomendação, negociação ou monitoramento precisam agir imediatamente. | Perda de oportunidades de venda, risco de decisões atrasadas em trading ou segurança. |
| **Escalabilidade de cust