# NVIDIA Nemotron - Exemplos de Uso

O **Nemotron** √© uma fam√≠lia de modelos da NVIDIA com arquitetura h√≠brida Mamba-Transformer MoE.

Este notebook mostra como usar o Nemotron via NVIDIA NIM API.

## 1. Configurar API Key

A chave est√° em `~/.bashrc`. Esta c√©lula carrega automaticamente.

In [1]:
import os

def get_nvidia_api_key():
    # Primeiro, verificar se j√° est√° no ambiente
    key = os.environ.get("NVIDIA_API_KEY")
    if key:
        return key
    
    # Tentar carregar do bashrc
    bashrc_path = os.path.expanduser("~/.bashrc")
    try:
        with open(bashrc_path, "r") as f:
            for line in f:
                if line.startswith("export NVIDIA_API_KEY="):
                    key = line.split("=", 1)[1].strip().strip('"').strip("'")
                    os.environ["NVIDIA_API_KEY"] = key
                    return key
    except Exception as e:
        print(f"Erro ao ler bashrc: {e}")
    
    return None

NVIDIA_API_KEY = get_nvidia_api_key()

if NVIDIA_API_KEY:
    print(f"‚úÖ NVIDIA_API_KEY carregada: {NVIDIA_API_KEY[:15]}...")
else:
    print("‚ö†Ô∏è NVIDIA_API_KEY n√£o encontrada. Defina em ~/.bashrc ou manualmente:")
    print('os.environ["NVIDIA_API_KEY"] = "sua_chave_aqui"')

‚úÖ NVIDIA_API_KEY carregada: nvapi-8tdO1NjXD...


## 2. Testar conex√£o com NVIDIA API

In [2]:
import requests

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"

headers = {
    "Authorization": f"Bearer {NVIDIA_API_KEY}",
    "Content-Type": "application/json"
}

payload = {
    "model": "nvidia/nemotron-3-nano-30b-a3b",
    "messages": [
        {"role": "user", "content": "Explique o que √© Deep Learning em 3 frases."}
    ],
    "temperature": 0.7,
    "max_tokens": 200
}

response = requests.post(invoke_url, headers=headers, json=payload)

if response.status_code == 200:
    result = response.json()
    print("‚úÖ Resposta do Nemotron:")
    print(result["choices"][0]["message"]["content"])
else:
    print(f"‚ùå Erro {response.status_code}: {response.text}")

‚úÖ Resposta do Nemotron:

Deep Learning √© um ramo do aprendizado de m√°quina que utiliza redes neurais artificiais com m√∫ltiplas camadas ocultas para aprender representa√ß√µes hier√°rquicas de dados. Essas redes s√£o capazes de extrair caracter√≠sticas cada vez mais abstratas, desde pixels brutos at√© objetosComplexos, sem necessidade de engenharia manual das caracter√≠sticas. Assim, o Deep Learning tem possibilitado avan√ßos significativos em √°reas como vis√£o computacional, processamento de linguagem natural e reconhecimento de voz.


## 3. Usando a biblioteca OpenAI (compat√≠vel)

In [3]:
# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key=NVIDIA_API_KEY
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[
        {"role": "user", "content": "Qual a diferen√ßa entre RNN e Transformer?"}
    ],
    temperature=0.7,
    max_tokens=300
)

print(response.choices[0].message.content)


## Diferen√ßas principais entre **RNN** (Redes Neurais Recorrentes) e **Transformer**

| Aspecto | RNN (Recorrente) | Transformer |
|---|---|---|
| **Arquitetura b√°sica** | Processa a sequ√™ncia **um token de cada vez**, mantendo um estado interno (hidden state) que √© passado de um passo para o pr√≥ximo. | Baseado exclusivamente em **mecanismo de aten√ß√£o** (self‚Äëattention) e em camadas feed‚Äëforward; n√£o h√° conex√£o recorrente expl√≠cita entre tokens. |
| **Depend√™ncia de ordem** | A ordem dos tokens √© inerente ao algoritmo: o pr√≥ximo passo s√≥ pode ser calculado depois que o anterior foi processado. | A ordem pode ser informada por **posicionais encodings** adicionados √†s representa√ß√µes; a aten√ß√£o pode combinar informa√ß√µes de qualquer posi√ß√£o simultaneamente. |
| **Paral


## 4. Streaming (resposta em tempo real)

In [4]:
print("ü§ñ Nemotron: ", end="")

for chunk in client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[{"role": "user", "content": "Liste 3 aplica√ß√µes pr√°ticas de LLMs."}],
    temperature=0.7,
    max_tokens=200,
    stream=True
):
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
print()

ü§ñ Nemotron: 
**3 aplica√ß√µes pr√°ticas de LLMs (Large Language Models)**  

1. **Assistentes virtuais e chatbots corporativos**  
   - Automatizam o atendimento ao cliente, respondendo a d√∫vidas frequentes, realizando suporte t√©cnico e orientando usu√°rios em processos de compra ou suporte, tudo com linguagem natural e contextualizada.

2. **Gera√ß√£o e resumo de conte√∫do**  
   - Produzem textos como artigos, relat√≥rios, legendas para redes sociais, newsletters e roteiros, al√©m de resumir documentos extensos, permitindo que equipes criem material de alta qualidade em menos tempo.

3. **An√°lise e extra√ß√£o de informa√ß√µes de grandes volumes de texto

IndexError: list index out of range

## 5. Chat com contexto (m√∫ltiplas mensagens)

In [5]:
messages = [
    {"role": "system", "content": "Voc√™ √© um especialista em IA. Seja t√©cnico e conciso."},
    {"role": "user", "content": "O que √© aten√ß√£o em transformers?"},
]

response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=messages,
    temperature=0.7
)

print(response.choices[0].message.content)


**Aten√ß√£o em Transformers**  

A aten√ß√£o (attention) √© a opera√ß√£o central que permite que um Transformer ‚Äúolhe‚Äù para todas as posi√ß√µes de uma sequ√™ncia ao processar cada token. Ela calcula **peso de import√¢ncia** de cada token de entrada em rela√ß√£o a todos os demais (ou a um conjunto selecionado) antes de gerar a sa√≠da.

---

## 1. Aten√ß√£o Scaled‚ÄëDot‚ÄëProduct (SDPA)

Para um conjunto de *queries* **Q**, *keys* **K** e *values* **V** (matrizes de dimens√£o *d_k √ó n*), a aten√ß√£o √© definida como:

\[
\text{Attention}(Q, K, V) \;=\; \text{softmax}\!\left(\frac{QK^{\top}}{\sqrt{d_k}}\right) V
\]

- **QK·µÄ** ‚Üí produto ponto entre consultas e chaves, gerando uma matriz de compatibilidade de tamanho *n √ó n*.
- **\sqrt{d_k}** ‚Üí escala para evitar gradientes explosivos.
- **softmax** ‚Üí converte as compatibilidades em probabilidades (peso de aten√ß√£o) na faixa (0,1).
- **\* V** ‚Üí combina os *values* ponderados pelos pesos de aten√ß√£o.

---

## 2. Tipos de a

## 6. Par√¢metros avan√ßados

In [6]:
response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[{"role": "user", "content": "Gere um t√≠tulo criativo para um artigo sobre IA."}],
    temperature=0.9,
    max_tokens=50,
    top_p=0.9
)

print(response.choices[0].message.content)

None


## Modelos Nemotron Dispon√≠veis

| Modelo | Tamanho | Descri√ß√£o |
|--------|---------|----------|
| `nvidia/nemotron-3-nano-30b-a3b` | 30B (3.5B ativos) | MoE h√≠brido, reasoning |
| `nvidia/nemotron-4-340b-instruct` | 340B | Modelo grande para tarefas complexas |

### Caracter√≠sticas:
- **Arquitetura**: Mamba2-Transformer Hybrid MoE
- **Idiomas**: Ingl√™s, Alem√£o, Espanhol, Franc√™s, Italiano, Japon√™s
- **Capacidades**: Reasoning, tool calling, chat, c√≥digo