<a href="https://colab.research.google.com/github/fabriciosantana/mcdia/blob/main/05-iag/nemotron_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NVIDIA Nemotron - Exemplos de Uso

O **Nemotron** √© uma fam√≠lia de modelos da NVIDIA com arquitetura h√≠brida Mamba-Transformer MoE.

Este notebook mostra como usar o Nemotron via NVIDIA NIM API.

# 1. Importar bibliotecas

In [5]:
import os
from google.colab import userdata

import requests

## 1. Configurar API Key


In [6]:
def get_nvidia_api_key():
    key = None
    if key:
        key = os.environ.get("NVIDIA_API_KEY")
    else:
        key = userdata.get('NVIDIA_API_KEY')

    return key

NVIDIA_API_KEY = get_nvidia_api_key()

if NVIDIA_API_KEY:
    print(f"‚úÖ NVIDIA_API_KEY carregada: {NVIDIA_API_KEY[:15]}...")
else:
    print("‚ö†Ô∏è NVIDIA_API_KEY n√£o encontrada.")

‚úÖ NVIDIA_API_KEY carregada: nvapi-8tdO1NjXD...


## 2. Testar conex√£o com NVIDIA API

In [8]:

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"

headers = {
    "Authorization": f"Bearer {NVIDIA_API_KEY}",
    "Content-Type": "application/json"
}

payload = {
    "model": "nvidia/nemotron-3-nano-30b-a3b",
    "messages": [
        {"role": "user", "content": "Explique o que √© Deep Learning em 3 frases."}
    ],
    "temperature": 0.7,
    "max_tokens": 2000
}

response = requests.post(invoke_url, headers=headers, json=payload)

if response.status_code == 200:
    result = response.json()
    print("‚úÖ Resposta do Nemotron:")
    print(result["choices"][0]["message"]["content"])
else:
    print(f"‚ùå Erro {response.status_code}: {response.text}")

‚úÖ Resposta do Nemotron:

Deep Learning √© uma √°rea do aprendizado de m√°quina que utiliza redes neurais artificiais com m√∫ltiplas camadas ocultas para aprender representa√ß√µes hier√°rquicas de dados. Essas redes s√£o capazes de capturar padr√µes complexos em grandes volumes de informa√ß√µes, como imagens, √°udio e texto. O resultado √© um sistema que pode realizar tarefas avan√ßadas ‚Äî como reconhecimento de objetos, tradu√ß√£o autom√°tica e gera√ß√£o de texto ‚Äî com desempenho pr√≥ximo ao humano.


## 3. Usando a biblioteca OpenAI (compat√≠vel)

In [10]:
# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key=NVIDIA_API_KEY
)

response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[
        {"role": "user", "content": "Qual a diferen√ßa entre RNN e Transformer?"}
    ],
    temperature=0.7,
    max_tokens=300
)

print(response.choices[0].message.content)


## Diferen√ßas fundamentais entre **RNN** (Redes Neurais Recorrentes) e **Transformer**

| Aspecto | RNN (Redes Neurais Recorrentes) | Transformer |
|---------|--------------------------------|-------------|
| **Processamento de sequ√™ncia** | Processa tokens **um a um**, mantendo um estado interno (hidden state) que ‚Äúrepete‚Äù ao longo do tempo. Cada passo depende do passo anterior. | Processa a **entire sequence** de uma vez, usando **aten√ß√£o** para relacionar todos os tokens entre si. N√£o h√° depend√™ncia temporal expl√≠cita nos c√°lculos. |
| **Depend√™ncia de longo alcance** | Dif√≠cil capturar depend√™ncias de longo prazo porque o gradiente pode desaparecer ou explodir ao longo de muitos passos. Estrat√©gias como *truncamento*, *LSTM/GRU* ou *BPTT* ajudam, mas ainda h√° limita√ß√µes. | Aten√ß√£o permite **conectar diretamente** qualquer


## 4. Streaming (resposta em tempo real)

In [11]:
print("ü§ñ Nemotron: ", end="")

for chunk in client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[{"role": "user", "content": "Liste 3 aplica√ß√µes pr√°ticas de LLMs."}],
    temperature=0.7,
    max_tokens=200,
    stream=True
):
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
print()

ü§ñ Nemotron: 
**3 aplica√ß√µes pr√°ticas de LLMs (Modelos de Linguagem de Grande Escala)**  

| # | Aplica√ß√£o | Como funciona na pr√°tica | Benef√≠cios principais |
|---|-----------|--------------------------|-----------------------|
| 1 | **Assist√™ncia e automa√ß√£o de atendimento ao cliente** | Chatbots e agentes virtuais alimentados por LLMs respondem a perguntas frequentes, resolvem tickets de suporte, criam scripts de vendas e personalizam intera√ß√µes em tempo real. | Redu√ß√£o de custos operacionais, disponibilidade 24‚ÄØh, experi√™ncia de cliente mais r√°pida e consistente. |
| 2 | **Cria√ß√£o e tradu√ß√£o de conte√∫do** | Reda√ß√£o autom√°tica de artigos, newsletters, posts para redes sociais, resumos de documentos e tradu√ß√£o multil√≠ngue

IndexError: list index out of range

## 5. Chat com contexto (m√∫ltiplas mensagens)

In [12]:
messages = [
    {"role": "system", "content": "Voc√™ √© um especialista em IA. Seja t√©cnico e conciso."},
    {"role": "user", "content": "O que √© aten√ß√£o em transformers?"},
]

response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=messages,
    temperature=0.7
)

print(response.choices[0].message.content)


**Aten√ß√£o em Transformers ‚Äì vis√£o t√©cnica resumida**

1. **Objetivo**  
   - Permitir que cada token ‚Äúolhe‚Äù para todos os outros tokens da sequ√™ncia, aprendendo depend√™ncias de longo alcance sem recorr√™ncia.

2. **C√°lculo b√°sico (self‚Äëattention)**  
   - Para cada posi√ß√£o \(i\) temos tr√™s vetores aprendidos:  
     \[
     \mathbf{Q}_i = \mathbf{X}_i \mathbf{W}_Q,\quad 
     \mathbf{K}_i = \mathbf{X}_i \mathbf{W}_K,\quad 
     \mathbf{V}_i = \mathbf{X}_i \mathbf{W}_V
     \]  
     onde \(\mathbf{X}_i\) √© o embedding do token \(i\) e \(\mathbf{W}_Q,\mathbf{W}_K,\mathbf{W}_V\) s√£o proje√ß√µes lineares.  
   - **Score de aten√ß√£o**:  
     \[
     \text{score}_{ij}= \frac{\mathbf{Q}_i \cdot \mathbf{K}_j}{\sqrt{d_k}}
     \]  
     (\(\sqrt{d_k}\) estabiliza o gradiente).  
   - **Peso de aten√ß√£o** (softmax por linha):  
     \[
     \alpha_{ij}= \text{softmax}_j(\text{score}_{ij})
     \]  
   - **Sa√≠da da cabe√ßa de aten√ß√£o**:  
     \[
     \text{output}_i 

## 6. Par√¢metros avan√ßados

In [13]:
response = client.chat.completions.create(
    model="nvidia/nemotron-3-nano-30b-a3b",
    messages=[{"role": "user", "content": "Gere um t√≠tulo criativo para um artigo sobre IA."}],
    temperature=0.9,
    max_tokens=50,
    top_p=0.9
)

print(response.choices[0].message.content)

None


## Modelos Nemotron Dispon√≠veis

| Modelo | Tamanho | Descri√ß√£o |
|--------|---------|----------|
| `nvidia/nemotron-3-nano-30b-a3b` | 30B (3.5B ativos) | MoE h√≠brido, reasoning |
| `nvidia/nemotron-4-340b-instruct` | 340B | Modelo grande para tarefas complexas |

### Caracter√≠sticas:
- **Arquitetura**: Mamba2-Transformer Hybrid MoE
- **Idiomas**: Ingl√™s, Alem√£o, Espanhol, Franc√™s, Italiano, Japon√™s
- **Capacidades**: Reasoning, tool calling, chat, c√≥digo