# Llama 3.2 3B Instruct - Exemplo com Ollama

Este notebook demonstra como usar o modelo **Llama 3.2 3B Instruct** localmente via Ollama.

## 1. Verificar se o Ollama est√° rodando

In [1]:
import requests

try:
    response = requests.get("http://localhost:11434")
    print(f"‚úÖ Ollama rodando: {response.text.strip()}")
except Exception as e:
    print(f"‚ùå Ollama n√£o est√° rodando. Erro: {e}")

‚úÖ Ollama rodando: Ollama is running


## 2. Listar modelos dispon√≠veis

In [2]:
import subprocess

result = subprocess.run(["ollama", "list"], capture_output=True, text=True)
print(result.stdout)

NAME           ID              SIZE      MODIFIED       
llama3.2:3b    a80c4f17acd5    2.0 GB    15 minutes ago    
glm-5:cloud    c313cd065935    -         51 minutes ago    



## 3. Usar o modelo com a biblioteca `ollama`

In [3]:
import ollama

# Exemplo simples de chat
response = ollama.chat(
    model="llama3.2:3b",
    messages=[
        {"role": "user", "content": "Explique o que √© Deep Learning em 3 frases."}
    ]
)

print(response["message"]["content"])

Deep Learning √© uma sub√°rea da Intelig√™ncia Artificial (IA) que utiliza redes neuronais complexas para aprender e melhorar automaticamente a partir de grandes conjuntos de dados. Essa t√©cnica permite que os sistemas computacionais aprendam a reconhecer padr√µes e fazer predi√ß√µes baseadas em grandes volumes de dados sem a necessidade de programas explicitos. A Deep Learning √© uma das √°reas mais ativas da IA, com aplica√ß√µes em imagens, √°udio, texto, v√≠deo e muitas outras √°reas.


## 4. Chat com contexto (m√∫ltiplas mensagens)

In [4]:
messages = [
    {"role": "system", "content": "Voc√™ √© um assistente especializado em IA. Seja conciso e t√©cnico."},
    {"role": "user", "content": "Qual a diferen√ßa entre RNN e Transformer?"},
]

response = ollama.chat(model="llama3.2:3b", messages=messages)
print(response["message"]["content"])

RNN (Redes Neurais Recorrentes) e Transformer s√£o duas abordagens comuns para processamento de linguagem natural (NLP). Embora ambas sejam usadas em aplicativos de NLP, elas diferem significativamente na forma como lidam com a sequ√™ncia temporal de texto.

**Rede Neural Recorrente (RNN):**

Uma RNN processa a sequ√™ncia de texto de uma √∫nica c√©lula no tempo. A sa√≠da da c√©lula √© passada para a pr√≥xima c√©lula, criando um efeito "recorrente" que permite ao modelo capturar padr√µes em longas sequ√™ncias.

**Vantagens:**

*   F√°cil implementa√ß√£o
*   Capaz de lidar com s√©ries temporais curtas

**Desvantagens:**

*   Comporta-se menos bem com s√©ries temporais longas
*   Suficiente para um modelo que usa uma camada de recurso √∫nica.

**Transformador:**

Uma rede neural transformadora √© uma rede que processa a sequ√™ncia de texto como uma s√©rie de blocos independentes, cada bloco sendo transformado usando o aten√ß√£o de "self" e "cross". Isso permite ao modelo capturar padr√µes

## 5. Streaming (resposta em tempo real)

In [5]:
print("ü§ñ Llama 3.2: ", end="")
for chunk in ollama.chat(
    model="llama3.2:3b",
    messages=[{"role": "user", "content": "Liste 3 aplica√ß√µes pr√°ticas de LLMs."}],
    stream=True
):
    print(chunk["message"]["content"], end="", flush=True)
print()

ü§ñ Llama 3.2: Claro, aqui est√£o tr√™s aplica√ß√µes pr√°ticas de LLMs (Modelos de Linguagem de Grande Escala):

1. **Assistentes Virtuais**: Os LLMs podem ser usados para criar assistentes virtuais que possam entender e responder a perguntas de forma mais inteligente. Por exemplo, o modelo de linguagem do Google Bard pode ser usado para criar um assistente virtual que possa responder a perguntas de forma mais precisa e eficiente.

2. **Genera√ß√£o de Conte√∫do**: Os LLMs podem ser usados para gerar conte√∫do autom√°tico, como textos, imagens e v√≠deos. Por exemplo, o modelo de linguagem da Microsoft Azure Canva pode ser usado para criar uma ferramenta de design gr√°fico que possa gerar imagens personalizadas.

3. **An√°lise de Texto**: Os LLMs podem ser usados para analisar texto de forma mais precisa e eficiente. Por exemplo, o modelo de linguagem do IBM Watson pode ser usado para analisar sentimentos em textos, como avalia√ß√µes de produtos ou coment√°rios de clientes.

Essas s√£o 

## 6. Gera√ß√£o direta (sem chat)

In [6]:
# Modo generate (mais simples para tarefas √∫nicas)
response = ollama.generate(
    model="llama3.2:3b",
    prompt="Complete: A intelig√™ncia artificial √©"
)
print(response["response"])

A resposta correta seria:

A intelig√™ncia artificial √© uma t√©cnica e √°rea da inform√°tica que visa criar m√°quinas capazes de simular os processos do pensamento humano, permitindo que elas tomem decis√µes, aprendam com dados e se adaptem a novas situa√ß√µes.


## 7. Par√¢metros avan√ßados

In [7]:
response = ollama.chat(
    model="llama3.2:3b",
    messages=[{"role": "user", "content": "Gerar um t√≠tulo criativo para um artigo sobre IA."}],
    options={
        "temperature": 0.9,
        "num_predict": 50,
        "top_p": 0.9,
        "top_k": 40,
    }
)
print(response["message"]["content"])

Claro! Aqui est√£o algumas sugest√µes de t√≠tulos criativos para um artigo sobre IA:

1. **"A Intelig√™ncia Artificial que nos Mudar√° a Vida"**
2. **"O Futuro da Intel


## 8. Via API REST

In [8]:
import json

url = "http://localhost:11434/api/chat"
payload = {
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "Diga ol√° em portugu√™s."}],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

Ol√°! Como posso ajudar voc√™ hoje?


## 9. Informa√ß√µes do modelo

In [9]:
info = ollama.show("llama3.2:3b")
print(f"Modelo: llama3.2:3b")
print(f"Fam√≠lia: {info.get('details', {}).get('family', 'N/A')}")
print(f"Par√¢metros: {info.get('details', {}).get('parameter_size', 'N/A')}")
print(f"Quantiza√ß√£o: {info.get('details', {}).get('quantization_level', 'N/A')}")

Modelo: llama3.2:3b
Fam√≠lia: llama
Par√¢metros: 3.2B
Quantiza√ß√£o: Q4_K_M
