# Documentação do Notebook - Geração de Texto com TinyLlama

## Descrição
Este notebook utiliza a biblioteca `transformers` para executar uma tarefa de geração de texto usando o modelo de linguagem pré-treinado **TinyLlama-1.1B-Chat-v1.0**. O código foi configurado para rodar em GPU (ou CPU, se especificado).

### Requisitos
- **Python 3.x**
- **Transformers** (`pip install transformers`)
- Acesso a uma GPU compatível com CUDA para melhor desempenho (opcional, mas recomendado)


## Etapas do Notebook

### 1. Verificar o Uso da GPU
```python
# Vendo GPU:
!nvidia-smi
```
Essa célula utiliza o comando `nvidia-smi` para exibir informações sobre a GPU disponível na máquina (se houver). Se estiver utilizando uma GPU, é recomendado verificar o estado da GPU antes de rodar o modelo.


### 2. Carregar o Modelo de Geração de Texto
```python
import transformers

bumbumblee = transformers.pipeline(
    task="text-generation",
    model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",
    device="cuda"  # Pode ser 'cpu' ou 'cuda' dependendo da disponibilidade
)
```
Nesta célula, o modelo **TinyLlama-1.1B-Chat-v1.0** é carregado através da função `pipeline` da biblioteca `transformers`. A tarefa específica é `text-generation`, e o código está configurado para rodar em uma GPU (`device="cuda"`), caso disponível.


### 3. Execução do Modelo
```python
bumbumblee
```
Aqui, o pipeline carregado anteriormente é executado. Presume-se que nas células seguintes sejam passados textos ou prompts para a geração de respostas, embora esta célula específica apenas exiba o objeto `bumbumblee`.


## Observações
- O modelo **TinyLlama-1.1B-Chat-v1.0** é um modelo otimizado para conversação e tarefas de geração de texto, sendo uma versão mais leve e eficiente de grandes modelos de linguagem.
- A utilização de GPU melhora significativamente a performance, especialmente em tarefas mais intensas como a geração de texto.


## Próximos Passos
- Fornecer prompts de entrada para o modelo e explorar as saídas geradas.
- Avaliar a performance do modelo tanto em CPU quanto em GPU.
- Ajustar os parâmetros do pipeline, como a quantidade de texto gerado, temperatura, entre outros.


## Referências
- [Transformers Documentation](https://huggingface.co/docs/transformers)
- [TinyLlama Model](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0)


In [None]:
# Vendo GPU:
!nvidia-smi

In [None]:
import transformers

bumbumblee = transformers.pipeline(
    task="text-generation",
    model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",
    device="cuda"  # Pode ser 'cpu' ou 'cuda' dependendo da disponibilidade
)

In [None]:
bumbumblee

In [None]:
bumbumblee.model

In [None]:
def analisa_e_processa_prompt(modelo, prompt):
  print("="*80)

  # codificando
  tokens = modelo.tokenizer.encode(prompt, return_tensors="pt")

  print(f"- prompt original: {prompt}")
  print(f"- token ids:{tokens}")
  print(f"- # de tokens:{len(tokens)}")

  # decodificando
  decoded = modelo.tokenizer.convert_ids_to_tokens(tokens[0])
  print(f"- tokens decodificados: {decoded}")

  first_tokens = modelo.tokenizer.convert_ids_to_tokens(range(5))
  print(f"- primeiros tokens: {first_tokens}")

  # Prompt pro LLM. Temperatura controla o quao "criativo" é
  output = modelo(prompt, do_sample=True, temperature=0.7)
  print(f"- output do modelo: {output}")
  print(f"- texto gerado efetivamente: {output[0]['generated_text']}")

  print("="*80)
  return

analisa_e_processa_prompt(bumbumblee, "Tell a history bro")