# O que é Tokenizer

Um tokenizer em Machine Learning é uma ferramenta ou processo que divide o texto em unidades menores chamadas tokens. Esses tokens podem ser palavras, sub-palavras, caracteres ou símbolos, dependendo do tipo de tokenização usada. A tokenização é um passo essencial no processamento de linguagem natural (NLP) e é usada para converter texto bruto em um formato que pode ser compreendido e utilizado por modelos de aprendizado de máquina.

# Explorando o Tokenizer

Verificando a presença de uma GPU

In [None]:
!nividia.smi

# O que são pipelines?

Pipelines servem para agrupar as funcões necessarias da tarefa para processar a entrada e gerar a saida.

In [None]:
import transformers

gerbo = transformers.pipeline(
    task="text-generation",
    model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",
    device="cuda"
)

# Modelo escolhido para treinamento

***TinyLlama/TinyLlama-1.1B-Chat-v1.0***

O TinyLlama/TinyLlama-1.1B-Chat-v1.0 é um modelo de linguagem treinado para entender e gerar texto de maneira semelhante aos modelos GPT (como o ChatGPT), mas com uma arquitetura e escopo menores, voltado para aplicações específicas ou para rodar em dispositivos com recursos mais limitados.

Esse tipo de modelo é útil para desenvolvedores que precisam de uma solução mais compacta e eficiente para tarefas de linguagem natural, especialmente em ambientes onde os modelos grandes seriam impraticáveis devido a limitações de hardware ou custo.

[Model Link](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0)

Caracteristicas

| Setting         | Description       |
| --------------- | ----------------- |
| Content Cell    | 1.1B              |
| Layers          | 22                |
| Heads           | 32                |
| Query Groups    | 4                 |
| Embedding Size  |2048               |
| Batch Size      | 2 million tokens  |
| Total Tokens    | 3 trillion        |
| Hardware        | 16 A100-40G GPUs  |





In [None]:
gerbo.model

# Função principal

In [None]:
def processa_prompt (modelo,prompt):

  # tokenizando e encodando
  tokens = modelo.tokenizer.encode(prompt,return_tensors="pt")

  print("="*80)
  print(f"- prompt original: {prompt}")
  print(f"- tokens:{tokens}")
  print(f"- # de tokens:{len(tokens)}")

  # fazendo o processo reverso --- decodificando

  decoded = modelo.tokenizer.convert_ids_to_tokens(tokens[0])
  print(f"- tokens decodificados: {decoded}")

  first_tokens = modelo.tokenizer.convert_ids_to_tokens([0,1,2,3,4,5])
  print(f"- primeiros tokens: {first_tokens}")

  # É preciso setar no sample para controlar a temperatura
  # Quanto maior a temperatura, mais criativo o modelo será.
  output = modelo(prompt, do_sample=True, temperature=0.7)

  print("="*80)
  print(f"- output: {output}")
  print(f"- texto gerado efetivamente: {output[0]['generated_text']}")

  print("="*80)
  return

processa_prompt(gerbo,"Once upon a time")