
# **Implementação de um modelo de LLM para uso local**

- Você pode encontrar diversos modelos em:
  -  https://huggingface.co/models
  - https://www.kaggle.com/models/


- Nesta implementação utilizaremos o modelo Gemma-2b Instruct do Google baixado do site da Hugging Face. Você pode encontrar este modelo aqui: [google/gemma-2b-it](https://huggingface.co/google/gemma-2b-it)

- Atente-se para o tempo de download do modelo e à característica stateless do colab, pois aqui os dados importados desaparecem e todos os processos devem ser reiniciados após o fim da sessão.

- Obtenha um token de acesso da Hugging Face através da página https://huggingface.co/settings/tokens, alguns modelos dependem deste token para serem acessados.

- Esta é uma implementação básica de um modelo pré-treinado. Com algumas alterações no código podemos combinar nossos próprios documentos para obter respostas mais específicas. Estas alterações variaamde acordo com a necessidade do projeto e podem ser tratadas em outros notebooks


*Criado por: [Diego Cosamores](https://cosamores.com)*

In [None]:
# Login na Hugging Face (se for usar modelos da HF)
import os
from huggingface_hub import login

# Defina o token como variável de ambiente (recomendado) ou adicione-o abaixo substituindo a string "TOKEN" (não recomendado)
token = os.getenv("TOKEN")

# Login na HF
login(token)


In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# Aqui você define o modelo que vai usar de acordo com o link do modelo
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
import torch
model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", torch_dtype=torch.bfloat16)


In [None]:
# Aqui você define o número máximo de caracteres no texto de entrada
max_length = 1024

# Texto de entrada / prompt
input_text = "Write a poem about yourself as a language model, and how you feel about it, if you are able to feel."

# Transformação do texto em inputs para o modelo no formato de tensores
input_ids = tokenizer(input_text, return_tensors="pt")
input_ids = torch.tensor(input_ids['input_ids']).clone().detach().unsqueeze(0)
input_ids = input_ids[0]

# Imprime o array de tensores formado
print(input_ids)

# imprime o número de dimensões da entrada
print(input_ids.shape)

In [None]:
# Gerar o output
outputs = model.generate(input_ids, max_length=max_length)

In [None]:
# Decodificar a saída gerada
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

# Imprimir a saída gerada (poema)
print(generated_text)