<a href="https://colab.research.google.com/github/RickBarretto/llm-playground/blob/main/notebooks/tucano-2b4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tucano Gradio Chat Demo ü¶ú

Aqui temos um exemplo de como criar um Chat UI (user Interface) usando os modelos [Tucano](https://huggingface.co/TucanoBR) e a biblioteca [Gradio](https://www.gradio.app/)! üöÄ

In [None]:
# Antes de come√ßar, precisamos instalar `gradio`
!pip install -q gradio

import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers import StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer
from threading import Thread

# Primeiro baixamos o modelo e tokenizador da plataforma Hugging Face
model_id="TucanoBR/Tucano-2b4-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    attn_implementation="sdpa" if torch.cuda.is_available() else "eager"
)

# Usaremos GPU caso GPU esteja dispon√≠vel em nosso ambiente
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)

In [None]:
# Aqui estamos definindo um crit√©rio para que a gera√ß√£o de tokens acabe quando o token "</s>"
# for porduzido
class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        stop_ids = [2]  # 2 √© o ID do nosso EOS token (i.e., </s>).
        for stop_id in stop_ids:
            if input_ids[0][-1] == stop_id:
                return True
        return False

# Fun√ß√£o para gerar texto
def predict(message, history):
    stop = StopOnTokens()
    message = "<instruction>" + message + "</instruction>"
    model_inputs = tokenizer([message], return_tensors="pt").to(device)
    streamer = TextIteratorStreamer(tokenizer, timeout=10., skip_prompt=True, skip_special_tokens=True)
    generate_kwargs = dict(
        model_inputs,
        streamer=streamer,
        repetition_penalty=1.2,
        max_new_tokens=1024,
        do_sample=True,
        top_p=1.,
        top_k=50,
        temperature=0.1,
        num_beams=1,
        stopping_criteria=StoppingCriteriaList([stop])
    )
    t = Thread(target=model.generate, kwargs=generate_kwargs)
    t.start()  # Come√ßamos a gera√ß√£o em uma thread separada
    partial_message = ""
    for new_token in streamer:
        partial_message += new_token
        if '</s>' in partial_message:  # Quebramos o loop caso o EOS token seja porduzido
            break
        yield partial_message

# Criando a interface do nosso Gradio chat app.
gr.ChatInterface(predict,
                 title="Tucano ü¶ú",
                 description="Fa√ßa uma pergunta para o Tucano",
                 examples=['Qual a capital do Rio Grande do Sul?', 'Invente uma hist√≥ria sobre um garoto chamado Pel√©.']
                 ).launch()  # Pronto! üöÄ