Selecionamos o modelo utilizando o leaderboard: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

## Rodando localmente

### Carregando o modelo

In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = 'Qwen/Qwen2-1.5B-Instruct' #gpt2
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


### Utilizado pipeline para geração de texto

In [2]:
from transformers import pipeline

gerador = pipeline('text-generation', model=model, tokenizer=tokenizer)
resultado = gerador('Era uma vez', max_length=25)
print(resultado)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': 'Era uma vez um jovem chamado João, que vivia em uma pequena aldeia. Ele era conhec'}]


In [3]:
resultado[0]['generated_text']

'Era uma vez um jovem chamado João, que vivia em uma pequena aldeia. Ele era conhec'

### Gerando texto manualmente

In [4]:
input_ids = tokenizer.encode('Era uma vez', return_tensors='pt')
input_ids

tensor([[   36,   956, 10608, 20563]])

In [6]:
output = model.generate(input_ids, max_length=25)
output

The attention mask is not set and cannot be inferred from input because pad token is same as eos token.As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


tensor([[    36,    956,  10608,  20563,   4443,  67261,    336,  33709,   2123,
         135970,   1709,   4566,     73,    283,  27525,  28352,     11,   3947,
           4883,  53760,    436,  92824,    384,  67346,   8691]])

In [7]:
resultado = tokenizer.decode(output[0], skip_special_tokens=True)
print(resultado)

Era uma vez um jovem chamado João que viajou pelo mundo, visitando muitos lugares e aprendendo


### Criando uma estrutura de conversação

In [8]:
messages = [{'role':'user', 'content':'Olá'}]
text = tokenizer.apply_chat_template(messages,tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors='pt')
inputs


{'input_ids': tensor([[151644,   8948,    198,   2610,    525,    264,  10950,  17847,     13,
         151645,    198, 151644,    872,    198,  42719,   1953, 151645,    198,
         151644,  77091,    198]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [11]:
outputs = model.generate(inputs.input_ids, max_length=25, do_sample=True)
resultado = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(resultado)

system
You are a helpful assistant.
user
Olá
assistant
Olá! Como


#### Criando um pequeno loop de conversa

In [None]:
mensagens = []
for i in range(3):
    messages.append({'role':'user', 'content':input('Fale algo com o assitente: ')})
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    inputs = tokenizer([text], return_tensors='pt')
    outputs = model.generate(inputs.input_ids, max_length=500, do_sample=True)
    resultado = tokenizer.decode(outputs[0], skip_special_tokens=True)
    resposta_assist = resultado.split('assistant')[-1].strip('/n')
    print(resposta_assist)
    messages.append({'role':'assistant', 'content':resposta_assist})

## Rodando com a Inference API

In [15]:
from huggingface_hub import InferenceClient

token_hf = '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'

api = InferenceClient(
    model='Qwen/Qwen2-1.5B-Instruct',
    token=token_hf
)

messages = [{'role':'user', 'content':'Olá'}]
response = api.chat_completion(messages)
response

ChatCompletionOutput(choices=[ChatCompletionOutputComplete(finish_reason='eos_token', index=0, message=ChatCompletionOutputMessage(role='assistant', content='Olá! Como posso ajudá-lo hoje?', name=None, tool_calls=None), logprobs=None)], created=1720706099, id='', model='Qwen/Qwen2-1.5B-Instruct', object='chat.completion', system_fingerprint='2.1.1-sha-4dfdb48', usage=ChatCompletionOutputUsage(completion_tokens=12, prompt_tokens=21, total_tokens=33))

In [18]:
print(response.choices[0].message.content)

Olá! Como posso ajudá-lo hoje?
