In [15]:
!pip install transformers



In [16]:
from transformers import AutoTokenizer, AutoModelWithLMHead
import torch

tokenizer = AutoTokenizer.from_pretrained("pierreguillou/gpt2-small-portuguese")
model = AutoModelWithLMHead.from_pretrained("pierreguillou/gpt2-small-portuguese")

# Get sequence length max of 1024
tokenizer.model_max_length=1024

model.eval()  # disable dropout (or leave in train mode to finetune)



GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2SdpaAttention(
          (c_attn): Conv1D(nf=2304, nx=768)
          (c_proj): Conv1D(nf=768, nx=768)
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D(nf=3072, nx=768)
          (c_proj): Conv1D(nf=768, nx=3072)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=50257, bias=False)
)

In [17]:
# input sequence
text = "o que é fortnite? fortnite é um"
inputs = tokenizer(text, return_tensors="pt")

# model output
outputs = model(**inputs, labels=inputs["input_ids"])
loss, logits = outputs[:2]
predicted_index = torch.argmax(logits[0, -1, :]).item()
predicted_text = tokenizer.decode([predicted_index])

# results
print('input text:', text)
print('predicted text:', predicted_text)

# input text: Quem era Jim Henson? Jim Henson era um
# predicted text:  homem


input text: o que é fortnite? fortnite é um
predicted text:  termo


In [18]:
from transformers import AutoTokenizer, TFAutoModelWithLMHead
import tensorflow as tf

tokenizer = AutoTokenizer.from_pretrained("pierreguillou/gpt2-small-portuguese")
model = TFAutoModelWithLMHead.from_pretrained("pierreguillou/gpt2-small-portuguese")

# Get sequence length max of 1024
tokenizer.model_max_length=1024



All model checkpoint layers were used when initializing TFGPT2LMHeadModel.

All the layers of TFGPT2LMHeadModel were initialized from the model checkpoint at pierreguillou/gpt2-small-portuguese.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.


In [7]:
# input sequence
text = "o que é fortnite? fortnite é um"
inputs = tokenizer.encode(text, return_tensors="tf")

# model output using Top-k sampling text generation method
outputs = model.generate(inputs, eos_token_id=50256, pad_token_id=50256,
                         do_sample=True,
                         max_length=40,
                         top_k=40)
print(tokenizer.decode(outputs[0]))

# >> Generated text
# Quem era Jim Henson? Jim Henson era um amigo familiar da família. Ele foi contratado pelo seu pai
# para trabalhar como aprendiz no escritório de um escritório de impressão, e então começou a ganhar dinheiro


o que é fortnite? fortnite é um termo que aplica-se a qualquer tipo de classificação aplicada a uma espécie de determinada característica, como por exemplo, a qualidade das florestas ou de


In [19]:
!pip install googletrans==4.0.0-rc1



In [20]:
from googletrans import Translator

In [21]:
def traduzir_palavra(palavra, idioma_origem='en', idioma_destino='pt'):
  """
  Traduz uma palavra de um idioma para outro usando o Google Translate.

  Args:
    palavra: A palavra a ser traduzida.
    idioma_origem: O idioma de origem da palavra (padrão: 'en' para inglês).
    idioma_destino: O idioma de destino da tradução (padrão: 'pt' para português).

  Returns:
    A tradução da palavra ou None em caso de erro.
  """
  try:
    tradutor = Translator()
    traducao = tradutor.translate(palavra, src=idioma_origem, dest=idioma_destino)
    return traducao.text
  except Exception as e:
    print(f"Erro ao traduzir: {e}")
    return None

# Exemplo de uso:
palavra_ingles = "watermelon"
palavra_portugues = traduzir_palavra(palavra_ingles)

if palavra_portugues:
  print(f"'{palavra_ingles}' em português é '{palavra_portugues}'")

'watermelon' em português é 'melancia'
