## ProphetNET

É um modelo de geração de texto baseado em Transformers que utiliza uma técnica de predição autoregressiva aprimorada chamada autoregressão profética, que se concentra na previsão das próximas palavras mais importantes em uma sequência de texto (Microsoft).



In [None]:
from transformers import ProphetNetTokenizer, ProphetNetForConditionalGeneration

# Load the pre-trained ProphetNet model and tokenizer
tokenizer = ProphetNetTokenizer.from_pretrained('microsoft/prophetnet-large-uncased')
model = ProphetNetForConditionalGeneration.from_pretrained('microsoft/prophetnet-large-uncased')

# Define your input text
input_text = "The future of AI in healthcare is"

# Encode the input text
input_tokens = tokenizer.encode(input_text, return_tensors="pt")

# Generate predictions (output tokens) from the model
output_tokens = model.generate(input_tokens, max_length=50, num_beams=5, early_stopping=True)

# Decode the output tokens to a readable string
generated_text = tokenizer.decode(output_tokens[0], skip_special_tokens=True)

print("Generated Text:", generated_text)

## Reformers

São modelos de linguagem baseados em Transformers que utilizam uma arquitetura eficiente de memória longa e reduzem a complexidade computacional por meio de um mecanismo de atenção esparsa.

In [None]:
from transformers import ReformerModel, ReformerTokenizer

# Load pre-trained model and tokenizer
model_name = "google/reformer-enwik8"
model = ReformerModel.from_pretrained(model_name)
tokenizer = ReformerTokenizer.from_pretrained(model_name)

# Generate text
input_text = "Reformer is known for its efficiency."
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
output = model.generate(input_ids)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

## ELECTRA 

É um modelo pré-treinado baseado em Transformers que propõe uma abordagem eficiente de pré-treinamento de linguagem, onde um discriminador é treinado para distinguir tokens reais de tokens gerados pelo modelo, resultando em um treinamento mais rápido e eficiente (Google).

In [None]:
from transformers import ElectraTokenizer, ElectraForSequenceClassification, pipeline

# Load the pre-trained ELECTRA model and tokenizer
model_name = "google/electra-small-discriminator"
tokenizer = ElectraTokenizer.from_pretrained(model_name)
model = ElectraForSequenceClassification.from_pretrained(model_name)

# Initialize a pipeline for sequence classification
nlp = pipeline("text-classification", model=model, tokenizer=tokenizer)

# Define the input text
text = "The movie was fantastic and full of suspense. Definitely a must-watch!"

# Use the pipeline to classify the text
classification = nlp(text)

# Print the classification result
print("Classification Result:", classification)

## CTRL 

É um modelo de linguagem condicionado baseado em Transformers que gera texto com base em um contexto inicial específico fornecido pelo usuário, permitindo a geração controlada e direcionada de texto (OpenAI).

In [None]:
# This may run slow
from transformers import CTRLTokenizer, CTRLLMHeadModel

# Load the pre-trained CTRL model and tokenizer
model_name = 'ctrl'
tokenizer = CTRLTokenizer.from_pretrained(model_name)
model = CTRLLMHeadModel.from_pretrained(model_name)

# Define a control code and input text. For example, 'Links' control code generates text in the style of a Wikipedia article.
control_code = "Links"
input_text = control_code + " The Great Pyramid of Giza"
input_tokens = tokenizer.encode(input_text, return_tensors="pt")

# Generate text using the model
output_tokens = model.generate(input_tokens, max_length=100, temperature=0.7)

# Decode the generated tokens to a readable string
generated_text = tokenizer.decode(output_tokens[0], skip_special_tokens=True)

print("Generated Text:", generated_text)

## Pegasus

É um modelo de geração de texto baseado em Transformers que utiliza uma arquitetura de codificador-decodificador para gerar resumos de texto de alta qualidade, sendo especialmente eficaz para tarefas de geração de texto abstrato (Google).

In [None]:
from transformers import PegasusTokenizer, PegasusForConditionalGeneration

# Load the pre-trained PEGASUS model and tokenizer
model_name = 'google/pegasus-xsum'
tokenizer = PegasusTokenizer.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)

# Define your input text that you want to summarize
input_text = """The COVID-19 pandemic has led to a dramatic loss of human life worldwide and presents an unprecedented challenge to public health, food systems, and the world of work. The economic and social disruption caused by the pandemic is devastating: tens of millions of people are at risk of falling into extreme poverty, while the number of undernourished people, currently estimated at nearly 690 million, could increase by up to 132 million by the end of the year."""

# Encode the input text
input_tokens = tokenizer.encode(input_text, return_tensors="pt")

# Generate the summary
summary_ids = model.generate(input_tokens, max_length=45, num_beams=4, length_penalty=2.0, early_stopping=True)

# Decode the summary
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Summary:", summary)

## ERNIE

É um modelo de linguagem pré-treinado baseado em Transformers, desenvolvido pela Baidu, que incorpora conhecimento de entidades e relações em sua representação, permitindo uma melhor compreensão e geração de texto em contextos específicos (Baidu).

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Load the pre-trained ERNIE model and tokenizer
model_name = 'nghuyong/ernie-2.0-en'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Example sentence
sentence = "The quick brown fox jumps over the lazy dog."

# Encode the sentence
inputs = tokenizer(sentence, return_tensors="pt")

# Predict
with torch.no_grad():
    logits = model(**inputs).logits

# Interpret the model output (for example, by applying a softmax function to obtain probabilities for each class)
probabilities = torch.softmax(logits, dim=1)

print("Probabilities:", probabilities)