In [1]:
!pip install -q transformers

In [None]:
!pip install -q torch==1.13.1

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m887.5/887.5 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m849.3/849.3 kB[0m [31m46.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m557.1/557.1 MB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.1/317.1 MB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m21.0/21.0 MB[0m [31m39.3 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Importação das bibliotecas necessárias
import transformers
import torch
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

torch       : 1.13.1
transformers: 4.28.1



## Arquitetura BioBERT

Usaremos o modelo BioBERT para classificar se uma sentença de texto é relacionada à saúde. Primeiro, definimos o modelo e o tokenizador BioBERT usando a biblioteca transformers. Em seguida, tokenizamos um texto de exemplo, passamos os tokens pelo modelo BioBERT para obter as saídas e, finalmente, usamos a saída da última camada para classificar a sentença.

https://huggingface.co/dmis-lab/biobert-v1.1

In [None]:
# Definição do modelo BioBERT
model = transformers.AutoModel.from_pretrained("dmis-lab/biobert-v1.1")

In [None]:
# Definição do tokenizador BioBERT
tokenizer = transformers.AutoTokenizer.from_pretrained("dmis-lab/biobert-v1.1")

In [None]:
# Texto de exemplo
text = "A insulina é um hormônio que ajuda a regular o açúcar no sangue"

In [None]:
# Tokenização do texto de exemplo
tokens = tokenizer.encode_plus(text,
                               max_length = 128,
                               truncation = True,
                               padding = "max_length",
                               return_tensors = "pt")

In [None]:
tokens

{'input_ids': tensor([[  101,   138, 26825,  1161,   255, 15276, 16358,  9019, 28206, 22772,
         15027,   170,  9380,  1810,   170,  2366,   184,   170, 28201, 12643,
          8766,  1185,  6407,  4175,   102,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,  

In [None]:
# Passando os tokens pelo modelo BioBERT para obter as saídas
outputs = model(**tokens)

In [None]:
# Classificação da sentença de acordo com a tarefa
# Aqui, por exemplo, estamos usando a saída da última camada para classificar a sentença
last_hidden_state = outputs.last_hidden_state
classification = torch.argmax(last_hidden_state[0][0])

In [None]:
# Imprimindo a classificação da sentença
print(f"A classificação da sentença '{text}' é {classification}")

A classificação da sentença 'A insulina é um hormônio que ajuda a regular o açúcar no sangue' é 98


## Arquitetura SciBERT

Aqui usamos o modelo SciBERT para classificar o sentimento de um artigo científico. Primeiro, definimos o modelo e o tokenizador SciBERT usando a biblioteca transformers. Em seguida, tokenizamos um texto de exemplo, passamos os tokens pelo modelo SciBERT para obter as saídas e, finalmente, usamos a saída da última camada para classificar o sentimento do artigo.

https://huggingface.co/allenai/scibert_scivocab_cased

In [None]:
# Definição do modelo SciBERT
model = transformers.AutoModel.from_pretrained("allenai/scibert_scivocab_cased")

Some weights of the model checkpoint at allenai/scibert_scivocab_cased were not used when initializing BertModel: ['cls.predictions.decoder.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.weight', 'cls.predictions.decoder.bias', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
# Definição do tokenizador SciBERT
tokenizer = transformers.AutoTokenizer.from_pretrained("allenai/scibert_scivocab_cased")

In [None]:
# Texto de exemplo
text = "Este artigo apresenta uma revisão sistemática dos estudos recentes sobre os efeitos do COVID-19 no cérebro."

In [None]:
# Tokenização do texto de exemplo
tokens = tokenizer.encode_plus(text,
                               max_length = 128,
                               truncation = True,
                               padding = "max_length",
                               return_tensors = "pt")

In [None]:
# Passando os tokens pelo modelo SciBERT para obter as saídas
outputs = model(**tokens)

In [None]:
# Classificação do sentimento do artigo científico
# Aqui, por exemplo, estamos usando a saída da última camada para classificar o sentimento
last_hidden_state = outputs.last_hidden_state
classification = torch.argmax(last_hidden_state[0][0])

In [None]:
# Imprimindo a classificação do sentimento
if classification == 0:
    print(f"O sentimento do artigo '{text}' é negativo")
else:
    print(f"O sentimento do artigo '{text}' é positivo")


O sentimento do artigo 'Este artigo apresenta uma revisão sistemática dos estudos recentes sobre os efeitos do COVID-19 no cérebro.' é positivo


## Arquitetura FinBERT

Aqui usamos o modelo FinBERT para classificar o sentimento de uma notícia financeira. Primeiro, definimos o modelo e o tokenizador FinBERT usando a biblioteca transformers. Em seguida, tokenizamos um texto de exemplo, passamos os tokens pelo modelo FinBERT para obter as saídas e, finalmente, usamos a saída da última camada para classificar o sentimento da notícia financeira.

https://huggingface.co/ProsusAI/finbert

In [None]:
# Definição do modelo FinBERT
model = transformers.AutoModel.from_pretrained("ProsusAI/finbert")

Some weights of the model checkpoint at ProsusAI/finbert were not used when initializing BertModel: ['classifier.bias', 'classifier.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
# Definição do tokenizador FinBERT
tokenizer = transformers.AutoTokenizer.from_pretrained("ProsusAI/finbert")

In [None]:
# Texto de exemplo
text = "As ações da empresa X subiram após o anúncio dos lucros trimestrais."

In [None]:
# Tokenização do texto de exemplo
tokens = tokenizer.encode_plus(text, max_length=128, truncation=True, padding="max_length", return_tensors="pt")

In [None]:
# Passando os tokens pelo modelo FinBERT para obter as saídas
outputs = model(**tokens)

In [None]:
# Classificação do sentimento da notícia financeira
# Aqui, por exemplo, estamos usando a saída da última camada para classificar o sentimento
last_hidden_state = outputs.last_hidden_state
classification = torch.argmax(last_hidden_state[0][0])

In [None]:
# Imprimindo a classificação do sentimento
if classification == 0:
    print(f"O sentimento da notícia financeira '{text}' é negativo")
else:
    print(f"O sentimento da notícia financeira '{text}' é positivo")

O sentimento da notícia financeira 'As ações da empresa X subiram após o anúncio dos lucros trimestrais.' é positivo


## Arquitetura ByT5 (Bidirectional Encoder-Decoder Transformer-5)

A arquitetura ByT5 (Bidirectional Encoder-Decoder Transformer-5) é um modelo de processamento de linguagem natural proposto pelo Google Brain em 2021. É uma extensão da arquitetura T5 (Transformer-5) que utiliza um codificador e um decodificador com conexões de atenção para gerar saídas de texto de alta qualidade para uma variedade de tarefas de PLN. O modelo é pré-treinado em um grande conjunto de dados de texto em vários idiomas e tarefas, e pode ser finamente ajustado para uma ampla gama de tarefas de PLN, incluindo tradução automática, sumarização de texto, perguntas e respostas, entre outros.

A arquitetura ByT5 é baseada no modelo Transformer, que usa conexões de atenção para permitir que o modelo capture informações de contexto de palavras e frases em torno da palavra atual. Ele também incorpora a ideia de codificação e decodificação bidirecionais, permitindo que o modelo leve em consideração o contexto tanto antes quanto depois da palavra atual. O modelo ByT5 é composto por um codificador bidirecional e um decodificador unidirecional, que trabalham juntos para gerar saídas de texto de alta qualidade.

O modelo ByT5 é treinado usando uma técnica conhecida como tarefa de preenchimento de lacunas, na qual uma palavra ou frase é removida do texto e o modelo é treinado para preencher essa lacuna corretamente. O modelo é treinado em várias tarefas de preenchimento de lacunas em vários idiomas e em várias tarefas de PLN, o que permite que o modelo capture uma ampla gama de informações de contexto em diferentes domínios.

Este exemplo ilustra o uso da arquitetura ByT5 para traduzir uma frase em inglês para francês. Primeiro, definimos o modelo e o tokenizador ByT5 usando a biblioteca transformers. Em seguida, tokenizamos o texto de exemplo em inglês e usamos o modelo ByT5 para gerar a tradução em francês. Finalmente, decodificamos a saída do modelo e imprimimos a tradução.

In [None]:
# Definição do modelo ByT5
model = transformers.AutoModelForSeq2SeqLM.from_pretrained("t5-base")

In [None]:
# Definição do tokenizador ByT5
tokenizer = transformers.AutoTokenizer.from_pretrained("t5-base")

In [None]:
# Texto de exemplo longo
text = "This is a long text about the benefits of exercise. Exercise is important for \
maintaining physical and mental health. It can help to reduce the risk of chronic diseases such as diabetes, \
heart disease, and cancer. Exercise can also improve mood, reduce stress and anxiety, and improve sleep quality. \
There are many different types of exercise, including aerobic exercise, strength training, and flexibility \
exercises. It is important to find an exercise routine that works for you and that you enjoy doing."

In [None]:
# Tokenização do texto de exemplo
tokens = tokenizer.prepare_seq2seq_batch(src_texts = [text],
                                         max_length = 512,
                                         return_tensors = "pt")

In [None]:
# Resumo do texto usando o modelo ByT5
summary = model.generate(**tokens,
                         num_beams = 4,
                         length_penalty = 2.0,
                         max_length = 150,
                         early_stopping = True)

In [None]:
# Decodificação da saída do modelo
summarized_text = tokenizer.decode(summary[0], skip_special_tokens = True)

In [None]:
# Imprimindo o resumo
print(f"O resumo do texto é: {summarized_text}")

O resumo do texto é: exercise can help to reduce the risk of chronic diseases such as diabetes, heart disease, and cancer. Exercise can also improve mood, reduce stress and anxiety, and improve sleep quality.


# Fim