In [1]:
!pip install transformers



In [4]:
#Importing the necessary libraries

import transformers
from transformers import pipeline

# **Questioning and answering**

In [5]:
#The first thing that needs to be done is to instantiate the model

model = pipeline("question-answering", model = "pierreguillou/bert-base-cased-squad-v1.1-portuguese")

Device set to use cpu


In [15]:
#Testing the desired mechanism

my_text = """Jin Yoshida era um cientista japonês que estava em serviço na PATHOS-II , estacionada em Tau . Em SOMA , ele atua tanto como um personagem secundário quanto como um inimigo , pois quando Simon Jarrett o encontra, ele já havia se transformado em uma criatura hostil e irracional."""

my_question = "Onde Jin Yoshida nasceu?"
my_question2 = "Quem era Jin Yoshida?"
question3 = "Qual era o segundo nome de Jin?"

answer = model(question = my_question, context = my_text)
answer2 = model(question = my_question2, context = my_text)
answer3 = model(question = question3, context = my_text)

print(answer)
print(answer2)
print(answer3)

{'score': 0.9337292313575745, 'start': 89, 'end': 92, 'answer': 'Tau'}
{'score': 0.8785088658332825, 'start': 19, 'end': 36, 'answer': 'cientista japonês'}
{'score': 0.6034049987792969, 'start': 0, 'end': 11, 'answer': 'Jin Yoshida'}


# **Filling holes from texts**

In [16]:
mask = pipeline("fill-mask", model="neuralmind/bert-base-portuguese-cased")

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


In [17]:
my_text = mask("Jin Yoshida é Japonês pois nasceu no [MASK]")
my_text2 = mask("Jin Yoshida nasceu no japão então ele é [MASK]")


my_text

[{'score': 0.8335278034210205,
  'token': 2795,
  'token_str': 'Japão',
  'sequence': 'Jin Yoshida é Japonês pois nasceu no Japão'},
 {'score': 0.08322802931070328,
  'token': 771,
  'token_str': 'Brasil',
  'sequence': 'Jin Yoshida é Japonês pois nasceu no Brasil'},
 {'score': 0.009091347455978394,
  'token': 19487,
  'token_str': 'Havaí',
  'sequence': 'Jin Yoshida é Japonês pois nasceu no Havaí'},
 {'score': 0.0061177099123597145,
  'token': 100,
  'token_str': '[UNK]',
  'sequence': 'Jin Yoshida é Japonês pois nasceu no'},
 {'score': 0.005422110203653574,
  'token': 3734,
  'token_str': 'México',
  'sequence': 'Jin Yoshida é Japonês pois nasceu no México'}]

In [18]:
my_text2

[{'score': 0.24342842400074005,
  'token': 119,
  'token_str': '.',
  'sequence': 'Jin Yoshida nasceu no japão então ele é.'},
 {'score': 0.11482537537813187,
  'token': 131,
  'token_str': ':',
  'sequence': 'Jin Yoshida nasceu no japão então ele é :'},
 {'score': 0.07961302995681763,
  'token': 100,
  'token_str': '[UNK]',
  'sequence': 'Jin Yoshida nasceu no japão então ele é'},
 {'score': 0.03227902576327324,
  'token': 6296,
  'token_str': 'japonês',
  'sequence': 'Jin Yoshida nasceu no japão então ele é japonês'},
 {'score': 0.03148907795548439,
  'token': 222,
  'token_str': 'um',
  'sequence': 'Jin Yoshida nasceu no japão então ele é um'}]

# **Summarization**

In [19]:
summarizer = pipeline("summarization")

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Device set to use cpu


In [29]:
my_text = """Jin Yoshida era um cientista japonês que estava em serviço na PATHOS-II , estacionada em Tau . Em SOMA , ele atua tanto como um personagem secundário quanto como um inimigo , pois quando Simon Jarrett o encontra, ele já havia se transformado em uma criatura hostil e irracional."""

In [31]:
resumo = summarizer(my_text, max_length= 70, min_length = 20)

In [32]:
print(resumo)

[{'summary_text': ' Jin Yoshida was a cientista japonês que estava em serviço na PATHOS-II, estacionada em Tau . Em SOMA, ele atua tanto como como um personagem secundário quanto aso as inimigo .'}]


# **Text Generation**

In [33]:
generator = pipeline("text-generation", model="pierreguillou/gpt2-small-portuguese")

config.json:   0%|          | 0.00/666 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/92.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/850k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/508k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/120 [00:00<?, ?B/s]

Device set to use cpu


In [34]:
text = "Terry Akers, assim como Jin Yoshida é um monstro de SOMA"
result = generator(text,max_length = 40, do_sample = True)
print(result)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': 'Terry Akers, assim como Jin Yoshida é um monstro de SOMA e, bem como um de B-Matsuk. Tem uma cauda grande e de aspecto semelhante a uma galinha,'}]


In [35]:
text = "Super Mario é um jogo de Nintendo"
result = generator(text,max_length = 40, do_sample = True)
print(result)

[{'generated_text': 'Super Mario é um jogo de Nintendo 64. É dividido em duas telas (3P e 3D) e tem como limite de tela a entrada, o formato de tela, o formato de tela sensível'}]
