# Transformers

In [1]:
import transformers
from transformers import pipeline
import torch

  from .autonotebook import tqdm as notebook_tqdm


### Generator

In [2]:
gen = pipeline("text-generation", model="pierreguillou/gpt2-small-portuguese")

In [3]:
text = "Em sentido estrito, ciência refere-se ao sistema de adquirir conhecimento baseado no método científico."
result = gen(text, max_length=60, do_sample=True)
print(result)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


[{'generated_text': 'Em sentido estrito, ciência refere-se ao sistema de adquirir conhecimento baseado no método científico. Cientistas, filósofos, artistas, matemáticos e cientistas são classificados por sua compreensão do conhecimento científico, ou pelo contexto em que se fundamentam e constituem o conhecimento científico - isto é, a compreensão científico-histórico,'}]


### Q&A

In [4]:
qea = pipeline("question-answering", model="pierreguillou/bert-base-cased-squad-v1.1-portuguese")

In [6]:
text = "Carl Sagan foi um cientista norte-americano. Sagan é autor de mais de 600 publicações científicas e também de mais de vinte livros de ciência e ficção científica."
ask = "Quantas publicações cientificas Carl Sagan tem publicado?"
ans = qea(question=ask, context=text)
print("Pergunta: ", ask)
print("Resposta: ", ans['answer'])
print("Score: ", ans['score'])

Pergunta:  Quantas publicações cientificas Carl Sagan tem publicado?
Resposta:  mais de 600
Score:  0.7415900826454163


### Fill masks

In [7]:
mask_pipe = pipeline("fill-mask", model="neuralmind/bert-base-portuguese-cased")

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [10]:
text = mask_pipe("Pelé foi o rei do [MASK]")
for x in range(len(text)):
  print(text[x])

{'score': 0.6697025299072266, 'token': 2200, 'token_str': 'futebol', 'sequence': 'Pelé foi o rei do futebol'}
{'score': 0.05024900659918785, 'token': 771, 'token_str': 'Brasil', 'sequence': 'Pelé foi o rei do Brasil'}
{'score': 0.04322446137666702, 'token': 7171, 'token_str': 'esporte', 'sequence': 'Pelé foi o rei do esporte'}
{'score': 0.02140439674258232, 'token': 1147, 'token_str': 'mundo', 'sequence': 'Pelé foi o rei do mundo'}
{'score': 0.014360670000314713, 'token': 2995, 'token_str': 'Santos', 'sequence': 'Pelé foi o rei do Santos'}


### Summarization

In [12]:
summarizer = pipeline("summarization")

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [13]:
text = """Carl Edward Sagan  foi um cientista, físico, biólogo, astrônomo, astrofísico, cosmólogo, escritor, divulgador científico e ativista norte-americano. Sagan é autor de mais de 600 publicações científicas[4][5] e também de mais de vinte livros de ciência e ficção científica.
Foi durante a vida um grande defensor do ceticismo e do uso do método científico. Promoveu a busca por inteligência extraterrestre através do projeto SETI e instituiu o envio de mensagens a bordo de sondas espaciais, destinadas a informar possíveis civilizações extraterrestres sobre a existência humana. Mediante suas observações da atmosfera de Vênus, foi um dos primeiros cientistas a estudar o efeito estufa em escala planetária. Também fundou a organização não governamental Sociedade Planetária e foi pioneiro no ramo da exobiologia. Sagan passou grande parte da carreira como professor da Universidade Cornell, onde foi diretor do laboratório de estudos planetários. Em 1960 obteve o título de doutor pela Universidade de Chicago.
Sagan é conhecido por seus livros de divulgação científica e pela premiada série televisiva de 1980 Cosmos: Uma Viagem Pessoal, que ele mesmo narrou e coescreveu.[9] O livro Cosmos foi publicado para complementar a série. Sagan escreveu o romance Contact, que serviu de base para um filme homônimo de 1997. Em 1978, ganhou o Prémio Pulitzer de Não Ficção Geral pelo seu livro The Dragons of Eden. Morreu aos 62 anos, de pneumonia, depois de uma batalha de dois anos com uma rara e grave doença na medula óssea (mielodisplasia).
Ao longo de sua vida, recebeu vários prêmios e condecorações pelo seu trabalho de divulgação científica. Sagan é considerado um dos divulgadores científicos mais carismáticos e influentes da história, graças a sua capacidade de transmitir as ideias científicas e os aspectos culturais ao público não especializado."""

In [14]:
summary = summarizer(text, max_length=100, min_length=50)
print(summary)

[{'summary_text': ' Carl Edward Sagan was a cientista, físico, biólogo, astrônomo, astrofísico . Promoveu a busca por inteligência extraterrestre através do projeto SETI . Ganhou Pulitzer de Não Ficção Geral pelo seu livro The Dragons of Eden .'}]
