In [12]:
!pip install transformers



## **Sentence Prediction:** Fill-Mask

In [13]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline, set_seed
from textwrap import wrap

In [14]:
unmasker = pipeline('fill-mask', model='distilbert-base-uncased')
unmasker("On Sundays I enjoy [MASK] at home")

[{'score': 0.06422755122184753,
  'sequence': 'on sundays i enjoy breakfast at home',
  'token': 6350,
  'token_str': 'breakfast'},
 {'score': 0.05887323617935181,
  'sequence': 'on sundays i enjoy reading at home',
  'token': 3752,
  'token_str': 'reading'},
 {'score': 0.05435291305184364,
  'sequence': 'on sundays i enjoy eating at home',
  'token': 5983,
  'token_str': 'eating'},
 {'score': 0.04633665084838867,
  'sequence': 'on sundays i enjoy working at home',
  'token': 2551,
  'token_str': 'working'},
 {'score': 0.026207586750388145,
  'sequence': 'on sundays i enjoy gardening at home',
  'token': 21529,
  'token_str': 'gardening'}]

## **Question Answering**

In [15]:
## The context was extracted from: https://pt.wikipedia.org/wiki/Florian%C3%B3polis 

context = r"""

Florianópolis é a capital do estado brasileiro de Santa Catarina, na região Sul do país. 
O município é composto pela ilha principal, a ilha de Santa Catarina, a parte continental e algumas pequenas ilhas circundantes. 
A cidade tem uma população de 500 973 habitantes, de acordo com estimativas para 2019 do Instituto Brasileiro de Geografia e Estatística (IBGE). 
É o segundo município mais populoso do estado (após Joinville) e o 48º do Brasil. 
A região metropolitana tem uma população estimada de 1 209 818 habitantes, a 21ª maior do país. 
A cidade é conhecida por ter uma elevada qualidade de vida, sendo a capital brasileira com maior pontuação do Índice de Desenvolvimento Humano (IDH), calculado pelo PNUD, das Nações Unidas.[10]

A economia de Florianópolis é fortemente baseada na tecnologia da informação, no turismo e nos serviços.[12]
 A cidade tem mais de 100 praias registradas e é um centro de atividade de navegação. 
 O jornal estadunidense The New York Times afirmou em 2009 que "Florianópolis era o destino do ano".[13] 
 A Newsweek considerou que o município é uma das "dez cidades mais dinâmicas do mundo" em 2006.[14] 
 A revista Veja classificou a cidade como "o melhor lugar para se viver no Brasil",[15] enquanto que o Índice de Cidades Empreendedoras (ICE), 
 elaborado pela filial brasileira da ONG norte-americana Endeavor, elegeu a cidade como o melhor ambiente para o empreendedorismo no país.[16] 
 A cidade também foi considerada pela Organização das Nações Unidas para a Educação, a Ciência e a Cultura (Unesco) uma das "cidades criativas" do Brasil em 2014, ao lado de Curitiba.[17]

"""

model_name = 'pierreguillou/bert-base-cased-squad-v1.1-portuguese'
nlp = pipeline("question-answering", model=model_name)

question = "O que diz The New York Times do Floripa?"

result = nlp(question=question, context=context)

print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")


Answer: '"Florianópolis era o destino do ano"', score: 0.5065, start: 1002, end: 1038


## **Text Generation:** GPT2

In [16]:
generator = pipeline('text-generation', model='gpt2')
set_seed(42)
generator("My name is Marce, I am Data Scientist and", max_length=30, num_return_sequences=5)


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'My name is Marce, I am Data Scientist and I am writing a paper which will describe the problems and opportunities for the field of data visualization.'},
 {'generated_text': 'My name is Marce, I am Data Scientist and Software Engineer, and I am an expert in a variety of related fields. I have worked on'},
 {'generated_text': 'My name is Marce, I am Data Scientist and currently working in the research area of blockchain. The project to take a completely decentralized application using Ethereum'},
 {'generated_text': "My name is Marce, I am Data Scientist and a Senior Director of Security Research at ATSB's Directorate of Cyber Crime in Airmen"},
 {'generated_text': 'My name is Marce, I am Data Scientist and I work like crazy. I create code as well as code analyzers. But we are really'}]

In [17]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-es-en")
model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-es-en")

# References


https://huggingface.co/distilbert-base-uncased?text=The+goal+of+life+is+%5BMASK%5D.



https://huggingface.co/transformers/master/model_doc/pegasus.html


https://huggingface.co/gpt2?text=My+name+is+Mariama%2C+my+favorite
