 Este notebook é uma adaptação do curso aberto do Hugging face. Para ver a código original e completo acesse: https://huggingface.co/course/

In [1]:
## Descomente para instalar a biblioteca de transformers do Hugging face
!pip install datasets evaluate transformers[sentencepiece]



In [1]:
#Importando a biblioteca de transformers do Hugging face
from transformers import pipeline

# Análise de sentimento

In [3]:
# Definindo o pipeline com a tarefa a ser desempenhada
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [4]:
# Utilizando o modelo 
classifier('I love hugging face!')

[{'label': 'POSITIVE', 'score': 0.9998641014099121}]

### Para utilizar outros modelos acesse [huggingface.co/models](https://huggingface.co/models)

In [5]:
classificador = pipeline("sentiment-analysis",                                      # Definição da tarefa a ser desempenhada
                model="citizenlab/twitter-xlm-roberta-base-sentiment-finetunned")   # Definição do modelo a ser utilizado

In [6]:
# Utilizando o modelo 
classificador('Eu amo o hugging face!')

[{'label': 'Positive', 'score': 0.9916222095489502}]

In [7]:
# Analisando multiplos documentos
classificador(["Eu amo as aulas da Tera", "Matemática é muito chato", "Meu cachorro é azul"])

[{'label': 'Positive', 'score': 0.9908831715583801},
 {'label': 'Negative', 'score': 0.9845834970474243},
 {'label': 'Neutral', 'score': 0.9848229885101318}]

**Casos de uso**



*   Classificação de comentários de mídias sociais 

*   Análise de avaliações e notas de aplicativos

*   Ativos financeiros












# Zero-Shot classification

In [2]:
# Definindo a tarefa a ser desempenhada
zero_shot = pipeline("zero-shot-classification")

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)okenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [3]:
# Utilizando o Zero-shot na classificação de documentos
zero_shot("This is a course about the Transformers library",
          candidate_labels=["education", "politics", "business"])

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445999622344971, 0.11197338253259659, 0.04342666268348694]}

In [4]:
# Utilizando o Zero-shot na classificação de documentos
zero_shot("Vou apresentar meu pitch na reunião da empresa de amanhã.",
          candidate_labels=["educação", "politica", "negócios"])

{'sequence': 'Vou apresentar meu pitch na reunião da empresa de amanhã.',
 'labels': ['negócios', 'politica', 'educação'],
 'scores': [0.5291113257408142, 0.3684241473674774, 0.10246454179286957]}

In [5]:
# Utilizando o Zero-shot na classificação de documentos
zero_shot("Lula é o atual presidente do Brasil",
          candidate_labels=["educação", "politica", "negócios"])

{'sequence': 'Lula é o atual presidente do Brasil',
 'labels': ['politica', 'negócios', 'educação'],
 'scores': [0.7761214971542358, 0.18373116850852966, 0.0401473194360733]}

**Casos de uso**

*   URA
*   Identificação de assunto nos textos 
*   Agrupamento de comentários de mídias sociais por assunto



# Geração de texto

In [6]:
gerador = pipeline("text-generation",                                           # Definindo a tarefa a ser desempenhada
                   model="pucpr/gpt2-bio-pt")                                   # Definindo o Modelo

Downloading (…)lve/main/config.json:   0%|          | 0.00/832 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/92.0 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/850k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/508k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/120 [00:00<?, ?B/s]

In [None]:
#Definindo o texto a ser completado

doc = gerador("Hoje eu vou te ensinar sobre NLP e",                                    #Frase a ser completada
        max_length=30,                                                           #Quantidade de tokens desejada
        num_return_sequences=2)                                                  #Quantidade de sentenças desejada

In [None]:
doc

**Casos de uso** 



*   Auto corretor





# Auto preenchimento

In [None]:
autofill = pipeline("fill-mask",                                                #Definindo tarefa
                    model="xlm-roberta-large")                                  #Definindo modelos

In [None]:
doc = autofill("Eu estou <mask> com esse curso.",                                #Definindo o input, <mask> é a palavra a ser auto preenchida
               top_k=2)                                                          #Definindo o número de saídas da camada softmax

In [None]:
doc

**Casos de uso** 

* Auto corretor

# NER

In [None]:
ner = pipeline("ner",                                                           # Definindo a tarefa a ser desempenhada
               model= 'jplu/tf-xlm-r-ner-40-lang',                              # Definindo o modelo a ser utilizado
               grouped_entities=True)                                           #Agrupa os grupos de entidade similares

In [None]:
doc = ner("Meu nome é Bruno e eu trabalho na Tera.")
doc

# Question answering

In [None]:
gera_resposta = pipeline("question-answering",                                   # Definindo a tarefa a ser desempenhada
                         model = "pucpr/bioBERTpt-squad-v1.1-portuguese")        # Definindo o modelo a ser utilizado

In [None]:
resposta = gera_resposta(question="Do que o Bruno gosta?",
                        context="Meu nome é Bruno e eu gosto de acampar")

In [None]:
resposta

In [None]:
resposta = gera_resposta(question="por que se precisava de uma reinvidicação?",
                         
context=''' Pedro Álvares Cabral foi um fidalgo, comandante militar, navegador e explorador português, 
creditado como o descobridor do Brasil. Realizou significativa 
exploração da costa nordeste da América do Sul, reivindicando-a para Portugal. 
Embora os detalhes da vida de Cabral sejam esparsos, sabe-se que veio de uma família 
nobre colocada na província interior e recebeu uma boa educação formal.
Foi nomeado para chefiar uma expedição à Índia em 1500, seguindo a rota recém-inaugurada 
por Vasco da Gama, contornando a África. O objetivo deste empreendimento 
era retornar com especiarias valiosas e estabelecer relações comerciais na Índia — contornando 
o monopólio sobre o comércio de especiarias, então nas mãos de 
comerciantes árabes, turcos e italianos. Aí sua frota, de 13 navios, afastou-se bastante da 
costa africana, talvez intencionalmente, desembarcando no que ele 
inicialmente achou tratar-se de uma grande ilha à qual deu o nome de Vera Cruz (Verdadeira Cruz) 
e a que Pêro Vaz de Caminha faz referência. Explorou o litoral e 
percebeu que a grande massa de terra era provavelmente um continente, despachando em seguida um 
navio para notificar o rei Manuel I da descoberta das terras. Como 
o novo território se encontrava dentro do hemisfério português de acordo com o Tratado de Tordesilhas, 
reivindicou-o para a Coroa Portuguesa. Havia desembarcado na 
América do Sul, e as terras que havia reivindicado para o Reino de Portugal mais tarde constituiriam 
o Brasil. A frota reabasteceu-se e continuou rumo ao leste, com 
a finalidade de retomar a viagem rumo à Índia.''')

In [None]:
resposta

**Casos de uso**

* Chatbot
* FAQ automatizado
* analisar contratos juridicos

# Resumo de texto

In [None]:
#Definindo a tarefa do Pipeline
summarizer = pipeline("summarization")

In [None]:
# Utilizando o resumo
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of 
    graduates in traditional engineering disciplines such as mechanical, civil, 
    electrical, chemical, and aeronautical engineering declined, but in most of 
    the premier American universities engineering curricula now concentrate on 
    and encourage largely the study of engineering science. As a result, there 
    are declining offerings in engineering subjects dealing with infrastructure, 
    the environment, and related issues, and greater concentration on high 
    technology subjects, largely supporting increasingly complex scientific 
    developments. While the latter is important, it should not be at the expense 
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other 
    industrial countries in Europe and Asia, continue to encourage and advance 
    the teaching of engineering. Both China and India, respectively, graduate 
    six and eight times as many traditional engineers as does the United States. 
    Other industrial countries at minimum maintain their output, while America 
    suffers an increasingly serious decline in the number of engineering graduates 
    and a lack of well-educated engineers.
"""
)

# Tradução de texto

In [None]:
#Definindo a tarefa do Pipeline
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-pt")

In [None]:
translator("I'm hungry.")