# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Processamento de Linguagem Natural com Transformers</font>

## <font color='blue'>Estudo de Caso 1</font>
### <font color='blue'>Aplicando Modelos Generativos Pré-Treinados em Processamento de Linguagem Natural com PyTorch</font>

![title](imagens/EC1.png)

**O Que São e Como Usar Modelos Pré-Treinados?**

Os modelos pré-treinados são modelos de Inteligência Artificial que foram previamente treinados em uma grande quantidade de dados e podem ser reutilizados para resolver novos problemas sem a necessidade de treinamento adicional. Eles são usados como base para soluções de aprendizado profundo em uma ampla variedade de aplicações, como processamento de linguagem natural, classificação de imagens e extração de características.

Para usar um modelo pré-treinado, você pode transferir seus pesos (valores aprendidos) para uma nova tarefa específica, adicionar camadas adicionais para ajustar a saída para sua tarefa específica, ou congelar algumas camadas para evitar que sejam atualizadas durante o treinamento. É importante destacar que, em alguns casos, pode ser necessário ajustar o tamanho da entrada ou da saída para se adequar ao modelo pré-treinado.

**Repositório de Modelos Pré-Treinados:**
    
https://huggingface.co/

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [3]:
# https://pypi.org/project/torch/
!pip install -q torch==1.13.0

In [4]:
# https://pypi.org/project/torchvision/
!pip install -q torchvision==0.14.0

In [5]:
# https://pypi.org/project/datasets/
!pip install -q datasets

In [6]:
# https://pypi.org/project/transformers/
!pip install -q transformers

In [7]:
# https://pypi.org/project/sentence-transformers/
!pip install -q sentence-transformers

In [8]:
# Imports
import torch
import sklearn
import torchvision
import transformers
from transformers import pipeline
from sentence_transformers import SentenceTransformer
import warnings
warnings.filterwarnings("ignore")

In [9]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

sklearn     : 1.0.2
torchvision : 0.14.0
transformers: 4.26.0
torch       : 1.13.0



## Análise de Sentimentos

Análise de sentimentos é uma técnica de Processamento de Linguagem Natural que visa identificar e classificar emoções, opiniões ou atitudes em relação a um determinado assunto, conteúdo ou objeto. Isso é feito com base em uma coleção de dados previamente classificados, como textos, áudios ou vídeos, e aplicando algoritmos de aprendizado de máquina para detectar padrões e classificar novos dados. A análise de sentimentos é amplamente utilizada em diversas aplicações, como análise de mídia social, avaliação de produtos e serviços, e monitoramento de opiniões públicas.

Modelo Pré-Treinado:

https://huggingface.co/citizenlab/twitter-xlm-roberta-base-sentiment-finetunned

In [10]:
# Define o modelo a ser usado
modelo_1 = "citizenlab/twitter-xlm-roberta-base-sentiment-finetunned"

In [11]:
# Cria o classificador
classificador = pipeline("sentiment-analysis", model = modelo_1, tokenizer = modelo_1)

In [12]:
# Aplica o classificador
classificador("Eu estou gostando muito deste curso.")

[{'label': 'Positive', 'score': 0.9927366971969604}]

In [13]:
# Aplica o classificador
classificador("Eu não gosto de Abacate e por isso não como essa fruta.")

[{'label': 'Neutral', 'score': 0.5241102576255798}]

In [14]:
# Aplica o classificador
classificador(["Eu gosto de ler livros sobre programação.", "Eu odeio redes sociais!"])

[{'label': 'Positive', 'score': 0.5000373721122742},
 {'label': 'Negative', 'score': 0.9852501749992371}]

## Classificação Zero-Shot 

Classificação Zero-Shot é uma técnica de aprendizado de máquina que permite classificar objetos em categorias sem ter visto exemplos de treinamento para essas categorias específicas. Em outras palavras, ao invés de treinar um modelo de aprendizado de máquina com dados previamente rotulados para cada categoria, a Classificação Zero-Shot usa informações semânticas ou descrições das categorias, como atributos ou palavras-chave, para realizar a classificação. Essa técnica é particularmente útil em casos em que existem muitas categorias ou quando é necessário lidar com novas categorias que não foram previamente vistas durante o treinamento do modelo.

Modelo Pré-Treinado:

https://huggingface.co/facebook/bart-large-mnli

In [15]:
# Define o modelo a ser usado
modelo_2 = "facebook/bart-large-mnli"

In [16]:
# Cria o pipeline
classificador = pipeline("zero-shot-classification", model = modelo_2)

In [17]:
# Executa o classificador indicando as possíveis categorias
classificador("Este é um curso sobre Transformers para Processamento de Linguagem Natural.",
              candidate_labels = ["Educação", "Política", "Business"])

{'sequence': 'Este é um curso sobre Transformers para Processamento de Linguagem Natural.',
 'labels': ['Educação', 'Política', 'Business'],
 'scores': [0.49541381001472473, 0.41976165771484375, 0.08482454717159271]}

In [18]:
# Executa o classificador indicando as possíveis categorias
classificador(
    ["This year, a new law on animal rights was enacted.",
     "The world cup will was held in qatar in 2022", 
     "I prefer the songs from the 90s compared to the songs of today."],
    candidate_labels = ["education", "politics", "business", "art", "sport", "justice", "music", "space"],
)

[{'sequence': 'This year, a new law on animal rights was enacted.',
  'labels': ['justice',
   'sport',
   'space',
   'business',
   'politics',
   'art',
   'music',
   'education'],
  'scores': [0.4962727427482605,
   0.1233614981174469,
   0.08853249996900558,
   0.07567930966615677,
   0.07199753820896149,
   0.0601637065410614,
   0.044623151421546936,
   0.03936954215168953]},
 {'sequence': 'The world cup will was held in qatar in 2022',
  'labels': ['sport',
   'space',
   'business',
   'justice',
   'music',
   'art',
   'politics',
   'education'],
  'scores': [0.9264568090438843,
   0.020199649035930634,
   0.012847920879721642,
   0.012104946188628674,
   0.009082834236323833,
   0.008042543195188046,
   0.007204526104032993,
   0.004060797858983278]},
 {'sequence': 'I prefer the songs from the 90s compared to the songs of today.',
  'labels': ['music',
   'space',
   'justice',
   'business',
   'sport',
   'education',
   'art',
   'politics'],
  'scores': [0.90603423118

## Geração de Texto

Geração de Texto em PLN (Processamento de Linguagem Natural) é a tarefa de produzir texto automaticamente com base em dados ou modelos previamente treinados. É uma área de pesquisa ativa em PLN que envolve a aplicação de técnicas de aprendizado de máquina, linguística e outras ciências computacionais para produzir texto que seja natural e coerente. A geração de texto pode ser usada em aplicações como chatbots, assistentes virtuais, geração automática de notícias ou resumos, entre outras. Alguns dos desafios enfrentados na geração de texto incluem a produção de texto coerente, a geração de texto relevante e a geração de texto que siga padrões de escrita e estilo específicos.

Modelo Pré-Treinado:

https://huggingface.co/gpt2-large

In [19]:
# Define o modelo a ser usado
modelo_3 = 'gpt2-large'

In [20]:
# Cria o pipeline
gerador_texto = pipeline("text-generation", model = modelo_3)

In [21]:
gerador_texto("In this course I am going to learn how to apply Deep Learning and")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': "In this course I am going to learn how to apply Deep Learning and Artificial Intelligence to problem that I feel can't be answered with data modeling alone, I am going to work with R, Matlab, Python, and Matlab scripts in combination to"}]

In [22]:
gerador_texto("In the future people will be more gentle to each other")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In the future people will be more gentle to each other and those who are in a position of power. The power of the state is one important aspect."\n\nAt a reception to commemorate the birth of the "Queen Mother," Ms. Lee appeared'}]

## Prevendo a Próxima Palavra em Um Texto

Modelo Pré-Treinado:

https://huggingface.co/distilroberta-base

In [23]:
# Define o modelo a ser usado
modelo_4 = 'distilroberta-base'

In [24]:
# Pipeline
prever_palavra = pipeline("fill-mask", model = modelo_4)

In [25]:
prever_palavra("This course will teach you all about <mask> models.", top_k = 2)

[{'score': 0.19619810581207275,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052736610174179,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

## Named Entity Recognition (Classificação de Token)

Reconhecimento de Entidades Nomeadas (NER, na sigla em inglês), também conhecido como Classificação de Tokens, é uma tarefa em Processamento de Linguagem Natural (PLN) onde entidades nomeadas, como pessoas, organizações, locais, etc., são identificadas e classificadas em um texto. O objetivo do NER é extrair informações estruturadas a partir de dados de texto não estruturados e categorizar as entidades em categorias pré-definidas, como pessoa, local, organização, etc. Sistemas de NER usam técnicas como métodos baseados em regras, métodos baseados em dicionários e métodos baseados em aprendizado de máquina para realizar o reconhecimento e classificação de entidades nomeadas. O NER é uma etapa importante em muitas aplicações de PLN, incluindo recuperação de informações, resposta a perguntas e extração de eventos.

Modelo Pré-Treinado:

https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english

In [26]:
# Define o modelo a ser usado
modelo_5 = 'dbmdz/bert-large-cased-finetuned-conll03-english'

In [27]:
# Cria o pipeline
ner = pipeline("ner", model = modelo_5, grouped_entities = True)

In [28]:
ner("His name is Bob and he works at Microsoft in USA. He drives a Honda Civic and likes to play soccer.")

[{'entity_group': 'PER',
  'score': 0.99924123,
  'word': 'Bob',
  'start': 12,
  'end': 15},
 {'entity_group': 'ORG',
  'score': 0.99933344,
  'word': 'Microsoft',
  'start': 32,
  'end': 41},
 {'entity_group': 'LOC',
  'score': 0.99975616,
  'word': 'USA',
  'start': 45,
  'end': 48},
 {'entity_group': 'MISC',
  'score': 0.9722649,
  'word': 'Honda Civic',
  'start': 62,
  'end': 73}]

## Perguntas e Respostas

A resposta a perguntas (Question-answering - QA) em PLN refere-se à tarefa de responder automaticamente a perguntas feitas em texto de linguagem natural. O objetivo desses sistemas é entender a questão, recuperar informações relevantes de uma fonte, como um banco de dados ou um documento, e gerar uma resposta na forma de uma resposta de texto. Esses sistemas usam várias técnicas de PLN, como recuperação de informações, resumo de texto, reconhecimento de entidade nomeada e aprendizado de máquina para extrair informações relevantes e gerar uma resposta. A resposta a perguntas é uma tarefa desafiadora em PLN, pois requer a capacidade de entender questões complexas de linguagem natural e recuperar informações relevantes de um grande corpus de dados de texto. Esses sistemas são usados em várias aplicações, incluindo atendimento ao cliente, gerenciamento de conhecimento e tecnologia educacional.

Modelo Pré-Treinado:

https://huggingface.co/distilbert-base-cased-distilled-squad

In [29]:
# Define o modelo a ser usado
modelo_6 = 'distilbert-base-cased-distilled-squad'

In [30]:
# Criando o pipeline
question_answerer = pipeline("question-answering", model = modelo_6)

In [31]:
question_answerer(
    question = "Where does Bob work?",
    context = "Several tech professionals work for Microsoft in USA.",
)

{'score': 0.5150975584983826, 'start': 36, 'end': 45, 'answer': 'Microsoft'}

In [32]:
question_answerer(
    question = ["Where do you work?", "In which country do you work?", "what is your name?"],
        context = "My name is Bob and I work at Microsoft in USA.",
)

[{'score': 0.47943535447120667, 'start': 29, 'end': 38, 'answer': 'Microsoft'},
 {'score': 0.9943744540214539, 'start': 42, 'end': 45, 'answer': 'USA'},
 {'score': 0.9971503019332886, 'start': 11, 'end': 14, 'answer': 'Bob'}]

## Sumarização de Texto

Sumarização de Texto em Processamento de Linguagem Natural (PLN) é a tarefa de produzir uma representação resumida e concisa de um texto original. O objetivo da sumarização é capturar a essência do texto original e apresentá-lo de forma mais clara e concisa, sem perda de informação importante. A sumarização de texto pode ser realizada de duas formas: abstrata ou extrativa. A sumarização abstrata gera um resumo condensado usando uma linguagem diferente da original, enquanto a sumarização extrativa seleciona fragmentos de texto existentes da fonte original para criar o resumo. A sumarização de texto é amplamente utilizada em aplicações como notícias, resumos de documentos, análise de tendências, entre outras. A sumarização de texto desafiante em PLN, pois requer a compreensão do significado subjacente do texto e a habilidade de identificar e selecionar informações relevantes.

Modelo Pré-Treinado:

https://huggingface.co/sshleifer/distilbart-cnn-12-6

In [33]:
# Define o modelo a ser usado
modelo_7 = 'sshleifer/distilbart-cnn-12-6'

In [34]:
# Pipeline
summarizer = pipeline("summarization", model = modelo_7)

In [35]:
# Aplica o sumarizador
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of 
    graduates in traditional engineering disciplines such as mechanical, civil, 
    electrical, chemical, and aeronautical engineering declined, but in most of 
    the premier American universities engineering curricula now concentrate on 
    and encourage largely the study of engineering science. As a result, there 
    are declining offerings in engineering subjects dealing with infrastructure, 
    the environment, and related issues, and greater concentration on high 
    technology subjects, largely supporting increasingly complex scientific 
    developments. While the latter is important, it should not be at the expense 
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other 
    industrial countries in Europe and Asia, continue to encourage and advance 
    the teaching of engineering. Both China and India, respectively, graduate 
    six and eight times as many traditional engineers as does the United States. 
    Other industrial countries at minimum maintain their output, while America 
    suffers an increasingly serious decline in the number of engineering graduates 
    and a lack of well-educated engineers.
"""
)

[{'summary_text': ' America has changed dramatically during recent years . The number of engineering graduates in the U.S. has declined in traditional engineering disciplines such as mechanical, civil,    electrical, chemical, and aeronautical engineering . Rapidly developing economies such as China and India continue to encourage and advance the teaching of engineering .'}]

## Tradução de Idioma

A tradução de idioma em Processamento de Linguagem Natural (PLN) é o processo de transformar um texto escrito em uma língua para outra língua utilizando técnicas e tecnologias de PLN. O objetivo é produzir uma tradução precisa e coerente que mantenha o significado original do texto original. Esta tarefa pode ser realizada por sistemas de tradução automática ou por tradutores humanos assistidos por tecnologia.

Modelo Pré-Treinado:

https://huggingface.co/Helsinki-NLP/opus-mt-es-en

In [36]:
# Define o modelo a ser usado
modelo_8 = 'Helsinki-NLP/opus-mt-es-en'

In [37]:
# Pipeline
translator = pipeline("translation", model = modelo_8)

In [38]:
translator("América cambió drásticamente los últimos años.")

[{'translation_text': 'America changed dramatically over the last few years.'}]

# Fim