# Processamento de Linguagem Natural - Minicurso do SBBD 2022

Esse código foi desenvolvido para o minicurso de PLN no SBBD 2022.

Autoras: Helena Caseli, Cláudia Freitas e Roberta Viola

https://sites.google.com/view/brasileiras-pln/

Fontes:

*   Curso de Linguística Computacional da UFMG - Prof. Thiago Castro Ferreira
https://www.youtube.com/playlist?list=PLLrlHSmC0Mw73a1t73DEjgGMPyu8QssWT 
* https://spacy.io/  

* https://www.nltk.org/

* https://www.nltk.org/howto/portuguese_en.html

* https://colab.research.google.com/github/jeffheaton/t81_558_deep_learning/blob/master/t81_558_class_11_01_spacy.ipynb

* https://github.com/explosion/spacy-models/releases//tag/pt_core_news_md-2.3.0

* https://colab.research.google.com/github/jeffheaton/t81_558_deep_learning/blob/master/t81_558_class_11_02_word2vec.ipynb

* https://nicschrading.com/project/Intro-to-NLP-with-spaCy/
* https://huggingface.co/
* https://github.com/neuralmind-ai/portuguese-bert


# Corpus

In [19]:
exemplo = "Com estas palavras, André Coruja, além de quebrar o gelo que havia esfriado o clima, devolveu ao recinto a eloquência necessária para que a sessão continuasse. "


## Tokenização com expressões regulares
As expressões regulares também têm "memória", ou seja, podemos agrupar entre parênteses uma sequência que nos interessa e recuperar isso com a sequência \<NUM> onde <NUM> começa em 1 e vai crescendo de acordo com a ordem de aninhamento dos parênteses.

In [20]:
import re
tokenizado = re.sub(r"([,;.!?:])",r" \1",exemplo)
# Outra opção com resultado similar é: 
# tokenizado = re.sub(r"(\b)",r" \1",exemplo)
tokenizado

'Com estas palavras , André Coruja , além de quebrar o gelo que havia esfriado o clima , devolveu ao recinto a eloquência necessária para que a sessão continuasse . '

Depois de inserir os espaços nos lugares desejados, há um jeito muito simples de quebrar palavras em tokens usando funções pré-existentes e Python: ``split``

In [21]:
len(tokenizado.split())

30

# Spacy

Nesse código mostramos como fazer alguns processamentos básicos para o português usando SpaCy (https://spacy.io/).

Para isso, nosso primeiro passo é baixar e instalar o modelo para o português. Para executar a célula de código abaixo basta clicar no ícone de play que aparece ao lado dela.

Alguns modelos pré-treinados para o português estão disponíveis em: https://spacy.io/models/pt

In [22]:
!pip3 install -U pip setuptools wheel
!pip3 install -U spacy[cuda102]==3
!python3 -m spacy download pt_core_news_md

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pip
  Downloading pip-22.2.2-py3-none-any.whl (2.0 MB)
[K     |████████████████████████████████| 2.0 MB 5.2 MB/s 
Collecting setuptools
  Downloading setuptools-65.3.0-py3-none-any.whl (1.2 MB)
[K     |████████████████████████████████| 1.2 MB 49.1 MB/s 
Installing collected packages: setuptools, pip
  Attempting uninstall: setuptools
    Found existing installation: setuptools 57.4.0
    Uninstalling setuptools-57.4.0:
      Successfully uninstalled setuptools-57.4.0
  Attempting uninstall: pip
    Found existing installation: pip 21.1.3
    Uninstalling pip-21.1.3:
      Successfully uninstalled pip-21.1.3
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ipython 7.9.0 requires jedi>=0.10, which is not installed.
numba 0.56.2 requires setuptools<6

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy[cuda102]==3
  Downloading spacy-3.0.0-cp37-cp37m-manylinux2014_x86_64.whl (12.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.7/12.7 MB[0m [31m64.4 MB/s[0m eta [36m0:00:00[0m
Collecting thinc<8.1.0,>=8.0.0
  Downloading thinc-8.0.17-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (660 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m660.6/660.6 kB[0m [31m41.7 MB/s[0m eta [36m0:00:00[0m
Collecting typer<0.4.0,>=0.3.0
  Downloading typer-0.3.2-py3-none-any.whl (21 kB)
Collecting pydantic<1.8.0,>=1.7.1
  Downloading pydantic-1.7.4-cp37-cp37m-manylinux2014_x86_64.whl (9.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.1/9.1 MB[0m [31m78.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting cupy-cuda102<9.0.0,>=5.0.0b4
  Downloading cupy_cuda102-8.6.0-cp37-cp37m-manylinux1_x86_64.whl (126.3 MB)


Em seguida, fazemos a importação da SpaCy para podermos usá-la neste ambiente e carregamos o modelo baixado anteriormente dando a ele o nome pln.

In [23]:
import spacy

spacy.prefer_gpu()
pln = spacy.load("pt_core_news_md")

## Tokenização com **Spacy**

A partir de uma sentença de entrada, o modelo do SpaCy carregado para o português (pln) já faz o básico: tokenização e etiquetação (entre outros).

Vamos ver como fica nosso exemplo tokenizado e etiquetado.

In [24]:
sentenca = pln(exemplo)
for token in sentenca:
  print(token.text, token.lemma_) #, token.pos_) # token.lemma_, token.tag_, token.dep_, token.is_stop)

Com Com
estas este
palavras palavra
, ,
André André
Coruja Coruja
, ,
além além
de de
quebrar quebrar
o o
gelo gelar
que que
havia haver
esfriado esfriar
o o
clima clima
, ,
devolveu devolver
ao ao
recinto recinto
a o
eloquência eloquência
necessária necessário
para parir
que que
a o
sessão sessão
continuasse continuar
. .


## Remoção de stopwords e pontuação com **Spacy**
Outra tarefa bastante comum é remover as stopwords e os caracteres não alfanuméricos (como pontuação, por exemplo).

Vamos ver como fica nossa sentença de exemplo sem stopwords e símbolos de pontuação.

In [25]:
for token in sentenca:
  if not(token.is_stop) and token.is_alpha:
    print(token.text) #, token.pos_)

palavras
André
Coruja
quebrar
gelo
havia
esfriado
clima
devolveu
recinto
eloquência
necessária
sessão
continuasse


## Filtro de categorias retornadas pelo **Spacy**

Vejam que também é possível gerar outros filtros para imprimir/considerar apenas as palavras das categorias (ou dos tipos) que se deseja processar. Por exemplo, se a intenção é visualizar apenas os substantivos e adjetivos dessa sentença, podemos executar o código abaixo.

In [26]:
for token in sentenca:
  if (token.pos_ == "ADJ" or token.pos_ == "NOUN"):
    print(token.text)

palavras
gelo
clima
recinto
eloquência
necessária
sessão


# NLTK

Nesta parte do código vamos usar uma das ferramentas mais conhecidas para processamento automático de língua natural: o NLTK (https://www.nltk.org/).

Links interessantes:

* http://www.nltk.org/howto/portuguese_en.html
* https://www.kaggle.com/leandrodoze/examples-from-nltk-book-in-portuguese

## Tokenização usando o **NLTK**
O tokenizador do NLTK (`punkt`) é baseado em regras.

In [27]:
import nltk
from nltk import tokenize

nltk.download('punkt')            # necessário para baixar o tokenizador

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Contagem de tokens e types.

In [28]:
tokens = tokenize.word_tokenize(exemplo, language="portuguese")
minusculas = tokenize.word_tokenize(exemplo.lower(), language="portuguese")

vocabulario = set(minusculas)

print("Quantidade de tokens: ",len(tokens))
print("Quantidade de types: ",len(vocabulario))

Quantidade de tokens:  30
Quantidade de types:  25


In [29]:
print(tokens)

['Com', 'estas', 'palavras', ',', 'André', 'Coruja', ',', 'além', 'de', 'quebrar', 'o', 'gelo', 'que', 'havia', 'esfriado', 'o', 'clima', ',', 'devolveu', 'ao', 'recinto', 'a', 'eloquência', 'necessária', 'para', 'que', 'a', 'sessão', 'continuasse', '.']


In [30]:
print(vocabulario)

{'palavras', 'sessão', 'com', 'esfriado', 'andré', 'eloquência', 'o', 'necessária', '.', 'devolveu', 'a', ',', 'ao', 'além', 'havia', 'gelo', 'estas', 'para', 'continuasse', 'quebrar', 'que', 'recinto', 'de', 'clima', 'coruja'}


## Radicalização usando o **NLTK**

In [31]:
nltk.download('rslp')
raiz = nltk.stem.RSLPStemmer()

[raiz.stem(token) for token in tokens]

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


['com',
 'est',
 'palavr',
 ',',
 'andré',
 'coruj',
 ',',
 'além',
 'de',
 'quebr',
 'o',
 'gel',
 'que',
 'hav',
 'esfri',
 'o',
 'clim',
 ',',
 'devolv',
 'ao',
 'recint',
 'a',
 'eloqu',
 'necessár',
 'par',
 'que',
 'a',
 'sess',
 'continu',
 '.']

## Remoção de stopwords usando o **NLTK**

In [32]:
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [33]:
for palavra in tokens:
  if palavra.lower() not in stopwords:
    print(palavra)

palavras
,
André
Coruja
,
além
quebrar
gelo
havia
esfriado
clima
,
devolveu
recinto
eloquência
necessária
sessão
continuasse
.


## Tokenização com **BERT**

In [34]:
!pip3 install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.22.0-py3-none-any.whl (4.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.9/4.9 MB[0m [31m31.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting huggingface-hub<1.0,>=0.9.0
  Downloading huggingface_hub-0.9.1-py3-none-any.whl (120 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m120.7/120.7 kB[0m [31m14.8 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.6/6.6 MB[0m [31m78.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.9.1 tokenizers-0.12.1 transformers-4.22.0
[0m

In [35]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', do_lower_case=False)

The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


Moving 0 files to the new cache system


0it [00:00, ?it/s]

Downloading:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/647 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/210k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [36]:
tokenizer.tokenize(exemplo)

['Com',
 'estas',
 'palavras',
 ',',
 'André',
 'Cor',
 '##u',
 '##ja',
 ',',
 'além',
 'de',
 'quebrar',
 'o',
 'gelo',
 'que',
 'havia',
 'esf',
 '##riado',
 'o',
 'clima',
 ',',
 'devol',
 '##veu',
 'ao',
 'recinto',
 'a',
 'elo',
 '##quência',
 'necessária',
 'para',
 'que',
 'a',
 'sessão',
 'continua',
 '##s',
 '##se',
 '.']

Fim deste código.