# **Processamento de Linguagem Natural [2021.Q1]**
Prof. Alexandre Donizeti Alves

## **Normalização de Textos**
---



### **Exemplo 01**

In [27]:
# O trecho de codigo a seguir extrai palavras (tokens) de uma string, e 
# calcula o numero de palavras e o tamanho do vocabulario

import re

regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ]+"
#regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ0-9]+"

# https://pt.wikipedia.org/wiki/Capivara

texto = ("""A capivara (nome científico: Hydrochoerus hydrochaeris) é uma espécie
         de mamífero roedor da família Caviidae e subfamília Hydrochoerinae. 
         Alguns autores consideram que deva ser classificada em uma família própria. 
         Está incluída no mesmo grupo de roedores ao qual se classificam as pacas, 
         cutias, os preás e o porquinho-da-índia. Ocorre por toda a América do Sul 
         ao leste dos Andes em habitats associados a rios, lagos e pântanos, 
         do nível do mar até 1 300 m de altitude. Extremamente adaptável, 
         pode ocorrer em ambientes altamente alterados pelo ser humano. (d'água)""")

matches = re.finditer(regex, texto)

vocabulario = set([])

for (i, match) in enumerate(matches):
   #print (f"Palavra {i+1} foi identificada nas posições {match.start()}-{match.end()}: {match.group()}")
   vocabulario.add(match.group())
    
print (f"N={i+1}, V={len(vocabulario)}")

N=87, V=74


### **Exemplo 02**

In [28]:
# O trecho de codigo a seguir conta o numero de palavras de um livro
# de Machado de Assis

#regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ]+"  
regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ0-9]+" 

with open("/content/A-Semana-Machado-de-Assis.txt",'r') as document:

    content  = document.read()
    # document.read()       # devolve o conteudo do arquivo 'fileName'
    # document.readline()   # devolve a linha seguinte do arquivo 'fileName'
    # document.readlines()  # devolve uma lista de linhas do arquivo 'fileName'

    words = re.findall(regex, content)
    #for w in words:
    #    print (w)
    print (f"Total de palavras (tokens): {len(words)}")   

Total de palavras (tokens): 267618


### **Exemplo 03**

In [30]:
# O trecho de codigo a seguir calcula a frequencia das palavras 
# e imprime as 20 mais frequentes

#regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ]+" 
regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ0-9]+" 

with open("/content/A-Semana-Machado-de-Assis.txt",'r') as document:

    content  = document.read()
   
    # identificacao de palavras
    words       = re.findall(regex, content)
    frequencies = dict([])

    # quantidade de vezes no documento
    for w in words:
        w = w.lower()
        if w not in frequencies:
            frequencies[w] = 0
        frequencies[w] += 1
    print (f"Tokens: {len(words)}, Vocabulario: {len(frequencies)}")

    # imprimir as 20 palavras mais frequentes
    fs = sorted(frequencies, key=frequencies.get, reverse=True)
    for i in range(0,20):
        print (f"--> {frequencies[fs[i]]} {fs[i]}")

Tokens: 267618, Vocabulario: 25374
--> 11053 que
--> 9875 a
--> 9767 de
--> 8236 o
--> 7525 e
--> 5519 não
--> 4018 é
--> 3476 do
--> 3465 os
--> 3352 um
--> 3203 da
--> 2862 se
--> 2421 as
--> 2237 em
--> 2054 uma
--> 2024 com
--> 2019 mas
--> 1811 para
--> 1756 por
--> 1456 ao


### **Exemplo 04**

In [32]:
# O trecho de codigo a seguir remove as stopwords e imprime as 20 mais 
# frequentes (desconsiderando as stopwords)

#regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ]+" 
regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ0-9]+" 

stopwords = set([])

# leitura das stopwords
with open("/content/stopwords-pt.txt",'r') as stopwordsPTfile:
    for s in stopwordsPTfile.readlines():
        stopwords.add(s.strip().lower())
    
with open("/content/A-Semana-Machado-de-Assis.txt",'r') as document:

    # leitura do documento
    content  = document.read()

    # identificacao de palavras
    words       = re.findall(regex, content)
    frequencies = dict([])

    # quantidade de vezes no documento
    for w in words:
        w = w.lower()
        if w not in stopwords:
            if w not in frequencies:
                frequencies[w] = 0
            frequencies[w] += 1
    print (f"Tokens: {len(words)}, Vocabulario: {len(frequencies)}")

    # imprimir as 20 palavras mais frequentes
    fs = sorted(frequencies, key=frequencies.get, reverse=True)
    for i in range(0,20):
        print (f"--> {frequencies[fs[i]]} {fs[i]}")

Tokens: 267618, Vocabulario: 25182
--> 703 ser
--> 629 ainda
--> 564 tudo
--> 526 pode
--> 475 outro
--> 471 homem
--> 455 todos
--> 454 assim
--> 437 outra
--> 420 outros
--> 409 grande
--> 385 dois
--> 384 coisa
--> 375 tempo
--> 367 dia
--> 361 bem
--> 360 menos
--> 353 vez
--> 339 porque
--> 334 onde


### **Extra**

In [33]:
import re

regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ0-9]+" 

with open("/content/teste-palavras.txt",'r') as document:

    content  = document.read()
   
    # identificacao de palavras
    words       = re.findall(regex, content)
    frequencies = dict([])

    # quantidade de vezes no documento
    for w in words:
        w = w.lower()
        if w not in frequencies:
            frequencies[w] = 0
        frequencies[w] += 1
    print (f"Tokens: {len(words)}, Vocabulario: {len(frequencies)}")

    # imprimir as palavras de acordo com a frequencia
    fs = sorted(frequencies, key=frequencies.get, reverse=True)
    for i in range(len(fs)):
       print (f"--> {frequencies[fs[i]]} {fs[i]}")

Tokens: 33, Vocabulario: 27
--> 4 c
--> 2 45
--> 2 a
--> 2 ufabc
--> 1 total
--> 1 de
--> 1 r
--> 1 10
--> 1 para
--> 1 valores
--> 1 superiores
--> 1 455
--> 1 67
--> 1 www
--> 1 edu
--> 1 br
--> 1 livre-docente
--> 1 homem-máquina
--> 1 d'água
--> 1 u
--> 1 f
--> 1 b
--> 1 m
--> 1 ph
--> 1 d
--> 1 sant'anna
--> 1 l'ensemble


### **NLTK**

O *Natural Language Toolkit*, ou mais comumente o **NLTK**, é um conjunto de bibliotecas e programas para processamento simbólico e estatístico da linguagem natural, escrito na linguagem de programação Python.

Ele fornece interfaces fáceis de usar para mais de 50 corpora e recursos lexicais, como WordNet, junto com um conjunto de bibliotecas de processamento de texto para classificação, tokenização, lematização, marcação, análise e raciocínio semântico etc.

O NLTK inclui uma grande quantidade de código, dados e documentação, todos disponíveis gratuitamente para download em http://www.nltk.org/

Uma das primeiras coisas a se testar é se o NLTK está disponível no Google Colab. Para isso, execute a seguinte instrução:

In [34]:
import nltk

O NLTK possui uma série de pacotes adicionais ou [corpora](#myfootnote1)  que podem ser facilmente adicionados à instalação básica da biblioteca.

Para ter acesso ao download destes pacotes adicionais, basta utilizar o comando: 

`nltk.download()`

<a name="myfootnote1">Corpora</a>: plural de "corpus", que em latim significa um conjunto de uma obra. Termo que serve para designar um conjunto de textos, ou registros orais de uma língua para fins de análise.

In [35]:
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> l
Packages:
  [ ] abc................. Australian Broadcasting Commission 2006
  [ ] alpino.............. Alpino Dutch Treebank
  [ ] averaged_perceptron_tagger Averaged Perceptron Tagger
  [ ] averaged_perceptron_tagger_ru Averaged Perceptron Tagger (Russian)
  [ ] basque_grammars..... Grammars for Basque
  [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
                           Extraction Systems in Biology)
  [ ] bllip_wsj_no_aux.... BLLIP Parser: WSJ Model
  [ ] book_grammars....... Grammars from NLTK Book
  [ ] brown............... Brown Corpus
  [ ] brown_tei........... Brown Corpus (TEI XML Version)
  [ ] cess_cat............ CESS-CAT Treebank
  [

True

Um dos corpora disponibilizados pelo NLTK é a obra completa de Machado de Assis. O nome desse pacote é "machado".

In [36]:
from nltk.corpus import machado

Aparentemente está disponível, mas caso não estivesse, bastaria realizar o download.

In [37]:
nltk.download("machado")

[nltk_data] Downloading package machado to /root/nltk_data...
[nltk_data]   Package machado is already up-to-date!


True

Agora eu consigo, por exemplo, algumas informações sobre o corpus:

In [38]:
print ("Número de arquivos no corpus:", len(machado.fileids()))
print ("Primeiros cinco textos do corpus", machado.fileids()[0:5])
print ("Quantas palavras existem nesse corpus? Resposta:", len(machado.words()))

Número de arquivos no corpus: 246
Primeiros cinco textos do corpus ['contos/macn001.txt', 'contos/macn002.txt', 'contos/macn003.txt', 'contos/macn004.txt', 'contos/macn005.txt']
Quantas palavras existem nesse corpus? Resposta: 3121944


A partir de agora o objetivo é mostrar como o NLTK facilita enormemente o processamento de textos por meio de funções que a biblioteca disponibiliza.

O NLTK permite retornar um texto como uma lista de *tokens* usando o método ***`words(id)`***:

In [39]:
texto1 = machado.words('romance/marm05.txt')
print(texto1)
print(len(texto1))

['Romance', ',', 'Memórias', 'Póstumas', 'de', 'Brás', ...]
77098


Outra possibilidade é usar a classe Text do NLTK, que além de reperesentar o texto como uma sequência de tokens, também implementa uma série de métodos muito úteis:

In [40]:
from nltk.text import Text
bras = Text(machado.words('romance/marm05.txt'))

Com a classe ***Text*** podemos, por exemplo, encontrar uma palavra dentro de diferentes contextos usando o método ***`concordance(string)`***:

In [None]:
bras.concordance('olhos')

Displaying 25 of 138 matches:
De pé , à cabeceira da cama , com os olhos estúpidos , a boca entreaberta , a t
orelhas . Pela minha parte fechei os olhos e deixei - me ir à ventura . Já agor
xões de cérebro enfermo . Como ia de olhos fechados , não via o caminho ; lembr
gelos eternos . Com efeito , abri os olhos e vi que o meu animal galopava numa 
me apareceu então , fitando - me uns olhos rutilantes como o sol . Tudo nessa f
 mim mesmo . Então , encarei - a com olhos súplices , e pedi mais alguns anos .
o alto de uma montanha . Inclinei os olhos a uma das vertentes , e contemplei ,
ilhão , e , não obstante , porque os olhos do delírio são outros , eu via tudo 
cifração da eternidade . E fixei os olhos , e continuei a ver as idades , que 
 esperto , concordava meu pai ; e os olhos babavam - se - lhe de orgulho , e el
te , e , repetido o mote , cravar os olhos na testa de uma senhora , depois tos
avrear de estômagos satisfeitos ; os olhos moles e úmidos , ou vivos e cálidos 
m estacado

Podemos encontrar palavras em um contexto com ajuda de expressões regulares:

In [None]:
bras.findall("<olhos> (<.*>)")

estúpidos; e; fechados; e; rutilantes; súplices; a; do; ,; babavam;
na; moles; se; da; umas; .; espraiavam; chamejantes; espetados; ,;
cobiçosos; para; ,; úmidos; no; ;; de; de; fitos; a; naquele; do; ,;
pretos; as; estúpidos; ao; às; ...; ,; fúlgidos; de; ,; .; de; pretos;
tão; de; para; a; chisparam; para; me; da; ,; ,; uma; no; na; para;
se; em; .; em; .; de; ,; no; nela; tinham; ;; cintilantes; o; dos; e;
,; de; de; dela; vermelhos; .; e; .; o; ,; constantemente; para; ,; ,;
para; ,; ao; ,; na; na; baixos; no; mais; no; se; dela; do; no; ,;
lampejantes; rasos; todos; ,; e; do; pelos; de; ao; .; lhe; de;
enfermos; :; ,; .; e; da; fixos; .; fitos; ,; ,; bonitos; de; ...; .;
de; algum; a; ;; fitos; em


**Stopwords**

---



***Stopwords*** são palavras que podem ser consideradas irrelevantes para o entedimento do sentido de um texto, ou seja, palavras semanticamente irrelavantes.  **Exemplos**: as, e, os,de, para, com, sem, foi.  

Essas palavras são geralmente removidas de um texto durante a fase de pré-processamento.

O NLTK possui uma lista de ***stopwords*** para o **Português**:


In [41]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [42]:
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords[:10])
print(len(stopwords))

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um']
204
