# Tutorial NLTK
## Primeira parte: biblioteca `re` para demonstração de conceitos da PLN

A biblioteca `re` está sendo usada para fazer a busca por palavras usando expressões regulares similar ao que foi visto dentro do PostGreSQL que foi usado junto ao HeidiSQL.

In [1]:
import re

Nesse caso, a expressão regular `biblio\w*` vai encontrar todas as palavras que começam com 'biblio' e terminam com qualquer número de letras, números ou sublinhados

In [None]:
texto = 'o bibliotecário abriu a biblioteca'
resultado = re.findall(r'biblio\w*', texto)
print(resultado)

['bibliotecário', 'biblioteca']


In [None]:
texto = 'uma pessoa boa é uma pessoa de muitas pessoas'
resultado = re.search(r'pessoa', texto)
print(resultado)

print(texto[4:10])

resultado.group(0)

print(re.findall(r'pessoa', texto))

<re.Match object; span=(4, 10), match='pessoa'>
pessoa
['pessoa', 'pessoa', 'pessoa']


O resultado produzido `<re.Match object; span=(4, 10), match='pessoa'>` indica que a palavra 'pessoa' começa no índice 4 e termina no índice 10 da string original. Pois cada caractere conta como um índice, começando do zero. Portanto, a letra 'p' é o índice 0, a letra 'e' é o índice 1, e assim por diante. O último índice (10) não é incluído no resultado, então a letra 'a' é o índice 9.

Além disso, observe que o método `re.search()` retorna a primeira palavra encontrada que bate com a expressão regular, enquanto o `re.findall()` retorna todas em forma de array.

In [None]:
texto = 'Algum tempo hesitei se devia abrir estas memórias.'
print(re.split(r'[ \t\n]+', texto))

print(re.findall(r'\w+(?:[-']\w+)*|'|[-.(]+|\S\w*', texto))

['Algum', 'tempo', 'hesitei', 'se', 'devia', 'abrir', 'estas', 'memórias.']
['Algum', 'tempo', 'hesitei', 'se', 'devia', 'abrir', 'estas', 'memórias', '.']


O método `re.split()` divide a string em partes, usando caracteres delimitadores que são determinados por expressões regulares.

No primeiro caso, temos a expressão regular `r'[ \t\n]+'` que corresponde a espaços em branco, tabulações ou quebras de linha gerando problemas como no caso de pontuações que acompanham palavras gerando tokens diferentes.

Em seguida, temos `r'\w+(?:[-']\w+)*|'|[-.(]+|\S\w*` que acaba sendo uma expressão mais complexa que realiza o tratamento dessas outras pontuações e simbolos junto a textos.

In [None]:
lista = ['Casa', ',', 'comida', 'e', 'roupa', 'lavada', '.']
bras = ['Viva', 'pois', 'a', 'história']

print('Número de elementos na lista:\n' + lista[2] + '\n')

print(len(lista))

print('Frase com espaços entre palavras a partir da lista:\n' + ' '.join(bras) + '\n')

print('Frase com pontos e vírgulas a partir da lista:\n' + ';'.join(bras))


Número de elementos na lista:
comida

7
Frase com espaços entre palavras a partir da lista:
Viva pois a história

Frase com pontos e vírgulas a partir da lista:
Viva;pois;a;história


## Segunda parte: biblioteca `NLTK`



In [None]:
import nltk
from nltk.corpus import machado
from nltk.text import Text
from nltk import bigrams
from nltk.corpus import mac_morpho

# nltk.download('popular')
# nltk.download('machado')
# nltk.download('punkt_tab')
# nltk.download('rslp')
# nltk.download('mac_morpho')

In [None]:
# arquivos do Corpus

machado.fileids()

['contos/macn001.txt',
 'contos/macn002.txt',
 'contos/macn003.txt',
 'contos/macn004.txt',
 'contos/macn005.txt',
 'contos/macn006.txt',
 'contos/macn007.txt',
 'contos/macn008.txt',
 'contos/macn009.txt',
 'contos/macn010.txt',
 'contos/macn011.txt',
 'contos/macn012.txt',
 'contos/macn013.txt',
 'contos/macn014.txt',
 'contos/macn015.txt',
 'contos/macn016.txt',
 'contos/macn017.txt',
 'contos/macn018.txt',
 'contos/macn019.txt',
 'contos/macn020.txt',
 'contos/macn021.txt',
 'contos/macn022.txt',
 'contos/macn023.txt',
 'contos/macn024.txt',
 'contos/macn025.txt',
 'contos/macn026.txt',
 'contos/macn027.txt',
 'contos/macn028.txt',
 'contos/macn029.txt',
 'contos/macn030.txt',
 'contos/macn031.txt',
 'contos/macn032.txt',
 'contos/macn033.txt',
 'contos/macn034.txt',
 'contos/macn035.txt',
 'contos/macn036.txt',
 'contos/macn037.txt',
 'contos/macn038.txt',
 'contos/macn039.txt',
 'contos/macn040.txt',
 'contos/macn041.txt',
 'contos/macn042.txt',
 'contos/macn043.txt',
 'contos/ma

In [None]:
# Pegar texto raw/completo

raw_text = machado.raw('romance/marm05.txt')
raw_text[5600:5800]

'essa anônima, ainda que não parenta, padeceu mais do que as parentas.\nÉ verdade, padeceu mais. Não digo que se carpisse, não digo que se deixasse\nrolar pelo chão, convulsa. Nem o meu óbito era coisa a'

In [None]:
# Buscar o texto como tokens ao invés de raw/texto completo

texto1 = machado.words('romance/marm05.txt')
print(texto1)

len(texto1)

['Romance', ',', 'Memórias', 'Póstumas', 'de', 'Brás', ...]


77098

In [None]:
bras = Text(machado.words('romance/marm05.txt'))
print(bras)

<Text: Romance , Memórias Póstumas de Brás Cubas ,...>


In [None]:
# Encontrar palavras em diferentes contextos

bras.concordance('olhos')

Displaying 25 of 138 matches:
De pé , à cabeceira da cama , com os olhos estúpidos , a boca entreaberta , a t
orelhas . Pela minha parte fechei os olhos e deixei - me ir à ventura . Já agor
xões de cérebro enfermo . Como ia de olhos fechados , não via o caminho ; lembr
gelos eternos . Com efeito , abri os olhos e vi que o meu animal galopava numa 
me apareceu então , fitando - me uns olhos rutilantes como o sol . Tudo nessa f
 mim mesmo . Então , encarei - a com olhos súplices , e pedi mais alguns anos .
o alto de uma montanha . Inclinei os olhos a uma das vertentes , e contemplei ,
ilhão , e , não obstante , porque os olhos do delírio são outros , eu via tudo 
cifração da eternidade . E fixei os olhos , e continuei a ver as idades , que 
 esperto , concordava meu pai ; e os olhos babavam - se - lhe de orgulho , e el
te , e , repetido o mote , cravar os olhos na testa de uma senhora , depois tos
avrear de estômagos satisfeitos ; os olhos moles e úmidos , ou vivos e cálidos 
m estacado

In [25]:
# Encontrar palavras por similaridade

bras.similar('chegar')

já leitor lhe dizer com menos contar deixei cheguei desferirem peito
corpo fazer porém ver casamento soltar quebrei titubear sacrifício


In [27]:
# Encontrar palavras em contexto usando expressões regulares

bras.findall('<olhos> (<.*>)')

estúpidos; e; fechados; e; rutilantes; súplices; a; do; ,; babavam;
na; moles; se; da; umas; .; espraiavam; chamejantes; espetados; ,;
cobiçosos; para; ,; úmidos; no; ;; de; de; fitos; a; naquele; do; ,;
pretos; as; estúpidos; ao; às; ...; ,; fúlgidos; de; ,; .; de; pretos;
tão; de; para; a; chisparam; para; me; da; ,; ,; uma; no; na; para;
se; em; .; em; .; de; ,; no; nela; tinham; ;; cintilantes; o; dos; e;
,; de; de; dela; vermelhos; .; e; .; o; ,; constantemente; para; ,; ,;
para; ,; ao; ,; na; na; baixos; no; mais; no; se; dela; do; no; ,;
lampejantes; rasos; todos; ,; e; do; pelos; de; ao; .; lhe; de;
enfermos; :; ,; .; e; da; fixos; .; fitos; ,; ,; bonitos; de; ...; .;
de; algum; a; ;; fitos; em


In [28]:
# Identificar stopwords no idioma português

stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords[:10])

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as']


In [None]:
# É possivel fazer a utilização de bigramas (duplas palavras) e n-gramas (n palavras) para encontrar palavras que aparecem juntas em um texto que podem ser relevantes para o contexto.
list(bigrams(['meu', 'coração', 'está', 'bem', 'machucado']))
[('meu', 'coração'), ('coração', 'está'), ('está', 'bem'),
('bem', 'machucado')]

[('meu', 'coração'),
 ('coração', 'está'),
 ('está', 'bem'),
 ('bem', 'machucado')]

In [None]:
# o Text consegue buscar as palavras que aparecem juntas em um texto com frequencia por meio do método collocations()

bras = Text(machado.words('romance/marm05.txt'))
bras.collocations()

Quincas Borba; Lobo Neves; alguma coisa; Brás Cubas; meu pai; que não;
dia seguinte; não sei; Com efeito; que era; Meu pai; alguns instantes;
outra vez; outra coisa; por exemplo; que ele; mim mesmo; coisa
nenhuma; mesma coisa; não era


In [54]:
# Stematização de palavras reduzindo-as a sua raiz

stemmer = nltk.stem.RSLPStemmer()
print(stemmer.stem("copiar"))
print(stemmer.stem("paisagem"))

copi
pais


In [53]:
# Metodo de tokenização de frases

sentence = """Estou bem, mas não tenho certeza... se viajarei amanhã às 8:30."""
tokens = nltk.word_tokenize(sentence)
print(tokens)

['Estou', 'bem', ',', 'mas', 'não', 'tenho', 'certeza', '...', 'se', 'viajarei', 'amanhã', 'às', '8:30', '.']


In [None]:
# Tabela de tokens e etiquetas (tags) do corpus Mac-Morpho

sentencas_etiquetadas = mac_morpho.tagged_sents()
print(sentencas_etiquetadas)

[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]


In [51]:
tags = [tag for (word, tag) in mac_morpho.tagged_words()]
print(len(tags))

nltk.FreqDist(tags).max()


1170095


'N'

In [None]:
# Aplicando o etiquetador padrão do NLTK 'N'

etiqPadrao = nltk.tag.DefaultTagger('N')
etiqPadrao.tag(tokens)

[('Estou', 'N'),
 ('bem', 'N'),
 (',', 'N'),
 ('mas', 'N'),
 ('não', 'N'),
 ('tenho', 'N'),
 ('certeza', 'N'),
 ('...', 'N'),
 ('se', 'N'),
 ('viajarei', 'N'),
 ('amanhã', 'N'),
 ('às', 'N'),
 ('8:30', 'N'),
 ('.', 'N')]