# Introdução e Técnicas de Processamento de Texto

Na aula de hoje, veremos o que é Processamento de Linguagem Natural, alguns exemplos de aplicações e quais as principais técnicas de pré-processamento de texto. Durante a aula, mesclaremos conteúdo teórico e prático usando Jupyter Notebook a fim de entendermos e praticarmos sobre o conteúdo proposto.

## Introdução

O campo de processamento de linguagem natural (NLP) passou por uma mudança dramática nos últimos anos, tanto em termos de metodologia quanto em termos de aplicativos suportados. Os avanços metodológicos têm variado desde novas formas de representar documentos a novas técnicas de síntese de linguagem. Com eles, surgiram novos aplicativos que vão desde sistemas de conversação abertos até técnicas que usam linguagem natural para a interpretabilidade do modelo. Por fim, esses avanços permitiram que a NLP ganhasse espaço em áreas relacionadas, como visão computacional e sistemas de recomendação. Este último será objeto de estudo nosso futuramente.

Num sentido amplo, Processamento de Linguagem Natural (NLP) trata de qualquer tipo de manipulação computacional de linguagem natural, desde uma simples contagem de frequências de palavras para comparar diferentes estilos de escrita, até o “entendimento” completo de interações humanas (pelo menos no sentido de oferecer uma resposta útil a eles).

As tecnologias baseadas em NLP estão se tornando cada vez mais pervasivas e, diante das interfaces homem-máquina mais naturais e meios mais sofisticados de armazenamento de informações, o processamento de linguagem tem alcançado um papel central numa sociedade da informação multilíngue.

Por conta disso, NLP está rapidamente se tornando uma habilidade necessária exigida por engenheiros, gerentes de produto, cientistas, estudantes e entusiastas que desejam construir aplicativos com base em dados de linguagem natural. Por um lado, novas ferramentas e bibliotecas, para NLP e aprendizado de máquina tornaram a modelagem de linguagem natural mais acessível do que nunca. Mas, por outro lado, os recursos para aprender NLP devem visar esse público diversificado e sempre crescente.

Como dito, NLP permite interação com sistemas computacionais em linguagem humana. Entretanto, computadores entendem apenas dados binários, por exemplo, 0 e 1. 

Para exemplificar o quão importante NLP se tornou em nossa vida, aqui vão algumas aplicações:

1. Plataformas de e-mail usam NLP para classificar mensagens (spam ou legítimas), priorização na caixa de entrada e auto-complete;
2. Assistentes baseados em voz, tais como Amazon Alexa, Apple Siri, Google Assistant ou Microsoft Cortana são baseados em técnicas de NLP para interagir com os usuários, entende-los e responde-los corretamente;
3. Plataformas de busca (Search engine), como Google ou Bing, usam NLP para entendimento de query (informação que o usuário digitou), recuperação da informação e ranqueamento, para citar alguns;
4. Tradução de máquina, como o Google Translate, é construído em cima de técnicas de NLP
5. Além disso, NLP pode ser usado em uma variedade de campos, como jurídico, saúde, varejo, atendimento, marketing e outros.



Mas modelar problemas de NLP não é uma tarefa trivial, pelo contrário, é bem desafiador. Vamos ver dois exemplos. O primeiro é usado em sistemas de busca:

<img src="img/beagles.png" />

Outro caso bastante comum é a ambiguidade:

<img src="img/ambiguidade.png" />

Qual frase possui a interpretação correta? Como você justificaria sua escolha?

Perceba que a tarefa é mais complexa do que imaginamos. E criar um sistema de NLP que consiga interpretar tais textos e fornecer uma resposta coerente é realmente uma tarefa árdua. No entanto, precisamos começar pelo começo. Na sessão a seguir, discutiremos quais as principais técnicas de pré-processamento que usamos para preparar o texto para que possam ser usados em sistemas de inteligência Artificial.

## Pipeline de NLP

Quando falamos de NLP, geralmente usamos técnicas de Machine Learning. Elas são aplicadas a dados textuais da mesma maneira que são usadas em outros tipos de dados, como imagens ou dados estruturados. 

Toda abordagem de Machine Learning para NLP, seja ela supervisionada ou não supervisionada, pode ser descrita em três passos comuns:

1. Extrair features de um texto.
2. Usar uma representação dessas features para aprender um modelo.
3. Avaliar e melhorar o modelo.

De maneira mais geral, precisamos de mais algumas etapas. O diagrama abaixo apresenta um pipeline genérico para NLP:

<img src="img/pipeline.png" />

O primeiro passo é o de “aquisição de dados”, que consiste em obter os dados textuais que serão usados para treinar nosso modelo de Machine Learning. Geralmente, os dados estão disponíveis em bancos de dados nas próprias empresas. Às vezes, você encontra algumas bases públicas, em outros casos, você precisa ir capturando as informações aos poucos. Essa parte é importante, apesar de não ser o foco da disciplina, pois quanto mais dados, melhor será o nosso modelo. 

No segundo passo, iremos fazer a limpeza desse texto, removendo qualquer coisa que não seja texto, tais como metadados, links, entre outros. O terceiro passo é o pré-processamento. Às vezes, ele é executado junto com a limpeza dos dados, consistindo numa série de técnicas que serão objeto de estudo dessa aula. 

O próximo passo, também conhecido como “feature extraction”, consiste em extrair do texto quais características melhor o descrevem e imputá-las em algoritmos de machine learning. A parte de modelagem consiste em escolher uma técnica de machine learning e usar os dados tratados para resolver um problema específico. Logo em seguida, devemos avaliar esse modelo, a partir de alguns critérios que apresentaremos no decorrer da disciplina. 

Por fim, faremos o deploy do nosso modelo, disponibilizando o modelo treinado em ambiente produtivo e, frequentemente, monitorando desvios, erros e realizando correções, quando necessário, treinando o modelo novamente. 

### Técnicas de Pré-Processamento

Como dito anteriormente, o primeiro passo a ser feito em NLP é extrair features de um texto. Mais precisamente, precisamos adquirir os dados, limpá-los, fazer o pré-processamento e extrair as características, transformando os dados para que possam ser imputados em modelos de machine learning. Vamos tratar desses passos nessa sessão. Importante dizer que, a título de didática, consideramos que já temos os dados disponíveis. 

Como sabemos, os computadores lidam com números. Qualquer outro tipo de dado (como áudio, texto, imagens, etc.) precisa passar por um processo de transformação para números. 

Para realizar essa transformação, antes precisamos fazer o pré-processamento de dados, cujo objetivo é preparar os textos para criar um espaço de características adequado. 

O primeiro passo é a tokenização dos dados. A tokenização nada mais é que uma sequência de “n” elementos de uma sequência maior, denominadas n-gramas. Seu objetivo é transformar os textos em números. Os tipos de n-grama são definidos pela quantidade de elementos que os compõem. Unigramas (N = 1), Bigramas (N = 2) e Trigramas (N = 3).

A ideia é dividir o texto, geralmente usando “espaço” como separador, em tokens, para realizar outras atividades.
Considere as seguintes frases como exemplos: 

* Eu gosto de assistir jogos de futebol.
* Já eu, prefiro assistir jogos de basquete.


Vamos entender como construir uma representação usando unigrama a partir do código abaixo:

In [1]:
import pandas as pd

df = pd.DataFrame({
    'text': [
      'Eu gosto de assistir jogos de futebol',
      'Já eu, prefiro assistir jogos de basquete'
    ]
    })

df.head()

Unnamed: 0,text
0,Eu gosto de assistir jogos de futebol
1,"Já eu, prefiro assistir jogos de basquete"


In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

          0  1
assistir  1  1
basquete  0  1
de        2  1
eu        1  1
futebol   1  0
gosto     1  0
jogos     1  1
já        0  1
prefiro   0  1


Podemos criar bigramas e trigramas apenas alterando os valores do parâmetro `ngram_range`: 

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(2,2))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

                  0  1
assistir jogos    1  1
de assistir       1  0
de basquete       0  1
de futebol        1  0
eu gosto          1  0
eu prefiro        0  1
gosto de          1  0
jogos de          1  1
já eu             0  1
prefiro assistir  0  1


In [4]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(3,3))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

                        0  1
assistir jogos de       1  1
de assistir jogos       1  0
eu gosto de             1  0
eu prefiro assistir     0  1
gosto de assistir       1  0
jogos de basquete       0  1
jogos de futebol        1  0
já eu prefiro           0  1
prefiro assistir jogos  0  1


Para realizar a tokenização, podemos implementar uma solução própria ou usar a biblioteca NLTK. NLTK, ou Natural Language Toolkit, é uma plataforma para construir programas em Python para trabalhar com dados de linguagem humana. Vamos usá-la para realizar a maioria das tarefas de pré-processamento que compõe o pipeline de transformação de dados textuais. Observe o exemplo:

In [8]:
from nltk.tokenize import word_tokenize
exemplo = 'O futebol brasileiro é o melhor do mundo. Você concorda?'
words = word_tokenize(exemplo)
words

['O',
 'futebol',
 'brasileiro',
 'é',
 'o',
 'melhor',
 'do',
 'mundo',
 '.',
 'Você',
 'concorda',
 '?']

Outra técnica que auxilia muito no pré-processamento é o Regex. “Expressão regular” é uma maneira de identificar padrões em sequências de caracteres. No Python, o módulo re provê um analisador sintático, que permite o uso de tais expressões. Os padrões definidos através desses caracteres têm significado especial para o analisador.

Essa solução é muito usada como um complemento para soluções mais complexas de NLP, principalmente quando é necessário capturar informações de padrões bem definidos e estabelecidos, como CPF, RG, e-mail, entre outros. 

A imagem abaixo resume os principais caracteres que são usados para definir um padrão a ser procurado numa string:

<img src="img/regex.png" />

Observe o exemplo para entendermos o uso do Regex:

In [9]:
import re
rex = re.compile('\w+') 
bandas = 'Queen, Aerosmith & Beatles'
print (bandas, '->', rex.findall(bandas))
phone = "2004-959-559 # This is Phone Number"
num = re.sub('#.*$', "", phone) 
print ("Phone Num : ", num)
num = re.sub(r'\D', "", phone)
print ("Phone Num : ", num)

Queen, Aerosmith & Beatles -> ['Queen', 'Aerosmith', 'Beatles']
Phone Num :  2004-959-559 
Phone Num :  2004959559


Adicionalmente à tokenização e ao regex, temos as *stop-words*. Quando lemos um texto, percebemos que algumas palavras sempre aparecem, mas elas não contribuem para uma interpretação mais sólida de uma frase. Tais palavras são chamadas “stop-words”. Normalmente, são artigos, advérbios, preposições, conectivos e até alguns verbos. 

Geralmente, quando nos deparamos com um texto, optamos por remover tais palavras, fazendo com que nosso modelo se concentre no que, de fato, é importante dentro de uma frase. Tecnicamente falando, estamos reduzindo o espaço de características. 


In [10]:
import nltk
nltk.download('stopwords')
nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/dhenyfernandes/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

Geralmente, quando nos deparamos com um texto, optamos por remover tais palavras, fazendo com que nosso modelo se concentre no que, de fato, é importante dentro de uma frase. Tecnicamente falando, estamos reduzindo o espaço de características.

Por falar nele, outra técnica que auxilia o modelo é a normalização, que consiste em fazer com que as palavras tenham a mesma representação morfológica, a fim de não gerar vieses. Por exemplo, caso eu tenha a palavra “Que” e, posteriormente, a palavra “que”, elas não podem ser tratadas como distintas. Para resolver isso, colocamos todas as palavras em letra minúscula. 

Outro fator de normalização é o tratamento que damos aos tempos verbais das palavras. Num sentido simples, “foi” e “será” têm origem na mesma palavra: “é”. Logo, em alguns casos, fazemos com que as palavras sejam reescritas em sua forma raiz. Esse processo é conhecido como lematização. Uma técnica mais simples, mas similar, é a stemização, que consiste em podar (ou, pelo menos, tentar podar) a palavra até um radical mais próximo. 

Para entendermos o funcionamento dessas três técnicas, vamos analisar as seguintes frases:

* O carro que estava quebrado voltou a funcionar.
* Meu carro quebrou e não está funcionando.

O primeiro passo é realizar a vetorização dos dados, ou seja, transformar palavras em números. Nesse caso, é colocado “0” para quando a palavra não está na frase e “1” para quando está. O conjunto de palavras distintas forma o que chamamos de dicionário. O resultado obtido é o seguinte:

In [11]:
ex1 = 'O carro que estava quebrado voltou a funcionar'
ex2 = 'Meu carro quebrou e não está funcionando'

print(word_tokenize(ex1))
print(word_tokenize(ex2))

['O', 'carro', 'que', 'estava', 'quebrado', 'voltou', 'a', 'funcionar']
['Meu', 'carro', 'quebrou', 'e', 'não', 'está', 'funcionando']


In [13]:
df = pd.DataFrame({'text':[ex1,ex2]})

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

             0  1
carro        1  1
estava       1  0
está         0  1
funcionando  0  1
funcionar    1  0
meu          0  1
não          0  1
que          1  0
quebrado     1  0
quebrou      0  1
voltou       1  0


O próximo passo é remover as *stop-words*. 

In [14]:
stops = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(1,1), stop_words=stops)
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

             0  1
carro        1  1
funcionando  0  1
funcionar    1  0
quebrado     1  0
quebrou      0  1
voltou       1  0


Entretanto, ainda temos variações de uma mesma palavra dentro do meu conjunto de características:
    
* Funcionar: funcionar, funcionando.
* Quebrar: quebrado, quebrou.

Podemos melhorar a representação de texto usando stemming e lemmatization, para transformar palavras/tokens num formato padrão. O que as diferencia é a maneira com que elas atingem esse objetivo. A decisão de qual usar depende do trabalho e, muitas vezes, isso é decidido baseado em testes. Vamos entender os dois casos antes de decidir qual usar:

In [15]:
import nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer
examples = [
   "go","going",
   "goes","gone","went"
]

wnl = WordNetLemmatizer()

for word in examples:
  print(wnl.lemmatize(word, 'v'))

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/dhenyfernandes/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


go
go
go
go
go


In [16]:
import nltk
from nltk.stem import PorterStemmer

examples = [
    "connection","connections",
    "connective","connecting","connected"
]

ps = PorterStemmer()

for word in examples:
  print(ps.stem(word))

connect
connect
connect
connect
connect


Entretanto, para o português os resultados não são bons:

In [17]:
from nltk.stem import PorterStemmer

examples = ["conecta","conectado","conectamos","desconectados","conectividade"]

ps = PorterStemmer()

for word in examples:
  print(ps.stem(word))

conecta
conectado
conectamo
desconectado
conectividad


Uma alternativa é usar o RSLPStemmer, que produz melhores resultados:

In [18]:
from nltk.stem.rslp import RSLPStemmer

examples = ["conecta","conectado","conectamos","desconectados","conectividade"]

rslp = RSLPStemmer()

for word in examples:
  print(rslp.stem(word))

conect
conect
conect
desconect
conect


Assim, ele será nossa escolha:

In [19]:
stem1 = " ".join([rslp.stem(x) for x in word_tokenize(ex1)])
stem2 = " ".join([rslp.stem(x) for x in word_tokenize(ex2)])

In [20]:
df = pd.DataFrame({'text':[stem1,stem2]})
stops = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(1,1), stop_words=stops)
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out()).T.to_string())

         0  1
carr     1  1
est      1  1
funcion  1  1
quebr    1  1
volt     1  0


Ou seja, depois de aplicar todo esse processo de normalização, reduzi meu espaço de característica, o que contribui para que meu modelo se concentre apenas no essencial e tenha maiores chances de produzir um ótimo resultado. 

## POS-Tagger

Na escola primária, aprendemos a diferença entre substantivo, verbos, advérbios e adjetivos. Tais classes gramaticais são categorias úteis para muitas tarefas de processamento de linguagem natural. POS-Tagging é uma ferramenta usada no processamento de linguagem natural (NLP), que permite que os algoritmos entendam a estrutura gramatical de uma frase e desambiguam palavras que têm vários significados.

Aqui, teremos os seguintes objetivos:

* Quais são as categorias léxicas (classes gramaticais) e como elas são usadas em NLP.
* Uma boa estrutura de dados em Python, para armazenar palavras e suas categorias.
* Como podemos marcar (taguear) automaticamente cada palavra de um texto com sua classe.

Observe a imagem a seguir:

<img src="img/tagger.png" />

In [21]:
text1 = nltk.word_tokenize("They refuse to permit us to obtain the refuse permit")
nltk.pos_tag(text1)

[('They', 'PRP'),
 ('refuse', 'VBP'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('refuse', 'NN'),
 ('permit', 'NN')]

Mas, afinal, qual a real utilidade disso? Considere as seguintes palavras: Woman (substantivo), bought (verbo), over (preposição) e The (determinante). 

Com o POS-tagging, é possível encontrar palavras que pertençam à mesma classe gramatical. Vamos usar o corpus Brown (esse [link](https://www1.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html) fornece mais informações sobre o corpus) como exemplo para entendermos esse processo:


In [22]:
nltk.download('brown')
text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())
text.similar('woman')

[nltk_data] Downloading package brown to
[nltk_data]     /Users/dhenyfernandes/nltk_data...
[nltk_data]   Package brown is already up-to-date!


man time day year car moment world house family child country boy
state job place way war girl work word


In [23]:
text.similar('bought')

made said done put had seen found given left heard was been brought
set got that took in told felt


In [24]:
text.similar('over')

in on to of and for with from at by that into as up out down through
is all about


In [25]:
text.similar('the')

a his this their its her an that our any all one these my in your no
some other and


Com isso, conseguimos treinar um tagger para taguear palavras novas. Entretanto, NLTK não possui suporte nativo ao português, mas é possível fazer o download de um Corpus para resolver nosso problema. 

Aqui, vamos usar o Corpus Floresta. O projeto Floresta Sintá(c)tica é uma colaboração entre a Linguateca e o projecto VISL. Contém textos em português (do Brasil e de Portugal) anotados (analisados) automaticamente pelo analisador sintático PALAVRAS e revistos por linguistas. Mais informações podem ser obtidas nesse [link](https://www.linguateca.pt/Floresta/)


In [26]:
nltk.download('floresta')
from nltk.corpus import floresta
floresta.tagged_words()

[nltk_data] Downloading package floresta to
[nltk_data]     /Users/dhenyfernandes/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]

Veremos que a tag atribuída a uma palavra dependerá da própria palavra e seu contexto numa sentença. Assim, o tagueamento ocorre a nível de sentença, não de palavra. 

Vamos criar uma função para simplificar o nome de uma tag. As informações sobre a abreviação de cada tag podem ser consultadas nesse [link](https://www.linguateca.pt/Floresta/)

In [27]:
def simplify_tag(t):
  if "+" in t:
    return t.split("+")[1]
  return t 

twords = nltk.corpus.floresta.tagged_words()
twords = [(w.lower(),simplify_tag(t)) for (w,t) in twords]
twords[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

Vamos analisar as seguintes estratégias de tagueamento:
    
* Default Tagger.
* Unigram Tagger.
* Bigram Tagger.
* Uma combinação entre eles.


### Default Tagger

O Default Tagger atribui a mesma tag para cada token. Apesar de parecer simples, essa técnica estabelece um importante baseline para o desempenho do tagueador. Para isso, é preciso descobrir a tag mais frequente num Corpus e, com essa informação, criar um tagueador que atribuirá a todos os tokens essa tag.

In [28]:
tags = [tag for (word, tag) in twords]
nltk.FreqDist(tags).max()

'n'

In [29]:
raw = 'Esse é um exemplo utilizando o marcador padrão'
tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger('n')
default_tagger.tag(tokens)

[('Esse', 'n'),
 ('é', 'n'),
 ('um', 'n'),
 ('exemplo', 'n'),
 ('utilizando', 'n'),
 ('o', 'n'),
 ('marcador', 'n'),
 ('padrão', 'n')]

In [30]:
tsents = floresta.tagged_sents()
tsents = [[(w.lower(),simplify_tag(t)) for (w,t) in sent] for sent in tsents if sent]
train = tsents[1000:]
test = tsents[:1000]
tsents[1:3]

[[('o', 'art'),
  ('7_e_meio', 'prop'),
  ('é', 'v-fin'),
  ('um', 'art'),
  ('ex-libris', 'n'),
  ('de', 'prp'),
  ('a', 'art'),
  ('noite', 'n'),
  ('algarvia', 'adj'),
  ('.', '.')],
 [('é', 'v-fin'),
  ('uma', 'num'),
  ('de', 'prp'),
  ('as', 'art'),
  ('mais', 'adv'),
  ('antigas', 'adj'),
  ('discotecas', 'n'),
  ('de', 'prp'),
  ('o', 'art'),
  ('algarve', 'prop'),
  (',', ','),
  ('situada', 'v-pcp'),
  ('em', 'prp'),
  ('albufeira', 'prop'),
  (',', ','),
  ('que', 'pron-indp'),
  ('continua', 'v-fin'),
  ('a', 'prp'),
  ('manter', 'v-inf'),
  ('os', 'art'),
  ('traços', 'n'),
  ('decorativos', 'adj'),
  ('e', 'conj-c'),
  ('as', 'art'),
  ('clientelas', 'n'),
  ('de', 'prp'),
  ('sempre', 'adv'),
  ('.', '.')]]

In [32]:
tagger0 = nltk.DefaultTagger('n')
print(tagger0.accuracy(test))

0.17800040072129833


O desempenho do Default Tagger é muito aquém do esperado, já que atribui a mesma tag para todas as palavras. Entretanto, estatisticamente e por conta do Corpus que estamos usando, quando tagueamos milhares de palavras num texto, a maioria das novas serão, de fato, substantivos. Dessa maneira, utilizar o Default Tagger pode ajudar a melhorar a robustez de um sistema de processamento de linguagem.  

### Unigram Tagger

A segunda abordagem que temos é o Unigram Tagger, que se baseia em frequência estatística da classe gramatical mais vezes atribuída a uma palavra. 

Em outras palavras, o Unigram Tagger estabelece a tag mais provável, por olhar para uma palavra, encontrar suas diferentes funções sintáticas dentro do Corpus, pegar aquela cuja recorrência seja máxima e atribuir essa tag para ocorrências dessa palavra no conjunto de teste. 

In [33]:
tagger1 = nltk.UnigramTagger(train)
print(tagger1.accuracy(test))

0.8522139851733119


O conceito de Unigram Tagger pode ser generalizado para N-gram Tagger. O N-gram Tagger possui um contexto que é definido pelo token atual em conjunto com as tags dos n-1 tokens antecedentes. Observe a imagem abaixo:

<img src="img/unigram_tagger.png" />

Aqui vamos usar o Bigram Tagger. entretanto, após treinar um Bigram, os resultados estão bem ruins. 

In [40]:
tagger2 = nltk.BigramTagger(train)
print(tagger2.accuracy(test))

0.14626327389300742


Por qual motivo isso aconteceu? Vamos entender:

<img src="img/bigram_tagger.png" />

Mesmo que a “tag n” seja a mesma no conjunto de treino e teste, ela não será rotulada corretamente, já que a tag n-1 é diferente. Consequentemente, o tagger falha em taguear o resto da sentença.

À medida que “n” aumenta, a especificidade dos contextos aumenta, assim como a chance de que os dados que desejamos marcar contenham contextos que não estavam presentes nos dados de treinamento.

Isto é conhecido como problema de esparsidade dos dados e é bastante recorrente em NLP. 

Como consequência, existe um trade-off entre acurácia e a cobertura dos resultados (relacionado com o trade-off de precision/recall em recuperação de informação).

Uma maneira de resolver o trade-off entre acurácia e cobertura é utilizar o algoritmo com melhor acurácia que temos, mas retornar a algoritmos com maior cobertura quando necessário. 

Por exemplo, podemos combinar o resultado de um Bigram Tagger, Unigram Tagger e Default Tagger da seguinte maneira: 

* Tente taguear o token com o Bigram Tagger.
* Se ele falhar, tente usar Unigram Tagger.
* Se ele também falhar, use o Default Tagger.

Para isso, usamos o conceito de backoff quando declaramos um Tagger.

In [41]:
tagger1 = nltk.UnigramTagger(train, backoff=tagger0)
print('tagger1: ',tagger1.accuracy(test))
tagger2 = nltk.BigramTagger(train, backoff=tagger1)
print('tagger2: ',tagger2.accuracy(test))

tagger1:  0.8740532959326788
tagger2:  0.8900420757363254


Por fim, treinar um tagger pode consumir um tempo considerável num Corpus muito grande. Ao invés de treinar um tagger toda vez que precisarmos de um, é conveniente salvar um tagger treinado para posterior reuso. Assim, é possível carregar o modelo treinado e usá-lo em novos dados. 

In [43]:
from pickle import dump
output = open('tagger.pkl', 'wb')
dump(tagger2, output, -1)
output.close()

In [44]:
from pickle import load
input = open('tagger.pkl', 'rb')
tagger = load(input)
input.close()

In [45]:
text1 = "Isso é para você."
text2 = "para com isso"
tokens1 = text1.split()
tokens2 = text2.split()
print('text1: ',tagger.tag(tokens1))
print('text2: ',tagger.tag(tokens2))

text1:  [('Isso', 'n'), ('é', 'v-fin'), ('para', 'prp'), ('você.', 'n')]
text2:  [('para', 'prp'), ('com', 'prp'), ('isso', 'pron-indp')]


# O que você viu nesta aula?

Nesta aula, apresentamos o NLP, os desafios que temos, quais aplicações usam essa técnica e como machine learning pode nos auxiliar. Depois, entramos em detalhes para entender como realizar o tratamento de dados textuais, preparando-os para, futuramente, serem introduzidos no nosso modelo.