# Técnicas de Pré-Processamento
Em problemas de NLP, o pré-processamento é uma etapa fundamental para a construção de modelos de aprendizado de máquina. Neste notebook, vamos explorar algumas técnicas de pré-processamento de texto

In [61]:
import re

import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.stem.rslp import RSLPStemmer
from nltk.corpus import floresta

nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('rslp')
nltk.download('averaged_perceptron_tagger')
nltk.download('brown')
nltk.download('floresta')

[nltk_data] Downloading package stopwords to /Users/zfab/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/zfab/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package rslp to /Users/zfab/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/zfab/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package brown to /Users/zfab/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package floresta to /Users/zfab/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


True

## Tokenização
A tokenização é o processo de dividir uma string em uma lista de tokens. Um token é uma parte da string, como uma palavra ou um caractere.

In [2]:
df = pd.DataFrame(dict(
    text = [
        'Eu gosto de assistir filmes de ficção',
        'Já eu, prefiro assistir filmes de ação'
    ]
))

df

Unnamed: 0,text
0,Eu gosto de assistir filmes de ficção
1,"Já eu, prefiro assistir filmes de ação"


In [11]:
vectorizer = CountVectorizer(ngram_range=(1, 1))
text_vectorized = vectorizer.fit_transform(df['text'])
pd.DataFrame(text_vectorized.A, columns=vectorizer.get_feature_names_out()).T

Unnamed: 0,0,1
assistir,1,1
ação,0,1
de,2,1
eu,1,1
ficção,1,0
filmes,1,1
gosto,1,0
já,0,1
prefiro,0,1


In [13]:
vectorizer = CountVectorizer(ngram_range=(2, 2))
text_vectorized = vectorizer.fit_transform(df['text'])
pd.DataFrame(text_vectorized.A, columns=vectorizer.get_feature_names_out()).T

Unnamed: 0,0,1
assistir filmes,1,1
de assistir,1,0
de ação,0,1
de ficção,1,0
eu gosto,1,0
eu prefiro,0,1
filmes de,1,1
gosto de,1,0
já eu,0,1
prefiro assistir,0,1


In [14]:
vectorizer = CountVectorizer(ngram_range=(3, 3))
text_vectorized = vectorizer.fit_transform(df['text'])
pd.DataFrame(text_vectorized.A, columns=vectorizer.get_feature_names_out()).T

Unnamed: 0,0,1
assistir filmes de,1,1
de assistir filmes,1,0
eu gosto de,1,0
eu prefiro assistir,0,1
filmes de ação,0,1
filmes de ficção,1,0
gosto de assistir,1,0
já eu prefiro,0,1
prefiro assistir filmes,0,1


Outra maneira de fazer a tokenização é usando a biblioteca `nltk`. 

In [16]:
exemplo = 'As séries de Ficção Científica são as melhores! Você não acha?'
words = word_tokenize(exemplo)
words

['As',
 'séries',
 'de',
 'Ficção',
 'Científica',
 'são',
 'as',
 'melhores',
 '!',
 'Você',
 'não',
 'acha',
 '?']

## Regex
Regex é uma sequência de caracteres que forma um padrão de pesquisa. Regex pode ser usado para verificar se um determinado padrão existe em uma string ou não.

In [23]:
regex = re.compile(r'([\w\s]+)')
bandas = 'Queen, Beatles, Rolling Stones, Pink Floyd, Led Zeppelin'
regex.findall(bandas)

['Queen', ' Beatles', ' Rolling Stones', ' Pink Floyd', ' Led Zeppelin']

In [19]:
phone = 'Meu número é 1234-5678'
re.sub(r'^\D+', '', phone)

'1234-5678'

## Stopwords
Stopwords são palavras que são filtradas antes ou depois do processamento de texto. Essas palavras não contêm informações úteis e são removidas para evitar que o modelo aprenda com elas.

In [27]:
stopwords.words('portuguese')

['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'às',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'é',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'éramos',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'está',
 'estamos',
 'estão',
 'estar',
 'estas',
 'estava',
 'estavam',
 'estávamos',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estivéramos',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéssemos',
 'estou',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'fôramos',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fôssemos',
 'fui',
 'há',
 'haja',
 'hajam',
 'hajamos',
 'hão',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houverá',
 'houveram',
 'houvéramos',
 'houverão',
 'houverei',
 'houverem',
 'hou

In [29]:
texto = 'Eu gosto de assistir filmes de ficção científica'
#removendo stopwords
words = word_tokenize(texto.lower())
words = [word for word in words if word not in stopwords.words('portuguese')]
words

['gosto', 'assistir', 'filmes', 'ficção', 'científica']

Outra maneira de remover stopwords é usando o parametro `stop_words` da função `CountVectorizer` da biblioteca `sklearn.feature_extraction.text`.

In [30]:
ex1 = 'O carro que estava quebrado voltou a funcionar'
ex2 = 'Meu carro quebrou e não está funcionando'

df = pd.DataFrame({'text':[ex1,ex2]})
df

Unnamed: 0,text
0,O carro que estava quebrado voltou a funcionar
1,Meu carro quebrou e não está funcionando


In [33]:
vectorizer = CountVectorizer(ngram_range=(1, 1), stop_words=stopwords.words('portuguese'))
text_vectorized = vectorizer.fit_transform(df['text'])
pd.DataFrame(text_vectorized.A, columns=vectorizer.get_feature_names_out()).T

Unnamed: 0,0,1
carro,1,1
funcionando,0,1
funcionar,1,0
quebrado,1,0
quebrou,0,1
voltou,1,0


## Lemmatização e Stemming
Lemmatização é o processo de reduzir as palavras flexionadas adequadamente garantindo que a palavra raiz pertença ao idioma. A lematização é feita com a ajuda de um vocabulário e análise morfológica da palavra.

O stemming é o processo de reduzir as palavras flexionadas à sua raiz. O processo de stemming é mais rápido e simples, pois segue regras heurísticas, sem a necessidade de um dicionário.

A diferença entre lematização e stemming é que a lematização reduz a palavra flexionada adequadamente, enquanto o stemming reduz a palavra flexionada de forma menos precisa.

In [41]:
exemplos = [
    'go', 'went', 'gone', 'going', 'goes',
    'connection', 'connections', 'connective', 'connecting', 'connected',
]

lemmatizer = WordNetLemmatizer()
[lemmatizer.lemmatize(ex, 'v') for ex in exemplos]

['go',
 'go',
 'go',
 'go',
 'go',
 'connection',
 'connections',
 'connective',
 'connect',
 'connect']

In [42]:
stemmer = PorterStemmer()
[stemmer.stem(ex) for ex in exemplos]

['go',
 'went',
 'gone',
 'go',
 'goe',
 'connect',
 'connect',
 'connect',
 'connect',
 'connect']

Em portugues, a biblioteca `nltk` possui um stemmer chamado `RSLPStemmer` que é baseado no algoritmo de stemming RSLP (Removedor de Sufixos da Lingua Portuguesa).

In [48]:
exemplos = [
    'correr', 'correndo', 'correu', 'corrida', 'corridas', 'corredor', 'corredores',
    'corre', 'corra', 'corram', 'correrá', 'correrão', 'correram', 'correriam', 'correrão'
]

stemmer = RSLPStemmer()
[stemmer.stem(ex) for ex in exemplos]

['corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr',
 'corr']

In [51]:
stem1 = " ".join([stemmer.stem(ex) for ex in word_tokenize(ex1)])
stem2 = " ".join([stemmer.stem(ex) for ex in word_tokenize(ex2)])

df = pd.DataFrame({'text':[stem1,stem2]})
df

Unnamed: 0,text
0,o carr que est quebr volt a funcion
1,meu carr quebr e não est funcion


In [52]:
vectorizer = CountVectorizer(ngram_range=(1, 1), stop_words=stopwords.words('portuguese'))
text_vectorized = vectorizer.fit_transform(df['text'])
pd.DataFrame(text_vectorized.A, columns=vectorizer.get_feature_names_out()).T

Unnamed: 0,0,1
carr,1,1
est,1,1
funcion,1,1
quebr,1,1
volt,1,0


# POS-Tagger
POS (Part of Speech) é uma marcação de palavras com informações sobre a categoria gramatical da palavra e sua relação com outras palavras. POS-Tagging é o processo de rotular palavras com informações de POS.

In [55]:
text = nltk.word_tokenize('They refuse to permit us to obtain the refuse permit')
nltk.pos_tag(text)

[('They', 'PRP'),
 ('refuse', 'VBP'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('refuse', 'NN'),
 ('permit', 'NN')]

In [57]:
text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())
text.similar('woman')

man time day year car moment world house family child country boy
state job place way war girl work word


In [64]:
print(floresta.tagged_words())
print(len(floresta.tagged_words()))


[('Um', '>N+art'), ('revivalismo', 'H+n'), ...]
211852


In [71]:
def simplify_tag(t):
    if "+" in t:
        return t.split("+")[1]
    return t

twords = nltk.corpus.floresta.tagged_words()
twords = [(w.lower(),simplify_tag(t)) for (w,t) in twords]
twords[:10]

[('um', 'art'),
 ('revivalismo', 'n'),
 ('refrescante', 'adj'),
 ('o', 'art'),
 ('7_e_meio', 'prop'),
 ('é', 'v-fin'),
 ('um', 'art'),
 ('ex-libris', 'n'),
 ('de', 'prp'),
 ('a', 'art')]

Vamos analisar as seguintes estratégias de tagueamento:

- Default Tagger
- Unigram Tagger
- Bigram Tagger
- Uma combinacao

### Default Tagger
O Default Tagger atribui uma tag a todas as palavras. A tag padrão pode ser um substantivo, verbo, adjetivo, etc.

In [72]:
tags = [tag for (word, tag) in twords]
nltk.FreqDist(tags).max()

'n'

In [73]:
raw = 'Esse é um exemplo utilizando o marcador padrão'
tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger('n')
default_tagger.tag(tokens)

[('Esse', 'n'),
 ('é', 'n'),
 ('um', 'n'),
 ('exemplo', 'n'),
 ('utilizando', 'n'),
 ('o', 'n'),
 ('marcador', 'n'),
 ('padrão', 'n')]

In [75]:
tsents = floresta.tagged_sents()
tsents = [[(w.lower(),simplify_tag(t)) for (w,t) in sent] for sent in tsents if sent]
train = tsents[1000:]
test = tsents[:1000]
tsents[1:3]

[[('o', 'art'),
  ('7_e_meio', 'prop'),
  ('é', 'v-fin'),
  ('um', 'art'),
  ('ex-libris', 'n'),
  ('de', 'prp'),
  ('a', 'art'),
  ('noite', 'n'),
  ('algarvia', 'adj'),
  ('.', '.')],
 [('é', 'v-fin'),
  ('uma', 'num'),
  ('de', 'prp'),
  ('as', 'art'),
  ('mais', 'adv'),
  ('antigas', 'adj'),
  ('discotecas', 'n'),
  ('de', 'prp'),
  ('o', 'art'),
  ('algarve', 'prop'),
  (',', ','),
  ('situada', 'v-pcp'),
  ('em', 'prp'),
  ('albufeira', 'prop'),
  (',', ','),
  ('que', 'pron-indp'),
  ('continua', 'v-fin'),
  ('a', 'prp'),
  ('manter', 'v-inf'),
  ('os', 'art'),
  ('traços', 'n'),
  ('decorativos', 'adj'),
  ('e', 'conj-c'),
  ('as', 'art'),
  ('clientelas', 'n'),
  ('de', 'prp'),
  ('sempre', 'adv'),
  ('.', '.')]]

In [76]:
tagger0 = nltk.DefaultTagger('n')
print(tagger0.accuracy(test))

0.17800040072129833


O desempenho do Default Tagger é muito aquém do esperado, já que atribui a mesma tag para todas as palavras. Entretanto, estatisticamente e por conta do Corpus que estamos usando, quando tagueamos milhares de palavras num texto, a maioria das novas serão, de fato, substantivos. Dessa maneira, utilizar o Default Tagger pode ajudar a melhorar a robustez de um sistema de processamento de linguagem.

### Unigram Tagger
O Unigram Tagger é um modelo de POS-Tagger que atribui a tag mais frequente para uma palavra. O Unigram Tagger é um modelo simples e rápido, mas não leva em consideração a relação entre as palavras.

In [77]:
tagger1 = nltk.UnigramTagger(train)
print(tagger1.accuracy(test))

0.8522139851733119


### Bigram Tagger
O Bigram Tagger é um modelo de POS-Tagger que atribui a tag mais frequente para uma palavra, considerando a tag da palavra anterior.

In [78]:
tagger2 = nltk.BigramTagger(train)
print(tagger2.accuracy(test))

0.14626327389300742


Mesmo que a “tag n” seja a mesma no conjunto de treino e teste, ela não será rotulada corretamente, já que a tag n-1 é diferente. Consequentemente, o tagger falha em taguear o resto da sentença.

À medida que “n” aumenta, a especificidade dos contextos aumenta, assim como a chance de que os dados que desejamos marcar contenham contextos que não estavam presentes nos dados de treinamento.

Isto é conhecido como problema de esparsidade dos dados e é bastante recorrente em NLP.

Como consequência, existe um trade-off entre acurácia e a cobertura dos resultados (relacionado com o trade-off de precision/recall em recuperação de informação).

Uma maneira de resolver o trade-off entre acurácia e cobertura é utilizar o algoritmo com melhor acurácia que temos, mas retornar a algoritmos com maior cobertura quando necessário.

### Combinação
Podemos combinar os dois modelos de POS-Tagger para melhorar o desempenho do POS-Tagger. Se o Unigram Tagger não conseguir encontrar a tag de uma palavra, o Bigram Tagger será usado para encontrar a tag da palavra.

In [79]:
tagger1 = nltk.UnigramTagger(train, backoff=tagger0)
print('tagger1: ',tagger1.accuracy(test))
tagger2 = nltk.BigramTagger(train, backoff=tagger1)
print('tagger2: ',tagger2.accuracy(test))

tagger1:  0.8740532959326788
tagger2:  0.8900420757363254
