# Understanding word normalization
@author: Aman Kedia

Na maioria das vezes, não queremos ter cada fragmento de palavra individual que já encontramos em nosso vocabulário. Poderíamos desejar isso por várias razões, uma delas é a necessidade de distinguir corretamente (por exemplo) a frase U.N. (com caracteres separados por um ponto) de UN (sem pontos). Também podemos trazer palavras à sua forma raiz no dicionário. Por exemplo, **am, are e is** podem ser identificados por sua forma raiz, **be**. Em outra frente, podemos remover as inflexões das palavras para trazê-las à mesma forma.

As palavras **car, cars  e car's** podem ser identificadas como **car**.

Além disso, palavras comuns que ocorrem com muita frequência e não transmitem muito significado, como os artigos **a, an e the,** podem ser removidas. 

No entanto, tudo isso depende muito dos casos de uso. Palavras como **(when, why, where, and who)Wh-words**, por exemplo, quando, por que, onde e quem, não carregam muitas informações na maioria dos contextos e são removidos como parte de uma técnica chamada **stopword removal** remoção de palavras irrelevantes, que veremos um pouco mais tarde na seção Remoção de palavras irrelevantes; no entanto, em situações como classificação e resposta de perguntas, essas palavras tornam-se muito importantes e não devem ser removidas. Agora, com uma compreensão básica dessas técnicas, vamos nos aprofundar nelas em detalhe.

### Stemming

Imagine reunir todas as palavras **computador, computadorização e computadorizar** em uma palavra, computador. O que acontece aqui é chamado de **stemming** derivação. Como parte da stemming, uma tentativa grosseira é feita para remover as formas flexionais de uma palavra e trazê-las para uma forma básica chamada radical. As partes cortadas são chamadas de afixos. No exemplo anterior, compute é a forma básica e os afixos são r, rization e rize, respectivamente. Uma coisa a ter em mente é que o radical não precisa ser uma palavra válida como a conhecemos. Por exemplo,
a palavra tradicional seria derivada de tradit, que não é uma palavra válida no dicionário inglês.

Os dois algoritmos / métodos mais comuns empregados para o stemming  incluem o Porter stemmer  e o Snowball stemmer. O  Porter oferece suporte para o idioma inglês, enquanto o  Snowball, que é um aprimoramento do  Porter, oferece suporte a vários idiomas, o que pode ser visto no seguinte trecho de código e sua saída:

In [11]:
import nltk

In [12]:
from nltk.stem.snowball import SnowballStemmer
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


Uma coisa a se notar no trecho é que o Porter é uma das opçoes providas pela Snowball.Outros stemmers incluem Lancaster, Dawson, Krovetz e lematizadores Lovins, entre outros. Veremos os stemmer Porter e Snowball em detalhes aqui. O stemmer Porter funciona apenas com strings, enquanto o stemmer Snowball funciona com strings e dados Unicode. O stemmer Snowball também permite a opção de ignorar palavras irrelevantes como uma funcionalidade inerente. Agora, vamos primeiro aplicar o stemmer Porter às palavras e ver seus efeitos no seguinte bloco de código:

In [35]:
#plurals = ['ate', 'eat', 'eaten']

In [38]:
plurals = ['caresses', 'flies', 'dies', 'mules', 'died', 'agreed', 'owned', 'humbled', 'sized', 'meeting', 'stating',
           'siezing', 'itemization', 'traditional', 'reference', 'colonizer', 'plotted', 'having', 'generously']

# Porter Stemmer

In [39]:
from nltk.stem.porter import PorterStemmer 
stemmer = PorterStemmer()
singles = [stemmer.stem(plural) for plural in plurals]
print(', '.join(singles))

caress, fli, die, mule, die, agre, own, humbl, size, meet, state, siez, item, tradit, refer, colon, plot, have, gener


# Snowball Stemmer

In [15]:
from nltk.stem.snowball import SnowballStemmer
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [37]:
stemmer2 = SnowballStemmer(language='english')
singles = [stemmer2.stem(plural) for plural in plurals]
print(', '.join(singles))

caress, fli, die, mule, die, agre, own, humbl, size, meet, state, siez, item, tradit, refer, colon, plot, have, generous


### Lemmatização

Ao contrário da stemming, em que alguns caracteres são removidos das palavras usando métodos rudes, a lematização é um processo em que o contexto é usado para converter uma palavra em sua forma de base significativa. Ajuda a agrupar palavras que têm uma forma base comum e, portanto, podem ser identificadas como um único item. A forma de base é conhecida como lema da palavra e às vezes também é conhecida como forma de dicionário.

Os algoritmos de lematização tentam identificar a forma do lemma de uma palavra levando em consideração o contexto da proximidade da palavra, as marcas da classe gramatical (**parto of speech**POS), o significado de uma palavra e assim por diante. A vizinhança pode abranger palavras na vizinhança, frases ou até mesmo documentos.

Além disso, as mesmas palavras podem ter lemas diferentes dependendo do contexto. Um lematizador tentaria identificar as marcas de classe gramatical com base no contexto para identificar o lema apropriado. O lematizador mais comumente usado é o lematizador WordNet. Outros lematizadores incluem o  Spacy, o TextBlob e o  Gensim, entre outros. Nesta seção, exploraremos os lematizadores WordNet e Spacy.


# Wordnet Lemmatizer

In [17]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer 

[nltk_data] Downloading package wordnet to /home/carlos/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [40]:
lemmatizer = WordNetLemmatizer()
s = "We are putting in efforts to enhance our understanding of Lemmatization"
token_list = s.split()
print("The tokens are: ", token_list)
lemmatized_output = ', '.join([lemmatizer.lemmatize(token) for token in token_list])
print("The lemmatized output is: ", lemmatized_output)

The tokens are:  ['We', 'are', 'putting', 'in', 'efforts', 'to', 'enhance', 'our', 'understanding', 'of', 'Lemmatization']
The lemmatized output is:  We, are, putting, in, effort, to, enhance, our, understanding, of, Lemmatization


O lematizador WordNet funciona bem se as tags POS também forem fornecidas como entradas.

É realmente impossível anotar manualmente cada palavra com sua tag POS em um corpus de texto.
Agora, como resolvemos esse problema e fornecemos as marcas de classe gramatical para palavras individuais como entrada para o lematizador do WordNet?

Felizmente, a biblioteca nltk fornece um método para localizar tags POS para uma lista de palavras usando um tagger perceptron médio, **cujos detalhes estão fora do escopo deste capítulo.**

As tags POS para a frase  **We are trying our best to understand Lemmatization** pode ser encontrada no seguinte trecho de código:

## POS Tagging

In [20]:
nltk.download('averaged_perceptron_tagger')
pos_tags = nltk.pos_tag(token_list)
pos_tags

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/carlos/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('We', 'PRP'),
 ('are', 'VBP'),
 ('putting', 'VBG'),
 ('in', 'IN'),
 ('efforts', 'NNS'),
 ('to', 'TO'),
 ('enhance', 'VB'),
 ('our', 'PRP$'),
 ('understanding', 'NN'),
 ('of', 'IN'),
 ('Lemmatization', 'NN')]

## POS tag Mapping

Como pode ser visto, uma lista de tuplas (o token e a tag POS) é retornada pelo tagger POS. Agora, os tags POS precisam ser convertidos em um formato que possa ser entendido pelo lematizador rdNet e enviado como entrada junto com os tokens.

O trecho de código faz o que é necessário mapeando as tags POS para o primeiro caractere, que é aceito pelo lematizador no formato apropriado:

In [42]:
from nltk.corpus import wordnet

##This is a common method which is widely used across the NLP community of practitioners and readers

def get_part_of_speech_tags(token):
    
    """Maps POS tags to first character lemmatize() accepts.
    We are focussing on Verbs, Nouns, Adjectives and Adverbs here."""

    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    
    tag = nltk.pos_tag([token])[0][1][0].upper()
    
    return tag_dict.get(tag, wordnet.NOUN)

## Wordnet Lemmatizer with POS Tag Information

In [45]:
token_list

['We',
 'are',
 'putting',
 'in',
 'efforts',
 'to',
 'enhance',
 'our',
 'understanding',
 'of',
 'Lemmatization']

In [44]:
nltk.pos_tag([token_list[0]])

[('We', 'PRP')]

In [22]:
lemmatized_output_with_POS_information = [lemmatizer.lemmatize(token, get_part_of_speech_tags(token)) for token in token_list]
print(' '.join(lemmatized_output_with_POS_information))

We be put in effort to enhance our understand of Lemmatization


As seguintes conversões aconteceram:

are **to** be

putting **to** put

efforts **to** effort

understanding **to** understand

## Lemmatization vs Stemming

In [24]:
stemmer2 = SnowballStemmer(language='english')
stemmed_sentence = [stemmer2.stem(token) for token in token_list]
print(' '.join(stemmed_sentence))

we are put in effort to enhanc our understand of lemmat


Como pode ser visto, o lematizador WordNet faz uma conversão sensata e com base no contexto do token em sua forma básica, ao contrário do stemmer, que tenta separar os afixos do token

# spaCy Lemmatizer

O lematizador Spacy vem com modelos pré-treinados que podem analisar o texto e descobrir as várias propriedades do texto, como tags POS, tags de entidade nomeada e assim por diante, com uma simples chamada de função. Os modelos pré-construídos identificam as tags POS e atribuem um lema a cada token, diferentemente do lematizador WordNet, onde as tags POS precisam ser fornecidas explicitamente.
Podemos instalar o Spacy e baixar o modelo en para o idioma inglês executando o seguinte comando na linha de comando:

In [25]:
#!pip install spacy

In [27]:
import spacy.cli 
spacy.cli.download("en_core_web_md")

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_md')


In [29]:
import spacy
nlp = spacy.load('en_core_web_md')
doc = nlp("We are putting in efforts to enhance our understanding of Lemmatization")
" ".join([token.lemma_ for token in doc])

'-PRON- be put in effort to enhance -PRON- understanding of Lemmatization'

O lematizador Spacy executou um trabalho decente sem as informações de entrada das tags POS. A vantagem aqui é que não há necessidade de procurar dependências externas para buscar tags POS, pois as informações são incorporadas ao modelo pré-treinado.
Outra coisa a ser observada na saída anterior é o -PRON-lema. O lema para Pronomes é retornado como -PRON- no comportamento padrão do Spacy. Ele pode atuar como um recurso ou, inversamente, pode ser uma limitação, já que o lema exato não está sendo retornado.

# Stopwords removal

What are stopwords?
Stopwords are words such as a, an, the, in, at, and so on that occur frequently in text corpora
and do not carry a lot of information in most contexts. These words, in general, are required
for the completion of sentences and making them grammatically sound. They are often the
most common words in a language and can be filtered out in most NLP tasks, and
consequently help in reducing the vocabulary or search space. There is no single list of
stopwords that is available universally, and they vary mostly based on use cases; however,
a certain list of words is maintained for languages that can be treated as stopwords specific
to that language, but they should be modified based on the problem that is being solved.
Let’s look at the stopwords available for English in the nltk library!

In [30]:
# Let’s look at the stopwords available for English in the nltk library!
nltk.download('stopwords')
from nltk.corpus import stopwords
stop = set(stopwords.words('english'))
", ".join(stop)

[nltk_data] Downloading package stopwords to /home/carlos/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


"same, hadn't, there, his, then, haven, until, didn't, only, down, y, me, their, yours, that'll, weren't, from, very, some, himself, has, once, few, wasn't, those, above, that, below, mustn, on, these, which, too, mightn't, against, had, re, so, s, such, was, needn't, being, off, to, you've, o, is, doesn't, while, shouldn, not, isn, ma, should, they, don, couldn't, theirs, your, you're, for, did, because, this, further, at, about, haven't, my, does, myself, what, are, him, having, i, it, hasn't, herself, am, if, during, all, weren, wouldn, through, before, been, over, he, more, aren, between, a, ain, can, other, mightn, themselves, of, mustn't, but, under, have, our, should've, whom, t, you, an, hers, d, here, will, ll, didn, she, the, shan, when, yourself, again, own, as, where, shan't, now, isn't, doesn, she's, don't, shouldn't, ve, we, itself, after, couldn, with, them, ourselves, you'd, and, won, do, wasn, who, or, nor, hadn, how, up, be, out, any, than, m, her, needn, why, its, we

Se você olhar de perto, notará que WH- palavras como who , what , when , why , how , which , where e who fazem parte desta lista de palavras irrelevantes; no entanto, em uma das seções anteriores, foi mencionado que essas palavras são muito significativas em casos de uso, como resposta a perguntas e classificação de perguntas. Devem ser tomadas medidas para garantir que essas palavras não sejam filtradas quando o corpus de texto for submetido à remoção de palavras irrelevantes. Vamos aprender como isso
pode ser obtido executando-se o seguinte bloco de código:

In [31]:
wh_words = ['who', 'what', 'when', 'why', 'how', 'which', 'where', 'whom']

stop = set(stopwords.words('english'))

sentence = "how are we putting in efforts to enhance our understanding of Lemmatization"

for word in wh_words:
    stop.remove(word)

sentence_after_stopword_removal = [token for token in sentence.split() if token not in stop]
" ".join(sentence_after_stopword_removal)

'how putting efforts enhance understanding Lemmatization'

O trecho de código anterior mostra que a frase  "how are we putting in efforts to enhance our understanding of Lemmatization" é modificada para 'how putting efforts enhance understanding Lemmatization'. As palavras irrelevantes são , we , in , to , our , e of foram removidas da frase. A remoção de palavras irrelevantes geralmente é a primeira etapa tomada após a tokenização durante a construção de um vocabulário ou o pré-processamento de dados de texto.

# Case Folding

Uutra estratégia que ajuda na normalização é chamada de case folding. Como parte deste, todas as letras no corpus de texto são convertidas em minúsculas. O e o serão tratados da mesma forma em um cenário de case folding, enquanto seriam tratados de forma diferente em um cenário de não case folding. Essa técnica auxilia sistemas que lidam com recuperação de informações, como os mecanismos de busca.
Lamborghini, que é um nome próprio, será tratado como lamborghini; se o usuário digitou Lamborghini ou lamborghini não faria diferença, e os mesmos resultados seriam retornados.
No entanto, em situações em que os nomes próprios são derivados de termos nominais comuns, a dobragem de maiúsculas se tornará um gargalo, pois a distinção baseada em casos se tornará uma característica importante aqui. Por exemplo, a General Motors é composta de termos substantivos comuns, mas ela própria é um substantivo próprio. Realizar a dobragem da caixa aqui pode causar problemas. Outro problema é quando as siglas são convertidas para minúsculas. Há uma grande chance de que eles sejam mapeados para substantivos comuns. Um exemplo amplamente utilizado aqui é o CAT, que significa Teste de Admissão Comum na Índia, sendo convertido em gato.
Uma possível solução para isso é construir modelos de aprendizado de máquina que possam usar recursos de uma frase para determinar quais palavras ou tokens na frase devem ser minúsculos e quais não devem ser; no entanto, essa abordagem nem sempre ajuda quando os usuários digitam principalmente em letras minúsculas. Como resultado, colocar tudo em minúsculas se torna uma solução sábia

A linguagem aqui é uma característica importante; em alguns idiomas, como o inglês, a capitalização ponto a ponto em um texto carrega muitas informações, enquanto em alguns outros idiomas, os casos podem não ser tão importantes.
O trecho de código a seguir mostra uma abordagem muito direta que converteria todas as letras de uma frase em minúsculas, fazendo uso do método lower() disponível em Python:

In [15]:
s = "We are putting in efforts to enhance our understanding of Lemmatization"
s = s.lower()
s

'we are putting in efforts to enhance our understanding of lemmatization'

# N-grams

In [16]:
from nltk.util import ngrams
s = "Natural Language Processing is the way to go"
tokens = s.split()
bigrams = list(ngrams(tokens, 2))
[" ".join(token) for token in bigrams]

['Natural Language',
 'Language Processing',
 'Processing is',
 'is the',
 'the way',
 'way to',
 'to go']

In [17]:
s = "Natural Language Processing is the way to go"
tokens = s.split()
trigrams = list(ngrams(tokens, 3))
[" ".join(token) for token in trigrams]

['Natural Language Processing',
 'Language Processing is',
 'Processing is the',
 'is the way',
 'the way to',
 'way to go']

# Building a basic vocabulary

In [18]:
s = "Natural Language Processing is the way to go"
tokens = set(s.split())
vocabulary = sorted(tokens)
vocabulary

['Language', 'Natural', 'Processing', 'go', 'is', 'the', 'to', 'way']

# Removing HTML Tags

In [47]:
html = "<!DOCTYPE html><html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>"
from bs4 import BeautifulSoup

soup = BeautifulSoup(html)
text = soup.get_text()
print('payload:', text)

payload: My First HeadingMy first paragraph.
