# Understanding word normalization
@author: Aman Kedia

Na maioria das vezes, não queremos ter cada fragmento de palavra individual que já encontramos em nosso vocabulário. Poderíamos desejar isso por várias razões, uma delas é a necessidade de distinguir corretamente (por exemplo) a frase U.N. (com caracteres separados por um ponto) de UN (sem pontos). Também podemos trazer palavras à sua forma raiz no dicionário. Por exemplo, am, are e is podem ser identificados por sua forma raiz, be. Em outra frente, podemos remover as inflexões das palavras para trazê-las à mesma forma.

As palavras carro, carros e carros podem ser identificadas como carro.

Além disso, palavras comuns que ocorrem com muita frequência e não transmitem muito significado, como os artigos a, an e the, podem ser removidas. 

No entanto, tudo isso depende muito dos casos de uso. Palavras como **(when, why, where, and who)Wh-words**, por exemplo, quando, por que, onde e quem, não carregam muitas informações na maioria dos contextos e são removidos como parte de uma técnica chamada **stopword removal** remoção de palavras irrelevantes, que veremos um pouco mais tarde na seção Remoção de palavras irrelevantes; no entanto, em situações como classificação e resposta de perguntas, essas palavras tornam-se muito importantes e não devem ser removidas. Agora, com uma compreensão básica dessas técnicas, vamos nos aprofundar nelas em detalhe.

### Stemming

Imagine reunir todas as palavras **computador, computadorização e computadorizar** em uma palavra, computar. O que acontece aqui é chamado de **stemming** derivação. Como parte da stemming, uma tentativa grosseira é feita para remover as formas flexionais de uma palavra e trazê-las para uma forma básica chamada radical. As peças cortadas são chamadas de afixos. No exemplo anterior, compute é a forma básica e os afixos são r, rization e rize, respectivamente. Uma coisa a ter em mente é que o radical não precisa ser uma palavra válida como a conhecemos. Por exemplo, o
a palavra tradicional seria derivada de tradit, que não é uma palavra válida no dicionário inglês.

Os dois algoritmos / métodos mais comuns empregados para o stemming  incluem o Porter stemmer  e o Snowball stemmer. O  Porter oferece suporte para o idioma inglês, enquanto o  Snowball, que é um aprimoramento do  Porter, oferece suporte a vários idiomas, o que pode ser visto no seguinte trecho de código e sua saída:

In [None]:
import nltk

In [1]:
from nltk.stem.snowball import SnowballStemmer
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


Uma coisa a se notar no trecho é que o Porter é uma das opçoes providas pela Snowball.Outros stemmers incluem Lancaster, Dawson, Krovetz e lematizadores Lovins, entre outros. Veremos os stemmer Porter e Snowball em detalhes aqui. O stemmer Porter funciona apenas com strings, enquanto o stemmer Snowball funciona com strings e dados Unicode. O stemmer Snowball também permite a opção de ignorar palavras irrelevantes como uma funcionalidade inerente. Agora, vamos primeiro aplicar o stemmer Porter às palavras e ver seus efeitos no seguinte bloco de código:

In [2]:
plurals = ['caresses', 'flies', 'dies', 'mules', 'died', 'agreed', 'owned', 'humbled', 'sized', 'meeting', 'stating',
           'siezing', 'itemization', 'traditional', 'reference', 'colonizer', 'plotted', 'having', 'generously']

# Porter Stemmer

In [None]:
from nltk.stem.porter import PorterStemmer 
stemmer = PorterStemmer()
singles = [stemmer.stem(plural) for plural in plurals]
print(' '.join(singles))

caress fli die mule die agre own humbl size meet state siez item tradit refer colon plot have gener


# Snowball Stemmer

In [None]:
from nltk.stem.snowball import SnowballStemmer
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [None]:
stemmer2 = SnowballStemmer(language='english')
singles = [stemmer2.stem(plural) for plural in plurals]
print(' '.join(singles))

caress fli die mule die agre own humbl size meet state siez item tradit refer colon plot have generous


### Lemmatização

Ao contrário da stemming, em que alguns caracteres são removidos das palavras usando métodos rudes, a lematização é um processo em que o contexto é usado para converter uma palavra em sua forma de base significativa. Ajuda a agrupar palavras que têm uma forma base comum e, portanto, podem ser identificadas como um único item. A forma de base é conhecida como lema da palavra e às vezes também é conhecida como forma de dicionário.

Os algoritmos de lematização tentam identificar a forma do lemma de uma palavra levando em consideração o contexto da proximidade da palavra, as marcas da classe gramatical (**parto of speech**POS), o significado de uma palavra e assim por diante. A vizinhança pode abranger palavras na vizinhança, frases ou até mesmo documentos.

Além disso, as mesmas palavras podem ter lemas diferentes dependendo do contexto. Um lematizador tentaria identificar as marcas de classe gramatical com base no contexto para identificar o lema apropriado. O lematizador mais comumente usado é o lematizador WordNet. Outros lematizadores incluem o  Spacy, o TextBlob e o  Gensim, entre outros. Nesta seção, exploraremos os lematizadores WordNet e Spacy.


# Wordnet Lemmatizer

In [None]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer 

[nltk_data] Downloading package wordnet to /home/carlos/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [None]:
lemmatizer = WordNetLemmatizer()
s = "We are putting in efforts to enhance our understanding of Lemmatization"
token_list = s.split()
print("The tokens are: ", token_list)
lemmatized_output = ' '.join([lemmatizer.lemmatize(token) for token in token_list])
print("The lemmatized output is: ", lemmatized_output)

The tokens are:  ['We', 'are', 'putting', 'in', 'efforts', 'to', 'enhance', 'our', 'understanding', 'of', 'Lemmatization']
The lemmatized output is:  We are putting in effort to enhance our understanding of Lemmatization


O lematizador WordNet funciona bem se as tags POS também forem fornecidas como entradas.

É realmente impossível anotar manualmente cada palavra com sua tag POS em um corpus de texto.
Agora, como resolvemos esse problema e fornecemos as marcas de classe gramatical para palavras individuais como entrada para o lematizador do WordNet?

Felizmente, a biblioteca nltk fornece um método para localizar tags POS para uma lista de palavras usando um tagger perceptron médio, **cujos detalhes estão fora do escopo deste capítulo.**

As tags POS para a frase  **We are trying our best to understand Lemmatization** pode ser encontrada no seguinte trecho de código:

## POS Tagging

In [None]:
nltk.download('averaged_perceptron_tagger')
pos_tags = nltk.pos_tag(token_list)
pos_tags

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/carlos/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('We', 'PRP'),
 ('are', 'VBP'),
 ('putting', 'VBG'),
 ('in', 'IN'),
 ('efforts', 'NNS'),
 ('to', 'TO'),
 ('enhance', 'VB'),
 ('our', 'PRP$'),
 ('understanding', 'NN'),
 ('of', 'IN'),
 ('Lemmatization', 'NN')]

## POS tag Mapping

Como pode ser visto, uma lista de tuplas (o token e a tag POS) é retornada pelo tagger POS. Agora, os tags POS precisam ser convertidos em um formato que possa ser entendido pelo lematizador rdNet e enviado como entrada junto com os tokens.

O trecho de código faz o que é necessário mapeando as tags POS para o primeiro caractere, que é aceito pelo lematizador no formato apropriado:

In [None]:
from nltk.corpus import wordnet

##This is a common method which is widely used across the NLP community of practitioners and readers

def get_part_of_speech_tags(token):
    
    """Maps POS tags to first character lemmatize() accepts.
    We are focussing on Verbs, Nouns, Adjectives and Adverbs here."""

    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    
    tag = nltk.pos_tag([token])[0][1][0].upper()
    
    return tag_dict.get(tag, wordnet.NOUN)

## Wordnet Lemmatizer with POS Tag Information

In [None]:
lemmatized_output_with_POS_information = [lemmatizer.lemmatize(token, get_part_of_speech_tags(token)) for token in token_list]
print(' '.join(lemmatized_output_with_POS_information))

We be put in effort to enhance our understand of Lemmatization


As seguintes conversões aconteceram:

are **to** be

putting **to** put

efforts **to** effort

understanding **to** understand

## Lemmatization vs Stemming

In [None]:
stemmer2 = SnowballStemmer(language='english')
stemmed_sentence = [stemmer2.stem(token) for token in token_list]
print(' '.join(stemmed_sentence))

we are put in effort to enhanc our understand of lemmat


Como pode ser visto, o lematizador WordNet faz uma conversão sensata e com base no contexto do token em sua forma básica, ao contrário do stemmer, que tenta separar os afixos do token

# spaCy Lemmatizer

In [None]:
#!pip install spacy

In [None]:
import spacy
nlp = spacy.load('en')
doc = nlp("We are putting in efforts to enhance our understanding of Lemmatization")
" ".join([token.lemma_ for token in doc])

OSError: [E050] Can't find model 'en'. It doesn't seem to be a shortcut link, a Python package or a valid path to a data directory.

# Stopwords

In [None]:
nltk.download('stopwords')
from nltk.corpus import stopwords
stop = set(stopwords.words('english'))
", ".join(stop)

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/amankedia/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


"it's, yours, an, doing, any, mightn't, you, having, wasn't, themselves, just, over, below, needn't, a, this, shan't, them, isn't, was, wouldn't, as, only, his, or, shan, wouldn, don, where, own, were, he, out, do, it, am, won, isn, there, hers, to, ll, most, for, weren, have, by, while, the, re, that, down, haven, has, is, here, itself, all, didn, herself, shouldn, him, ve, who, doesn, m, hadn't, after, further, weren't, at, hadn, should've, too, because, can, now, same, more, she's, wasn, these, yourself, himself, being, very, until, myself, few, so, which, ourselves, they, t, you'd, did, o, aren, but, that'll, such, whom, of, s, you'll, those, doesn't, my, what, aren't, during, hasn, through, will, couldn, i, mustn, needn, mustn't, d, had, me, under, won't, haven't, its, with, when, their, between, if, once, against, before, on, not, you're, each, yourselves, in, and, are, shouldn't, some, nor, her, does, she, off, how, both, our, then, why, again, we, no, y, be, other, ma, from, up

In [None]:
wh_words = ['who', 'what', 'when', 'why', 'how', 'which', 'where', 'whom']

stop = set(stopwords.words('english'))

sentence = "how are we putting in efforts to enhance our understanding of Lemmatization"

for word in wh_words:
    stop.remove(word)

sentence_after_stopword_removal = [token for token in sentence.split() if token not in stop]
" ".join(sentence_after_stopword_removal)

'how putting efforts enhance understanding Lemmatization'

# Case Folding

In [None]:
s = "We are putting in efforts to enhance our understanding of Lemmatization"
s = s.lower()
s

'we are putting in efforts to enhance our understanding of lemmatization'

# N-grams

In [None]:
from nltk.util import ngrams
s = "Natural Language Processing is the way to go"
tokens = s.split()
bigrams = list(ngrams(tokens, 2))
[" ".join(token) for token in bigrams]

['Natural Language',
 'Language Processing',
 'Processing is',
 'is the',
 'the way',
 'way to',
 'to go']

In [None]:
s = "Natural Language Processing is the way to go"
tokens = s.split()
trigrams = list(ngrams(tokens, 3))
[" ".join(token) for token in trigrams]

['Natural Language Processing',
 'Language Processing is',
 'Processing is the',
 'is the way',
 'the way to',
 'way to go']

# Building a basic vocabulary

In [None]:
s = "Natural Language Processing is the way to go"
tokens = set(s.split())
vocabulary = sorted(tokens)
vocabulary

['Language', 'Natural', 'Processing', 'go', 'is', 'the', 'to', 'way']

# Removing HTML Tags

In [None]:
html = "<!DOCTYPE html><html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>"
from bs4 import BeautifulSoup

soup = BeautifulSoup(html)
text = soup.get_text()
print(text)

My First HeadingMy first paragraph.
