<h1 style='font-size:40px'> Basic Natural Language Processing</h1>

<h2 style='font-size:30px'> Basic NLP tasks with NLTK</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A biblioteca do NLTK possui um conjunto de textos-exemplo disponíveis para que o usuário treine as suas habilidades com NLP.
        </li>
    </ul>
</div>

In [14]:
# Importando os textos de exemplo da biblioteca.
import nltk
from nltk.book import *

In [6]:
# 'sents' é um método que nos revela uma frase pertencente a cada texto da coleção.
print(sents())

# Podemos acessar uma das sentenças disponíveis com as variáveis 'sent{numero_do_texto}'.
sent7

sent1: Call me Ishmael .
sent2: The family of Dashwood had long been settled in Sussex .
sent3: In the beginning God created the heaven and the earth .
sent4: Fellow - Citizens of the Senate and of the House of Representatives :
sent5: I have a problem with people PMing me to lol JOIN
sent6: SCENE 1 : [ wind ] [ clop clop clop ] KING ARTHUR : Whoa there !
sent7: Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov. 29 .
sent8: 25 SEXY MALE , seeks attrac older single lady , for discreet encounters .
sent9: THE suburb of Saffron Park lay on the sunset side of London , as red and ragged as a cloud of sunset .
None


['Pierre',
 'Vinken',
 ',',
 '61',
 'years',
 'old',
 ',',
 'will',
 'join',
 'the',
 'board',
 'as',
 'a',
 'nonexecutive',
 'director',
 'Nov.',
 '29',
 '.']

<h3 style='font-size:30px;font-style:italic'>FreqDist</h3>

In [11]:
# Para essa parte introdutória à biblioteca, nos atentaremos ao text7, cuja fonte é o The Wall Street Journal.

# A classe 'FreqDist' retorna uma espécie de dicionário com a contagem de ocorrência de cada token no texto.
dist = FreqDist(text7)

# Quantas vezes a palavra 'dollar' aparece no excerto?
dist['dollar']

16

<h3 style='font-size:30px;font-style:italic'>Normalization and Stemming</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O processo de normalização dos termos de um texto é algo extremamente recomendável em tarefas de NLP. Por exemplo, a palavra 'List' e 'list', apesar de significarem a mesma coisa, não são consideradas iguais pelo computador por estarem escritas de maneira distinta.
        </li>
    </ul>
</div>

In [19]:
# Se quiséssemos analisar as palavas da lista 'roots', por exemplo, seria importante colocarmos todas as palavras em letra minúscula.
roots = ['list', 'listed', 'listing', 'List']
roots = [word.lower() for word in roots]
roots

['list', 'listed', 'listing', 'list']

<div> 
    <ul style='font-size:20px'> 
        <li> 
            'Stem', do inglês, quer dizer 'tronco'. Gramaticamente, procurar o 'stem' de uma palavra é equivalente a descobrir o que chamamos de <strong>raiz</strong>.
        </li>
        <li> 
            Em análise de textos, às vezes é interessante que convertamos palavras distintas com mesma raiz em uma única só.
        </li>
    </ul>
</div>

In [24]:
# Qual é a raiz dos termos de 'roots'?
porter = nltk.PorterStemmer()

# No caso do algoritmo Porter Stemmer, todas as variações e 'list' são transformadas. É uma abordagem radical que nem sempre desejamos.
# Além disso, esse pode nos retornar palavras inexistentes na língua inglesa, dependendo do termo que sofre a normalização. Veja o que
# ocorre com 'universal'.
print([porter.stem(word) for word in roots])
porter.stem('universal')

['list', 'list', 'list', 'list']


'univers'

In [43]:
# Outro exemplo é quando lidamos com palavras no plural.
# Não seria mais sensato considerarmos 'dollar' e 'dollars' como a mesma coisa?
money = ['dollar', 'dollars']
[porter.stem(word) for word in money]

['dollar', 'dollar']

<h3 style='font-size:30px;font-style:italic'>Lemmatization</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            É considerando esse retorno possivelmente indesejado de Porter que existe o processo de Lemmatização. O seu algoritmo no nltk retorna uma palavra existente quando fazemos um stemming.
        </li>
    </ul>
</div>

In [48]:
udhr = nltk.corpus.udhr.words('English-Latin1')
WNLemma = nltk.WordNetLemmatizer()

# Fazendo a 'Lemmatização' das primeiras 20 palavras da DUDH.
[WNLemma.lemmatize(word) for word in udhr[:20]]

['Universal',
 'Declaration',
 'of',
 'Human',
 'Rights',
 'Preamble',
 'Whereas',
 'recognition',
 'of',
 'the',
 'inherent',
 'dignity',
 'and',
 'of',
 'the',
 'equal',
 'and',
 'inalienable',
 'right',
 'of']

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Mas observe que, por exemplo, a palavra "Rights" não sofreu o stemming desejado. Isso porque ela não está em minúsculas! Ou seja, para que a lemmatização seja feita, é preciso normalizar as palavras,
        </li>
    </ul>
</div>

In [52]:
# Normalizando os termos.
udhr_lower = [word.lower() for word in udhr]
[WNLemma.lemmatize(word) for word in udhr_lower[:20]]

['universal',
 'declaration',
 'of',
 'human',
 'right',
 'preamble',
 'whereas',
 'recognition',
 'of',
 'the',
 'inherent',
 'dignity',
 'and',
 'of',
 'the',
 'equal',
 'and',
 'inalienable',
 'right',
 'of']

<h3 style='font-size:30px;font-style:italic'>Tokenization</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Como verificamos em outras oportunidades, separar termos de frases com um "split" pode nos gerar resultados incorretos. Palavras podem ter sinais de pontuação inclusos, por exemplo.
        </li>
        <li> 
            É considerando essas limitações que a NLTK tem um método próprio para tokenização.
        </li>
    </ul>
</div>

In [54]:
# Dividindo os termos de 'text11' de acordo com um ' '. O resultado é imperfeito.
text11 = "Children shouldn't drink a sugary drink before bed."
text11.split(' ')

['Children', "shouldn't", 'drink', 'a', 'sugary', 'drink', 'before', 'bed.']

In [57]:
# O NLTK não foi apenas capaz de separar 'bed' do '.', como também separou a negação 'n't' de 'should'.
nltk.word_tokenize(text11)

['Children',
 'should',
 "n't",
 'drink',
 'a',
 'sugary',
 'drink',
 'before',
 'bed',
 '.']

<h3 style='font-size:30px;font-style:italic'>Sentence Splitting</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Dividir os períodos de uma frase pode ser algo bastante complexo para um computador. Isso porque um '.' não indica necessariamente o final de um período.
        </li>
    </ul>
</div>

In [63]:
# Tendo a seguinte frase em mãos, vamos dividí-la com um 'split('.')'.
text12 = "This is the first sentence. A gallon of milk in the U.S. costs $2.99. Is this the third sentence? Yes, it is!"

# O resultado é uma separação bizarra de 'text12'.
text12.split('.')

['This is the first sentence',
 ' A gallon of milk in the U',
 'S',
 ' costs $2',
 '99',
 ' Is this the third sentence? Yes, it is!']

In [64]:
# É considerando essa dificuldade que a nltk possui, também, um separador de frases.
nltk.sent_tokenize(text12)

['This is the first sentence.',
 'A gallon of milk in the U.S. costs $2.99.',
 'Is this the third sentence?',
 'Yes, it is!']

<div> 
    <hr>
    <h2 style='font-size:30px'>Advanced NLP tasks with NLTK </h2>
</div>

<h3 style='font-size:30px;font-style:italic'> Identificação de classes gramaticais</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Universidade da Pensilvânia criou códigos de identificação para cada classe gramatical da língua inglesa.
        </li>
    </ul>
</div>

In [56]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/veiga/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

<p style='color:red'> Começar por Advanced NLP tasks with NLTK