<h1 style='font-size:40px'> Basic Natural Language Processing</h1>

<h2 style='font-size:30px'> Basic NLP tasks with NLTK</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A biblioteca do NLTK possui um conjunto de textos-exemplo disponíveis para que o usuário treine as suas habilidades com NLP.
        </li>
    </ul>
</div>

In [2]:
# Importando os textos de exemplo da biblioteca.
import nltk
from nltk.book import *

In [3]:
# 'sents' é um método que nos revela uma frase pertencente a cada texto da coleção.
print(sents())

# Podemos acessar uma das sentenças disponíveis com as variáveis 'sent{numero_do_texto}'.
sent7

sent1: Call me Ishmael .
sent2: The family of Dashwood had long been settled in Sussex .
sent3: In the beginning God created the heaven and the earth .
sent4: Fellow - Citizens of the Senate and of the House of Representatives :
sent5: I have a problem with people PMing me to lol JOIN
sent6: SCENE 1 : [ wind ] [ clop clop clop ] KING ARTHUR : Whoa there !
sent7: Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov. 29 .
sent8: 25 SEXY MALE , seeks attrac older single lady , for discreet encounters .
sent9: THE suburb of Saffron Park lay on the sunset side of London , as red and ragged as a cloud of sunset .
None


['Pierre',
 'Vinken',
 ',',
 '61',
 'years',
 'old',
 ',',
 'will',
 'join',
 'the',
 'board',
 'as',
 'a',
 'nonexecutive',
 'director',
 'Nov.',
 '29',
 '.']

<h3 style='font-size:30px;font-style:italic'>FreqDist</h3>

In [4]:
# Para essa parte introdutória à biblioteca, nos atentaremos ao text7, cuja fonte é o The Wall Street Journal.

# A classe 'FreqDist' retorna uma espécie de dicionário com a contagem de ocorrência de cada token no texto.
dist = FreqDist(text7)

# Quantas vezes a palavra 'dollar' aparece no excerto?
dist['dollar']

16

<h3 style='font-size:30px;font-style:italic'>Normalization and Stemming</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            O processo de normalização dos termos de um texto é algo extremamente recomendável em tarefas de NLP. Por exemplo, a palavra 'List' e 'list', apesar de significarem a mesma coisa, não são consideradas iguais pelo computador por estarem escritas de maneira distinta.
        </li>
    </ul>
</div>

In [5]:
# Se quiséssemos analisar as palavas da lista 'roots', por exemplo, seria importante colocarmos todas as palavras em letra minúscula.
roots = ['list', 'listed', 'listing', 'List']
roots = [word.lower() for word in roots]
roots

['list', 'listed', 'listing', 'list']

<div> 
    <ul style='font-size:20px'> 
        <li> 
            'Stem', do inglês, quer dizer 'tronco'. Gramaticamente, procurar o 'stem' de uma palavra é equivalente a descobrir o que chamamos de <strong>raiz</strong>.
        </li>
        <li> 
            Em análise de textos, às vezes é interessante que convertamos palavras distintas com mesma raiz em uma única só.
        </li>
    </ul>
</div>

In [6]:
# Qual é a raiz dos termos de 'roots'?
porter = nltk.PorterStemmer()

# No caso do algoritmo Porter Stemmer, todas as variações e 'list' são transformadas. É uma abordagem radical que nem sempre desejamos.
# Além disso, esse pode nos retornar palavras inexistentes na língua inglesa, dependendo do termo que sofre a normalização. Veja o que
# ocorre com 'universal'.
print([porter.stem(word) for word in roots])
porter.stem('universal')

['list', 'list', 'list', 'list']


'univers'

In [7]:
# Outro exemplo é quando lidamos com palavras no plural.
# Não seria mais sensato considerarmos 'dollar' e 'dollars' como a mesma coisa?
money = ['dollar', 'dollars']
[porter.stem(word) for word in money]

['dollar', 'dollar']

<h3 style='font-size:30px;font-style:italic'>Lemmatization</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            É considerando esse retorno possivelmente indesejado de Porter que existe o processo de Lemmatização. O seu algoritmo no nltk retorna uma palavra existente quando fazemos um stemming.
        </li>
    </ul>
</div>

In [8]:
udhr = nltk.corpus.udhr.words('English-Latin1')
WNLemma = nltk.WordNetLemmatizer()

# Fazendo a 'Lemmatização' das primeiras 20 palavras da DUDH.
[WNLemma.lemmatize(word) for word in udhr[:20]]

['Universal',
 'Declaration',
 'of',
 'Human',
 'Rights',
 'Preamble',
 'Whereas',
 'recognition',
 'of',
 'the',
 'inherent',
 'dignity',
 'and',
 'of',
 'the',
 'equal',
 'and',
 'inalienable',
 'right',
 'of']

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Mas observe que, por exemplo, a palavra "Rights" não sofreu o stemming desejado. Isso porque ela não está em minúsculas! Ou seja, para que a lemmatização seja feita, é preciso normalizar as palavras,
        </li>
    </ul>
</div>

In [9]:
# Normalizando os termos.
udhr_lower = [word.lower() for word in udhr]
[WNLemma.lemmatize(word) for word in udhr_lower[:20]]

['universal',
 'declaration',
 'of',
 'human',
 'right',
 'preamble',
 'whereas',
 'recognition',
 'of',
 'the',
 'inherent',
 'dignity',
 'and',
 'of',
 'the',
 'equal',
 'and',
 'inalienable',
 'right',
 'of']

<h3 style='font-size:30px;font-style:italic'>Tokenization</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Como verificamos em outras oportunidades, separar termos de frases com um "split" pode nos gerar resultados incorretos. Palavras podem ter sinais de pontuação inclusos, por exemplo.
        </li>
        <li> 
            É considerando essas limitações que a NLTK tem um método próprio para tokenização.
        </li>
    </ul>
</div>

In [10]:
# Dividindo os termos de 'text11' de acordo com um ' '. O resultado é imperfeito.
text11 = "Children shouldn't drink a sugary drink before bed."
text11.split(' ')

['Children', "shouldn't", 'drink', 'a', 'sugary', 'drink', 'before', 'bed.']

In [11]:
# O NLTK não foi apenas capaz de separar 'bed' do '.', como também separou a negação 'n't' de 'should'.
nltk.word_tokenize(text11)

['Children',
 'should',
 "n't",
 'drink',
 'a',
 'sugary',
 'drink',
 'before',
 'bed',
 '.']

<h3 style='font-size:30px;font-style:italic'>Sentence Splitting</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Dividir os períodos de uma frase pode ser algo bastante complexo para um computador. Isso porque um '.' não indica necessariamente o final de um período.
        </li>
    </ul>
</div>

In [12]:
# Tendo a seguinte frase em mãos, vamos dividí-la com um 'split('.')'.
text12 = "This is the first sentence. A gallon of milk in the U.S. costs $2.99. Is this the third sentence? Yes, it is!"

# O resultado é uma separação bizarra de 'text12'.
text12.split('.')

['This is the first sentence',
 ' A gallon of milk in the U',
 'S',
 ' costs $2',
 '99',
 ' Is this the third sentence? Yes, it is!']

In [13]:
# É considerando essa dificuldade que a nltk possui, também, um separador de frases.
nltk.sent_tokenize(text12)

['This is the first sentence.',
 'A gallon of milk in the U.S. costs $2.99.',
 'Is this the third sentence?',
 'Yes, it is!']

<div> 
    <hr>
    <h2 style='font-size:30px'>Advanced NLP tasks with NLTK </h2>
</div>

<h3 style='font-size:30px;font-style:italic'> Identificação de classes gramaticais</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            A Universidade da Pensilvânia criou códigos de identificação para cada classe gramatical da língua inglesa.
        </li>
    </ul>
</div>
<center> 
    <img src='class_gramar1.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Ao fazermos uma análise de classes gramaticais com o NLTK, essas tags serão o output do método correspondente.
        </li>
    </ul>
</div>

In [16]:
# Para fazermos essa espécie de análise, precisamos primeiro tokenizar a frase.
text11 = "Children shouldn't drink a sugary drink before bed."
text11_tokens = nltk.word_tokenize(text11)
text11_tokens

['Children',
 'should',
 "n't",
 'drink',
 'a',
 'sugary',
 'drink',
 'before',
 'bed',
 '.']

In [19]:
# Obtendo as classes gramaticais de cada palavra.
nltk.pos_tag(text11_tokens)

[('Children', 'NNP'),
 ('should', 'MD'),
 ("n't", 'RB'),
 ('drink', 'VB'),
 ('a', 'DT'),
 ('sugary', 'JJ'),
 ('drink', 'NN'),
 ('before', 'IN'),
 ('bed', 'NN'),
 ('.', '.')]

In [22]:
# Se tiver dúvidas quanto ao significado de uma certa tag, use 'help.upenn_tagset'.
nltk.help.upenn_tagset('JJ')

JJ: adjective or numeral, ordinal
    third ill-mannered pre-war regrettable oiled calamitous first separable
    ectoplasmic battery-powered participatory fourth still-to-be-named
    multilingual multi-disciplinary ...


<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Ambiguidades com a classificação gramatical</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Como característica natural das línguas, palavras podem ter significados distintos a depender do contexto. Isso pode ser um fator que dificulta a correta identificação das classes gramaticais.
        </li>
    </ul>
</div>
<center> 
    <img src='ambiguity.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Observe a frase acima. "Visiting", sem um contexto definido, pode assumir papel tanto de um adjetivo, quanto de um verbo. À qual classe gramatical o nltk designará? Neste caso, como palavras com terminação em "ing" tendem a ser verbos no gerúndio, a biblioteca  definirá palavra como tal.
        </li>
    </ul>
</div>

In [29]:
# Mas veja, com o contexto esclarecido, o 'pos_tag' consegue identificar a classe correta.
big_smoke = 'You\'re my running dog, CJ!'
tokenize_big_smoke = nltk.word_tokenize(big_smoke)
nltk.pos_tag(tokenize_big_smoke)

[('You', 'PRP'),
 ("'re", 'VBP'),
 ('my', 'PRP$'),
 ('running', 'JJ'),
 ('dog', 'NN'),
 (',', ','),
 ('CJ', 'NNP'),
 ('!', '.')]

<h3 style='font-size:30px;font-style:italic'> Parsing Sentence Structure</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Analisar a estrutura de uma frase também é algo com um certo grau de complexidade, a depender do texto. Por isso, ao fazermos tal tarefa, é necessário criar ou possuir uma gramática com a qual o programa classificará os termos da sentença.
        </li>
    </ul>
</div>

In [36]:
# Analisando uma frase simples.
text15 = 'Alice loves Bob'

# Criando a gramática da frase.
grammar = nltk.CFG.fromstring(''' 
                        S -> NP VP
                        VP -> V NP
                        NP -> 'Alice' | 'Bob'
                        V -> 'loves' ''')

# Gerando um analisador de frases.
parser = nltk.ChartParser(grammar)
trees = parser.parse_all(nltk.word_tokenize(text15))
for tree in trees:
    print(tree)

(S (NP Alice) (VP (V loves) (NP Bob)))


<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> NLTK and Parse Tree Collection</h4>

In [41]:
from nltk.corpus import treebank
text17 = treebank.parsed_sents('wsj_0001.mrg')
print(text17)

[Tree('S', [Tree('NP-SBJ', [Tree('NP', [Tree('NNP', ['Pierre']), Tree('NNP', ['Vinken'])]), Tree(',', [',']), Tree('ADJP', [Tree('NP', [Tree('CD', ['61']), Tree('NNS', ['years'])]), Tree('JJ', ['old'])]), Tree(',', [','])]), Tree('VP', [Tree('MD', ['will']), Tree('VP', [Tree('VB', ['join']), Tree('NP', [Tree('DT', ['the']), Tree('NN', ['board'])]), Tree('PP-CLR', [Tree('IN', ['as']), Tree('NP', [Tree('DT', ['a']), Tree('JJ', ['nonexecutive']), Tree('NN', ['director'])])]), Tree('NP-TMP', [Tree('NNP', ['Nov.']), Tree('CD', ['29'])])])]), Tree('.', ['.'])]), Tree('S', [Tree('NP-SBJ', [Tree('NNP', ['Mr.']), Tree('NNP', ['Vinken'])]), Tree('VP', [Tree('VBZ', ['is']), Tree('NP-PRD', [Tree('NP', [Tree('NN', ['chairman'])]), Tree('PP', [Tree('IN', ['of']), Tree('NP', [Tree('NP', [Tree('NNP', ['Elsevier']), Tree('NNP', ['N.V.'])]), Tree(',', [',']), Tree('NP', [Tree('DT', ['the']), Tree('NNP', ['Dutch']), Tree('VBG', ['publishing']), Tree('NN', ['group'])])])])])]), Tree('.', ['.'])])]


In [42]:
import re
re.findall()

TypeError: findall() missing 2 required positional arguments: 'pattern' and 'string'

In [21]:
nltk.download('tagsets')

[nltk_data] Downloading package tagsets to /home/veiga/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.


True

In [None]:
# Questão 9 Assignment.
def count_similarities(trigram1, trigram2):
    count = 0
    for letter1, letter2 in zip(trigram1, trigram2):
        if letter1 == letter2:
            count+=1
    return count

def answer_nine(entries=['cormulent', 'incendenece', 'validrate']):
    l = []
    # Extracting the trigrams from each word in entries.
    for word in entries:
        if word.endswith('ece'):
            word = word[:-4]+'nce'
            
        trigram_first = word[:3]
        trigram_last = word[-3:]
        chosen_expression = None
        chosen_jaccard = 1
        # Examining the words in 'correct_spellings'
        for expression in correct_spellings:
            exp_trigram_first = expression[:3]
            exp_trigram_last = expression[-3:]
            
            #Esta condição está radical demais. Vamos criar um método para contar o número
            # de letras em comum por posição nos trigramas.
            if count_similarities(exp_trigram_first, trigram_first)>=3 and count_similarities(exp_trigram_last, trigram_last)==3:
                jaccard = nltk.jaccard_distance(set(word), set(expression))
                if jaccard < chosen_jaccard:
                    chosen_expression = expression
                    chosen_jaccard = jaccard
                
        l.append(chosen_expression)
    return list(l) # Your answer here
    
answer_nine()

<a href='https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html'> UPenn</a>