<h1 align="center"> Aplicações em Processamento de Linguagem Natural </h1>
<h2 align="center"> Aula 01 - Introdução ao Processamento de Linguagem Natural</h2>
<h3 align="center"> Prof. Fernando Vieira da Silva MSc.</h3>

<h2>O que é Processamento de Linguagem Natural? (Natural Language Processing - NLP)</h2>

<p>É um subcampo da Ciência da Computação e Inteligência Artificial. Reune uma série de técnicas empregadas na compreensão e geração automática de texto.
</p>

<p>No princípio, aplicações em NLP eram criadas com base em regras codificadas (hard-coded), geralmente extraídas de conhecimento linguístico. Mas, com o advento de modernas técnicas de Aprendizado e Máquina - e, mais recentemente, Aprendizado Profundo (Deep Learning) - essas técnicas se tornaram mais comuns em aplicações atuais. Ao longo desse curso, vamos estudar essas técnicas que estão em mais evidência nos dias atuais.
</p>

<h2>Tipos de aplicações de NLP</h2>

* Sistemas de recomendação de texto
* Sistemas de respostas automáticas (ex: chatbots)
* Sistemas de sumarização automática
* Sistemas de classificação de sentimentos
* Tradutores automáticos
* Corretores ortográficos
* etc

<h2>O que é um corpus?</h2>

<p>É um conjunto de textos escritos em um determinado idioma, geralmente anotados de alguma forma (ex: anotações sintáticas, sentimentos, etc). Um conjunto de corpus é chamado de corpora.
</p>
<p>Podemos acessar diversos corpora disponíveis no NLTK (Natural Language Tool Kit). Exemplos:</p>
* **Corpus Gutenberg** - coleção com diversos livros gratuitos (o NLTK disponibiliza alguns deles).

In [None]:
import nltk
nltk.corpus.gutenberg.fileids()

In [None]:
nltk.corpus.gutenberg.raw("shakespeare-hamlet.txt")

* **Corpus Machado** - Divesas obras de Machado de Assis

In [None]:
nltk.corpus.machado.fileids()

In [None]:
nltk.corpus.machado.raw("contos/macn001.txt")

* **Corpus NPS** - Chat de conteúdo adulto, criado originalmente para identificar predadores sexuais.

In [None]:
nltk.corpus.nps_chat.fileids()

In [None]:
nltk.corpus.nps_chat.posts("11-06-adults_706posts.xml")

* **Corpus Brown** - Corpus com textos de 500 fontes diferentes, categorizados por gênero

In [None]:
from nltk.corpus import brown
brown.categories()

In [None]:
brown.fileids()

<h2>Part of Speech Tagging (POS)</h2>

<p>POS tagging é a tarefa de anotar palavras de acordo com sua classificação gramatical ou de acordo com sua função no discurso.</p>

<table>
<colgroup>
<col width="11%">
<col width="27%">
<col width="62%">
</colgroup>
<thead valign="bottom">
<tr><th class="head">Tag</th>
<th class="head">Meaning</th>
<th class="head">English Examples</th>
</tr>
</thead>
<tbody valign="top">
<tr><td><tt class="doctest"><span class="pre">ADJ</span></tt></td>
<td>adjective</td>
<td><span class="example">new, good, high, special, big, local</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">ADP</span></tt></td>
<td>adposition</td>
<td><span class="example">on, of, at, with, by, into, under</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">ADV</span></tt></td>
<td>adverb</td>
<td><span class="example">really, already, still, early, now</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">CONJ</span></tt></td>
<td>conjunction</td>
<td><span class="example">and, or, but, if, while, although</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">DET</span></tt></td>
<td>determiner, article</td>
<td><span class="example">the, a, some, most, every, no, which</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">NOUN</span></tt></td>
<td>noun</td>
<td><span class="example">year, home, costs, time, Africa</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">NUM</span></tt></td>
<td>numeral</td>
<td><span class="example">twenty-four, fourth, 1991, 14:24</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">PRT</span></tt></td>
<td>particle</td>
<td><span class="example">at, on, out, over per, that, up, with</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">PRON</span></tt></td>
<td>pronoun</td>
<td><span class="example">he, their, her, its, my, I, us</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">VERB</span></tt></td>
<td>verb</td>
<td><span class="example">is, say, told, given, playing, would</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">.</span></tt></td>
<td>punctuation marks</td>
<td><span class="example">. , ; !</span></td>
</tr>
<tr><td><tt class="doctest"><span class="pre">X</span></tt></td>
<td>other</td>
<td><span class="example">ersatz, esprit, dunno, gr8, univeristy</span></td>
</tr>
</tbody>
</table>
<p fontsize=8>Fonte: https://www.nltk.org/book/ch05.html</p>

<p>Porém, há ambiguidade! Exemplos:</p>
* Inglês: He will race (VERB) the car. When will the race (NOUN) start?
* Português: Eles não vão (VERB) trabalhar hoje para estudar para a prova. Espero que não seja em vão (ADV).

<p>Por isso, normalmente os POS Taggers são modelos de Aprendizado de Máquia treinados com atributos como:</p>
* Palavra anterior
* Palavra seguinte
* Indicador se a palavra tem a primeira letra maiúscula.

Para o inglês, vamos utilizar um POS Tagger pronto disponível no NLTK:

In [None]:
from nltk import pos_tag

words = "He will race the car. When will the race start?".split(" ")

pos_tags = pos_tag(words)

print(pos_tags)

<p>Porém, não temos um POS Tagger disponível para o Português. Vamos utilizar o modelo disponível na biblioteca Spacy</p>

In [2]:
!python -m spacy download pt_core_news_sm

Collecting pt_core_news_sm==2.0.0 from https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.0.0/pt_core_news_sm-2.0.0.tar.gz#egg=pt_core_news_sm==2.0.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.0.0/pt_core_news_sm-2.0.0.tar.gz (38.7MB)
[K    100% |████████████████████████████████| 38.7MB 101.8MB/s ta 0:00:01
[?25hInstalling collected packages: pt-core-news-sm
  Running setup.py install for pt-core-news-sm ... [?25ldone
[?25hSuccessfully installed pt-core-news-sm-2.0.0

[93m    Linking successful[0m
    /opt/conda/lib/python3.6/site-packages/pt_core_news_sm -->
    /opt/conda/lib/python3.6/site-packages/spacy/data/pt_core_news_sm

    You can now load the model via spacy.load('pt_core_news_sm')



In [3]:
import spacy

from spacy.lang.pt import Portuguese

nlp = spacy.load('pt_core_news_sm')
tokens = nlp("Eles não vão trabalhar hoje para estudar para a prova. Espero que não seja em vão")
for t in tokens:
    print(t.text, t.pos_)

Eles PRON
não ADV
vão AUX
trabalhar VERB
hoje ADV
para ADP
estudar VERB
para ADP
a DET
prova NOUN
. PUNCT
Espero VERB
que SCONJ
não ADV
seja VERB
em ADP
vão VERB


<h2>WordNet</h2>

<p>WordNet é uma base de palavras associadas a seus sinônimos (chamados <i>synsets</i>).
    </p>

In [4]:
from nltk.corpus import wordnet as wn

wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

<p>Pode-se obter os sinônimos de um POS específico</p>

In [None]:
wn.synsets('dog', pos=wn.NOUN)

<p>Também pode-se obter definição e exemplo de aplicação em frase</p>

In [None]:
wn.synset('dog.n.01').definition()

In [None]:
wn.synset('dog.n.01').examples()

<p>O WordNet também conta com palavras em idiomas diferentes. A busca pelos synsets também pode ser feita por palavra e idioma</p>

In [None]:
wn.synset('dog.n.01').lemma_names('por')

In [8]:
wn.synsets('cão', lang='por')

[Synset('canine.n.02'),
 Synset('bitch.n.04'),
 Synset('dog.n.01'),
 Synset('devil.n.02')]

<p>Synsets estão associados de acordo com relações semânticas</p>

* **Hiperônimo** - Canino é hiperônimo de Cachorro.
* **Hipônimo** - Cão de caça é hipônimo de Cachorro, assim como Cachorro é Hipônimo de Canino.
* **Holonímia** - Cão é holónimo de pata e focinho.

<p><a href="https://commons.wikimedia.org/wiki/File:Hyponym_and_hypernym.svg#/media/File:Hyponym_and_hypernym.svg"><img src="https://upload.wikimedia.org/wikipedia/commons/b/b4/Hyponym_and_hypernym.svg" alt="Hyponym and hypernym.svg" width="220" height="90"></a><br>By Own work - Derived from <a href="https://en.wikipedia.org/wiki/File:Hyponymsandhypernyms.jpg" class="extiw" title="en:File:Hyponymsandhypernyms.jpg">en:File:Hyponymsandhypernyms.jpg</a> by <a href="//commons.wikimedia.org/w/index.php?title=User:Tanzx30&amp;action=edit&amp;redlink=1" class="new" title="User:Tanzx30 (page does not exist)">user:Tanzx30</a> published under CC0 1.0, <a href="http://creativecommons.org/publicdomain/zero/1.0/deed.en" title="Creative Commons Zero, Public Domain Dedication">CC0</a>, <a href="https://commons.wikimedia.org/w/index.php?curid=55191814">Link</a></p>


In [None]:
print("Hypernyms:")
print(wn.synset('dog.n.01').hypernyms())

print("Hyponyms:")
print(wn.synset('dog.n.01').hyponyms())

print("Holonyms")
print(wn.synset('dog.n.01').member_holonyms())

In [None]:
print("Hypernyms:")
print(wn.synset('canine.n.02').lemma_names())

print("Hyponyms:")
print(wn.synset('hunting_dog.n.01').lemma_names())

print("Holonyms")
print(wn.synset('canis.n.01').lemma_names())


<p>Por fim, pode-se obter a similaridade de duas palavras, por meio da distância de menor caminho no grafo de conexões semânticas.</p>

In [None]:
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')
fork = wn.synset('fork.n.01')
print(dog.path_similarity(cat))
print(dog.path_similarity(fork))

<p><b>Exercício 1:</b> 
   Escreva um algoritmo que recebe uma frase em português e mostra as traduções das palavras em Inglês, considerando todos os sinônimos possíveis. Se não encontrar alguma palavra, deve mostrar a palavra em Português.</p>
   
   Exemplo:
   sent = "O menino bebe café com leite toda manhã"
   
   resultado:
   [['lordship', 'O', 'o'],
 ['baby',
  'babe',
  'infant',
  'cub',
  'lad',
  'laddie',
  'sonny',
  'sonny_boy',
  'chap',
  'fellow',
  'feller',
  'fella',
  'lad',
  'gent',
  'blighter',
  'cuss',
  'bloke',
  'child',
  'kid',
  'youngster',
  'minor',
  'shaver',
  'nipper',
  'small_fry',
  'tiddler',
  'tike',
  'tyke',
  'fry',
  'nestling',
  'child',
  'kid',
  'child',
  'baby',
  'daughter',
  'girl',
  'male_child',
  'boy',
  'male_offspring',
  'man-child',
  'son',
  'boy'],
 ['bebe'],
 ['cafe',
  'coffeehouse',
  'coffee_shop',
  'coffee_bar',
  'coffee_break',
  'tea_break',
  'espresso',
  'coffee_bean',
  'coffee_berry',
  'coffee',
  'coffee',
  'java',
  'coffee',
  'java',
  'coffee',
  'coffee_tree'],
 ['successfully', 'aboard', 'alongside', 'shoehorn'],
 ['milk', 'milk', 'milk', "cows'_milk"],
 ['toda'],
 ['morrow', 'morning', 'morn', 'morning_time', 'forenoon']]


In [43]:
sent = "O menino bebe café com leite toda manhã"

import spacy
import pprint

from nltk.corpus import wordnet as wn
from spacy.lang.pt import Portuguese

nlp = spacy.load('pt_core_news_sm')
tokens = nlp(sent)
    
results = [[] for i in range(len(tokens))]
wn_pos = {'NOUN':wn.NOUN, 'ADJ':wn.ADJ,
                  'VERB':wn.VERB, 'ADV':wn.ADV}
for i in range(len(tokens)):
    t = tokens[i]    
    if not t.pos_ in wn_pos.keys():
        syns = wn.synsets(t.text, lang='por')
    else:
        syns = wn.synsets(t.text, lang='por', pos=wn_pos[t.pos_])
        
    if len(syns) == 0:
        results[i].append(t.text)
    else:
        for s in syns:
            results[i].extend(s.lemma_names())
            
pprint.pprint(results)    
    

[['lordship', 'O', 'o'],
 ['baby',
  'babe',
  'infant',
  'cub',
  'lad',
  'laddie',
  'sonny',
  'sonny_boy',
  'chap',
  'fellow',
  'feller',
  'fella',
  'lad',
  'gent',
  'blighter',
  'cuss',
  'bloke',
  'child',
  'kid',
  'youngster',
  'minor',
  'shaver',
  'nipper',
  'small_fry',
  'tiddler',
  'tike',
  'tyke',
  'fry',
  'nestling',
  'child',
  'kid',
  'child',
  'baby',
  'daughter',
  'girl',
  'male_child',
  'boy',
  'male_offspring',
  'man-child',
  'son',
  'boy'],
 ['bebe'],
 ['cafe',
  'coffeehouse',
  'coffee_shop',
  'coffee_bar',
  'coffee_break',
  'tea_break',
  'espresso',
  'coffee_bean',
  'coffee_berry',
  'coffee',
  'coffee',
  'java',
  'coffee',
  'java',
  'coffee',
  'coffee_tree'],
 ['successfully', 'aboard', 'alongside', 'shoehorn'],
 ['milk', 'milk', 'milk', "cows'_milk"],
 ['toda'],
 ['morrow', 'morning', 'morn', 'morning_time', 'forenoon']]
