# Exercícios: Introdução à PLN
Fonte: CARVALHO, Fabrício Galende Marques de. **Notas de aula da disciplina processamento de linguagem natural.** São José dos Campos, 2023.

## Terminologia e conceitos
---

1. Selecione uma obra literária de domínio público e ilustre a variedade de dados presente. Considere, por exemplo, a construção de frases, orações, etc. e compare com expressões de uso corrente.

**Resposta:** Selecionada a obra "A Ela", de Machado de Assis, podemos observar particularidades do autor e do período que o conto foi escrito (há mais de 80 anos atrás), como o uso de palavras mais rebuscadas, pronomes de tratamento (como no trecho “Vê V. Exa., Sr. presidente, que nesse tempo, o nobre deputado era inimigo de todas as leis
opressoras.”) e forma de escrever mais extensa, que hoje encaramos como "poético", como na frase "As cartas ao Dr. Lemos começaram a escassear, até que de todo cessaram de aparecer.", que, em vocabulário atual, poderia ser substituído por "Dr. Lemos recebia cada vez menos cartas, até que pararam de vir.".

2. Exemplifique uma sentença, escrita na língua portuguesa, que pode surgir em um site de pré-atendimento em uma concessionária, que potencialmente seja difícil de ser interpretado por um chatbot. Explique sua resposta em termos de estruturação da sentença e suponha que ela esteja gramaticalmente correta.

**Resposta:** A sentença "queria uma moto boa para dar grau" pode ser difícil de ser interpretada por um chatbot pois, apesar de metade da frase ser bastante clara (é possível perceber o desejo de comprar uma moto, dado o contexto), não é possível caracterizar o que seria uma "moto boa para dar grau", necessitando de mais informações antes de oferecer algum produto específico.

3. Sistemas de PLN são geralmente compostos por modelos que são treinados utilizando corpora de texto. Por que modelos que são válidos hoje podem não mais ser adequados daqui a dois anos?

**Resposta:** Dado que corpora é o conjunto de corpus, que por sua vez é um conjunto de dados lingúisticos reais pertencentes a uma língua, e que a língua é um elemento dinâmico (expressões novas são acrescentadas, palavras caem em desuso, etc), um sistema de PLN treinado hoje pode não ser mais tão adequado daqui a 2 anos, já que palavras que não estão em seu vocabulário podem surgir ou palavras antigas podem trocar de significado.

4. Por que a utilização de emojis ou outros símbolos não presentes na linguagem textual formal podem dificultar a operação de um sistema de PLN?

**Resposta:** A utilização de emojis ou outros símbolos não presentes na linguagem textual formal podem dificultar a operação de um sistema de PLN pois dependem de contexto para entendimento de seu significado, e ainda podem levar à interpretações errôneas.

5. Dê um exemplo de sentença em um processo comunicativo onde os referentes considerados pelo transmissor e pelo receptor podem ser distintos caso não haja adequada contextualização do processo comunicativo.

**Resposta:** A frase "preciso comprar uma bateria nova" pode ser entendida tanto como a necessidade de comprar uma "pilha" nova, quanto comprar um "instrumento" novo.

6. Exemplifique uma saída para o processo de lematização e stemização. Considere a seguinte sentença:
> “Assim que amanheceu, os estudantes, apressados, acordaram e saíram correndo para fazer a prova”.

**Resposta:** A lematização é um processo que considera os lemas das palavras (sua forma base), já a stemização não considera tais lemas, apenas remove os afixos da palavra e retorna um elemento que tem ou não significado, assim, uma possível saída para a entrada sugerida seria:

| Palavra    | Lema    | Stem  |
|:-----------|:--------|:------|
| Assim      | Assim   | ssim  |
| que        | que     | que   |
| amanheceu  | manhã   | manh  |
| os         | o       | o     |
| estudantes | estudo  | estud |
| apressados | pressa  | press |
| acordaram  | acordar | cord  |
| e          | e       | e     |
| saíram     | sair    | sa    |
| correndo   | correr  | corr  |
| para       | para    | para  |
| fazer      | fazer   | faz   |
| a          | a       | a     |
| prova      | prova   | prova |

7. Cite dois possíveis usos das tags do tipo POS. Forneça exemplos com sentenças simples, expressas na língua portuguesa ou inglesa.

**Resposta:** Como comentado em aula, a rotularização utilizando as tags POS podem ser muito úteis para o caso de substituição/entendimento do significado de emojis (como na frase "eu ❤ você") ou análise de sentimentos (como perceber que a frase "estou feliz da vida!" significa que a pessoa está muito feliz)

## Prática de programação
---

1. Baseando-se no código-fonte fornecido pelo professor, exemplifique o carregamento da biblioteca NLTK, em Python, e efetue a tokenização de um texto em português pertencente a alguma obra literária de domínio público. Utilize um texto de pelo menos 2000 caracteres. Mostre o funcionamento do seu programa e descreva ao menos 5 POS tags.

In [1]:
# importando as libs que vamos usar
import nltk
import spacy
import numpy as np
import pandas as pd
import copy as cp
import joblib

!python -m nltk.downloader popular 
!python -m spacy download pt_core_news_sm en_core_web_sm

caused by: ['/opt/conda/lib/python3.10/site-packages/tensorflow_io/python/ops/libtensorflow_io_plugins.so: undefined symbol: _ZN3tsl6StatusC1EN10tensorflow5error4CodeESt17basic_string_viewIcSt11char_traitsIcEENS_14SourceLocationE']
caused by: ['/opt/conda/lib/python3.10/site-packages/tensorflow_io/python/ops/libtensorflow_io.so: undefined symbol: _ZTVN10tensorflow13GcsFileSystemE']


[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     /usr/share/nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to
[nltk_data]    |     /usr/share/nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to
[nltk_data]    |     /usr/share/nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to
[nltk_data]    |     /usr/share/nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to
[nltk_data]    |     /usr/share/nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /usr/share/nltk_data...
[nltk_data]    |   Package movie_reviews is alread

In [2]:
entry = '''
"Vê V. Exa., Sr. presidente, que nesse tempo, o nobre deputado era inimigo de todas as leis opressoras. A assembléia tem visto como ele trata as leis do metro.” Todo o resto do discurso foi assim. A minoria protestou. Luís Tinoco fez-se de todas as cores, e a sessão acabou em risada. No dia seguinte os jornais amigos de Luís Tinoco agradeceram ao adversário deste o triunfo que lhe proporcionou mostrando à província “uma antiga e brilhante face do talento do ilustre deputado”. Os que indecorosamente riram dos versos, foram condenados com estas poucas linhas: “Há dias um deputado governista disse que a situação era uma caravana de homens honestos e bons. É caravana, não há dúvida; vimos ontem os seus camelos”.
Nem por isso, Luís Tinoco ficou mais consolado. As cartas ao Dr. Lemos começaram a escassear, até que de todo cessaram de aparecer. Decorreram assim silenciosos uns três anos, ao cabo dos quais o Dr. Lemos foi nomeado não sei para que cargo na província onde se achava Luís Tinoco. Partiu.
Apenas empossado do cargo, tratou de procurar o ex-poeta, e pouco tempo gastou recebendo logo um convite dele para ir a um estabelecimento rural onde se achava.
– Há de me chamar ingrato, não? disse Luís Tinoco, apenas viu assomar à porta de casa o Dr. Lemos. Mas não sou; contava ir vê-lo daqui a um ano; e se lhe não escrevi… Mas que tem doutor? está espantado? O Dr. Lemos estava efetivamente pasmado a olhar para a figura de Luís Tinoco. Era aquele o poeta dos Goivos e Camélias, o eloqüente deputado, o fogoso publicista? O que ele tinha diante de si era um honrado e pacato lavrador, ar e maneiras rústicas, sem o menor vestígio das atitudes melancólicas do poeta, do gesto arrebatado do trbuno, – uma transformação, uma criatura muito outra e muito melhor.
Riram-se ambos, um da mudança, outro do espanto, pedindo o Dr. Lemos a Luís Tinoco lhe dissesse se era certo haver deixado a política, ou se aquilo eram apenas umas férias para renovar a alma.
– Tudo lhe explicarei, doutor, mas há de ser depois de ter examinado a minha casa e minha roça, depois de lhe apresentar minha mulher e meus filhos…
– Casado? – Há vinte meses.
– E não me disse nada! – Ia este ano à corte e esperava surpreendê-lo… Que duas criancinhas as minhas… lindas como dois anjos. Saem à mãe, que é a flor da província. Oxalá pareçam também com ela nas qualidades de dona de casa; que atividade! que economia!…
Feita a apresentação, beijadas as crianças, examinado tudo, Luís Tinoco declarou ao Dr. Lemos que definitivamente deixara a política.
– De vez? – De vez.
– Mas que motivo? desgostos, naturalmente.
– Não; descobri que não era fadado para grandes destinos. Um dia leram-me na assembléia alguns versos meus. Reconheci então quanto eram pífios os tais versos; e podendo vir mais tarde a olhar com a mesma lástima e igual arrependimento para as minhas obras políticas, arrepiei carreira e deixei a vida pública. Uma noite de reflexão e nada mais.
– Pois teve ânimo?…
– Tive, meu amigo, tive ânimo de pisar terreno sólido, em vez de patinhar nas ilusões dos primeiros dias. Eu era um ridículo poeta e talvez ainda mais ridículo orador. Minha vocação era esta.
Com poucos anos mais estou rico. Ande agora beber o café que nos espera e feche a boca, que as moscas andam no ar.
'''

print("----------------------------------------")
print("Usando NLTK (Natural Language Toolkit)")
# Referência para pegar o modelo treinado: https://github.com/inoueMashuu/POS-tagger-portuguese-nltk
trained_data = "../input/pos-tagger-brill/POS_tagger_brill.pkl"
portuguese_tagger = joblib.load(trained_data)

print("----------------------------------------")
print("POS tags")
print("----------------------------------------")
pos_tags_nltk = portuguese_tagger.tag(nltk.word_tokenize(entry))
print(pos_tags_nltk)
print("----------------------------------------")
print("POS tags (em dataframe)")
print("----------------------------------------")
pos_tags_nltk_df = pd.DataFrame(pos_tags_nltk).T
pos_tags_nltk_df

----------------------------------------
Usando NLTK (Natural Language Toolkit)
----------------------------------------
POS tags
----------------------------------------
[("''", 'N'), ('Vê', 'V'), ('V', 'V'), ('.', '.'), ('Exa.', 'N'), (',', ','), ('Sr.', 'N'), ('presidente', 'N'), (',', ','), ('que', 'PRO-KS-REL'), ('nesse', 'V'), ('tempo', 'N'), (',', ','), ('o', 'ART'), ('nobre', 'ADJ'), ('deputado', 'N'), ('era', 'V'), ('inimigo', 'ADJ'), ('de', 'PREP'), ('todas', 'PROADJ'), ('as', 'ART'), ('leis', 'N'), ('opressoras', 'N'), ('.', '.'), ('A', 'ART'), ('assembléia', 'N'), ('tem', 'VAUX'), ('visto', 'PCP'), ('como', 'KS'), ('ele', 'PROPESS'), ('trata', 'V'), ('as', 'ART'), ('leis', 'NPROP'), ('do', 'NPROP'), ('metro.', 'NPROP'), ('”', 'N'), ('Todo', 'PROADJ'), ('o', 'ART'), ('resto', 'N'), ('do', 'KS'), ('discurso', 'N'), ('foi', 'V'), ('assim', 'ADV'), ('.', '.'), ('A', 'ART'), ('minoria', 'N'), ('protestou', 'V'), ('.', '.'), ('Luís', 'NPROP'), ('Tinoco', 'NPROP'), ('fez-se', 'NPR

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,664,665,666,667,668,669,670,671,672,673
0,'',Vê,V,.,Exa.,",",Sr.,presidente,",",que,...,a,boca,",",que,as,moscas,andam,no,ar,.
1,N,V,V,.,N,",",N,N,",",PRO-KS-REL,...,ART,N,",",PRO-KS-REL,PROPESS,N,V,KC,N,.


2. Exemplifique a stemização e a lematização de um texto, em língua portuguesa. Ilustre um caso onde textos diferentes conduzem a uma mesma saída através do stemming ou lemmatization. Considere como saída um vetor ordenado contendo lemas e stems.

In [3]:
entry_1 = "Proponho descansar"
entry_2 = "Propus descansar"

stemmer = nltk.SnowballStemmer("portuguese")
model_spacy = spacy.load('pt_core_news_sm')

print("----------------------------------------")
print('Primeira entrada:', entry_1)
print("----------------------------------------")
print('stemming:', stemmer.stem(entry_1).split()) 
print('lemmatization:', [ word.lemma_ for word in model_spacy(entry_1)])

print("----------------------------------------")
print('Segunda entrada:', entry_2)
print("----------------------------------------")
print('stemming:', stemmer.stem(entry_2).split())
print('lemmatization:', [word.lemma_ for word in model_spacy(entry_2)])

----------------------------------------
Primeira entrada: Proponho descansar
----------------------------------------
stemming: ['proponho', 'descans']
lemmatization: ['Proponho', 'descansar']
----------------------------------------
Segunda entrada: Propus descansar
----------------------------------------
stemming: ['propus', 'descans']
lemmatization: ['propus', 'descansar']


3. Repita 1 considerando a língua inglesa.

In [4]:
en_entry = '''"The Selection" is a book series written by Kiera Cass, consisting of five volumes: "The Selection," "The Elite," "The One," "The Heir," and "The Crown." The story takes place in a dystopian future where a young woman named America Singer is selected to participate in a competition to determine who will become the future wife of Prince Maxon.
One of the standout features of the series is the combination of dystopian and romance elements, which has attracted many readers. The premise of the competition to become the princess and the dynamics of the romantic relationships between the characters are central to the plot. The storyline presents a complex social context, where society is divided into castes, creating tensions and conflicts that unfold throughout the narrative.
The main characters are well-developed, with distinct traits and varied personalities. America Singer, the protagonist, is a captivating character with a strong and determined voice. Prince Maxon is portrayed as a benevolent leader who is genuinely interested in finding a true partner. The supporting characters also have their own stories and contribute to the plot in different ways.
Kiera Cass's writing is accessible and fluid, making the reading experience engaging and easy to follow. The author builds a detailed world and effectively conveys the characters' emotions. The series also addresses themes such as politics, social inequality, and the power of love and friendship.
However, some critics argue that "The Selection" series can be considered predictable and includes some character stereotypes. Additionally, some elements of the plot may seem clichéd to more demanding readers. However, it is important to note that the series has a specific target audience, and many readers appreciate precisely these aspects that could be seen as predictable.
Overall, "The Selection" by Kiera Cass is a book series that has gained a large following, especially among younger readers. With a blend of romance, dystopia, and palace intrigue, the story captivates and entertains, providing a light and engaging read. If you enjoy young adult romance with a touch of adventure and drama, "The Selection" series may be an interesting choice for you.'''

print("----------------------------------------")
print("Usando SpaCy")
print("----------------------------------------")
print("POS tags")
print("----------------------------------------")
en_model_spacy = spacy.load('en_core_web_sm') 
en_pos_tags_spacy = [(word.text, word.pos_) for word in en_model_spacy(en_entry)]
print(en_pos_tags_spacy)
print("----------------------------------------")
print("POS tags (em dataframe)")
print("----------------------------------------")
en_pos_tags_spacy_df = pd.DataFrame(en_pos_tags_spacy).T
en_pos_tags_spacy_df

----------------------------------------
Usando SpaCy
----------------------------------------
POS tags
----------------------------------------
[('"', 'PUNCT'), ('The', 'DET'), ('Selection', 'PROPN'), ('"', 'PUNCT'), ('is', 'AUX'), ('a', 'DET'), ('book', 'NOUN'), ('series', 'NOUN'), ('written', 'VERB'), ('by', 'ADP'), ('Kiera', 'PROPN'), ('Cass', 'PROPN'), (',', 'PUNCT'), ('consisting', 'VERB'), ('of', 'ADP'), ('five', 'NUM'), ('volumes', 'NOUN'), (':', 'PUNCT'), ('"', 'PUNCT'), ('The', 'DET'), ('Selection', 'PROPN'), (',', 'PUNCT'), ('"', 'PUNCT'), ('"', 'PUNCT'), ('The', 'DET'), ('Elite', 'PROPN'), (',', 'PUNCT'), ('"', 'PUNCT'), ('"', 'PUNCT'), ('The', 'DET'), ('One', 'NUM'), (',', 'PUNCT'), ('"', 'PUNCT'), ('"', 'PUNCT'), ('The', 'DET'), ('Heir', 'PROPN'), (',', 'PUNCT'), ('"', 'PUNCT'), ('and', 'CCONJ'), ('"', 'PUNCT'), ('The', 'DET'), ('Crown', 'PROPN'), ('.', 'PUNCT'), ('"', 'PUNCT'), ('The', 'DET'), ('story', 'NOUN'), ('takes', 'VERB'), ('place', 'NOUN'), ('in', 'ADP'), ('a', 

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,409,410,411,412,413,414,415,416,417,418
0,"""",The,Selection,"""",is,a,book,series,written,by,...,"""",series,may,be,an,interesting,choice,for,you,.
1,PUNCT,DET,PROPN,PUNCT,AUX,DET,NOUN,NOUN,VERB,ADP,...,PUNCT,NOUN,AUX,AUX,DET,ADJ,NOUN,ADP,PRON,PUNCT


4. Repita 2 considerando a língua inglesa.

In [5]:
en_entry_1 = "I work a lot"
en_entry_2 = "I worked a lot"

stemmer = nltk.SnowballStemmer("english")
en_model_spacy = spacy.load('en_core_web_sm')

print("----------------------------------------")
print('Primeira entrada:', en_entry_1)
print("----------------------------------------")
print('stemming:', [stemmer.stem(word) for word in en_entry_1.split()])
print('lemmatization:', [word.lemma_ for word in en_model_spacy(en_entry_1)])

print("----------------------------------------")
print('Segunda entrada:', en_entry_2)
print("----------------------------------------")
print('stemming:', [stemmer.stem(word) for word in en_entry_2.split()])
print('lemmatization:', [word.lemma_ for word in en_model_spacy(en_entry_2)])

----------------------------------------
Primeira entrada: I work a lot
----------------------------------------
stemming: ['i', 'work', 'a', 'lot']
lemmatization: ['I', 'work', 'a', 'lot']
----------------------------------------
Segunda entrada: I worked a lot
----------------------------------------
stemming: ['i', 'work', 'a', 'lot']
lemmatization: ['I', 'work', 'a', 'lot']
