#**Níveis de Analise Linguistica e Análise Lexical e Morfológica Automatizada - Tokenização, Stemming e Lematização**

## Tokenização, Stemming (derivação) e Lematização

### Links úteis

[NLTK tutorial](https://data-flair.training/blogs/nltk-python-tutorial/)

[Python stemming and lemmatization](https://data-flair.training/blogs/python-stemming/)

[NLTK for portuguese](https://www.nltk.org/howto/portuguese_en.html)

[Portuguese lemmatizers](https://lars76.github.io/2018/05/08/portuguese-lemmatizers.html)

## Sumário
- Tokenização
- Lematização
- Stemming
- Níveis de análise linguística
  - Fonética
  - Morfológica
  - Sintática
  - Semântica
  - Pragmática
  - Texto de exemplo
    - Árvore de dependência

## Níveis de Análise Linguística

<img src="https://images.slideplayer.com.br/40/11157777/slides/slide_39.jpg" width="80%">

### Morfológica

É o estudo da estrutura das palavras e suas classificações em diferentes categorias.

Considere os exemplos:

- árvore<br>
- árvore<ins>s</ins><br>
- arvore<ins>zinhas</ins><br>
- <ins>im</ins>possível<br>
- <ins>sobre</ins>mesa

Essas palavras são formadas por morfemas, que se dividem em independentes e dependentes.

 - *árvore*, *possível*, *sobre* e *mesa* são **morfemas independentes**.

 - *s*, *zinhas* e *im* são **morfemas dependentes**.


As palavras podem ser classificadas em partes do discurso (part-of-speech -> POS).

***substantivos, verbos, adjetivos, preposições e advérbios*** são exemplos dessas partes do discurso.

Essas classes também podem ser agrupadas entre:
 - abertas, que abrangem um grande número de palavras e abrigam facilmente novas entradas, como substantivos e verbos;
 - fechadas, que possuem funções gramaticais bem definidas, como artigos e preposições.



### Sintática

É o estudo do sentido entre as palavras bem como a sua disposição em uma frase.

Com a classificação morfológica das palavras, uma análise sintática demonstra a validade do texto de acordo com a gramática empregada.

A análise sintática também permite reconhecer os termos da oração:

- Termos essenciais
 - Sujeito
 - Predicado

- Termos integrantes
 - Complemento verbal
 - Complemento nominal
 - Agente da passiva

- Acessórios
 - Adjunto adnominal
 - Adjunto adverbial
 - Aposto





<img src="https://linguisticageralunip.files.wordpress.com/2017/11/sintaxe-volume-1-2-638.jpg" width="40%">





### Exemplo prático
Abaixo podemos ver na prática a execução das análises morfológicas e sintáticas e suas diferenças e relações.

In [None]:

import nltk
#download do punkt e rslp (2 pacotes que serão utilizados)
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> q


True

In [None]:
import spacy

import spacy.cli
spacy.cli.download("pt_core_news_sm")

nlp = spacy.load("pt_core_news_sm")

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
text2 = "O homem viu o menino com o telescópio. Ele entrou na sala de muletas."

doc = nlp(text2)

spacy.displacy.render(doc, style='dep', options={"compact": True, "distance": 100}, jupyter=True)

In [None]:
print(list(doc.noun_chunks))
for token in doc:
    print(token.morph)

[O homem, o menino, o telescópio, Ele, sala, muletas]
Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Gender=Masc|Number=Sing
Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Gender=Masc|Number=Sing

Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Gender=Masc|Number=Sing

Case=Nom|Gender=Masc|Number=Sing|Person=3|PronType=Prs
Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
Definite=Def|Gender=Fem|Number=Sing|PronType=Art
Gender=Fem|Number=Sing

Gender=Fem|Number=Plur



## Tokenização
- A tokenização quebra a sequência de
caracteres de um texto localizando o limite de cada palavra, ou seja, os pontos onde uma
palavra termina e outra começa. As
palavras assim identificadas são frequentemente chamadas de tokens.

Vamos usar o nltk para mostrar como o texto

> Dr. João foi ao banco para pegar o dinheiro que havia deixado lá. Ao chegar, decidiu se sentar para descansar um pouco.

pode ser tokenizado.

Para isso, primeiro é preciso baixar os pacotes *pukt* e *rslp* do NLTK.

### Tokenização de sentenças

In [None]:
from nltk.tokenize import sent_tokenize

nltk.download('punkt')

text1 = "Dr. João foi ao banco para pegar o dinheiro que havia deixado lá. Ao chegar, decidiu se sentar para descansar um pouco."

language = "portuguese"

sent_tokenize(text1, language)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['Dr. João foi ao banco para pegar o dinheiro que havia deixado lá.',
 'Ao chegar, decidiu se sentar para descansar um pouco.']

### Tokenização de palavras

In [None]:
from nltk.tokenize import word_tokenize

words = word_tokenize(text1, language)

words

['Dr.',
 'João',
 'foi',
 'ao',
 'banco',
 'para',
 'pegar',
 'o',
 'dinheiro',
 'que',
 'havia',
 'deixado',
 'lá',
 '.',
 'Ao',
 'chegar',
 ',',
 'decidiu',
 'se',
 'sentar',
 'para',
 'descansar',
 'um',
 'pouco',
 '.']

## Stemming
O processo de stemização consiste em reduzir uma palavra ao seu radical.

A palavra "meninas", "meninos" e "menininhos" se reduziriam a "menin".

As palavras "gato", "gata", "gatos" e "gatas" reduziriam-se para "gat".

A palavra pode não ter significado, daí a noção do radical.

In [None]:
nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()

snowBallPtStemmer = nltk.stem.SnowballStemmer("portuguese")

for word in words:
  print(f"{word}: {stemmer.stem(word)} / {snowBallPtStemmer.stem(word)}")


Dr.: dr. / dr.
João: joã / joã
foi: foi / foi
ao: ao / ao
banco: banc / banc
para: par / par
pegar: peg / peg
o: o / o
dinheiro: dinh / dinheir
que: que / que
havia: hav / hav
deixado: deix / deix
lá: lá / lá
.: . / .
Ao: ao / ao
chegar: cheg / cheg
,: , / ,
decidiu: decid / decid
se: se / se
sentar: sent / sent
para: par / par
descansar: descans / descans
um: um / um
pouco: pouc / pouc
.: . / .


[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


## Lematização

A lematização reduz a palavra ao seu lema, que é comum entre palavras relacionadas.

Para substantivo, geralmente se usa a forma no masculino e singular.

No caso de verbos, o lema é o infinitivo.

Por exemplo, as palavras "gato", "gata", "gatos" e "gatas" são todas formas do mesmo lema: "gato".

Igualmente, as palavras "tiver", "tenho", "tinha", "tem" são formas do mesmo lema "ter".

O NLTK não possui lematizador para o português, então usaremos a biblioteca Spacy.

O primeiro passo é baixar e carregar o modelo.

Agora podemos extrair os lemas.

In [None]:
text = ""
lemma = ""

doc = nlp(text1)

for token in nlp(text1):
    text += token.text + "\t"
    lemma += token.lemma_ + "\t"

print(text)
print(lemma)

NameError: ignored

A vantagem de aplicar a stemização ou lematização é clara: redução de vocabulário e abstração de significado. Porém, ao mesmo tempo, perdemos parte da informação original do texto, o que pode ser problemático para diversas aplicações, e.g., perceba a diferença de conotação entre os termos 'bom' e 'bonzinho' na descrição de um produto.

# Fazendo nosso próprio analisador morfológico

In [None]:
!pip install conllu
!wget http://marlovss.work.gd:8080/tomorrow/aula2/bosque.conllu

Collecting conllu
  Downloading conllu-5.0.1-py3-none-any.whl.metadata (21 kB)
Downloading conllu-5.0.1-py3-none-any.whl (16 kB)
Installing collected packages: conllu
Successfully installed conllu-5.0.1
--2024-07-24 20:31:20--  http://marlovss.work.gd:8080/tomorrow/aula2/bosque.conllu
Resolving marlovss.work.gd (marlovss.work.gd)... 177.180.149.154
Connecting to marlovss.work.gd (marlovss.work.gd)|177.180.149.154|:8080... connected.
HTTP request sent, awaiting response... 200 OK
Length: 11291250 (11M)
Saving to: ‘bosque.conllu’


2024-07-24 20:31:35 (802 KB/s) - ‘bosque.conllu’ saved [11291250/11291250]



In [None]:
import conllu
import itertools as it

class AttributeDict(dict):
    __getattr__ = dict.__getitem__
    __setattr__ = dict.__setitem__
    __delattr__ = dict.__delitem__


class CoNLLU:
   def __init__(self, files):
      self.word = []
      self.sentences = []
      for f in files:
         parsed = conllu.parse(open(f).read())
         sents = [[AttributeDict(form = token['form'], lemma=token['lemma'],pos=token['upos'],feats=token['feats']) for token in tokenlist if token['upos']!='_'] for tokenlist in parsed]
         self.sentences.extend(sents)
         self.words.extend([word for sent in sents for word in sent])
      self.pos_tags = set([word.pos for word in self.words])
      self.feats_dict ={pos:set(it.chain.from_iterable([list(word.feats.keys()) for word in self.words if word.pos==pos and word.feats!= None])) for pos in self.pos_tags}


In [None]:
bosque = CoNLLU(files=["bosque.conllu"])

In [None]:
bosque.feats_dict

{'PART': {'ExtPos', 'Gender', 'Number'},
 'NUM': {'ExtPos', 'Gender', 'NumType', 'Number'},
 'SYM': set(),
 'CCONJ': {'ExtPos', 'Number'},
 'PRON': {'Case',
  'Definite',
  'ExtPos',
  'Gender',
  'Number',
  'Person',
  'PronType',
  'Reflex',
  'Typo'},
 'SCONJ': {'Definite',
  'ExtPos',
  'Gender',
  'Number',
  'PronType',
  'Typo',
  'VerbForm'},
 'DET': {'Definite',
  'ExtPos',
  'Gender',
  'NumType',
  'Number',
  'Poss',
  'PronType',
  'Typo'},
 'ADV': {'ExtPos', 'Gender', 'Number', 'Polarity', 'PronType', 'Typo'},
 'X': {'ExtPos', 'Gender', 'Number'},
 'INTJ': set(),
 'AUX': {'ExtPos', 'Gender', 'Mood', 'Number', 'Person', 'Tense', 'VerbForm'},
 'VERB': {'ExtPos',
  'Gender',
  'Mood',
  'Number',
  'Person',
  'Tense',
  'Typo',
  'VerbForm',
  'Voice'},
 'ADJ': {'Abbr',
  'Degree',
  'ExtPos',
  'Gender',
  'NumType',
  'Number',
  'PronType',
  'Typo',
  'Voice'},
 'PROPN': {'Abbr', 'ExtPos', 'Gender', 'Number', 'PronType', 'Typo'},
 'ADP': {'ExtPos', 'Gender', 'Number'},

## Vamos começar com um etiquetador morfossintático (POS tagger).

Um etiquetador morfossintático tem por objetivo identificar a classe gramatical das palavras em uma sentença, ou conjunto de sentenças. Por exemplo, considere a frase:

O rato roeu a roupa do rei de Roma.

Após tokenizada, temos:
O, rato, roeu, a, roupa, de, o, rei, de, Roma

O resultado do etiquetador sobre esse conjunto é:
(O, DET), (rato, NOUN), (roeu, VERB), (a, DET), (roupa, NOUN), (de, ADP), (o,DET), (rei, NOUN), (de, ADP), (Roma, PROPN)

O conjunto de etiquetas (tagset) que descrevem as classes gramaticais é determinado no projeto do corpus e **não constituem um conjunto universal ou objetivo**, mas uma decisão teórico-metodológica do projeto.

---



In [None]:
def accuracy(predicted,gold):
   acertos = len([predicted[i][j][1] for i in range(len(gold)) for j in range(len(gold[i])) if predicted[i][j][1]==gold[i][j][1]])
   totais = sum([len(sent) for sent in gold])
   return acertos/totais


In [None]:
from nltk.probability import FreqDist
ADP = ["de","em","para","com","sobre","sob"]
PRON = ["ele","ela","eles","elas","eu","nós","tu","vós","você","vc","vocês"]
suffixes = set([word.form.lower()[-3:] for word in bosque.words])
suf_to_tag = {suf:FreqDist([word.pos for word in bosque.words if word.form.lower()[-3:]==suf]).max() for suf in suffixes}





In [None]:
print(suf_to_tag)

In [None]:

def tag(tokens):
  tagged = []
  for token in tokens:
    if token.lower() in ADP:
       tagged.append((token,"ADP"))
    elif token.lower() in PRON:
       tagged.append((token,"PRON"))
    else:
       tagged.append((token,"_"))
  return tagged

In [None]:
!wget http://marlovss.work.gd:8080/tomorrow/aula2/test.conllu

--2024-07-24 20:47:36--  http://marlovss.work.gd:8080/tomorrow/aula2/test.conllu
Resolving marlovss.work.gd (marlovss.work.gd)... 177.180.149.154
Connecting to marlovss.work.gd (marlovss.work.gd)|177.180.149.154|:8080... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1819980 (1.7M)
Saving to: ‘test.conllu’


2024-07-24 20:47:41 (522 KB/s) - ‘test.conllu’ saved [1819980/1819980]



In [None]:
test = CoNLLU(files=["test.conllu"])
test_sents = [[word.form for word in sent] for sent in test.sentences]
gold = [[(word.form.lower(),word.pos) for word in sent] for sent in test.sentences]
predicted = [tag(sent) for sent in test_sents]

accuracy(predicted,gold)

0.1203086509201565

## Fazendo nosso lematizador e analisador de flexões

O lematizador e a análise flexional podem ser realizados em conuunto, uma vez que determinar as flexões nos permitem "desfazê-las", i.e. obter uma versão "normalizada" do item lexical