#**Níveis de Analise Linguistica e Análise Lexical e Morfológica Automatizada - Tokenização, Stemming e Lematização**

## Tokenização, Stemming (derivação) e Lematização

### Links úteis

[NLTK tutorial](https://data-flair.training/blogs/nltk-python-tutorial/)

[Python stemming and lemmatization](https://data-flair.training/blogs/python-stemming/)

[NLTK for portuguese](https://www.nltk.org/howto/portuguese_en.html)

[Portuguese lemmatizers](https://lars76.github.io/2018/05/08/portuguese-lemmatizers.html)

## Sumário
- Tokenização
- Lematização
- Stemming
- Níveis de análise linguística
  - Fonética
  - Morfológica
  - Sintática
  - Semântica
  - Pragmática
  - Texto de exemplo
    - Árvore de dependência

## Níveis de Análise Linguística

<img src="https://images.slideplayer.com.br/40/11157777/slides/slide_39.jpg" width="80%">

### Morfológica

É o estudo da estrutura das palavras e suas classificações em diferentes categorias.

Considere os exemplos:

- árvore<br>
- árvore<ins>s</ins><br>
- arvore<ins>zinhas</ins><br>
- <ins>im</ins>possível<br>
- <ins>sobre</ins>mesa

Essas palavras são formadas por morfemas, que se dividem em independentes e dependentes.

 - *árvore*, *possível*, *sobre* e *mesa* são **morfemas independentes**.

 - *s*, *zinhas* e *im* são **morfemas dependentes**.


As palavras podem ser classificadas em partes do discurso (part-of-speech -> POS).

***substantivos, verbos, adjetivos, preposições e advérbios*** são exemplos dessas partes do discurso.

Essas classes também podem ser agrupadas entre:
 - abertas, que abrangem um grande número de palavras e abrigam facilmente novas entradas, como substantivos e verbos;
 - fechadas, que possuem funções gramaticais bem definidas, como artigos e preposições.



### Sintática

É o estudo do sentido entre as palavras bem como a sua disposição em uma frase.

Com a classificação morfológica das palavras, uma análise sintática demonstra a validade do texto de acordo com a gramática empregada.

A análise sintática também permite reconhecer os termos da oração:

- Termos essenciais
 - Sujeito
 - Predicado

- Termos integrantes
 - Complemento verbal
 - Complemento nominal
 - Agente da passiva

- Acessórios
 - Adjunto adnominal
 - Adjunto adverbial
 - Aposto





<img src="https://linguisticageralunip.files.wordpress.com/2017/11/sintaxe-volume-1-2-638.jpg" width="40%">





### Exemplo prático
Abaixo podemos ver na prática a execução das análises morfológicas e sintáticas e suas diferenças e relações.

In [1]:

import nltk
#download do punkt e rslp (2 pacotes que serão utilizados)
# nltk.download()

In [2]:
import spacy

import spacy.cli
# spacy.cli.download("pt_core_news_sm")

nlp = spacy.load("pt_core_news_sm")

In [3]:
text2 = "O homem viu o menino com o telescópio. Ele entrou na sala de muletas."

doc = nlp(text2)

spacy.displacy.render(doc, style='dep', options={"compact": True, "distance": 100}, jupyter=True)

In [4]:
print(list(doc.noun_chunks))
for token in doc:
    print(token.morph)

[O homem, o menino, o telescópio, Ele, sala, muletas]
Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Gender=Masc|Number=Sing
Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Gender=Masc|Number=Sing

Definite=Def|Gender=Masc|Number=Sing|PronType=Art
Gender=Masc|Number=Sing

Case=Nom|Gender=Masc|Number=Sing|Person=3|PronType=Prs
Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin
Definite=Def|Gender=Fem|Number=Sing|PronType=Art
Gender=Fem|Number=Sing

Gender=Fem|Number=Plur



## Tokenização
- A tokenização quebra a sequência de
caracteres de um texto localizando o limite de cada palavra, ou seja, os pontos onde uma
palavra termina e outra começa. As
palavras assim identificadas são frequentemente chamadas de tokens.

Vamos usar o nltk para mostrar como o texto

> Dr. João foi ao banco para pegar o dinheiro que havia deixado lá. Ao chegar, decidiu se sentar para descansar um pouco.

pode ser tokenizado.

Para isso, primeiro é preciso baixar os pacotes *pukt* e *rslp* do NLTK.

### Tokenização de sentenças

In [5]:
from nltk.tokenize import sent_tokenize

# nltk.download('punkt')

text1 = "Dr. João foi ao banco para pegar o dinheiro que havia deixado lá. Ao chegar, decidiu se sentar para descansar um pouco."

language = "portuguese"

sent_tokenize(text1, language)


['Dr. João foi ao banco para pegar o dinheiro que havia deixado lá.',
 'Ao chegar, decidiu se sentar para descansar um pouco.']

### Tokenização de palavras

In [6]:
from nltk.tokenize import word_tokenize

words = word_tokenize(text1, language)

words

['Dr.',
 'João',
 'foi',
 'ao',
 'banco',
 'para',
 'pegar',
 'o',
 'dinheiro',
 'que',
 'havia',
 'deixado',
 'lá',
 '.',
 'Ao',
 'chegar',
 ',',
 'decidiu',
 'se',
 'sentar',
 'para',
 'descansar',
 'um',
 'pouco',
 '.']

## Stemming
O processo de stemização consiste em reduzir uma palavra ao seu radical.

A palavra "meninas", "meninos" e "menininhos" se reduziriam a "menin".

As palavras "gato", "gata", "gatos" e "gatas" reduziriam-se para "gat".

A palavra pode não ter significado, daí a noção do radical.

In [7]:
# nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()

snowBallPtStemmer = nltk.stem.SnowballStemmer("portuguese")

for word in words:
  print(f"{word}: {stemmer.stem(word)} / {snowBallPtStemmer.stem(word)}")


Dr.: dr. / dr.
João: joã / joã
foi: foi / foi
ao: ao / ao
banco: banc / banc
para: par / par
pegar: peg / peg
o: o / o
dinheiro: dinh / dinheir
que: que / que
havia: hav / hav
deixado: deix / deix
lá: lá / lá
.: . / .
Ao: ao / ao
chegar: cheg / cheg
,: , / ,
decidiu: decid / decid
se: se / se
sentar: sent / sent
para: par / par
descansar: descans / descans
um: um / um
pouco: pouc / pouc
.: . / .


## Lematização

A lematização reduz a palavra ao seu lema, que é comum entre palavras relacionadas.

Para substantivo, geralmente se usa a forma no masculino e singular.

No caso de verbos, o lema é o infinitivo.

Por exemplo, as palavras "gato", "gata", "gatos" e "gatas" são todas formas do mesmo lema: "gato".

Igualmente, as palavras "tiver", "tenho", "tinha", "tem" são formas do mesmo lema "ter".

O NLTK não possui lematizador para o português, então usaremos a biblioteca Spacy.

O primeiro passo é baixar e carregar o modelo.

Agora podemos extrair os lemas.

In [8]:
text = ""
lemma = ""

doc = nlp(text1)

for token in nlp(text1):
    text += token.text + "\t"
    lemma += token.lemma_ + "\t"

print(text)
print(lemma)

Dr.	João	foi	ao	banco	para	pegar	o	dinheiro	que	havia	deixado	lá	.	Ao	chegar	,	decidiu	se	sentar	para	descansar	um	pouco	.	
Dr.	João	ir	a o	banco	para	pegar	o	dinheiro	que	haver	deixar	lá	.	a o	chegar	,	decidir	se	sentar	para	descansar	um	pouco	.	


A vantagem de aplicar a stemização ou lematização é clara: redução de vocabulário e abstração de significado. Porém, ao mesmo tempo, perdemos parte da informação original do texto, o que pode ser problemático para diversas aplicações, e.g., perceba a diferença de conotação entre os termos 'bom' e 'bonzinho' na descrição de um produto.

# Fazendo nosso próprio analisador morfológico

In [10]:
# %pip install conllu
# !wget http://marlovss.work.gd:8080/tomorrow/aula2/bosque.conllu

In [4]:
import conllu
import itertools as it

class AttributeDict(dict):
    __getattr__ = dict.__getitem__
    __setattr__ = dict.__setitem__
    __delattr__ = dict.__delitem__


class CoNLLU:
   def __init__(self, files):
      self.words = []
      self.sentences = []
      for f in files:
         parsed = conllu.parse(open(f, encoding="utf8").read())
         sents = [[AttributeDict(form = token['form'], lemma=token['lemma'],pos=token['upos'],feats=token['feats']) for token in tokenlist if token['upos']!='_'] for tokenlist in parsed]
         self.sentences.extend(sents)
         self.words.extend([word for sent in sents for word in sent])
      self.pos_tags = set([word.pos for word in self.words])
      self.feats_dict ={pos:set(it.chain.from_iterable([list(word.feats.keys()) for word in self.words if word.pos==pos and word.feats!= None])) for pos in self.pos_tags}


In [5]:
bosque = CoNLLU(files=["bosque.conllu"])

In [6]:
bosque.feats_dict

{'ADP': {'ExtPos', 'Gender', 'Number'},
 'PRON': {'Case',
  'Definite',
  'ExtPos',
  'Gender',
  'Number',
  'Person',
  'PronType',
  'Reflex',
  'Typo'},
 'SYM': set(),
 'AUX': {'ExtPos', 'Gender', 'Mood', 'Number', 'Person', 'Tense', 'VerbForm'},
 'ADV': {'ExtPos', 'Gender', 'Number', 'Polarity', 'PronType', 'Typo'},
 'NUM': {'ExtPos', 'Gender', 'NumType', 'Number'},
 'VERB': {'ExtPos',
  'Gender',
  'Mood',
  'Number',
  'Person',
  'Tense',
  'Typo',
  'VerbForm',
  'Voice'},
 'X': {'ExtPos', 'Gender', 'Number'},
 'INTJ': set(),
 'PUNCT': set(),
 'SCONJ': {'Definite',
  'ExtPos',
  'Gender',
  'Number',
  'PronType',
  'Typo',
  'VerbForm'},
 'PART': {'ExtPos', 'Gender', 'Number'},
 'PROPN': {'Abbr', 'ExtPos', 'Gender', 'Number', 'PronType', 'Typo'},
 'CCONJ': {'ExtPos', 'Number'},
 'DET': {'Definite',
  'ExtPos',
  'Gender',
  'NumType',
  'Number',
  'Poss',
  'PronType',
  'Typo'},
 'ADJ': {'Abbr',
  'Degree',
  'ExtPos',
  'Gender',
  'NumType',
  'Number',
  'PronType',
  'T

## Vamos começar com um etiquetador morfossintático (POS tagger).

Um etiquetador morfossintático tem por objetivo identificar a classe gramatical das palavras em uma sentença, ou conjunto de sentenças. Por exemplo, considere a frase:

O rato roeu a roupa do rei de Roma.

Após tokenizada, temos:
O, rato, roeu, a, roupa, de, o, rei, de, Roma

O resultado do etiquetador sobre esse conjunto é:
(O, DET), (rato, NOUN), (roeu, VERB), (a, DET), (roupa, NOUN), (de, ADP), (o,DET), (rei, NOUN), (de, ADP), (Roma, PROPN)

O conjunto de etiquetas (tagset) que descrevem as classes gramaticais é determinado no projeto do corpus e **não constituem um conjunto universal ou objetivo**, mas uma decisão teórico-metodológica do projeto.

---



In [7]:
def accuracy(predicted,gold):
   acertos = len([predicted[i][j][1] for i in range(len(gold)) for j in range(len(gold[i])) if predicted[i][j][1]==gold[i][j][1]])
   totais = sum([len(sent) for sent in gold])
   return acertos/totais


In [8]:
bosque.words[10:]

[{'form': 'um',
  'lemma': 'um',
  'pos': 'DET',
  'feats': {'Definite': 'Ind',
   'Gender': 'Masc',
   'Number': 'Sing',
   'PronType': 'Art'}},
 {'form': 'dado',
  'lemma': 'dado',
  'pos': 'NOUN',
  'feats': {'Gender': 'Masc', 'Number': 'Sing'}},
 {'form': 'supreendente',
  'lemma': 'surpreendente',
  'pos': 'ADJ',
  'feats': {'Gender': 'Masc', 'Number': 'Sing', 'Typo': 'Yes'}},
 {'form': ':', 'lemma': ':', 'pos': 'PUNCT', 'feats': None},
 {'form': 'recusando',
  'lemma': 'recusar',
  'pos': 'VERB',
  'feats': {'VerbForm': 'Ger'}},
 {'form': 'uma',
  'lemma': 'um',
  'pos': 'DET',
  'feats': {'Definite': 'Ind',
   'Gender': 'Fem',
   'Number': 'Sing',
   'PronType': 'Art'}},
 {'form': 'postura',
  'lemma': 'postura',
  'pos': 'NOUN',
  'feats': {'Gender': 'Fem', 'Number': 'Sing'}},
 {'form': 'radical',
  'lemma': 'radical',
  'pos': 'ADJ',
  'feats': {'Gender': 'Fem', 'Number': 'Sing'}},
 {'form': ',', 'lemma': ',', 'pos': 'PUNCT', 'feats': None},
 {'form': 'a',
  'lemma': 'o',
  'p

In [None]:
from nltk.probability import FreqDist

# suffixes = set([word.form.lower()[-5:] for word in bosque.words])
# suf_to_tag = {suf:FreqDist([word.pos for word in bosque.words if word.form.lower()[-5:]==suf]).max() for suf in suffixes}

In [17]:
# print(suf_to_tag)

{'énios': 'ADJ', 'gicas': 'ADJ', '6614': 'NUM', 'um': 'DET', 'toras': 'ADJ', 'ofins': 'PROPN', 'vi': 'VERB', 'osado': 'PROPN', 'tea': 'PROPN', '34,60': 'NUM', 'óicos': 'ADJ', 'onção': 'PROPN', 'strar': 'VERB', 'opeus': 'ADJ', 'llock': 'PROPN', 'ntijo': 'PROPN', 'ipcr': 'PROPN', 'malho': 'NOUN', 'ontal': 'ADJ', 'estão': 'AUX', 'netti': 'PROPN', 'curia': 'PROPN', 'dubai': 'PROPN', 'anais': 'NOUN', '13': 'NUM', 'ervar': 'VERB', '&': 'PROPN', '-1958': 'NUM', 'verly': 'PROPN', 'tiado': 'ADJ', 'thvis': 'PROPN', '288º': 'ADJ', 'oneca': 'NOUN', 'ívola': 'ADJ', 'ersão': 'NOUN', 'ina': 'PROPN', 'checa': 'PROPN', 'scala': 'NOUN', 'licar': 'VERB', 'ughed': 'PROPN', 'dinda': 'PROPN', 'to(s)': 'NOUN', 'stino': 'NOUN', 'uma': 'DET', 'riani': 'PROPN', 'stola': 'NOUN', 'sebos': 'NOUN', 'estor': 'NOUN', 'beças': 'NOUN', 'raias': 'NOUN', 'avais': 'NOUN', 'ldman': 'PROPN', 'palma': 'PROPN', 'ndias': 'NOUN', 'hetim': 'NOUN', 'onado': 'VERB', 'todo': 'DET', '310': 'NUM', '178': 'NUM', 'clips': 'NOUN', 'stis

In [16]:
# # Save the dictionary suf_to_tag to a file
# import json
# with open("suf_to_tag.json", "w", encoding="utf-8") as f:
#     json.dump(suf_to_tag, f)

# # Save suffixes to a file
# with open("suffixes.txt", "w", encoding="utf-8") as f:
#     for suf in suffixes:
#         f.write(suf + "\n")

In [34]:
import json
# Open the file and read the suffixes
with open("suffixes.txt", "r", encoding="utf-8") as f:
    suffixes_filed = set([line.strip() for line in f])

# Open the file and read the dictionary
with open("suf_to_tag.json", "r", encoding="utf-8") as f:
    suf_to_tag_filed = json.load(f)

In [10]:
print(suf_to_tag_filed)

{'énios': 'ADJ', 'gicas': 'ADJ', '6614': 'NUM', 'um': 'DET', 'toras': 'ADJ', 'ofins': 'PROPN', 'vi': 'VERB', 'osado': 'PROPN', 'tea': 'PROPN', '34,60': 'NUM', 'óicos': 'ADJ', 'onção': 'PROPN', 'strar': 'VERB', 'opeus': 'ADJ', 'llock': 'PROPN', 'ntijo': 'PROPN', 'ipcr': 'PROPN', 'malho': 'NOUN', 'ontal': 'ADJ', 'estão': 'AUX', 'netti': 'PROPN', 'curia': 'PROPN', 'dubai': 'PROPN', 'anais': 'NOUN', '13': 'NUM', 'ervar': 'VERB', '&': 'PROPN', '-1958': 'NUM', 'verly': 'PROPN', 'tiado': 'ADJ', 'thvis': 'PROPN', '288º': 'ADJ', 'oneca': 'NOUN', 'ívola': 'ADJ', 'ersão': 'NOUN', 'ina': 'PROPN', 'checa': 'PROPN', 'scala': 'NOUN', 'licar': 'VERB', 'ughed': 'PROPN', 'dinda': 'PROPN', 'to(s)': 'NOUN', 'stino': 'NOUN', 'uma': 'DET', 'riani': 'PROPN', 'stola': 'NOUN', 'sebos': 'NOUN', 'estor': 'NOUN', 'beças': 'NOUN', 'raias': 'NOUN', 'avais': 'NOUN', 'ldman': 'PROPN', 'palma': 'PROPN', 'ndias': 'NOUN', 'hetim': 'NOUN', 'onado': 'VERB', 'todo': 'DET', '310': 'NUM', '178': 'NUM', 'clips': 'NOUN', 'stis

In [171]:
# suf_to_tag_context = {suf:FreqDist([(bosque.words[i-1].pos,word.pos,bosque.words[i+1].pos) for i,word in enumerate(bosque.words) if word.form.lower()[-5:]==suf and i > 0 and i < len(bosque.words)-1]).max() for suf in suffixes}
# suf_to_tag_context2 = {suf:FreqDist([(bosque.words[i-1].pos,word.pos,bosque.words[i+1].pos) for i,word in enumerate(bosque.words) if word.form.lower()[-5:]==suf and i > 0 and i < len(bosque.words)-1]).most_common(2) for suf in suffixes}


In [11]:
# Save the dictionary suf_to_tag_context2 to a file
import json
# with open("suf_to_tag_context2.json", "w", encoding="utf-8") as f:
#     json.dump(suf_to_tag_context2, f)

# Open the file and read the dictionary
with open("suf_to_tag_context2.json", "r", encoding="utf-8") as f:
    suf_to_tag_context2_filed = json.load(f)

In [12]:
# print(suf_to_tag)
print(suf_to_tag_filed)
# print(suf_to_tag_context)
# print(suf_to_tag_context2)
print(suf_to_tag_context2_filed)
print(suffixes_filed)

{'énios': 'ADJ', 'gicas': 'ADJ', '6614': 'NUM', 'um': 'DET', 'toras': 'ADJ', 'ofins': 'PROPN', 'vi': 'VERB', 'osado': 'PROPN', 'tea': 'PROPN', '34,60': 'NUM', 'óicos': 'ADJ', 'onção': 'PROPN', 'strar': 'VERB', 'opeus': 'ADJ', 'llock': 'PROPN', 'ntijo': 'PROPN', 'ipcr': 'PROPN', 'malho': 'NOUN', 'ontal': 'ADJ', 'estão': 'AUX', 'netti': 'PROPN', 'curia': 'PROPN', 'dubai': 'PROPN', 'anais': 'NOUN', '13': 'NUM', 'ervar': 'VERB', '&': 'PROPN', '-1958': 'NUM', 'verly': 'PROPN', 'tiado': 'ADJ', 'thvis': 'PROPN', '288º': 'ADJ', 'oneca': 'NOUN', 'ívola': 'ADJ', 'ersão': 'NOUN', 'ina': 'PROPN', 'checa': 'PROPN', 'scala': 'NOUN', 'licar': 'VERB', 'ughed': 'PROPN', 'dinda': 'PROPN', 'to(s)': 'NOUN', 'stino': 'NOUN', 'uma': 'DET', 'riani': 'PROPN', 'stola': 'NOUN', 'sebos': 'NOUN', 'estor': 'NOUN', 'beças': 'NOUN', 'raias': 'NOUN', 'avais': 'NOUN', 'ldman': 'PROPN', 'palma': 'PROPN', 'ndias': 'NOUN', 'hetim': 'NOUN', 'onado': 'VERB', 'todo': 'DET', '310': 'NUM', '178': 'NUM', 'clips': 'NOUN', 'stis

In [44]:
bosque_words_lower = [(bosque.words[i].form.lower(), i) for i in range(0, len(bosque.words))]

# save the list bosque_words_lower to a file
import json
with open("bosque_words_lower.json", "w", encoding="utf-8") as f:
    json.dump(bosque_words_lower, f)

# Open the file and read the list
with open("bosque_words_lower.json", "r", encoding="utf-8") as f:
    bosque_words_lower_filed = json.load(f)

In [54]:
bosque_words_pos = {word.form.lower():word.pos for word in bosque.words}

# save the list bosque_words_pos to a file
import json
with open("bosque_words_pos.json", "w", encoding="utf-8") as f:
    json.dump(bosque_words_pos, f)

# Open the file and read the list
with open("bosque_words_pos.json", "r", encoding="utf-8") as f:
    bosque_words_pos_filed = json.load(f)

In [72]:
# Devem ser considerados:
# NOUN
# ADJ
# VERB
# PRON
# DET

# lista de preposições
ADP = ["ante", "após", "até", "com", "contra", "de", "desde", "em", "entre", "para", "perante", "por", "sem", "sob", "sobre", "trás"] # "a" pode ser um artigo, não uma preposição
# lista de pronomes
PRON = [
    "eu", "tu", "ele", "ela", "você", "nós", "vós", "eles", "elas", "vocês",
    "me", "mim", "comigo", "te", "ti", "contigo", "lhe", "si", "consigo",
    "conosco", "vos", "convosco", "lhes",
    "meu", "minha", "teu", "tua", "seu", "sua", "nosso", "nossa", "vosso", "vossa",
    "meus", "minhas", "teus", "tuas", "seus", "suas", "nossos", "nossas", "vossos", "vossas",
    "este", "esta", "isto", "esse", "essa", "isso", "aquele", "aquela", "aquilo",
]

tags = ['ADJ','ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'PUNCT', 'SCONJ', 'SYM', 'VERB', 'X']

tagged_suffixes = {
'ADJ': [],
'ADP': [],
'ADV': [],
'AUX': [],
'CCONJ': [],
'DET': [],
'INTJ': [],
'NOUN': [],
'NUM': [],
'PART': [],
'PRON': [],
'PROPN': [],
'PUNCT': [],
'SCONJ': [],
'SYM': [],
'VERB': [],
'X': []}

print(tagged_suffixes)
suf_to_tag = suf_to_tag_filed
bosque_words_pos = bosque_words_pos_filed

for suf, tag in suf_to_tag.items():
    if tag in tagged_suffixes:
        tagged_suffixes[tag].append(suf)

def search_tagged_suffixes(token):
    # if token.lower() in bosque_words_pos.keys():
    #     return bosque_words_pos[token.lower()]
    # else:
        word = token.lower()[-5:]
        for tag, suffixes in tagged_suffixes.items():
            if word in suffixes:
                return tag
        return "_"

print(tagged_suffixes)
print(suf_to_tag_context2_filed)

print(bosque.words[0])

# print(search_tagged_suffixes("pt"))

{'ADJ': [], 'ADP': [], 'ADV': [], 'AUX': [], 'CCONJ': [], 'DET': [], 'INTJ': [], 'NOUN': [], 'NUM': [], 'PART': [], 'PRON': [], 'PROPN': [], 'PUNCT': [], 'SCONJ': [], 'SYM': [], 'VERB': [], 'X': []}
{'ADJ': ['énios', 'gicas', 'toras', 'óicos', 'opeus', 'ontal', 'tiado', '288º', 'ívola', 'quico', 'tigas', 'ajoso', 'alosa', 'inina', 'aixos', 'boeta', 'linas', 'morta', 'éreos', 'bador', 'pável', 'quada', 'ódica', 'lunar', 'prema', 'tista', 'puro', 'ssina', 'ebral', '17º', 'menor', 'ômica', 'éfica', 'pazes', 'adora', 'chata', 'rtivo', 'itoso', 'mútua', 'ricos', '42ª', '22ª', 'omuns', 'pornô', 'ifusa', 'íveis', 'eçudo', 'turna', 'ntigo', 'âneos', 'stivo', 'iriço', 'lhana', 'legal', 'ssada', 'guesa', 'ceira', 'rinos', '54º', 'urtos', 'ômico', 'bível', 'umana', '19ª', '2ª', 'rbano', 'simos', 'rtuno', 'diata', 'umoso', 'álido', 'ocial', 'basca', 'osiva', 'otora', 'elina', 'sivos', 'densa', 'síduo', 'vesso', 'elosa', 'ropeu', 'sbica', 'igana', 'erais', 'bvias', 'recto', 'séria', 'omena', 'ntais

In [74]:
def tag(tokens):
   tagged = []
   for token in tokens:
      if token.lower() in ADP:
         tagged.append((token,"ADP"))
      # elif token.lower() in PRON:
      #    tagged.append((token,"PRON"))
      elif token.lower()[-4:] == "mente":
         tagged.append((token,"ADV"))
      else:
         tagged.append((token,search_tagged_suffixes(token)))
   
   return tagged

In [18]:
# !wget http://marlovss.work.gd:8080/tomorrow/aula2/test.conllu

In [75]:
test = CoNLLU(files=["test.conllu"])
test_sents = [[word.form for word in sent] for sent in test.sentences]
gold = [[(word.form.lower(),word.pos) for word in sent] for sent in test.sentences]
predicted = [tag(sent) for sent in test_sents]

accuracy(predicted,gold)

0.8461817127952471

In [133]:
# proposta de desenvolvimento do pos
# suf : tag
# syf: {contexto : tag}
# contexto: tag

## Fazendo nosso lematizador e analisador de flexões

O lematizador e a análise flexional podem ser realizados em conjunto, uma vez que determinar as flexões nos permitem "desfazê-las", i.e. obter uma versão "normalizada" do item lexical

In [None]:
"""
Construa um algoritmo para análise morfológica automatizada utilizando a linguagem Python.
O algoritmo deverá receber um texto (cadeia de caracteres) e devolver uma lista de itens, cada qual contendo: 
a forma textual do token, seu lema, sua classe gramatical e flexões (gênero, número, tempo, etc.).
 - O tagset da tarefa de etiquetagem morfossintática (PoS) será o da Universal Dependencies - o mesmo do exmplo no corpus bosque apresentado
  - As flexões a serem consideradas serão:
     - NOUN: Gênero (Gender) e Número (Number)
     - ADJ: Gênero (Gender) e Número (Number)
     - VERB: Gênero (Gender), Pessoa (Person), Tempo (Tense)  e Forma Verbal (VerbForm)
     - PRON: Gênero (Gender) e Número (Number), Tipo (PronType)
     - DET: Gênero (Gender) e Número (Number)
"""

# entrada: (token)
# saída: (token, lemma, pos, flexões)

suffixes = suffixes_filed

def analyze():
   analyzed = []
   for suf in suffixes:
      for word in bosque.words:
         if word.form.lower()[-5:] == suf:
            analyzed.append({suf: [word.form, word.lemma, word.pos, word.feats]})
   return analyzed
            
suffixes_analyzed = analyze()



In [100]:
print(suffixes_analyzed[0])

# # salvar o resultado em um arquivo
# import json
# with open("suffixes_analyzed.json", "w", encoding="utf-8") as f:
#     json.dump(suffixes_analyzed, f)

# # Open the file and read the dictionary
# with open("suffixes_analyzed.json", "r", encoding="utf-8") as f:
#     suffixes_analyzed_filed = json.load(f)

def search_tagged_suffixes(token):
    token_suffix = token.lower()[-5:]
    for item in suffixes_analyzed_filed:
        if token_suffix in item and item[token_suffix][0][:3] == token.lower()[:3]:
            return item[token_suffix]
    return "_"

{'onado': ['condicionado', 'condicionado', 'ADJ', {'Gender': 'Masc', 'Number': 'Sing'}]}


In [102]:
print(search_tagged_suffixes("casinha"))

_


In [None]:
# função para pegar os lemas de uma palavra por prefixo utilizando o corpus