#  Part of Speech

Estudante: Cinthia Mikaela de Souza

O objetivo desse trabalho é treinar e validar um modelo de  *Part of Speech* (POS) para a lingua portuguesa, utilizando o conjunto de dados Mac-Morpho

In [1]:
import spacy
import nltk
import random
from nltk.tag.sequential import ClassifierBasedPOSTagger
import pandas as pd
import numpy as np
from nltk.tag import hmm
from sklearn.metrics import classification_report
from collections import Counter

import warnings
warnings.filterwarnings("ignore")

nltk.download('mac_morpho')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package mac_morpho to
[nltk_data]     /home/cinthia/nltk_data...
[nltk_data]   Package mac_morpho is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/cinthia/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

A **primeira etapa** realizada foi a preparação da base de dados. A base de dados do Mac-Morpho contém 51397 sentenças tageadas em portugês. Para realizar os experimentos, a base de dados foi dividida em treinamento e testes com 80% e 20% dos dados, respectivamente.

In [2]:
sentences = nltk.corpus.mac_morpho.tagged_sents()
sentences[:1]

[[('Jersei', 'N'),
  ('atinge', 'V'),
  ('média', 'N'),
  ('de', 'PREP'),
  ('Cr$', 'CUR'),
  ('1,4', 'NUM'),
  ('milhão', 'N'),
  ('em', 'PREP|+'),
  ('a', 'ART'),
  ('venda', 'N'),
  ('de', 'PREP|+'),
  ('a', 'ART'),
  ('Pinhal', 'NPROP'),
  ('em', 'PREP'),
  ('São', 'NPROP'),
  ('Paulo', 'NPROP')]]

In [3]:
sentences = [[ (word.lower(), tag) for word, tag in sentence]for sentence in sentences]

In [4]:
n = round(len(sentences)*0.8)

In [5]:
train = sentences[:n]
test = sentences[n:]

In [6]:
print("Número de sentenças na base de treinamento: {}".format(len(train)))
print("Número de sentenças na base de test: {}".format(len(test)))

Número de sentenças na base de treinamento: 41118
Número de sentenças na base de test: 10279


# Treinamento e validação

Após, a separação da base de dados, iniciou-se a etapa de **treinamento do modelo**. . Existem diferentes modos de realizar o treinamento de um modelo de POS, como:

*   **DefaulTagger:** comumente utilizado como baseline, atribui uma tag especifica a todos os dados;
*   **AffixTagger:** utiliza um sufixo ou prefixo de tamanho fixo para identificar a sua classe;
*   **UnigramTagger:** realiza a classificação com base em uma única palavra; 
*   **BigramTagger:** realiza a classificação com base na tag  da palavra anterior e na palavra atual;
*   **TigramTagger:** realiza a classificação com base na tag das duas palavras anteriores e na palavra atual;
*   **BrillTagger:** classificador baseado em regras;
*   **Hidden Markov Model:** Modelo que utiliza a teoria dos modelos Hidden Markov.  

Todos os modos de treinamento supracitados foram utilizados testados e validadados nesse trabalho. A seguir, são apresentados os processos de treinamento e validação.




## Baseline

In [8]:
baseline = nltk.DefaultTagger('N')
baseline.evaluate(test)

0.19676870814476996

## AffixTagger

Para o treinamento utilizando o AffixTagger, foram utilizados Affix Length com tamanhos variando entre -2 e -12. A seguir, são apresentados os resultados obtidos. Todos os modelos utilizaram como backoff o modelo anterior. O parâmetro backoff deve receber outro tagger que se o modelo atual não souber a classificação da palavra ele consulta o tagger explicitado no parâmetro backoff. Inicialmente, o parâmtero backoff é o baseline. Assim, em todos os casos todas as palavras terão sempre uma classficação.

In [9]:
model_1 = nltk.AffixTagger(train, affix_length=-2, backoff=baseline)
model_2 = nltk.AffixTagger(train, affix_length=-3, backoff=model_1)
model_3 = nltk.AffixTagger(train, affix_length=-4, backoff=model_2)
model_4 = nltk.AffixTagger(train, affix_length=-5, backoff=model_3)
model_5 = nltk.AffixTagger(train, affix_length=-6, backoff=model_4)
model_6 = nltk.AffixTagger(train, affix_length=-7, backoff=model_5)
model_7 = nltk.AffixTagger(train, affix_length=-8, backoff=model_6)
model_8 = nltk.AffixTagger(train, affix_length=-9, backoff=model_7)
model_9 = nltk.AffixTagger(train, affix_length=-10, backoff=model_8)
model_10 = nltk.AffixTagger(train, affix_length=-11, backoff=model_9)
model_11 = nltk.AffixTagger(train, affix_length=-12, backoff=model_10)

In [10]:
acc_affixtagger = []

acc_affixtagger.append(model_1.evaluate(test) * 100)
acc_affixtagger.append(model_2.evaluate(test) * 100)
acc_affixtagger.append(model_3.evaluate(test) * 100)
acc_affixtagger.append(model_4.evaluate(test) * 100)
acc_affixtagger.append(model_5.evaluate(test) * 100)
acc_affixtagger.append(model_6.evaluate(test) * 100)
acc_affixtagger.append(model_7.evaluate(test) * 100)
acc_affixtagger.append(model_8.evaluate(test) * 100)
acc_affixtagger.append(model_9.evaluate(test) * 100)
acc_affixtagger.append(model_10.evaluate(test) * 100)
acc_affixtagger.append(model_11.evaluate(test) * 100)

In [11]:
result_affixtagger = pd.DataFrame({"model": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10 , 11], "accuracy": acc_affixtagger})
result_affixtagger

Unnamed: 0,model,accuracy
0,1,27.205267
1,2,32.19657
2,3,34.626654
3,4,36.219342
4,5,36.684735
5,6,36.854004
6,7,36.886302
7,8,36.899532
8,9,36.901867
9,10,36.901867


De acordo com os resultados apresentados na tabela acima os resultados obtidos com valores de affix lenght menor que -5 apresentaram um dempenho inferior aos demais, enquanto que, as variaçãoes entre -5 e -12 apresentaram um diferença pouco significativa. Acredita-se que isso ocorre devido ao tamanho médio das palavras. Entende-se que, em geral, as palavras mais utilizadas não possuem um sufixo tão grande, assim, um sufixo de tamanho igual a 12 é demasiadamente grande e, por isso, não faz diferença.


Após, foram treinados modelos considerando diferentes tamanhos de n-gram.

## UnigramTagger

In [12]:
model_12 = nltk.UnigramTagger(train, backoff=model_4)
print("Accuracy UnigramTagger: {}".format(model_12.evaluate(test) * 100))

Accuracy UnigramTagger: 82.15201547159973


## BigramTagger

In [13]:
model_13 = nltk.BigramTagger(train, backoff=model_12)
print("Accuracy BigramTagger: {}".format(model_13.evaluate(test) * 100))

Accuracy BigramTagger: 84.25289995213767


## TrigramTagger

In [14]:
model_14 = nltk.TrigramTagger(train, backoff=model_13)
print("Accuracy TrigramTagger: {}".format(model_14.evaluate(test) * 100))

Accuracy TrigramTagger: 84.14666889764852


Com base nos resultados apresentados, verifica-se qua a utilização de unigram possui um desempenho inferior ao de Bigram e Trigram. Contudo, não há uma diferença significativa com os resultados obtidos entre os modelos que utilizam Bigram e Trigram.  Entende-se que o resultado obtido é esperado, já que a lingua portuguesa possui uma estrura onde uma palavra anterior influência na definição da próxima palavra. Além disso, acredita-se que a utilização de Bi-grams e Tri-grams auxilia em uma melhor predição para onde uma palavra representada com duas token deveria ser representada por uma só como é o caso da palavra "São Paulo" que consta na base como duas palavras "São" e "Paulo" sendo que o sentido completo dela é a união das duas tokens.

Vale aind ressaltar que, ambas as variações possuem apresentadas possuem resultados superiores aos obtidos com o AffixTagger e o modelo Baseline. Após, foi testado o modelo Brill Tagger. Para o Brill Tagger foram treinados dois modelos, o primeiro utilizando como backoff o modelo obtido com unigram e o segundo com bigram. A seguir são apresentados o treinamento e validação desses modelos.

## BrillTagger 

In [15]:
model_15 = nltk.BrillTaggerTrainer(model_13, nltk.brill.fntbl37(), trace=True)
model_15 = model_15.train(train)
print("Accuracy BrillTagger with UnigramTagger: {}".format(model_15.evaluate(test) * 100))

TBL train (fast) (seqs: 41118; tokens: 913108; tpls: 37; min score: 2; min acc: None)
Finding initial useful rules...
    Found 956621 useful rules.
Selecting rules...
Accuracy BrillTagger with UnigramTagger: 91.68168039628463


In [16]:
model_16 = nltk.BrillTaggerTrainer(model_14, nltk.brill.fntbl37(), trace=True)
model_16 = model_16.train(train)
print("Accuracy BrillTagger with UnigramTagger: {}".format(model_16.evaluate(test) * 100))

TBL train (fast) (seqs: 41118; tokens: 913108; tpls: 37; min score: 2; min acc: None)
Finding initial useful rules...
    Found 915223 useful rules.
Selecting rules...
Accuracy BrillTagger with UnigramTagger: 91.30656414526804


Os resultados obtidos com o BrillTagger são superiores aos modelos apresentados anteriormente. Tanto o BrillTagger treinado com unigram e com o Bigram apresentaram resultados similares. Sendo que o modelo que utiliza como tagger inicial o modelo de unigram foi o que obteve o melhor desempenho. Vale ressaltar, que quando foi realizada a avaliação dos modelos unigram e bigram, o modelo bigram foi oq obteve um melhor resultado. Contudo, em ambos os casos as diferenças não são significativas. 

Por fim, foi treinado o Hidden Markov Model.

## Hidden Markov Model

In [17]:
trainer = hmm.HiddenMarkovModelTrainer()
model_17 = trainer.train_supervised(train)

In [18]:
print("Accuracy HMM model: {}".format(model_17.evaluate(test) * 100))

Accuracy HMM model: 56.82660990633768


O modelo HMM obteve um valor de acurácia inferior aos modelo BrillTagger,  UnigramTagger, BigramTagger e TrigramTagger. Contudo, esse modelo obteve um resultado melhor que todas as variações de AffixTagger.

# Validação por classe


Por fim, na **terceira etapa**, foi avaliado o desempenho dos modelos para cada classe de palavras. Para essa análise, foi selecionado apenas um dos modelos AffixTagger sendo escolhido o modelo 4, por ter um resultado semelhante aos modelos que possuem um tamanho de sufixo superior usando um tamanho de sufixo menor. Durante os experimentos, verificou-se que muitas das classes apresentadas possuiam um valor baixo de suporte e essas classes, em geral, são as mais específicas. Diante disso, foram selecionadas algumas das classes presentes no dataset, sendo essas as classes de adjetivos, advérbio, artigo, substantivo, substantivo próprio, preposição e verbo. A seguir, são apresentados os resultados para cada classe.

In [19]:
def evaluate_by_class(model, test):

  tagged_test_sentences = model.tag_sents([[token for token,tag in sent] for sent in test])
  gold = [str(tag) for sentence in test for token,tag in sentence]
  pred = [str(tag) for sentence in tagged_test_sentences for token,tag in sentence]

  report = classification_report(gold, pred, output_dict=True)
  df = pd.DataFrame(report).transpose().reset_index().loc[5:]

  return df

In [20]:
classes = ['ADJ', 'ADV', 'ART', 'N', 'NPROP', 'PREP', 'V']

In [21]:
df_base = evaluate_by_class(baseline, test)
df_base.loc[(df_base['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.0,0.0,0.0,13687.0
17,ADV,0.0,0.0,0.0,8004.0
24,ART,0.0,0.0,0.0,31782.0
35,N,0.196769,1.0,0.328833,50567.0
36,NPROP,0.0,0.0,0.0,22388.0
45,PREP,0.0,0.0,0.0,21896.0
56,V,0.0,0.0,0.0,22307.0


In [22]:
df_2 = evaluate_by_class(model_2, test)
df_2.loc[(df_2['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.595141,0.436692,0.503751,13687.0
17,ADV,0.492612,0.37069,0.423041,8004.0
24,ART,0.0,0.0,0.0,31782.0
35,N,0.214082,0.806613,0.33836,50567.0
36,NPROP,0.685044,0.376854,0.486226,22388.0
46,PREP,0.752892,0.190217,0.303704,21896.0
57,V,0.65737,0.595956,0.625159,22307.0


In [23]:
df_4 = evaluate_by_class(model_4, test)
df_4.loc[(df_4['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.690395,0.63279,0.660339,13687.0
17,ADV,0.661457,0.375437,0.478999,8004.0
24,ART,0.0,0.0,0.0,31782.0
35,N,0.23017,0.848201,0.362084,50567.0
36,NPROP,0.744635,0.478917,0.582923,22388.0
46,PREP,0.765341,0.207344,0.32629,21896.0
57,V,0.736991,0.664769,0.69902,22307.0


In [24]:
df_12 = evaluate_by_class(model_12, test)
df_12.loc[(df_12['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.778117,0.801198,0.789489,13687.0
17,ADV,0.843023,0.833333,0.83815,8004.0
24,ART,0.857023,0.99978,0.922914,31782.0
35,N,0.867868,0.90391,0.885522,50567.0
36,NPROP,0.81073,0.679024,0.739055,22388.0
46,PREP,0.602547,0.736756,0.662927,21896.0
57,V,0.882042,0.896355,0.889141,22307.0


In [25]:
df_13 = evaluate_by_class(model_13, test)
df_13.loc[(df_13['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.832173,0.855702,0.843774,13687.0
17,ADV,0.891657,0.831834,0.860707,8004.0
24,ART,0.893082,0.9798,0.934434,31782.0
35,N,0.8893,0.916665,0.902775,50567.0
36,NPROP,0.81951,0.729096,0.771664,22388.0
46,PREP,0.642229,0.686929,0.663827,21896.0
57,V,0.883455,0.915139,0.899018,22307.0


In [26]:
df_14 = evaluate_by_class(model_14, test)
df_14.loc[(df_14['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.830934,0.851757,0.841217,13687.0
17,ADV,0.888441,0.825837,0.855996,8004.0
24,ART,0.903682,0.965326,0.933487,31782.0
35,N,0.888891,0.91271,0.900643,50567.0
36,NPROP,0.808343,0.739995,0.77266,22388.0
46,PREP,0.715299,0.520597,0.602612,21896.0
57,V,0.883103,0.909311,0.896016,22307.0


In [27]:
df_15 = evaluate_by_class(model_15, test)
df_15.loc[(df_15['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.85102,0.853072,0.852045,13687.0
17,ADV,0.918793,0.836832,0.875899,8004.0
24,ART,0.968965,0.986313,0.977562,31782.0
35,N,0.900193,0.923211,0.911557,50567.0
36,NPROP,0.837383,0.766616,0.800438,22388.0
46,PREP,0.914346,0.94483,0.929338,21896.0
57,V,0.927496,0.936477,0.931965,22307.0


In [28]:
df_16 = evaluate_by_class(model_16, test)
df_16.loc[(df_16['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.85119,0.8492,0.850194,13687.0
17,ADV,0.912758,0.833958,0.871581,8004.0
24,ART,0.971482,0.980744,0.976091,31782.0
35,N,0.898226,0.919097,0.908542,50567.0
36,NPROP,0.827422,0.7701,0.797733,22388.0
46,PREP,0.912596,0.943688,0.927882,21896.0
57,V,0.92073,0.932039,0.92635,22307.0


In [29]:
df_17 = evaluate_by_class(model_17, test)
df_17.loc[(df_17['index'].isin(classes))]

Unnamed: 0,index,precision,recall,f1-score,support
14,ADJ,0.861939,0.41828,0.563235,13687.0
17,ADV,0.884912,0.488006,0.629087,8004.0
24,ART,0.961558,0.547763,0.697937,31782.0
36,N,0.326581,0.975241,0.489306,50567.0
37,NPROP,0.887734,0.312936,0.462748,22388.0
47,PREP,0.87187,0.464286,0.605913,21896.0
58,V,0.943817,0.527906,0.677093,22307.0


## Quantidade de Tags na base de teste

In [7]:
list_tags = [tag for sentence in test for w, tag in sentence]
count = Counter(list_tags)
df_count = pd.DataFrame.from_dict(count, orient='index').reset_index()
df_count = df_count.sort_values(by=0, ascending=False)
df_count[:30]

Unnamed: 0,index,0
2,N,50567
1,ART,31782
8,NPROP,22388
11,V,22307
5,PREP,21896
9,PREP|+,16414
7,",",15636
6,ADJ,13687
0,ADV,8004
3,KC,6685


# Conclusão

Com base nos resultados apresentados, é possível concluir que os modelos 15 e 16 são os que apresentam os melhores resultados que os demais. Uma das grandes diferenças entre, dentre as classes analisadas, para os modelos 15 e 16 dos modelos 12, 13 e 14 é um maior score para as preposições. O modelo 4, que é um dos modelos baseados em sufixo, obteve resultado 0 em todas as métricas para a classe de preposição, além de ter um resultado significativamente inferior ao dos outros modelos para as outras classes.

Em uma análise geral, os modelos obtiveram um desempenho satisfátorio, contudo, ao analisar o desempenho por classe verifica-se que há muito pontos de melhorias. Os modelos AffixTagger, por exemplo, não obtiveram um bom desempenho com a classe de ART e N, o HMM  obteve um resultado ruim para a classe de N e os dois modelos que utilizam BrillTagger obtiveram um desempenho inferior com as classes de NPROP e ADJ. Analisando a Tabela da Seção 3.1 verifca-se que as tag supracitadas possuiam uma quantidade de ocorrências significativa na base. 

Em trabalhos futuros pretende-se realizar um pré-processamento na base de dados com intuito de corrigir retirar alguns caracteres especiais do texto,  corrigir problemas como os da palavra "São Paulo" que aparece na base como duas tokens, sendo que o correto é sua representação em bi-grams. Além disso, pretende-se treinar um modelo de classificação utilizando a representação de embeddings das palavras.