#  Part of Speech

Autora: Rita Rezende Borges de Lima

O objetivo principal do trabalho consiste de treinar e validar um modelo de  *Part of Speech* (POS) para a lingua portuguesa, utilizando como corpus o conjunto de dados **Mac-Morpho**.

In [1]:
import pandas as pd
import numpy as np
import re, nltk
import matplotlib as mpl

from nltk.tag import hmm
from nltk.tokenize import word_tokenize, sent_tokenize
from sklearn.metrics import classification_report


2022-02-04 10:27:05.968798: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2022-02-04 10:27:05.968875: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


## Preprocessamento de Dados

A **primeira etapa** realizada foi a preparação dos dados utilizados. Foi realizada a leitura dos arquivos de corpus *macmorpho-train.txt* e *macmorpho-test.txt*. A base de treinamento contém 36843 sentenças tageadas em portugês, já a base de teste contém 9513 sentenças. Ou seja, a base de dados está dividida em treinamento e testes com uma proporção 80% e 20% dos dados, respectivamente.

In [2]:
def word_tag_separation(train_tokens):
    labelled_sentence = []
    text, tags = [], []
    for element in train_tokens:
        if '_' in element:
            word, tag = element.split('_')
            labelled_sentence.append((word.lower(), tag))
            text.append(word)
            tags.append(tag)
    return labelled_sentence, text, tags

In [3]:
def sentence_tokenization(set):
    sentences, cur_sentence = [], []

    for token in set:
        cur_sentence.append(token)
        if token[0] == '.' or token[0] == ':' or token[0] == ';' or  token[0] == '!' or token[0] == '?' or token[0] == '…':
            sentences.append(cur_sentence)
            cur_sentence = []
            
    return sentences

O texto foi transformado em uma lista de frases que por sua vez é uma lista de palavras. Estas palavras consistem de tuplas onde o primeiro valor é a palavra toda em caixa baixa e o segundo é sua etiqueta.

In [4]:
train_text = open('macmorpho-train.txt', encoding='utf-8').read()
train_tokens = re.sub('\n', ' ', train_text).split(' ')

train_set, x_train, y_train = word_tag_separation(train_tokens)
train_sentences = sentence_tokenization(train_set)

print("Quantidade de palavras do conjunto de treinamento: ", len(train_set))
print("Quantidade de sentencas do conjunto de treinamento: ", len(train_sentences))

train_sentences[0]

Quantidade de palavras do conjunto de treinamento:  728497
Quantidade de sentencas do conjunto de treinamento:  36843


[('jersei', 'N'),
 ('atinge', 'V'),
 ('média', 'N'),
 ('de', 'PREP'),
 ('cr$', 'CUR'),
 ('1,4', 'NUM'),
 ('milhão', 'N'),
 ('na', 'PREP+ART'),
 ('venda', 'N'),
 ('da', 'PREP+ART'),
 ('pinhal', 'NPROP'),
 ('em', 'PREP'),
 ('são', 'NPROP'),
 ('paulo', 'NPROP'),
 ('.', 'PU')]

In [5]:
test_text = open('macmorpho-test.txt', encoding='utf-8').read()
test_tokens = re.sub('\n', ' ', test_text).split(' ')

test_set, x_test, y_test = word_tag_separation(test_tokens)
test_sentences = sentence_tokenization(test_set)

print("Quantidade de palavras do conjunto de teste: ", len(test_set))
print("Quantidade de sentencas do conjunto de teste: ", len(test_sentences))

test_sentences[1]

Quantidade de palavras do conjunto de teste:  178373
Quantidade de sentencas do conjunto de teste:  9513


[('número', 'N'),
 ('duplo', 'ADJ'),
 ('especial', 'ADJ'),
 (',', 'PU'),
 ('é', 'V'),
 ('inteirinho', 'ADJ'),
 ('dedicado', 'PCP'),
 ('a', 'PREP'),
 ('ensaios', 'N'),
 ('sobre', 'PREP'),
 ('moda', 'N'),
 ('.', 'PU')]

In [6]:
validation_text = open('macmorpho-dev.txt', encoding='utf-8').read()
validation_tokens = re.sub('\n', ' ', validation_text).split(' ')

validation_set, x_validation, y_validation = word_tag_separation(validation_tokens)
validation_sentences = sentence_tokenization(validation_set)

print("Quantidade de palavras do conjunto de validação: ", len(validation_set))
print("Quantidade de sentencas do conjunto de validação: ", len(validation_sentences))

validation_sentences[0]

Quantidade de palavras do conjunto de validação:  38881
Quantidade de sentencas do conjunto de validação:  1956


[('ainda', 'ADV'),
 ('em', 'PREP'),
 ('dezembro', 'N'),
 ('de', 'PREP'),
 ('1990', 'N'),
 (',', 'PU'),
 ('foi', 'V'),
 ('editada', 'PCP'),
 ('a', 'ART'),
 ('famosa', 'ADJ'),
 ('289', 'N'),
 (',', 'PU'),
 ('que', 'PRO-KS'),
 ('modificava', 'V'),
 ('a', 'ART'),
 ('sistemática', 'N'),
 ('da', 'PREP+ART'),
 ('arrecadação', 'N'),
 ('do', 'PREP+ART'),
 ('itr', 'NPROP'),
 ('e', 'KC'),
 ('alterava', 'V'),
 ('suas', 'PROADJ'),
 ('alíquotas', 'N'),
 ('.', 'PU')]

## Treinamento e Teste dos Modelos

A pós a preparação dos dados, iniciaremos o **treinamento do modelo**. Existem múltiplos modos de realizar o treinamento de um modelo de POS, neste trabalho focaremos no modelo **Hidden Markov Model:**, baseado em uma máquina de estados finita com transições de estado probabilísticas, usa da suposição de Markov que o próximo estado depende apenas do estado atual e é independente do histórico prévio. Para comparar resultados obtidos com este iremos utilizar o modelo **DefaulTagger:** da biblioteca *NLTK* como baseline, este atribui uma tag especifica a todos os dados.

Estes foram utilizados, testados e validadados nesse trabalho. A seguir, são apresentados os processos de treinamento e validação.



### Treinamento e Teste Baseline
Utilizando a classe mais comum, nomes (N), obtemos um acerto de 20%.

In [7]:
baseline = nltk.DefaultTagger('N')
baseline.evaluate(test_sentences)

0.2048628435917992

### Treinamento e Teste Hidden Markov Model

In [8]:
trainer = hmm.HiddenMarkovModelTrainer()
model_hmm = trainer.train_supervised(train_sentences)

Como é possível ver abaixo o modelo HMM obteve um valor de acurácia de 67% na base de teste, cerca de 3.5x melhor que nossa baseline.

In [9]:
print("Accuracy HMM model: {}".format(model_hmm.evaluate(test_sentences) * 100))

Accuracy HMM model: 67.92171460927382


## Validação dos Modelos

### Funções utilizadas em ambas as validações

In [10]:
columns = ["N", "NUM", "ART", "ADJ", "ADV", "NPROP", "PREP", "V"]


def generate_df_class_by_class(model, test):


    tagged_test_sentences = model.tag_sents([[token for token,tag in sent] for sent in test])
    y_test = [str(tag) for sentence in test for token,tag in sentence]
    y_pred = [str(tag) for sentence in tagged_test_sentences for token,tag in sentence]
    
    
    df = pd.DataFrame([[0] * 8] *8, columns, columns)
  
    for test, pred in zip(y_test, y_pred):
        if test in columns and pred in columns:
            df[test][pred] += 1
            
            
    return df

In [11]:
def generate_df_evaluate_by_class(model, test):

    tagged_test_sentences = model.tag_sents([[token for token,tag in sent] for sent in test])
    gold = [str(tag) for sentence in test for token,tag in sentence]
    pred = [str(tag) for sentence in tagged_test_sentences for token,tag in sentence]

    report = classification_report(gold, pred, output_dict=True,zero_division = 0)
    df = pd.DataFrame(report).transpose().reset_index()

    return df

In [12]:
def prettify_dataframes(df_hmm):
    def highlight_bg_correct_pred(s):
        def get_color(value):
            r = 235 - value/255
            g = 240 
            b = 230 - value/255
            return 'rgb({r}, {g}, {b})'.format(r=r, g=g, b=b)

        return ['background-color: {color}'.format(color = get_color(s[idx])) if idx == s._name else '' for idx in s.index]

    def highlight_bg_wrong_pred(s):
        def get_color(value):
            r = 235
            g = 160 - value/1
            b = 160 - value/1
            return 'rgb({r}, {g}, {b})'.format(r=r, g=g, b=b)

        return ['background-color: {color}'.format(color = get_color(s[idx])) if idx != s._name else '' for idx in s.index]

    return df_hmm.style.apply(highlight_bg_correct_pred, axis = 1)\
                        .apply(highlight_bg_wrong_pred, axis = 1)

Inicialmente para cada palavra em nosso conjunto de validação iremos tentar prever sua classe lexical e adicionar esta ocorrência em um dataframe para a respectiva tag correta a posição da tag encontrada. Ou seja, todos as ocorrências na diagonal do df (pintado de verde) representam ocorrências corretas, o restante (pintado de vermelho) representa ocorrências onde nosso modelo errou. A análise foi realizada para as oito classes mais comuns e esta pode ser vista a seguir:

- **Validação da Baseline Class by Class**:

In [13]:
df_base = generate_df_class_by_class(baseline, validation_sentences)
prettify_dataframes(df_base)

Unnamed: 0,N,NUM,ART,ADJ,ADV,NPROP,PREP,V
N,8314,696,2899,1842,959,3799,3777,3975
NUM,0,0,0,0,0,0,0,0
ART,0,0,0,0,0,0,0,0
ADJ,0,0,0,0,0,0,0,0
ADV,0,0,0,0,0,0,0,0
NPROP,0,0,0,0,0,0,0,0
PREP,0,0,0,0,0,0,0,0
V,0,0,0,0,0,0,0,0


- **Validação Hidden Markov Model Class by Class**:

In [14]:
df_hmm = generate_df_class_by_class(model_hmm, validation_sentences)
prettify_dataframes(df_hmm)

Unnamed: 0,N,NUM,ART,ADJ,ADV,NPROP,PREP,V
N,8061,246,578,639,241,1502,1018,900
NUM,25,418,0,0,0,4,0,0
ART,2,28,2292,0,1,15,30,0
ADJ,73,0,0,1161,5,67,3,0
ADV,3,0,0,5,628,1,39,0
NPROP,117,2,1,25,0,2066,19,2
PREP,6,0,23,6,36,71,2636,1
V,14,0,0,2,1,7,1,3070


Por meio da biblioteca *scikit-learn* também geraremos um report com métricas como precisão, f1-score e suporte. A análise foi realizada para as oito classes mais comuns e esta pode ser vista a seguir:

- **Validação da Baseline Métricas com Resultado**:

In [15]:
df_base_results = generate_df_evaluate_by_class(baseline, validation_sentences)
df_base_results.loc[(df_base_results['index'].isin(columns))]

Unnamed: 0,index,precision,recall,f1-score,support
0,ADJ,0.0,0.0,0.0,1842.0
1,ADV,0.0,0.0,0.0,959.0
3,ART,0.0,0.0,0.0,2899.0
8,N,0.213832,1.0,0.352325,8314.0
9,NPROP,0.0,0.0,0.0,3799.0
10,NUM,0.0,0.0,0.0,696.0
13,PREP,0.0,0.0,0.0,3777.0
25,V,0.0,0.0,0.0,3975.0


- **Validação da Hidden Markov Model Métricas com Resultado**:

In [16]:
df_hmm_results = generate_df_evaluate_by_class(model_hmm, validation_sentences)
df_hmm_results.loc[(df_hmm_results['index'].isin(columns))]

Unnamed: 0,index,precision,recall,f1-score,support
0,ADJ,0.879545,0.630293,0.734345,1842.0
1,ADV,0.872222,0.654849,0.748064,959.0
3,ART,0.961813,0.790617,0.867853,2899.0
8,N,0.472952,0.969569,0.635776,8314.0
9,NPROP,0.916593,0.543827,0.682637,3799.0
10,NUM,0.935123,0.600575,0.731409,696.0
13,PREP,0.936412,0.697908,0.799757,3777.0
25,V,0.990962,0.772327,0.86809,3975.0


## Conclusão

Para o modelo **Hidden Markov Model** foi possível observar uma maior precisão para as classes de verbo, preposição, numeral e nomes próprios. É também interessante ressaltar a baixa precisão para nomes, múltiplas palavras que não tinham essa classe foram classificadas assim erroneamente. Também é interessante ressaltar a alta quantidade de falsos positivos para nomes e nomes próprios que foram classificados de maneira errada como adjetivos e preposições. Artigos e Preposições também foram confundidos de ambos os modos. 