Алгоритм работы аффиксного теггера:

1) Аффиксный теггер выбирает тег токена на основе начальной или конечной подстроки его словарной строки.

2) В таблице ищется подстрока слова фиксированной длины и возвращается соответствующий тег.

Для получения результатов с помощью аффиксного теггера его требуется обучить на размеченном корпусе.

In [1]:
from nltk4russian.util import read_corpus_to_nltk
from nltk import sequential
import statistics
import pandas as pd
import numpy as np

In [2]:
# Статистика по словам
def words_stats(sents, name = " "):

    words = [] # Все слова корпуса

    for sent in sents:
        for word_pos in sent:
            words.append(word_pos[0])

    words_lens = [len(word) for word in words] # Длины всех слов в корпусе
    mean_words = round(statistics.mean(words_lens), 2)
    less_than_4 = len([i for i in words_lens if i < 4])
    more_than_8 = len([j for j in words_lens if j > 8])

    print("Средняя длина слова в корпусе " + name + " = " + str(mean_words))
    print("Количество слов меньше 4-х символов в корпусе " + name + " = " + str(less_than_4) + " (" +
          str(round(less_than_4 / len(words)*100, 2)) + "%)")
    print("Количество слов больше 8-и символов в корпусе " + name + " = " + str(more_than_8)+ " (" +
          str(round(more_than_8/ len(words)*100, 2)) + "%)")


# Перебор всех вариантов тэггеров для данного датасета (длины суффиксов и минимальных стемм)
def go_thru_loop(train, test):
    for i in range(-5,-1):
        for j in range(4):
            if -i+j > 6:
                break
            else:
                print("Тренировка тэггера...")
                print("Длина суффикса ", i*-1)
                print("Минимальная стемма ", j)
                tagger = sequential.AffixTagger(train=train, affix_length=i,
                                                          min_stem_length=j, verbose=False)
                print("Результат:", round(tagger.evaluate(test), 3)*100, "%")
                print('-----------------------------')

# Удаление коротких словоформ и других знаков из корпуса
def rmv_irr_tokens(sents):

    print('--------------------')
    print("Количество словоупотреблений до чистки: " + str(sum(len(i) for i in sents)))
    num_of_irr = 0

    for i in range(6):
        for sent in sents:
            for word_pos in sent:
                pos = list(word_pos)[1].split(',')[0]
                if pos in ['PNCT', 'NUMR', 'PRTF', 'PRCL', 'PREP', 'UNKN', 'CONJ', 'PRTS',
                                  'sing', 'plur', 'neut', '', 'masc', 'INTJ']:
                    sent.remove(word_pos)
                    num_of_irr += 1
                elif pos == 'ADJF' and len(pos) <= 4:
                    sent.remove(word_pos)
                    num_of_irr += 1
            if len(sent) == 0:
                sents.remove(sent)

    print("Количество удаленных токенов: " + str(num_of_irr))
    print("Количество словоупотреблений после чистки: " + str(sum(len(i) for i in sents)))
    print('--------------------')

# Преобразование морф корпуса в POS корпус
def full_morph_to_pos(sents):

    sent_index = 0
    for sent in sents:
        word_pos_index = 0
        for word_pos in sent:
            word_pos = list(word_pos)
            sents[sent_index][word_pos_index] = list(sents[sent_index][word_pos_index])
            sents[sent_index][word_pos_index][1] = word_pos[1].split(',')[0]
            sents[sent_index][word_pos_index] = tuple(sents[sent_index][word_pos_index])
            word_pos_index += 1
        sent_index += 1


# Разметка своих слов натренированными теггерами из списка
def apply_tagger_to_list(tagger, word_list, counter = 0):

    print("----------")
    for tok, tag in tagger.tag(word_list):
        if tag == None:
            counter += 1
        print("(%s, %s), " % (tok, tag))
    print("----------")
    print("Неопознанных слов: %d" % counter)
    print()

In [3]:
# Представление файла txt в формате csv при помощи pandas - берем золотой стандарт 2017 года или ГИКРЯ

data = r'GSD_train.txt'
df = pd.read_csv(data, delimiter = "\t", header=None) # Чтение csv
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1,Начальный,начальный,ADJ,JJL,Case=Nom|Degree=Pos|Gender=Masc|Number=Sing,2,amod,_,_
1,2,ролик,ролик,NOUN,NN,Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing,17,nsubj,_,SpaceAfter=No
2,3,",",",",PUNCT,",",_,5,punct,_,_
3,4,или,или,CCONJ,CC,_,5,cc,_,_
4,5,опенинг,опенинг,NOUN,NN,Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing,2,conj,_,_
...,...,...,...,...,...,...,...,...,...,...
96956,8,и,и,CCONJ,CC,_,9,cc,_,_
96957,9,разбит,разбить,VERB,VBNH,Animacy=Inan|Aspect=Perf|Case=Nom|Gender=Masc|...,6,conj,_,_
96958,10,колхозный,колхозный,ADJ,JJL,Case=Nom|Degree=Pos|Gender=Masc|Number=Sing,11,amod,_,_
96959,11,сад,сад,NOUN,NN,Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing,9,nsubj:pass,_,SpaceAfter=No


In [4]:
# Удаление избранных столбцов и получение нового датафрейма

my_tuple = df.drop(columns = [2, 4], axis = 1)
my_tuple

Unnamed: 0,0,1,3,5,6,7,8,9
0,1,Начальный,ADJ,Case=Nom|Degree=Pos|Gender=Masc|Number=Sing,2,amod,_,_
1,2,ролик,NOUN,Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing,17,nsubj,_,SpaceAfter=No
2,3,",",PUNCT,_,5,punct,_,_
3,4,или,CCONJ,_,5,cc,_,_
4,5,опенинг,NOUN,Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing,2,conj,_,_
...,...,...,...,...,...,...,...,...
96956,8,и,CCONJ,_,9,cc,_,_
96957,9,разбит,VERB,Animacy=Inan|Aspect=Perf|Case=Nom|Gender=Masc|...,6,conj,_,_
96958,10,колхозный,ADJ,Case=Nom|Degree=Pos|Gender=Masc|Number=Sing,11,amod,_,_
96959,11,сад,NOUN,Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing,9,nsubj:pass,_,SpaceAfter=No


In [5]:
# Превращение кортежа в словарь

my_tuple_dict = my_tuple.to_dict()

In [6]:
ar = []
mega_ar = []
for i in my_tuple_dict[1]:
  if my_tuple_dict[1][i] == ',' or my_tuple_dict[1][i] == '.':
    mega_ar.append(ar)
    ar = []
    continue
  ar.append((my_tuple_dict[1][i], my_tuple_dict[3][i]))

In [7]:
len(mega_ar) # получение длины словаря

11306

In [8]:
# Обучение и тренировка на заданном колчичестве объектов

train = mega_ar[:11306]
test = mega_ar[11306:]

In [11]:
train_sents = train
test_sents = test


rmv_irr_tokens(train_sents) # Удаляем все слова, кроме {'GRND', 'ADJS', 'VERB', 'PRED', 'INFN', 'COMP', 'ADVB', 'ADJF', 'NOUN'}
rmv_irr_tokens(test_sents)

words_stats(train_sents, name = "sents_train") # Длины слов после чистки
print('--------------------------')
words_stats(train_sents, name = "sents_train")

print("|||||||||||||||||||||||||")
go_thru_loop(train_sents, train_sents) # После удаления нерелевантных слов и знаков (результаты улучшились)

--------------------
Количество словоупотреблений до чистки: 85655
Количество удаленных токенов: 0
Количество словоупотреблений после чистки: 85655
--------------------
--------------------
Количество словоупотреблений до чистки: 0
Количество удаленных токенов: 0
Количество словоупотреблений после чистки: 0
--------------------
Средняя длина слова в корпусе sents_train = 5.85
Количество слов меньше 4-х символов в корпусе sents_train = 26250 (30.65%)
Количество слов больше 8-и символов в корпусе sents_train = 20441 (23.86%)
--------------------------
Средняя длина слова в корпусе sents_train = 5.85
Количество слов меньше 4-х символов в корпусе sents_train = 26250 (30.65%)
Количество слов больше 8-и символов в корпусе sents_train = 20441 (23.86%)
|||||||||||||||||||||||||
Тренировка тэггера...
Длина суффикса  5
Минимальная стемма  0


  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  print("Результат:", round(tagger.evaluate(test), 3)*100, "%")


Результат: 57.99999999999999 %
-----------------------------
Тренировка тэггера...
Длина суффикса  5
Минимальная стемма  1
Результат: 49.0 %
-----------------------------
Тренировка тэггера...
Длина суффикса  4
Минимальная стемма  0
Результат: 64.2 %
-----------------------------
Тренировка тэггера...
Длина суффикса  4
Минимальная стемма  1
Результат: 55.800000000000004 %
-----------------------------
Тренировка тэггера...
Длина суффикса  4
Минимальная стемма  2
Результат: 47.3 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  0
Результат: 63.9 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  1
Результат: 58.9 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  2
Результат: 51.4 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  3
Результат: 44.1 %
-----------------------------
Тренировка тэггера...
Длина суффикса  2
Миним

In [16]:
rmv_irr_tokens(train_sents)


full_morph_to_pos(train_sents) #Теперь тренируем POS тэггер


pos_list = []
for sent in train_sents:
    for word_pos in sent:
        pos = word_pos[1]
        pos_list.append(pos)
print('--------------------')
print("Оставшиеся метки: ", set(pos_list))
print('--------------------')

go_thru_loop(train_sents, train_sents)

--------------------
Количество словоупотреблений до чистки: 85655
Количество удаленных токенов: 0
Количество словоупотреблений после чистки: 85655
--------------------
--------------------
Оставшиеся метки:  {'VERB', 'PUNCT', 'NUM', 'CCONJ', 'PART', 'SCONJ', 'ADP', 'DET', 'ADV', 'NOUN', 'AUX', 'PRON', 'X', 'PROPN', 'SYM', 'ADJ'}
--------------------
Тренировка тэггера...
Длина суффикса  5
Минимальная стемма  0


  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  print("Результат:", round(tagger.evaluate(test), 3)*100, "%")


Результат: 57.99999999999999 %
-----------------------------
Тренировка тэггера...
Длина суффикса  5
Минимальная стемма  1
Результат: 49.0 %
-----------------------------
Тренировка тэггера...
Длина суффикса  4
Минимальная стемма  0
Результат: 64.2 %
-----------------------------
Тренировка тэггера...
Длина суффикса  4
Минимальная стемма  1
Результат: 55.800000000000004 %
-----------------------------
Тренировка тэггера...
Длина суффикса  4
Минимальная стемма  2
Результат: 47.3 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  0
Результат: 63.9 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  1
Результат: 58.9 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  2
Результат: 51.4 %
-----------------------------
Тренировка тэггера...
Длина суффикса  3
Минимальная стемма  3
Результат: 44.1 %
-----------------------------
Тренировка тэггера...
Длина суффикса  2
Миним

In [15]:
# Проведение теста на своих словах

cool_list  = ["фонетика", "теггер", "глокая", "куздра", "краб", "радовался", "хороший", "этот", "умереть", "быстро"]

sents_train = train

# Полный морф разбор
rmv_irr_tokens(sents_train)
test_full_tagger = sequential.AffixTagger(train=sents_train, affix_length=-3, min_stem_length=0, verbose=False)
apply_tagger_to_list(test_full_tagger, cool_list)

# POS тэггинг
full_morph_to_pos(sents_train)
test_pos_tagger = sequential.AffixTagger(train=sents_train, affix_length=-3, min_stem_length=0, verbose=False)
apply_tagger_to_list(test_pos_tagger, cool_list)

--------------------
Количество словоупотреблений до чистки: 85655
Количество удаленных токенов: 0
Количество словоупотреблений после чистки: 85655
--------------------
----------
(фонетика, NOUN), 
(теггер, PROPN), 
(глокая, ADJ), 
(куздра, PROPN), 
(краб, None), 
(радовался, VERB), 
(хороший, VERB), 
(этот, DET), 
(умереть, VERB), 
(быстро, ADV), 
----------
Неопознанных слов: 1

----------
(фонетика, NOUN), 
(теггер, PROPN), 
(глокая, ADJ), 
(куздра, PROPN), 
(краб, None), 
(радовался, VERB), 
(хороший, VERB), 
(этот, DET), 
(умереть, VERB), 
(быстро, ADV), 
----------
Неопознанных слов: 1

