# Алгоритм Витерби для чешского корпуса

Импортируем библиотеки, используем третий питон

In [1]:
import conllu # парсилка корпуса
from io import open
import pickle # для сохранения состояния обучения
import numpy as np


Скачиваем тренировочный и тестовый корпус из ссылок https://docs.google.com/spreadsheets/d/1fTPyKT3-lVa1rL69jMz2wdWMLWoAEixDxlEUfiorA2k/edit?usp=drive_web&ouid=110689254510656065381
Корпус в формате conllu - текстовый файл с текстом на нужном языке- список предложений ,где у каждого слова указана его простая форма(лемма) и часть речи (глагол,прилагательное,знак препинания и тд) -тэг, и еще много всякой инфы,которая нам не нужна

In [2]:
dir_in = "./UD_Czech-PDT/" # директория с корпусами 
train_file = "cs_pdt-ud-train-l.conllu" # тренировочный корпус
test_file = "cs_pdt-ud-test.conllu" # тестовый корпус

Открываем файл с тренировочным корпусом

In [3]:
data_train = conllu.parse_incr(open(dir_in+train_file,'r',encoding = "utf-8"))

Подсчитываем количество триграммов,биграммов и монограммов в корпусе,используя словари. Триграмм - три слова подряд,биграмм - два, монограмм - одно. Т.е. количество всевозможных сочетаний из всего корпуса по три,два и одному слову.Если брать все различные слова и найти для них всевозможные сочетания,получится дофига,поэтому подсчитываем только те что есть в нашем тексте 

In [4]:
# т.е. набираем статистику по тексту,по сути это и есть обучение..
c3 = {} # количество различных триграммов ,которые встречаются в нашем тексте
c2 = {} # //---//---// биграммов
c1 = {} # //---//---// монограммов
cT = {} # //---//---// пар слово-тег(количество различных слов со своими тегами,т.е. собака-существительное) 
for tokenlist in data_train: # идем по всем предложениям в тексте(каждое предложение - список слов,
    # с указанными леммами(lemma) и частями речи-тегами(upostag)
    sentence = [["*","*"]] + [["*","*"]] + [[tokenlist[i]["lemma"], tokenlist[i]["upostag"]]# список списков
        for i in range(len(tokenlist)) ] + [["STOP","STOP"]] # склеиваем предложение  как список пар [лемма,тег]
# добавляя в начало индикатор начала ["*","*"] и конца ["STOP","STOP"]
#теперь идем по этому предложению
    for i in range(0, len(sentence)-2):
        # считаем количество уникальных триграммов  
        c3old = c3.get( (sentence[i][1], sentence[i+1][1], sentence[i+2][1]), 0)# если такого триграмма еще нет в словаре,вернуть 0
        c3.update( { (sentence[i][1], sentence[i+1][1], sentence[i+2][1]): c3old+1 } ) #если есть,увеличиваем количество на 1
    # аналогично для биграммов
    for i in range(0, len(sentence)-1):
        c2old = c2.get( (sentence[i][1], sentence[i+1][1]), 0)
        c2.update( { (sentence[i][1], sentence[i+1][1]): c2old+1 } )
    # просто количество различных слов
    for i in range(0, len(sentence)):
        c1old = c1.get( (sentence[i][1]), 0)
        c1.update( { (sentence[i][1]): c1old+1 } )
    # количество различных слов(sentence[i][1]) привязанных к определенному тегу (sentence[i][0]),
     # одно и то же слово по идее может встретиться с разными тегами,и это будут разные пары
    for i in range(0, len(sentence)):
        cTold = cT.get( (sentence[i][1], sentence[i][0]), 0)
        cT.update( { (sentence[i][1], sentence[i][0]): cTold+1 } )


Сохраняем данные в пикл, чтобы потом использовать, не обучая заново

In [5]:
print (len(c3))
print (len(c2))
print (len(c1))
print (len(cT))

# Saving:
with open('cs_czech.pkl', 'wb') as f:
    pickle.dump([cT, c1, c2, c3], f)


3050
275
20
40242


Загружаем данные из файла обратно

In [6]:
# Getting back the cs:
with open('cs_czech.pkl', 'rb') as f:
    cT, c1, c2, c3 = pickle.load(f)

In [7]:
tags = list(c1.keys())# список уникальных тегов(все теги которые попались в тексте)
 #  убираем теги которые обозначают начало и конец из этого списка,для анализа оно нам не надо
tags.remove('*') 
tags.remove('STOP')
k = len(tags) # количество уникальных тегов

Вспомогательные функции из алгоритма Витерби

In [8]:
def q(s, u, v):  # некая функция описанная в книге ,для каждой тройки слов (s,u,v) она равна с3/с2
     # где с3(u, v, s) - сколько раз такая тройка встретилась в тексте, с2(u, v) - сколько раз такая двойка встретилась
    # функция гет у словаря вернет eps, если не найдет такие тройки и двойки в нашей статистике
    # (в оригинальном алгоритме будет 0),но нам не надо делить ноль но ноль
    eps = 1e-7
    return c3.get((u, v, s), eps) / c2.get((u, v), eps)


def e(x, s): #  тоже некая функция из книги которую дал дурандин,только тут количество  сколько раз конкретная пара слово-тег
    #  встретилась в тексте деленное на сколько раз встретилось слово s и с другими тегами тоже
    eps = 1e-7
    return cT.get((s, x), eps) / c1.get((s), eps)

 # для каждого слова нам надо предсказать тег в зависимости от предыдущих тегов,
     # поэтому набор возможных тегов для каждого слова будем искать так
def K(n): # выдает возможные тэги в зависимости от положения слова в предложении (в начале предложения - *) 
    if n == -1 or n == 0: # поскольку алгоритм начинает расчеты с первого слова и смотрит теги на два шага назад,
         # то для первого слова будем возвращать звездочки
        return ['*']
    else:
         # для всех слов кроме первого теги могут быть любыми из списка всех тегов встретившихся в корпусе
        return tags 

print(K(10))


['AUX', 'SCONJ', 'PUNCT', 'NUM', 'PART', 'DET', 'NOUN', 'ADJ', 'VERB', 'SYM', '_', 'X', 'ADV', 'PRON', 'PROPN', 'INTJ', 'ADP', 'CCONJ']


Сам алгоритм Витерби в виде функции от токенизированного предложения ,возвращающей список тегов

In [9]:
def viterbi(sent):# принимает предложение и находит для каждого слова наиболее вероятный тег в зависимости от двух предыдущих тегов
    # инициализируем 
    Pi = {(0, '*', '*'): 1} # старт - для первого слова вероятность что два предыдущих это стартовый символ *
    # ,это сто пудов,=1)
    bp = {}
    n = len(sent) - 2 #  для последнего слова посчитаем отдельно
    y = [""] * (n + 1)
    # идем по словам в предложении
    for k in range(1, n + 1):
        xk = sent[k]
        
        for u in K(k-1):# смотрим по всем возможным тегам для предыдущего слова
            for v in K(k): # по всем возможным тегам для текущего слова
                w = K(k-2) # список возможных тегов для предпредыдущего слова,
                v1 = map(lambda wi:
                            Pi.get((k-1, wi, u)) *
                            q(v, wi, u) *
                            e(xk, v), w)
                v1 = list(v1) #выше посчитали типа вероятности для каждого тега
                PiNew = max(v1) # выбираем тег с наибольшей вероятностью - вот и все предсказание
                bpNew = w[v1.index(PiNew)] #тег тоже запомним
                Pi.update({(k, u, v): PiNew}) # обновляем вероятность максимальным значением
                bp.update({(k, u, v): bpNew}) # и тег,который ей соответствует

    v2 = {}
    for u in K(n-1): #  отдельно считаем крайний случай, для последнего слова
        for v in K(n):
            v2.update({(,n u, v): Pi.get((n, u, v)) * q("STOP", u, v)})

    v2max = max(list(v2.values())) #  берем максимальную вероятность
    for (n, u, v), val in v2.items(): #  ищем тройку тегов которя ей соответствует
        if val == v2max:
            (y[n-1], y[n]) = (u,v) #  добавляем в ответ

    for k in range(n-2, 0, -1): #   добавляем в ответ остальные теги
        y[k] = bp.get((k + 2, y[k+1], y[k+2]))

    #print(y[1:])
    return y[1:]


Открываем тестовый корпус и прогоняем по нему алгоритм

In [11]:
data_test = conllu.parse_incr(open(dir_in+test_file,'r',encoding = "utf-8"))
test_tags = [] # оригинальные теги корпуса
predict_tags = [] # предсказанные алгоритмом

for tokenlist in data_test:#  идем по тестовому корпусу
    #  заполняем каждое предложение как нам надо
    sentence=["*"] + [tokenlist[i]["lemma"] for i in range(len(tokenlist)) ] + ["STOP"]
    #  отдельно правильные теги
    test_tags.append([tokenlist[i]["upostag"] for i in range(len(tokenlist)) ])
    #  предсказываем теги для предложения
    predict_tags.append(viterbi(sentence))

Считаем ошибку как отношение количества неправильно предсказанных тегов к общему числу тегов

In [12]:
err = 0.
for sent in range(len(test_tags)):
    err += np.mean(np.array(test_tags[sent]) != np.array(predict_tags[sent]))
print('Error = ', err/len(test_tags))   

Error =  0.05380163674132475
