In [18]:
import os
import csv
from pprint import pprint
from bs4 import BeautifulSoup
from string import punctuation
punctuation += "—"
from collections import Counter
from tqdm.notebook import tqdm

In [3]:
import cltk

# POS-tagger

Перед тем, как начать, нужно закачать один корпус:

In [14]:
corpus_importer.import_corpus('latin_models_cltk')

У таггера одна из самых неприятных проблем заключается в том, что он берет строку как есть, не меняя ее. Из-за этого любые имена собсвтенные не распознаются, если самому не написать его в нижнем регистре.

In [131]:
from cltk.tag.pos import POSTag

tagger = POSTag('latin')

print(tagger.tag_ngram_123_backoff('Caesar'))
print(tagger.tag_ngram_123_backoff('caesar'))

[('Caesar', None)]
[('caesar', 'N-S---MN-')]


Я достал из этого репозитория -- https://github.com/PerseusDL/treebank_data -- размеченные вручную тексты и положил их в папку perseus_tagged_corpus. Я записал в одну папку только словоформы, в другую -- только тэги, в третью -- только леммы (на потом).

In [65]:
def text_and_POStag_text(file):  
    with open(f'perseus_tagged_corpus/{file}', encoding='utf-8') as f:
        text = f.read()
        soup = BeautifulSoup(text, 'xml')
        sentences = []
        POStag_sentences = []
        lemmatized_sentences = []
        for sent in soup.find_all('sentence'):
            wordforms = []
            POStags = []
            lemmas = []
            for w in sent.find_all('word'):
                try:
                    if w.attrs['postag'] and w.attrs['form'] not in punctuation:
                        lemma = w.attrs['lemma']
                        form = w.attrs['form']
                        for punct in punctuation:
                            form = form.replace(punct, '')
                            lemma = lemma.replace(punct, '')
                        wordforms.append(form)
                        POStags.append(w.attrs['postag'])
                        lemmas.append(lemma)
                except:
                    pass
            sentences.append(wordforms)
            POStag_sentences.append(POStags)
            lemmatized_sentences.append(lemmas)
    return (sentences, POStag_sentences, lemmatized_sentences)

In [58]:
tagged_perseus_files = os.listdir('perseus_tagged_corpus')

In [59]:
tagged_perseus_files

['phi0690.phi003.perseus-lat1.tb.xml',
 'perseus-lattb.1248.1.xml',
 'perseus-lattb.2219.1.xml',
 'phi0631.phi001.perseus-lat1.tb.xml',
 'phi0972.phi001.perseus-lat1.tb.xml',
 'phi0474.phi013.perseus-lat1.tb.xml',
 'phi0620.phi001.perseus-lat1.tb.xml',
 'phi0448.phi001.perseus-lat1.tb.xml',
 'phi0959.phi006.perseus-lat1.tb.xml',
 'tlg0031.tlg027.perseus-lat1.tb.xml']

Вот сам процесс записывания:

In [66]:
texts = {}
POStag_texts = {}
lemmas_texts = {}
for file in tagged_perseus_files:
    (sentences, POStag_sentences, lemmatized) = text_and_POStag_text(file)
    texts[file] = sentences
    POStag_texts[file] = POStag_sentences
    lemmas_texts[file] = lemmatized

In [124]:
for file in texts.keys():
    with open(f'perseus_text/{file[:-4]}.txt', 'w', encoding='utf-8') as f:
        f.write('\n'.join([' '.join([w.lower() for w in sent]) for sent in texts[file]]))
for file in POStag_texts.keys():
    with open(f'perseus_tags/{file[:-4]}.txt', 'w', encoding='utf-8') as f:
        f.write('\n'.join([' '.join(sent) for sent in POStag_texts[file]]))
for file in lemmas_texts.keys():
    with open(f'perseus_lemmas/{file[:-4]}.txt', 'w', encoding='utf-8') as f:
        f.write('\n'.join([' '.join([w.lower() for w in sent]) for sent in lemmas_texts[file]]))

Функция по проверке тэггера на точность. У cltk тэггера два. Один -- наивный байесовский классификатор, второй -- скрытая марковская модель (гораздо медленнее).

In [125]:
def sentence_tagger_stats(POS_tagger, files):
    percent_sum = 0
    for file in files:
        with open(f'perseus_text/{file[:-4]}.txt', encoding='utf-8') as f:
            text = f.read()
            spl_text = text.split()
        with open(f'perseus_tags/{file[:-4]}.txt', encoding='utf-8') as f:
            spl_tags = f.read().split()
        cltk_tagged = []
        for sent in text.split('\n'):
            tagged_sent = POS_tagger(sent)
            cltk_tagged.extend(tagged_sent)
        correct_tag_count = 0
        total_tag_count = 0
        wrong_tags = []
        for i, (word, tag) in enumerate(cltk_tagged):
                correct = False
                if not tag or tag == 'Unk' and spl_tags[i] == 'u--------':
                    correct = True
                    correct_tag_count += 1
                elif tag and tag.lower() == spl_tags[i]:
                    correct = True
                    correct_tag_count += 1
                else:
                    wrong_tags.append((word, tag))
                if word != spl_text[i]:
                    print(word + ' ' + spl_text[i])
                #if spl_text[i] == 'que'
                total_tag_count += 1
        print(f'{file}:\nТОЧНОСТЬ: {correct_tag_count/total_tag_count}\n')
        percent_sum += correct_tag_count/total_tag_count
        pprint(Counter(wrong_tags).most_common(10))
        print()
    print(f'СРЕДНЯЯ ТОЧНОСТЬ: {percent_sum/len(files)}')

## Примерные результаты

In [126]:
# примерная статистика tag_ngram_123_backoff
# прокрутить вниз для средней точности.

# для каждого анализируемого файла написан список самых частых ошибок тэггера -- слово и форма, которую он предложил.
sentence_tagger_stats(tagger.tag_ngram_123_backoff, tagged_perseus_files)

phi0690.phi003.perseus-lat1.tb.xml:
ТОЧНОСТЬ: 0.8983124188662917

[(('quam', 'C--------'), 3),
 (('ardens', 'T-SPPAFN-'), 2),
 (('miseratus', 'T-SRPPMN-'), 2),
 (('cum', 'R--------'), 2),
 (('cui', 'P-S---MD-'), 2),
 (('te', 'P-S---MA-'), 2),
 (('tu', 'P-S---MN-'), 2),
 (('dictis', 'T-PRPPNB-'), 2),
 (('horrendas', 'T-PPGPFA-'), 2),
 (('involvens', 'T-SPPAMN-'), 2)]

perseus-lattb.1248.1.xml:
ТОЧНОСТЬ: 0.8077132981626342

[(('inquit', 'V3SPIA---'), 53),
 (('quod', 'C--------'), 25),
 (('ne', 'D--------'), 17),
 (('qui', 'P-S---MN-'), 11),
 (('cum', 'R--------'), 11),
 (('haec', 'P-P---NA-'), 8),
 (('hoc', 'P-S---NA-'), 6),
 (('quae', 'P-S---FN-'), 6),
 (('suos', 'A-P---MA-'), 6),
 (('merito', 'N-S---NB-'), 6)]

perseus-lattb.2219.1.xml:
ТОЧНОСТЬ: 0.8430727023319616

[(('etiam', 'D--------'), 43),
 (('ne', 'D--------'), 38),
 (('m', '---------'), 19),
 (('cum', 'C--------'), 16),
 (('se', 'P-S---MA-'), 13),
 (('p', '---------'), 11),
 (('quo', 'P-S---NB-'), 11),
 (('quam', 'C--------'),

In [24]:
# примерная статистика tag_tnt
# прокрутить вниз для средней точности.
# сейчас конкретно эта статистика не очень хорошая, т.к. анализировались
# файлы, где имена собственные писались с большой буквы. в следующем коммите
# это исправлю.
sentence_tagger_stats(tagger.tag_tnt, tagged_perseus_files)

phi0690.phi003.perseus-lat1.tb.xml:
ТОЧНОСТЬ: 0.7858070099524016

[(('Aeneas', 'Unk'), 10),
 (('O', 'Unk'), 7),
 (('Sibyllae', 'Unk'), 5),
 (('Tum', 'Unk'), 5),
 (('Tu', 'Unk'), 4),
 (('At', 'Unk'), 3),
 (('Triviae', 'Unk'), 3),
 (('In', 'Unk'), 3),
 (('Phoebi', 'Unk'), 3),
 (('Non', 'Unk'), 3)]

perseus-lattb.1248.1.xml:
ТОЧНОСТЬ: 0.40887595489268824

[(('inquit', 'V3SPIA---'), 53),
 (('Et', 'Unk'), 43),
 (('Qui', 'Unk'), 20),
 (('quod', 'C--------'), 17),
 (('Sed', 'Unk'), 16),
 (('Hoc', 'Unk'), 14),
 (('Quod', 'Unk'), 13),
 (('ne', 'D--------'), 13),
 (('Nec', 'Unk'), 13),
 (('Tunc', 'Unk'), 12)]

perseus-lattb.2219.1.xml:
ТОЧНОСТЬ: 0.4506308283049918

[(('etiam', 'D--------'), 45),
 (('ne', 'D--------'), 30),
 (('uel', 'Unk'), 23),
 (('M', 'Unk'), 20),
 (('neque', 'Unk'), 15),
 (('se', 'P-S---MA-'), 12),
 (('quam', 'C--------'), 12),
 (('Antonio', 'Unk'), 11),
 (('gessit', 'Unk'), 11),
 (('C', 'Unk'), 10)]

phi0631.phi001.perseus-lat1.tb.xml:
ТОЧНОСТЬ: 0.8592721287490855

[(('Catil

# Макронайзер

In [6]:
from cltk.prosody.latin.macronizer import Macronizer

In [7]:
macrons = {"ā": "a",
           "ē": "e",
           "ī": "i",
           "ō": "o",
           "ū": "u",
           "Ā": "a",
           "Ē": "e",
           "Ī": "i",
           "Ō": "o",
           "Ū": "u"}

In [8]:
macronizer = Macronizer('tag_ngram_123_backoff')

Я взял довольно короткий текст, но и на нем видно, где макронайзер в основном ошибается.

Если вы знаете, где найти хороший электронный архив латинских текстов, где отмечены долготы, буду благодарен.

In [9]:
Aeneid_text_premacronized = """Arma virumque canō, Trōiae quī prīmus ab ōrīs
Ītaliam, fātō profugus, Lāvīniaque vēnit
lītora, multum ille et terrīs iactātus et altō
vī superum saevae memorem Iūnōnis ob īram;
multa quoque et bellō passūs, dum conderet urbem,
inferretque deōs Latiō, genus unde Latīnum,
Albānīque patrēs, atque altae moenia Rōmae.
Mūsa, mihī causās memorā, quō nūmine laesō,
quidve dolēns, rēgīna deum tot volvere cāsūs
īnsīgnem pietāte virum, tot adīre labōrēs
impulerit. Tantaene animīs caelestibus īrae?
Urbs antīqua fuit, Tyriī tenuēre colōnī,
Karthāgō, Ītaliam contrā Tiberīnaque longē
ōstia, dīves opum studiīsque asperrima bellī,
quam Iūnō fertur terrīs magis omnibus ūnam
posthabitā coluisse Samō; hīc illius arma,
hīc currus fuit; hōc rēgnum dea gentibus esse,
sī quā Fāta sinant, iam tum tenditque fovetque.
Prōgeniem sed enim Trōiānō ā sanguine dūcī
audierat, Tyriās olim quae verteret arcēs;
hinc populum lātē regem bellōque superbum
ventūrum excidiō Libyae: sīc volvere Parcās.
Id metuēns, veterisque memor Sāturnia bellī,
prīma quod ad Trōiam prō cārīs gesserat Argīs—
necdum etiam causae īrārum saevīque dolōrēs
exciderant animō: manet altā mente repostum
iūdicium Paridis sprētaeque iniūria fōrmae,
et genus invīsum, et raptī Ganymēdis honōrēs.
Hīs accēnsa super, iactātōs aequore tōtō
Trōas, rēliquiās Danaum atque immītis Achillī,
arcēbat longē Latiō, multōsque per annōs
errābant, āctī Fātīs, maria omnia circum.
Tantae mōlis erat Rōmānam condere gentem!"""

Я удалил все макроны из текста и попросил макронизатор все расставить самому.

In [47]:
def demacronize(text):
    for macron in macrons.keys():
        text = text.replace(macron, macrons[macron])
    return text

In [48]:
Aeneid_text = demacronize(Aeneid_text_premacronized)

In [12]:
Aeneid_text_premacronized_modified = ""
for symbol in Aeneid_text_premacronized:
    if symbol.upper() == symbol and symbol in macrons.keys():
        Aeneid_text_premacronized_modified += macrons[symbol]+"_"
    elif symbol in punctuation:
        Aeneid_text_premacronized_modified += " "+symbol
    elif symbol == "\n":
        Aeneid_text_premacronized_modified += " "
    else:
        Aeneid_text_premacronized_modified += symbol
Aeneid_text_premacronized_modified = Aeneid_text_premacronized_modified.lower()

(маленькие функции for convenience, не важны)

In [14]:
def word_from_letter_index(i, text):
    word = ""
    left = ""
    right = ""
    for symbol in text[i-1::-1]:
        if symbol not in " \n":
            left += symbol
        else:
            break
    for symbol in text[i+1:]:
        if symbol not in " \n":
            right += symbol
        else:
            break
    word = left[::-1]+text[i]+right
    return word

In [15]:
def vowel_count_latin(text):
    vowel_count = 0
    for symbol in text:
        if symbol.lower() in "aeiouāēīōū":
            vowel_count += 1
    return vowel_count

## Примерные результаты

In [16]:
# слова, в которых макронизатор что-то сделал неправильно
wrong_vowel_count = 0
for i, symbol in enumerate(macronizer.macronize_text(Aeneid_text)):
    if symbol.lower() in "aeiouāēīōū" and symbol != Aeneid_text_premacronized_modified[i]:
        print(word_from_letter_index(i, macronizer.macronize_text(Aeneid_text))+" "+word_from_letter_index(i, Aeneid_text_premacronized_modified))
        wrong_vowel_count += 1

cano canō
trojae trōiae
fato fātō
fato fātō
laviniaque lāvīniaque
laviniaque lāvīniaque
venit vēnit
iactatus iactātus
lātiō latiō
latinum latīnum
albanique albānīque
albanique albānīque
musa mūsa
mihi mihī
memora memorā
laeso laesō
insignem īnsīgnem
insignem īnsīgnem
tyrii tyriī
karthago karthāgō
karthago karthāgō
tiberinaque tiberīnaque
studiisque studiīsque
posthabita posthabitā
samo samō
hic hīc
illīus illius
hic hīc
currūs currus
hoc hōc
qua quā
progeniem prōgeniem
troiano trōiānō
troiano trōiānō
troiano trōiānō
tyrias tyriās
ōlim olim
rēgem regem
belloque bellōque
excidio excidiō
parcas parcās
troiam trōiam
caris cārīs
caris cārīs
argis argīs
irarum īrārum
irarum īrārum
saevique saevīque
alta altā
spretaeque sprētaeque
rapti raptī
ganymedis ganymēdis
iactatos iactātōs
iactatos iactātōs
totō tōtō
troas trōas
reliquiās rēliquiās
immitis immītis
arcebat arcēbat
lātiō latiō
multosque multōsque
errabant errābant
acti āctī
acti āctī
molis mōlis


In [17]:
# такой процент гласных не угадывает макронайзер
wrong_vowel_count / vowel_count_latin(Aeneid_text_premacronized_modified)

0.11565836298932385

# Clausulae

In [30]:
from cltk.prosody.latin.scanner import Scansion
from cltk.prosody.latin.clausulae_analysis import Clausulae
s = Scansion()
c = Clausulae()

Я посмотрел, хорошо ли он определяет клаузулы, взяв в пример несколько клаузул из Цицерона.

Если в фразе уже проставлены макроны, то, естественно, все клаузулы угадываются. Но проблема в том, что для того, что он определил клаузулу, нужно, чтобы после нее стояла точка (даже вопросительный и восклицательный знак не распознаются).

In [55]:
with open('Clausulae/clausulae.tsv', encoding='utf-8') as tsvfile:
    tsvreader = csv.reader(tsvfile, delimiter="\t")
    for line in tsvreader:
        supposed_prosody = s.scan_text(line[0])
        real_prosody = line[1].replace(" ", "").replace("|", "")
        print(supposed_prosody[0].replace("x", "-").endswith(real_prosody)
            or supposed_prosody[0].replace("x", "u").endswith(real_prosody))

True
True
True
True
True
True
True
True
True
True
True
True
True


Заодно я посмотрел, как хорошо работает анализ клауз, если провести его через их же макронайзер. Как можно увидеть, плохо.

In [56]:
with open('Clausulae/clausulae.tsv', encoding='utf-8') as tsvfile:
    tsvreader = csv.reader(tsvfile, delimiter="\t")
    for line in tsvreader:
        supposed_prosody = s.scan_text(macronizer.macronize_text(demacronize(line[0])))
        real_prosody = line[1].replace(" ", "").replace("|", "")
        print(supposed_prosody[0].replace("x", "-").endswith(real_prosody)
            or supposed_prosody[0].replace("x", "u").endswith(real_prosody))

True
False
False
True
False
True
False
False
False
False
False
True
False


# Lemmatizer

(функция, которая делает статистику)

In [107]:
def sentence_lemmatizer_stats(lemmatizer, files, numbered_lemmata_files, backoff=True):
    percent_sum = 0
    for file in files:
        with open(f'perseus_text/{file[:-4]}.txt', encoding='utf-8') as f:
            text = f.read()
            spl_text = text.split()
        with open(f'perseus_lemmas/{file[:-4]}.txt', encoding='utf-8') as f:
            spl_lemmas = f.read().split()
        cltk_lemmas = []
        for sent in text.split('\n'):
            if backoff:
                lemmatized_sent = lemmatizer(sent.split())
            else:
                lemmatized_sent = []
                for i, lemma in enumerate(lemmatizer(sent.split())):
                    lemmatized_sent.append((sent.split()[i], lemma))
            cltk_lemmas.extend(lemmatized_sent)
        correct_lemma_count = 0
        total_lemma_count = 0
        wrong_lemmas = []
        for i, (word, lemma) in enumerate(cltk_lemmas):
                correct = False
                if file in numbered_lemmata_files:
                    if lemma[-1] not in '12345':
                        lemma = lemma + '1'
                else:
                    if lemma == 'sum':
                        lemma = 'sum1'
                    elif lemma in ['cum2', 'cum1']:
                        lemma = 'cum'
                if lemma and lemma.lower() == spl_lemmas[i].lower():
                    correct = True
                    correct_lemma_count += 1
                else:
                    wrong_lemmas.append((word, lemma))
                if word != spl_text[i]:
                    print(word + ' ' + spl_text[i])
                total_lemma_count += 1
        print(f'{file}:\nТОЧНОСТЬ: {correct_lemma_count/total_lemma_count}\n')
        percent_sum += correct_lemma_count/total_lemma_count
        pprint(Counter(wrong_lemmas).most_common(10))
        print()
    print(f'СРЕДНЯЯ ТОЧНОСТЬ: {percent_sum/len(files)}')

(тексты, где все леммы отмечены цифрой в конце (sum1 и т.д.))

In [87]:
numbered = ['phi0690.phi003.perseus-lat1.tb.xml',
 'phi0631.phi001.perseus-lat1.tb.xml',
 'phi0972.phi001.perseus-lat1.tb.xml',
 'phi0474.phi013.perseus-lat1.tb.xml',
 'phi0620.phi001.perseus-lat1.tb.xml',
 'phi0448.phi001.perseus-lat1.tb.xml',
 'phi0959.phi006.perseus-lat1.tb.xml',
 'tlg0031.tlg027.perseus-lat1.tb.xml']

## Статистика для BackoffLatinLemmatizer

In [100]:
from cltk.lemmatize.latin.backoff import BackoffLatinLemmatizer
lemmatizer = BackoffLatinLemmatizer()

sentence_lemmatizer_stats(lemmatizer.lemmatize, tagged_perseus_files, numbered)

phi0690.phi003.perseus-lat1.tb.xml:
ТОЧНОСТЬ: 0.8645607961921247

[(('c', '-que1'), 10),
 (('quam', 'quam1'), 7),
 (('super', 'super1'), 6),
 (('iam', 'iam1'), 6),
 (('cum', 'cum2'), 5),
 (('ferarum', 'ferus1'), 3),
 (('Talibus', 'Tal1'), 3),
 (('ossa', 'os1'), 3),
 (('litora', 'litus1'), 2),
 (('labor', 'labor1'), 2)]

perseus-lattb.1248.1.xml:
ТОЧНОСТЬ: 0.750045479352374

[(('quod', 'qui'), 34),
 (('qui', 'qui'), 26),
 (('Qui', 'Qui'), 20),
 (('quae', 'qui'), 18),
 (('ne', 'ne'), 17),
 (('Hoc', 'Hoc'), 14),
 (('Nec', 'Nec'), 13),
 (('quis', 'quis'), 11),
 (('Quod', 'Quod'), 10),
 (('genus', 'genus'), 9)]

perseus-lattb.2219.1.xml:
ТОЧНОСТЬ: 0.7788751714677641

[(('ne', 'ne'), 39),
 (('sed', 'sed'), 35),
 (('quod', 'qui'), 27),
 (('pro', 'pro'), 26),
 (('qui', 'qui'), 20),
 (('M', 'M'), 20),
 (('uel', 'uel'), 20),
 (('quibus', 'qui'), 18),
 (('e', 'e'), 14),
 (('quo', 'quo'), 12)]

phi0631.phi001.perseus-lat1.tb.xml:
ТОЧНОСТЬ: 0.8861558156547183

[(('cum', 'cum2'), 60),
 (('quod', 'qu

## Статистика для LemmaReplacer

In [106]:
from cltk.stem.lemma import LemmaReplacer
lemmatizer = LemmaReplacer('latin')

sentence_lemmatizer_stats(lemmatizer.lemmatize, tagged_perseus_files, numbered, backoff = False)

phi0690.phi003.perseus-lat1.tb.xml:
ТОЧНОСТЬ: 0.771960190393769

[(('ne', 'neo1'), 13),
 (('est', 'edo1'), 12),
 (('Aeneas', 'aeneus1'), 10),
 (('c', 'c1'), 10),
 (('super', 'supo1'), 6),
 (('omnia', 'omne1'), 6),
 (('Sibyllae', 'Sibyllae1'), 5),
 (('regna', 'regno1'), 5),
 (('iter', 'ito1'), 5),
 (('alta', 'alo1'), 5)]

perseus-lattb.1248.1.xml:
ТОЧНОСТЬ: 0.8231762779698018

[(('est', 'edo1'), 85),
 (('esse', 'edo1'), 23),
 (('ne', 'neo1'), 17),
 (('quis', 'queo'), 11),
 (('quod', 'qui1'), 10),
 (('quo', 'quis1'), 10),
 (('esset', 'edo1'), 7),
 (('vocem', 'voco'), 7),
 (('quam', 'qui1'), 7),
 (('canis', 'cano'), 7)]

perseus-lattb.2219.1.xml:
ТОЧНОСТЬ: 0.7469135802469136

[(('est', 'edo1'), 45),
 (('ne', 'neo1'), 39),
 (('quam', 'qui1'), 36),
 (('sed', 'sed'), 35),
 (('quo', 'quis1'), 23),
 (('quod', 'qui1'), 23),
 (('M', 'M'), 20),
 (('esset', 'edo1'), 15),
 (('sine', 'sino'), 15),
 (('modo', 'modus'), 14)]

phi0631.phi001.perseus-lat1.tb.xml:
ТОЧНОСТЬ: 0.7532004389173372

[(('ne', '

Как видно, LemmaReplacer значительно хуже, да еще и очень голодный (постоянно приписывает est к edo).

# Word2Vec

См. https://github.com/Migabaj/latin_perseus_word2vec