The aim of this notebook is to transform an ancient Greek Dictionary Morpheus (https://github.com/gcelano/LemmatizedAncientGreekXML/tree/master/Morpheus) into a form of lookup table suitable for `spacy train`, e.g. the one present in Spacy (modern) Greek language model.

# Requirements

In [2]:
import os
import json
import pandas as pd
import numpy as np
import json
import unicodedata
import requests
import re
from importlib import reload
import pyconll # universal dependencies parser

import sddk

#from anda import gr
# OR uncomment the following:
#script_url = "https://raw.githubusercontent.com/sdam-au/anda_py/master/anda/gr.py"
#exec(requests.get(script_url).content)

In [3]:
# path to our own local morpheus file (if working locally)
# if not available, load it from sciencedata
path = "/Users/au648597/Documents/projects/anda/anda_repo/anda/data/morpheus_dict.json"
try:
    morpheus_dict = json.load(open(path))
except:
    publicfolder = "8fe7d59de1eafe5f8eaebc0044534606"
    morpheus_dict = json.loads(requests.get("https://sciencedata.dk/public/" + publicfolder + "/morpheus_dict.json").content)

In [4]:
len(morpheus_dict)

706506

In [5]:
# morpheus has the following structure
[it for it in morpheus_dict.items()][10:12]

[('ἀᾱ́ατος',
  [{'i': '6',
    'f': 'ἀᾱ́ατος',
    'b': 'αᾱατος',
    'l': 'ἀάατος',
    'e': 'ααατος',
    'p': 'a-s---fn-',
    'd': '1',
    's': 'not to be injured, inviolable',
    'a': None},
   {'i': '13',
    'f': 'ἀᾱ́ατος',
    'b': 'αᾱατος',
    'l': 'ἀάατος',
    'e': 'ααατος',
    'p': 'a-s---mn-',
    'd': '1',
    's': 'not to be injured, inviolable',
    'a': None}]),
 ('αᾱατος',
  [{'i': '6',
    'f': 'ἀᾱ́ατος',
    'b': 'αᾱατος',
    'l': 'ἀάατος',
    'e': 'ααατος',
    'p': 'a-s---fn-',
    'd': '1',
    's': 'not to be injured, inviolable',
    'a': None},
   {'i': '13',
    'f': 'ἀᾱ́ατος',
    'b': 'αᾱατος',
    'l': 'ἀάατος',
    'e': 'ααατος',
    'p': 'a-s---mn-',
    'd': '1',
    's': 'not to be injured, inviolable',
    'a': None}])]

POS tag used in morpheus (extracted from https://github.com/gcelano/LemmatizedAncientGreekXML/blob/master/README.md)
  * ```n```: noun
  * ```v```: verb
  * ```a```: adjective
  * ```d```: adverb
  * ```l```: article
  * ```g```: particle
  * ```c```: conjunction
  * ```r```: preposition
  * ```p```: pronoun
  * ```m```: numeral
  * ```i```: interjection
  * ```u```: punctuation

We have to transform this data into the following format: https://github.com/explosion/spacy-lookups-data/blob/master/spacy_lookups_data/data/el_lemma_exc.json


# "p" (="xpos") into universal dependency "upos"
As a first step: to translate the "p" tag here into the standardized tags used by universal dependency treebanks and spacy:

In [6]:
corpus_perseus = pyconll.load.iter_from_url("https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-Perseus/master/grc_perseus-ud-train.conllu")
corpus_proiel = pyconll.load.iter_from_url("https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-PROIEL/master/grc_proiel-ud-train.conllu")

In [7]:
upos_xpos = []
for sentence in corpus_perseus:
    for token in sentence:
        upos_xpos.append((token.upos, token.xpos))
for sentence in corpus_proiel:
    for token in sentence:
        upos_xpos.append((token.upos, token.xpos))        

In [8]:
upos_xpos[:10]

[('VERB', 'v3spia---'),
 ('ADV', 'd--------'),
 ('ADJ', 'a-s---mn-'),
 ('NOUN', 'n-s---mn-'),
 ('VERB', 'v--ana---'),
 ('NOUN', 'n-s---fa-'),
 ('PUNCT', 'u--------'),
 ('NOUN', 'n-s---mn-'),
 ('CCONJ', 'c--------'),
 ('NOUN', 'n-s---fa-')]

In [9]:
upos_unique = list(set([tup[0] for tup in upos_xpos]))
upos_unique

['NOUN',
 'ADV',
 'ADJ',
 'VERB',
 'PRON',
 'SCONJ',
 'X',
 'PUNCT',
 'CCONJ',
 'NUM',
 'ADP',
 'PROPN',
 'AUX',
 'DET',
 'INTJ',
 'PART']

In [10]:
upos_dict = {}
for upos in upos_unique:
    upos_dict[upos] = list(set([tup[1][:2] for tup in upos_xpos if tup[0] == upos]))
upos_dict

{'NOUN': ['n-', 'Nb'],
 'ADV': ['Dq', 'Df', 'Du', 'd-'],
 'ADJ': ['Ps', 'S-', 'Px', 'A-', 'Pd', 'Mo', 'a-'],
 'VERB': ['V-', 'v1', 'v2', 'v3', 'v-'],
 'PRON': ['Pr', 'p3', 'Pc', 'Pp', 'p1', 'Pi', 'p2', 'p-', 'Pk'],
 'SCONJ': ['G-', 'c-'],
 'X': ['F-', '-3', 'x-', '--'],
 'PUNCT': ['u-'],
 'CCONJ': ['C-', 'c-'],
 'NUM': ['Ma', 'm-'],
 'ADP': ['R-', 'r-'],
 'PROPN': ['Ne'],
 'AUX': ['V-'],
 'DET': ['l-', 'S-', 'Pd', 'Px'],
 'INTJ': ['I-', 'i-'],
 'PART': ['g-']}

In [11]:
upos_dict_reverse = {}
for key in upos_dict.keys():
    for el in upos_dict[key]:
        try:
            old_value = upos_dict_reverse[el] 
            # new_value = old_value.append(key)
            upos_dict_reverse[el] = old_value + [key]
        except:
            upos_dict_reverse[el] = [key]
upos_dict_reverse

{'n-': ['NOUN'],
 'Nb': ['NOUN'],
 'Dq': ['ADV'],
 'Df': ['ADV'],
 'Du': ['ADV'],
 'd-': ['ADV'],
 'Ps': ['ADJ'],
 'S-': ['ADJ', 'DET'],
 'Px': ['ADJ', 'DET'],
 'A-': ['ADJ'],
 'Pd': ['ADJ', 'DET'],
 'Mo': ['ADJ'],
 'a-': ['ADJ'],
 'V-': ['VERB', 'AUX'],
 'v1': ['VERB'],
 'v2': ['VERB'],
 'v3': ['VERB'],
 'v-': ['VERB'],
 'Pr': ['PRON'],
 'p3': ['PRON'],
 'Pc': ['PRON'],
 'Pp': ['PRON'],
 'p1': ['PRON'],
 'Pi': ['PRON'],
 'p2': ['PRON'],
 'p-': ['PRON'],
 'Pk': ['PRON'],
 'G-': ['SCONJ'],
 'c-': ['SCONJ', 'CCONJ'],
 'F-': ['X'],
 '-3': ['X'],
 'x-': ['X'],
 '--': ['X'],
 'u-': ['PUNCT'],
 'C-': ['CCONJ'],
 'Ma': ['NUM'],
 'm-': ['NUM'],
 'R-': ['ADP'],
 'r-': ['ADP'],
 'Ne': ['PROPN'],
 'l-': ['DET'],
 'I-': ['INTJ'],
 'i-': ['INTJ'],
 'g-': ['PART']}

In [12]:
["NOUN", "ADV", "ADB", "VERB", "NUM"]

['NOUN', 'ADV', 'ADB', 'VERB', 'NUM']

In [13]:
morph_list_dict = list(morpheus_dict.values())
morph_list_dict[0][:3]

[{'i': '1',
  'f': 'ἀάατον',
  'b': 'ααατον',
  'l': 'ἀάατος',
  'e': 'ααατος',
  'p': 'a-s---fa-',
  'd': '1',
  's': 'not to be injured, inviolable',
  'a': None},
 {'i': '8',
  'f': 'ἀάατον',
  'b': 'ααατον',
  'l': 'ἀάατος',
  'e': 'ααατος',
  'p': 'a-s---ma-',
  'd': '1',
  's': 'not to be injured, inviolable',
  'a': None},
 {'i': '15',
  'f': 'ἀάατον',
  'b': 'ααατον',
  'l': 'ἀάατος',
  'e': 'ααατος',
  'p': 'a-s---na-',
  'd': '1',
  's': 'not to be injured, inviolable',
  'a': None}]

In [14]:
# create empty dictionary to fill in by values
ag_lemma_lookup = {}
for upos in upos_unique: 
    ag_lemma_lookup[upos] = {}
ag_lemma_lookup

{'NOUN': {},
 'ADV': {},
 'ADJ': {},
 'VERB': {},
 'PRON': {},
 'SCONJ': {},
 'X': {},
 'PUNCT': {},
 'CCONJ': {},
 'NUM': {},
 'ADP': {},
 'PROPN': {},
 'AUX': {},
 'DET': {},
 'INTJ': {},
 'PART': {}}

In [15]:
morheus_general = {}
for item in morph_list_dict:
    for el in item:
        if el["a"] == None: # ignore dialect specific words at this moment
            for key in upos_dict_reverse.keys(): # e.g. "V-" or "a-"...            
                if el["p"][:2] == key:
                    for tag in upos_dict_reverse[key]: # list of values of the individual key
                        ag_lemma_lookup[tag][el["f"]] = el["l"]

In [16]:
dict([it for it in ag_lemma_lookup["ADV"].items()][:20])

{'ἄτως': 'ἄατος',
 'ἅτ’': 'ἅτε',
 'κἄτ’': 'ἔτι',
 'κᾆτ’': 'εἴτε',
 'κἆτ’': 'ἔτι',
 'κἆθ’': 'ἔτι',
 'κᾆθ’': 'εἴτε',
 'κάθ’': 'καθό',
 'καθ’': 'καθό',
 'κᾆτα': 'εἶτα',
 'τώ': 'τῷ',
 'τῴ': 'τῷ',
 'τῶ': 'τῷ',
 'τῷ': 'τῷ',
 'τῳ': 'τῷ',
 'ἁτός': 'ἐτός',
 'ἅτε': 'ἅτε',
 'ἇτε': 'ἅτε',
 'ᾗ': 'ᾗ',
 'ἤ': 'ἦ'}

# Update/extend Morpheus by word forms and lemmata from universal dependencies

In [17]:
len(ag_lemma_lookup["NOUN"])

59014

In [18]:
corpus_perseus = pyconll.load.iter_from_url("https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-Perseus/master/grc_perseus-ud-train.conllu")
corpus_proiel = pyconll.load.iter_from_url("https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-PROIEL/master/grc_proiel-ud-train.conllu")

In [19]:
for sentence in corpus_perseus:
    for token in sentence:
        ag_lemma_lookup[token.upos][token.form] = token.lemma
for sentence in corpus_proiel:
    for token in sentence:
        ag_lemma_lookup[token.upos][token.form] = token.lemma

In [20]:
forms = []
for sentence in corpus_proiel:
    for token in sentence:
        forms.append(token.form)

In [21]:
forms = list(set(forms))

In [22]:
len(forms)

0

In [23]:
for var in ['βιβλός', 'Βιβλός', 'βίβλος', 'Βίβλος']:
    print(var in forms)

False
False
False
False


In [24]:
len(ag_lemma_lookup["NOUN"])

67686

In [25]:
ag_lemma_lookup["NOUN"].update(ag_lemma_lookup["PROPN"])

In [26]:
ag_lemma_lookup["NOUN"]["Ἰησοῦ"]

'Ἰησοῦς'

In [27]:
with open ("../data/ag_lemma_lookup.json", "w") as f:
    json.dump(ag_lemma_lookup, f)

In [29]:
ag_lemma_lookup["NOUN"]["τεχνών"]

KeyError: 'τεχνών'

# BACKUP.... (not used anymore)

In [10]:
# functions under development
# from anda import gr
# OR uncomment the following to read from github:
#script_url = "https://raw.githubusercontent.com/sdam-au/anda_py/master/anda/gr.py"
#exec(requests.get(script_url).content)

In [72]:
# to use the latest version (for development)
reload(gr)

<module 'anda.gr' from '/home/kasev/anda_py/anda/gr.py'>

In [13]:
conf = sddk.configure("SDAM_root", "648597@au.dk")

sciencedata.dk username (format '123456@au.dk'): 648597@au.dk
sciencedata.dk password: ········
connection with shared folder established with you as its owner
endpoint variable has been configured to: https://sciencedata.dk/files/SDAM_root/


In [14]:
# to access gsheet, you need Google Service Account key json file
# I have mine located in my personal space on sciencedata.dk, so I read it from there:

# (1) read the file and parse its content
file_data = conf[0].get("https://sciencedata.dk/files/ServiceAccountsKey.json").json()
# (2) transform the content into crendentials object
credentials = service_account.Credentials.from_service_account_info(file_data)
# (3) specify your usage of the credentials
scoped_credentials = credentials.with_scopes(['https://spreadsheets.google.com/feeds', 'https://www.googleapis.com/auth/drive'])
# (4) use the constrained credentials for authentication of gspread package
gc = gspread.Client(auth=scoped_credentials)

AGT_overview = gc.open_by_url("https://docs.google.com/spreadsheets/d/1iVta_FuEDgUM_Lf_yByrdbbXNoVH_dnVZs6QRyYv1NM/edit?usp=sharing")

# AGT_metadata = gc.open_by_url("https://docs.google.com/spreadsheets/d/1hEUnL3E07F-EnE3wYnk1V91aXfPDrcnhFHKjD-04CM0/edit?usp=sharing")

# Extending Morpheus

In [59]:
def encoding(word):
    return unicodedata.normalize("NFC", word)

In [75]:
morpheus_dict = json.loads(requests.get("https://sciencedata.dk/public/" + publicfolder + "/morpheus_dict.json").content)

In [76]:
len(morpheus_dict)

706506

In [77]:
"Ne".lower()

'ne'

In [78]:
# enrich morpheus by additional data from universaldependencies
corpus_perseus = pyconll.load.iter_from_url("https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-Perseus/master/grc_perseus-ud-train.conllu")
forms_lemmas_dict = {}
for sentence in corpus_perseus:
    for token in sentence:
        forms_lemmas_dict[encoding(token.form)] = [{"l" : encoding(token.lemma), "p" : token.xpos.lower(), "s" : ""}]
        
for key in forms_lemmas_dict.keys():
    try:
        morpheus_dict[key]
    except:
        morpheus_dict[key] = forms_lemmas_dict[key]
len(morpheus_dict)

714405

In [80]:
corpus_proiel = pyconll.load.iter_from_url("https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-PROIEL/master/grc_proiel-ud-train.conllu")
forms_lemmas_dict = {}
for sentence in corpus_proiel:
    for token in sentence:
        forms_lemmas_dict[encoding(token.form)] = [{"l" : encoding(token.lemma), "p" : token.xpos.lower(), "s" : ""}]
        
for key in forms_lemmas_dict.keys():
    try:
        morpheus_dict[key]
    except:
        morpheus_dict[key] = forms_lemmas_dict[key]
len(morpheus_dict)

719663

In [81]:
morpheus_dict["Ἰησοῦ"]

[{'l': 'Ἰησοῦς', 'p': 'ne', 's': ''}]

# Load corpus

In [65]:
# import the data
AGT = sddk.read_file("SDAM_data/AGT/AGT_dated_20201027.json", "df", conf)

In [16]:
AGT_string = " ".join(AGT["string"].tolist())
len(AGT_string)

219532769

# Testing cleaning

In [17]:
test_string = "ἀρχόμενος ³σέο, Φοῖβε, text in latin also CAPITAL ⁴παλαιγενέων 1234 κλέα 34056 φωτῶν μνήσομαι, οἳ Πόντοιο κατὰ στόμα καὶ διὰ πέτρας Κυανέας βασιλῆος ἐφημοσύνῃ Πελίαο χρύσειον μετὰ κῶας ἐύζυγον ἤλασαν Ἀργώ. τοίην γὰρ Πελίης φάτιν ἔκλυεν, ὥς μιν ὀπίσσω μοῖρα μένει στυγερή, τοῦδʼ ἀνέρος, ὅντινʼ ἴδοιτο δημόθεν οἰοπέδιλον, ὑπʼ ἐννεσίῃσι δαμῆναι."
test_string

'ἀρχόμενος ³σέο, Φοῖβε, text in latin also CAPITAL ⁴παλαιγενέων 1234 κλέα 34056 φωτῶν μνήσομαι, οἳ Πόντοιο κατὰ στόμα καὶ διὰ πέτρας Κυανέας βασιλῆος ἐφημοσύνῃ Πελίαο χρύσειον μετὰ κῶας ἐύζυγον ἤλασαν Ἀργώ. τοίην γὰρ Πελίης φάτιν ἔκλυεν, ὥς μιν ὀπίσσω μοῖρα μένει στυγερή, τοῦδʼ ἀνέρος, ὅντινʼ ἴδοιτο δημόθεν οἰοπέδιλον, ὑπʼ ἐννεσίῃσι δαμῆναι.'

In [18]:
# remove numerical superscripts
sups = ["¹", "²", "³", "⁴","⁵", "⁶", "⁷", "⁰", "⁹"]
def remove_sups(string):
    for sup in sups:
        string = string.replace(sup, "")
    return string

def grave_to_acute(string):
    GRAVE = "\u0300"
    ACUTE = "\u0301"
    return unicodedata.normalize("NFC", "".join(unicodedata.normalize("NFD", string).replace(GRAVE, ACUTE)))

test_string_1 = re.sub("[a-zA-Z0-9]", "", test_string)
test_string_1

'ἀρχόμενος ³σέο, Φοῖβε,      ⁴παλαιγενέων  κλέα  φωτῶν μνήσομαι, οἳ Πόντοιο κατὰ στόμα καὶ διὰ πέτρας Κυανέας βασιλῆος ἐφημοσύνῃ Πελίαο χρύσειον μετὰ κῶας ἐύζυγον ἤλασαν Ἀργώ. τοίην γὰρ Πελίης φάτιν ἔκλυεν, ὥς μιν ὀπίσσω μοῖρα μένει στυγερή, τοῦδʼ ἀνέρος, ὅντινʼ ἴδοιτο δημόθεν οἰοπέδιλον, ὑπʼ ἐννεσίῃσι δαμῆναι.'

In [19]:
test_string_2 = remove_sups(test_string_1)
test_string_3 = grave_to_acute(test_string_2)
print(test_string_3.split())

['ἀρχόμενος', 'σέο,', 'Φοῖβε,', 'παλαιγενέων', 'κλέα', 'φωτῶν', 'μνήσομαι,', 'οἵ', 'Πόντοιο', 'κατά', 'στόμα', 'καί', 'διά', 'πέτρας', 'Κυανέας', 'βασιλῆος', 'ἐφημοσύνῃ', 'Πελίαο', 'χρύσειον', 'μετά', 'κῶας', 'ἐύζυγον', 'ἤλασαν', 'Ἀργώ.', 'τοίην', 'γάρ', 'Πελίης', 'φάτιν', 'ἔκλυεν,', 'ὥς', 'μιν', 'ὀπίσσω', 'μοῖρα', 'μένει', 'στυγερή,', 'τοῦδʼ', 'ἀνέρος,', 'ὅντινʼ', 'ἴδοιτο', 'δημόθεν', 'οἰοπέδιλον,', 'ὑπʼ', 'ἐννεσίῃσι', 'δαμῆναι.']


In [20]:
# add column with sentences

def get_sentences(string):
  sentences = [s.strip() for s in re.split("\·|\.|\:|\;", unicodedata.normalize("NFC", string))]
  return sentences

AGT["sentences"] = AGT["string"].apply(get_sentences)

In [21]:
AGT.head(5)

Unnamed: 0,filename,author,title,string,wordcount,author_id,doc_id,raw_date,date_avr,date_probs,date_manual,provenience,sentences
0,tlg0001.tlg001.perseus-grc2.xml,Apollonius Rhodius,Argonautica,"ἀρχόμενος σέο, Φοῖβε, παλαιγενέων κλέα φωτῶν μ...",38822,tlg0001,tlg0001.tlg001,3 B.C.,-2.5,{'-2.5': 1},-2.5,pagan,"[ἀρχόμενος σέο, Φοῖβε, παλαιγενέων κλέα φωτῶν ..."
1,tlg0003.tlg001.perseus-grc2.xml,Thucydides,The Peloponnesian War,\nΘουκυδίδης Ἀθηναῖος ξυνέγραψε τὸν πόλεμον τῶ...,150126,tlg0003,tlg0003.tlg001,5 B.C.,-4.5,{'-4.5': 1},-4.5,pagan,[Θουκυδίδης Ἀθηναῖος ξυνέγραψε τὸν πόλεμον τῶν...
2,tlg0004.tlg001.perseus-grc1.xml,Diogenes Laertius,Lives of Eminent Philosophers,Τὸ τῆς φιλοσοφίας ἔργον ἔνιοί φασιν ἀπὸ βαρβάρ...,110773,tlg0004,tlg0004.tlg001,A.D. 3,2.5,{'2.5': 1},,,[Τὸ τῆς φιλοσοφίας ἔργον ἔνιοί φασιν ἀπὸ βαρβά...
3,tlg0005.tlg001.perseus-grc1.xml,Theocritus,Idylls,\n̔Αδύ τι τὸ ψιθύρισμα καὶ ἁ πίτυς αἰπόλε τήνα...,19200,tlg0005,tlg0005.tlg001,4-3 B.C.,-3.0,"{'-3.5': 0.5, '-2.5': 0.5}",,,"[̔Αδύ τι τὸ ψιθύρισμα καὶ ἁ πίτυς αἰπόλε τήνα,..."
4,tlg0005.tlg002.perseus-grc1.xml,Theocritus,Epigrams,τὰ ῥόδα τὰ δροσόεντα καὶ ἁ κατάπυκνος ἐκείνα ἕ...,1734,tlg0005,tlg0005.tlg002,4-3 B.C.,-3.0,"{'-3.5': 0.5, '-2.5': 0.5}",,,[τὰ ῥόδα τὰ δροσόεντα καὶ ἁ κατάπυκνος ἐκείνα ...


# Main Lemmatization

In [17]:
%%time
AGT["lemmata"] = AGT.apply(lambda row: lemmatize_string(row["string"], all_lemmata=False, filter_by_postag=["n", "a", "v"], involve_unknown=True), axis=1)

CPU times: user 2min 26s, sys: 2.2 s, total: 2min 28s
Wall time: 2min 29s


In [18]:
all_lemmata = []
for work in AGT["lemmata"].tolist():
    all_lemmata.extend(work)

In [21]:
AGT["lemmata_wordcount"] = AGT.apply(lambda row: len(row["lemmata"]), axis=1)
AGT["lemmata_wordcount"].sum() # previously we had 13925726, then 13713183

13812934

In [22]:
%%time
def lemmatize_sentences(sentences):
    lemmatized_sentences = []
    for sentence in sentences:
        lemmatized_sentence = lemmatize_string(sentence, all_lemmata=False, filter_by_postag=["n", "a", "v"], involve_unknown=True)
        lemmatized_sentences.append(lemmatized_sentence)
    return lemmatized_sentences

AGT["lemmatized_sentences"] = AGT["sentences"].apply(lemmatize_sentences)

CPU times: user 2min 46s, sys: 403 ms, total: 2min 47s
Wall time: 2min 47s


In [23]:
AGT["n_sentences"] = AGT['lemmatized_sentences'].apply(lambda x: len(x))

# Test with GNT

we were very unhappy with the results obtained by Morpheus alone. So we extended it by means of additional morphems available in dependency tree data. Originally, the lemmatazed text looked like this:

```
['βιβλος', 'γένεσις', 'ἰησοῦ', 'χριστοῦ', 'υἱός', 'δαυείδ', 'υἱός', 'ἀβρααμ', 'ἀβραάμ', 'γεννάω', 'ἰσαάκ', 'ἰσαάκ', 'γεννάω', 'ἰακώβ', 'ἰακώβ', 'γεννάω', 'ἰούδαν', 'ἀδελφός', 'ἰούδας', 'γεννάω', 'φαρές', 'ζαρά', 'θάμαρ', 'φαρές', 'γεννάω', 'ἑσρώμ', 'ἑσρώμ', 'γεννάω', 'ἀράμ', 'ἀράμ', 'γεννάω', 'ἀμιναδάβ', 'ἀμιναδάβ', 'γεννάω', 'ναασσών', 'ναασσών', 'γεννάω', 'σαλμών', 'σαλμών', 'γεννάω', 'βοές', 'ῥαχάβ', 'βοές', 'γεννάω', 'ἰωβηδ', 'ῥούθ', 'ἰωβηδ', 'γεννάω', 'ἰεσσαί', 'ἰεσσαί', 'γεννάω', 'δαυείδ', 'βασιλεύς', 'δαυείδ', 'γεννάω', 'σολομῶνα', 'οὐρίου', 'σολομών', 'γεννάω', 'ῥοβοάμ', 'ῥοβοάμ', 'γεννάω', 'ἀβιά', 'ἀβιά', 'γεννάω', 'ἀσάφ', 'ἀσάφ', 'γεννάω', 'ἰωσαφάτ', 'ἰωσαφάτ', 'γεννάω', 'ἰωράμ', 'ἰωράμ', 'γεννάω', 'ὀζείαν', 'ὀζείας', 'γεννάω', 'ἰωαθάμ', 'ἰωαθάμ', 'γεννάω', 'ἄχας', 'ἄχας', 'γεννάω', 'ἑζεκίαν', 'ἑζεκίας', 'γεννάω', 'μανασσῆ', 'μανασσῆς', 'γεννάω', 'ἀμώς', 'ἀμώς', 'γεννάω', 'ἰωσείαν', 'ἰωσείας', 'γεννάω', 'ἰεχονίαν', 'ἀδελφός', 'μετοικεσία', 'Βαβυλών', 'μετοικεσία', 'Βαβυλών', 'ἰεχονίας', 'γεννάω', 'σαλαθιήλ', 'σαλαθιηλ', 'γεννάω', 'ζοροβάβελ', 'ζοροβάβελ', 'γεννάω', 'ἀβιούδ', 'ἀβιούδ', 'γεννάω', 'ἐλιακείμ', 'ἐλιακείμ', 'γεννάω', 'ἀζώρ', 'ἀζώρ', 'γεννάω', 'σαδώκ', 'σαδώκ', 'γεννάω', 'ἀχείμ', 'ἀχείμ', 'γεννάω', 'ἐλιούδ', 'ἐλιούδ', 'γεννάω', 'ἐλεάζαρ', 'ἐλεάζαρ', 'γεννάω', 'μαθθάν', 'μαθθάν', 'γεννάω', 'ἰακώβ', 'ἰακώβ', 'γεννάω', 'ἰωσηφ', 'ἀνήρ', 'μαρίας', 'γεννάω', 'ἰησοῦς', 'χριστός', 'πᾶσαι', 'γενεά', 'ἀβραάμ', 'ἑός', 'δαυείδ', 'γενεά', 'δεκατέσσαρες', 'δαυείδ', 'ἑός', 'μετοικεσία', 'Βαβυλών', 'γενεά', 'δεκατέσσαρες', 'μετοικεσία', 'Βαβυλών', 'ἑός', 'χριστός', 'γενεά', 'δεκατέσσαρες', 'του', 'δε', 'ιησου', 'χριστου', 'γένεσις', 'μνηστευθείσης', 'μήτηρ', 'μαρίας', 'ἰωσήφ', 'συνέρχομαι', 'εὑρίσκω', 'γαστήρ', 'πνεῦμα', 'ἅγιος', 'ἰωσηφ', 'ἀνηρ', 'δίκαιος', 'αὐτην', 'δειγματίζω', 'βούλομαι', 'ἀπολύω', 'ταῦτα', 'εἶδον', 'ἄγγελος', 'κυρίου', 'ἄατος', 'ὄναρ', 'φαίνω', 'ἰωσηφ', 'υἱός', 'δαυείδ', 'φοβέω', 'παραλαμβάνω', 'μαρίαν', 'γυνή', 'σεύω', 'γεννάω', 'πνεύματός', 'ἅγιος']```

In [89]:
def return_list_of_tokens(word, filter_by_postag=None, involve_unknown=False):
    word = unicodedata.normalize("NFC", word)
    try:
        list_of_tokens = morpheus_dict[word]
        if len(list_of_tokens) < 1:
            list_of_tokens = morpheus_dict[word.lower()]
            if len(list_of_tokens) < 1:
                list_of_tokens = [{"f":word, "i": "", "b":"", "l":word.lower(), "e":"", "p":"", "d":"", "s":"", "a":""}]
    except:
        list_of_tokens = [{"f":word, "i": "", "b":"", "l":word.lower(), "e":"", "p":"", "d":"", "s":"", "a":""}]

    if filter_by_postag != None:
        try:
            list_of_tokens_filtered = []
            for token in list_of_tokens:
                if token["p"][0] in filter_by_postag:
                    list_of_tokens_filtered.append(token)
            list_of_tokens = list_of_tokens_filtered
        except:
            if involve_unknown == False:
                list_of_tokens = []
    return list_of_tokens

In [97]:
return_first_lemma("του")

'ἒ'

In [100]:
for word in AGT_GNT["lemmata"].tolist()[2][:100]:
    print(word, return_first_lemma(word))

επειδηπερ ἐπεί
πολλοι πολύς
ἐπιχειρέω ἐπιχειρέω
ἀνατάσσομαι ἀνατάσσομαι
διηγέομαι διηγέομαι
πληροφορέω πληροφορέω
πρᾶγμα πρᾶγμα
καθώς καθώς
παραδίδωμι παραδίδωμι
ἀπ ἀπ
ἀρχή ἀρχή
αὐτόπτης αὐτόπτης
ὑπηρέτης ὑπηρετέω
γίγνομαι γίγνομαι
λόγος λόγος
δοκέω δοκέω
ἁμός ἁμός
παρακολουθέω παρακολουθέω
ἄνωθεν ἄνωθεν
πᾶς πᾶς
ἀκριβής ἀκριβής
κάθεξις κάθεξις
γράφω γράφω
κράτιστος κράτιστος
Θεόφιλος θεόφιλος
ἵνα ἵνα
ἐπιγιγνώσκω ἐπιγιγνώσκω
κατηχέω κατηχέω
λόγος λόγος
ἀσφάλεια ἀσφάλεια
εγενετο γίγνομαι
ἡμέρα ἡμέρα
Ἡρῴδης Ἡρῴδης
βασιλεύς βασιλεύς
Ἰουδαία Ἰουδαῖος
ἱερεύς ἱερεύς
ὄνομα ὀνομάζω
Ζαχαρίας Ζαχαρίας
ἐφημερία ἐφημερία
Ἀβιά Ἀβιά
γυνή γυνή
θυγάτηρ θυγάτηρ
Ἀαρών Ἀαρών
ὀνομάζω ὀνομάζω
ἐλεισάβετ ἐλεισάβετ
δίκαιος δίκαιος
ἀμφότερος ἀμφότερος
ἐναντίον ἐναντίον
θεάομαι θεάομαι
πορεύω πορεύω
πᾶς πᾶς
ἐντολή ἐντολή
δικαίωμα δικαίωμα
κύριος κύριος
ἄμεμπτος ἄμεμπτος
τέκνον τέκνον
καθότι καθότι
ἐλεισάβετ ἐλεισάβετ
στεῖρα στεῖρα
ἀμφότερος ἀμφότερος
προβαίνω προβαίνω
ἡμέρα ἡμέρα
γίγνομαι γίγνομαι
ἱερατεύω ἱερατ

In [93]:
AGT_GNT = AGT[AGT["author_id"].str.startswith("tlg0031")].copy()
#AGT_GNT["lemmata"] = AGT_GNT.apply(lambda row: lemmatize_string(row["string"], all_lemmata=False, filter_by_postag=["n", "a", "v"], involve_unknown=True), axis=1)
AGT_GNT["lemmata"] = AGT_GNT.apply(lambda row: lemmatize_string(row["string"]), axis=1)

In [98]:
print(AGT_GNT["lemmata"].tolist()[1][:300])

['αρχη', 'εὐαγγέλιον', 'Ἰησοῦς', 'Χριστός', 'καθώς', 'γράφω', 'ἠσαίᾳ', 'προφήτης', 'ἰδού', 'ἀποστέλλω', 'ἄγγελος', 'ἁμός', 'πρό', 'πρόσωπον', 'σεύω', 'κατασκευάζω', 'ὁδός', 'σεύω', 'φωνη', 'βάζω', 'ἐρημάζω', 'ἑτοιμάσατε', 'ὁδός', 'κυρίου', 'εὐθεῖα', 'ποιέω', 'τρίβος', 'γίγνομαι', 'ἰωάνης', 'βαπτίζω', 'ἐρημάζω', 'κηρύσσω', 'βάπτισμα', 'μετάνοια', 'ἄφεσις', 'ἁμάρτημα', 'ἐκπορεύω', 'πᾶς', 'Ἰουδαῖος', 'χώρα', 'ἰεροσολυμεῖται', 'πᾶς', 'βαπτίζω', 'ὑπ', 'Ἰορδάνης', 'ποταμός', 'ἐξομολογέομαι', 'ἁμαρτία', 'ἰωάνης', 'ἐνδύω', 'θρίξ', 'κάμηλος', 'ζώνη', 'δερμάτινος', 'ὀσφύς', 'εἰσθέω', 'ἀκρίς', 'μέλι', 'ἀγρέω', 'κηρύσσω', 'λέγω', 'ἔρχεται', 'ἰσχυρός', 'ἁμός', 'ὀπίσω', 'ἁμός', 'ἕ', 'ἱκανός', 'κύπτω', 'λύω', 'ἱμάς', 'ὑπόδημα', 'βαπτίζω', 'ὕδωρ', 'βαπτίζω', 'πνεῦμα', 'ἅγιος', 'και', 'εγενετο', 'ἐκεῖνος', 'ἡμέρα', 'ἔρχομαι', 'Ἰησοῦς', 'Ναζαρά', 'Γαλιλαία', 'βαπτίζω', 'Ἰορδάνης', 'ἰωάνου', 'εὐθύς', 'ἀναβαίνω', 'ὕδωρ', 'εἶδον', 'σχίζω', 'οὐρανός', 'πνεῦμα', 'περιστερά', 'καταβαίνω', 'φωνέω', 'γίγνομαι',

In [66]:
print(AGT_GNT["lemmata"].tolist()[0][:200])

['βιβλος', 'γένεσις', 'ἰησοῦ', 'χριστοῦ', 'υἱός', 'δαυείδ', 'υἱός', 'ἀβρααμ', 'ἀβραάμ', 'γεννάω', 'ἰσαάκ', 'ἰσαάκ', 'γεννάω', 'ἰακώβ', 'ἰακώβ', 'γεννάω', 'ἰούδαν', 'ἀδελφός', 'ἰούδας', 'γεννάω', 'φαρές', 'ζαρά', 'θάμαρ', 'φαρές', 'γεννάω', 'ἑσρώμ', 'ἑσρώμ', 'γεννάω', 'ἀράμ', 'ἀράμ', 'γεννάω', 'ἀμιναδάβ', 'ἀμιναδάβ', 'γεννάω', 'ναασσών', 'ναασσών', 'γεννάω', 'σαλμών', 'σαλμών', 'γεννάω', 'βοές', 'ῥαχάβ', 'βοές', 'γεννάω', 'ἰωβηδ', 'ῥούθ', 'ἰωβηδ', 'γεννάω', 'ἰεσσαί', 'ἰεσσαί', 'γεννάω', 'δαυείδ', 'βασιλεύς', 'δαυείδ', 'γεννάω', 'σολομῶνα', 'οὐρίου', 'σολομών', 'γεννάω', 'ῥοβοάμ', 'ῥοβοάμ', 'γεννάω', 'ἀβιά', 'ἀβιά', 'γεννάω', 'ἀσάφ', 'ἀσάφ', 'γεννάω', 'ἰωσαφάτ', 'ἰωσαφάτ', 'γεννάω', 'ἰωράμ', 'ἰωράμ', 'γεννάω', 'ὀζείαν', 'ὀζείας', 'γεννάω', 'ἰωαθάμ', 'ἰωαθάμ', 'γεννάω', 'ἄχας', 'ἄχας', 'γεννάω', 'ἑζεκίαν', 'ἑζεκίας', 'γεννάω', 'μανασσῆ', 'μανασσῆς', 'γεννάω', 'ἀμώς', 'ἀμώς', 'γεννάω', 'ἰωσείαν', 'ἰωσείας', 'γεννάω', 'ἰεχονίαν', 'ἀδελφός', 'μετοικεσία', 'Βαβυλών', 'μετοικεσία', 'Βαβυλών', 

In [49]:
NT_df.head(5)

Unnamed: 0,filename,author,title,string,wordcount,author_id,doc_id,raw_date,date_avr,date_probs,date_manual,provenience,sentences,lemmata
385,tlg0031.tlg001.perseus-grc2.xml,,New Testament - Matthew,ΒΙΒΛΟΣ γενέσεως Ἰησοῦ Χριστοῦ υἱοῦ Δαυεὶδ υἱ...,18288,tlg0031a,tlg0031.tlg001,A.D. 1,0.5,{'0.5': 1},0.5,christian,[ΒΙΒΛΟΣ γενέσεως Ἰησοῦ Χριστοῦ υἱοῦ Δαυεὶδ υἱο...,"[βιβλος, γένεσις, ἰησοῦ, χριστοῦ, υἱός, δαυείδ..."
386,tlg0031.tlg002.perseus-grc2.xml,,New Testament - Mark,\n\n ΑΡΧΗ τοῦ εὐαγγελίου Ἰη...,11274,tlg0031b,tlg0031.tlg002,A.D. 1,0.5,{'0.5': 1},0.5,christian,"[ΑΡΧΗ τοῦ εὐαγγελίου Ἰησοῦ Χριστοῦ, Καθὼς γέγρ...","[αρχη, εὐαγγέλιον, ἰησοῦ, χριστοῦ, καθώς, γράφ..."
387,tlg0031.tlg003.perseus-grc2.xml,Luke (the evangelist),New Testament - Luke,\n\n ΕΠΕΙΔΗΠΕΡ ΠΟΛΛΟΙ ἐπεχε...,19458,tlg0031luke,tlg0031.tlg003,A.D. 1,0.5,{'0.5': 1},0.5,christian,[ΕΠΕΙΔΗΠΕΡ ΠΟΛΛΟΙ ἐπεχείρησαν ἀνατάξασθαι\n\nδ...,"[επειδηπερ, πολλοι, ἐπιχειρέω, ἀνατάξασθαι, δι..."
388,tlg0031.tlg004.perseus-grc2.xml,Johnannine literature,New Testament - John,"\n\n ΕΝ ΑΡΧΗ ἦν ὁ λόγος, κα...",15590,tlg0031john,tlg0031.tlg004,A.D. 1,0.5,{'0.5': 1},0.5,christian,"[ΕΝ ΑΡΧΗ ἦν ὁ λόγος, καὶ ὁ λόγος ἦν πρὸς τὸν θ...","[εν, αρχη, λόγος, λόγος, θεός, θεός, λόγος, ἀρ..."
389,tlg0031.tlg005.perseus-grc2.xml,Luke (the evangelist),New Testament - Acts,\n τὸν μὲν πρῶτον λόγον ἐποιησάμην περὶ πάντων...,18406,tlg0031luke,tlg0031.tlg005,A.D. 1,0.5,{'0.5': 1},0.5,christian,"[τὸν μὲν πρῶτον λόγον ἐποιησάμην περὶ πάντων, ...","[πρότερος, λόγος, ποιέω, πᾶς, θεόφιλε, ἄρχω, ἰ..."


In [51]:
for word in AGT_GNT.iloc[0]["string"].split()

['ΒΙΒΛΟΣ',
 'γενέσεως',
 'Ἰησοῦ',
 'Χριστοῦ',
 'υἱοῦ',
 'Δαυεὶδ',
 'υἱοῦ',
 'Ἀβρααμ.',
 'Ἀβραὰμ',
 'ἐγέννησεν',
 'τὸν',
 'Ἰσαάκ,',
 'Ἰσαὰκ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ἰακώβ,',
 'Ἰακὼβ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ἰούδαν',
 'καὶ',
 'τοὺς',
 'ἀδελφοὺς',
 'αὐτοῦ,',
 'Ἰούδας',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Φαρὲς',
 'καὶ',
 'τὸν',
 'Ζαρὰ',
 'ἐκ',
 'τῆς',
 'Θάμαρ,',
 'Φαρὲς',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ἑσρώμ,',
 'Ἑσρὼμ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ἀράμ,',
 'Ἀρὰμ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ἀμιναδάβ,',
 'Ἀμιναδὰβ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ναασσών,',
 'Ναασσὼν',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Σαλμών,',
 'Σαλμὼν',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Βοὲς',
 'ἐκ',
 'τῆς',
 'Ῥαχάβ,',
 'Βοὲς',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ἰωβὴδ',
 'ἐκ',
 'τῆς',
 'Ῥούθ,',
 'Ἰωβὴδ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Ἰεσσαί,',
 'Ἰεσσαὶ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Δαυεὶδ',
 'τὸν',
 'βασιλέα.',
 'Δαυεὶδ',
 'δὲ',
 'ἐγέννησεν',
 'τὸν',
 'Σολομῶνα',
 'ἐκ',
 'τῆς',
 'τοῦ',
 'Οὐρίου,',
 'Σολομὼν

In [53]:
GNT_df = pd.read_csv("https://raw.githubusercontent.com/biblicalhumanities/Nestle1904/master/morph/Nestle1904.csv", delim_whitespace=True, index_col=False, skiprows=1, names=("book", "ch_v", "func_morph", "pos1", "pos2", "strong", "lemma", "normalized"))
GNT_df.head(20)

Unnamed: 0,book,ch_v,func_morph,pos1,pos2,strong,lemma,normalized
0,Matt,1:1,Βίβλος,N-NSF,N-NSF,976,βίβλος,Βίβλος
1,Matt,1:1,γενέσεως,N-GSF,N-GSF,1078,γένεσις,γενέσεως
2,Matt,1:1,Ἰησοῦ,N-GSM,N-GSM,2424,Ἰησοῦς,Ἰησοῦ
3,Matt,1:1,Χριστοῦ,N-GSM,N-GSM,5547,Χριστός,Χριστοῦ
4,Matt,1:1,υἱοῦ,N-GSM,N-GSM,5207,υἱός,υἱοῦ
5,Matt,1:1,Δαυεὶδ,N-PRI,N-PRI,1138,Δαυίδ,Δαυείδ
6,Matt,1:1,υἱοῦ,N-GSM,N-GSM,5207,υἱός,υἱοῦ
7,Matt,1:1,Ἀβραάμ.,N-PRI,N-PRI,11,Ἀβραάμ,Ἀβραάμ
8,Matt,1:2,Ἀβραὰμ,N-PRI,N-PRI,11,Ἀβραάμ,Ἀβραάμ
9,Matt,1:2,ἐγέννησεν,V-AAI-3S,V-AAI-3S,1080&5656,γεννάω,ἐγέννησεν


In [47]:
GNT_df.iloc[0]["string"]

KeyError: 'string'

In [None]:
len(GNT_morph_lemma_dict)

In [30]:
len(GNT_df["normalized"].tolist())

137779

In [31]:
len(GNT_df["normalized"].unique().tolist())

18444

In [33]:
len(GNT_df["func_morph"].unique().tolist())

25215

In [55]:
GNT_morph_lemma =[(re.sub("\.|\,|\;", "", unicodedata.normalize("NFC", morph)), unicodedata.normalize("NFC", lemma), {"l" : lemma, "p": pos.lower(), "s" : ""}) for morph, lemma, pos in zip(GNT_df["func_morph"].tolist(), GNT_df["lemma"].tolist(), GNT_df["pos1"].tolist())]
GNT_morph_lemma[:10]

[('Βίβλος', 'βίβλος', {'l': 'βίβλος', 'p': 'n-nsf', 's': ''}),
 ('γενέσεως', 'γένεσις', {'l': 'γένεσις', 'p': 'n-gsf', 's': ''}),
 ('Ἰησοῦ', 'Ἰησοῦς', {'l': 'Ἰησοῦς', 'p': 'n-gsm', 's': ''}),
 ('Χριστοῦ', 'Χριστός', {'l': 'Χριστός', 'p': 'n-gsm', 's': ''}),
 ('υἱοῦ', 'υἱός', {'l': 'υἱός', 'p': 'n-gsm', 's': ''}),
 ('Δαυεὶδ', 'Δαυίδ', {'l': 'Δαυίδ', 'p': 'n-pri', 's': ''}),
 ('υἱοῦ', 'υἱός', {'l': 'υἱός', 'p': 'n-gsm', 's': ''}),
 ('Ἀβραάμ', 'Ἀβραάμ', {'l': 'Ἀβραάμ', 'p': 'n-pri', 's': ''}),
 ('Ἀβραὰμ', 'Ἀβραάμ', {'l': 'Ἀβραάμ', 'p': 'n-pri', 's': ''}),
 ('ἐγέννησεν', 'γεννάω', {'l': 'γεννάω', 'p': 'v-aai-3s', 's': ''})]

In [56]:
len(GNT_morph_lemma)

137779

In [44]:
GNT_morph_lemma_dict = {}
for tup in GNT_morph_lemma:
    if tup[0] not in GNT_morph_lemma_dict.keys():
        GNT_morph_lemma_dict[tup[0]] = tup[2]

In [41]:
GNT_morph_lemma_unique = list(set(GNT_morph_lemma))
len(GNT_morph_lemma_unique)

TypeError: unhashable type: 'dict'

In [None]:
GNT_morph_lemma_unique

In [28]:
NT_df = AGT[AGT["author_id"].str.startswith("tlg0031")]
NT_lemmata = []
for lemmata in NT_df["lemmata"].tolist():
    NT_lemmata.extend(lemmata)

In [40]:
NT_freqdist = nltk.FreqDist(NT_lemmata).most_common()
NT_freqdist

[('πᾶς', 1086),
 ('ἁμός', 1078),
 ('εἶπον', 828),
 ('λέγω', 786),
 ('θεάομαι', 701),
 ('θεός', 620),
 ('ἡμός', 564),
 ('ἄνθρωπος', 522),
 ('ποιέω', 487),
 ('γίγνομαι', 482),
 ('σεύω', 476),
 ('ἔχω', 465),
 ('ἰησοῦς', 454),
 ('ἔρχομαι', 421),
 ('πατήρ', 397),
 ('εἶμι', 388),
 ('ἡμέρα', 380),
 ('υἱός', 371),
 ('κύριος', 371),
 ('εἶδον', 367),
 ('πνεῦμα', 357),
 ('πολύς', 341),
 ('λόγος', 329),
 ('ἰησοῦ', 325),
 ('δίδωμι', 312),
 ('ἀδελφός', 311),
 ('οὐρανός', 273),
 ('μαθητής', 262),
 ('ἐκεῖνος', 253),
 ('οἶδα', 249),
 ('ἀκούω', 247),
 ('γῆ', 246),
 ('μέγας', 239),
 ('λαλέω', 231),
 ('πίστις', 226),
 ('ἐμέω', 219),
 ('δοκέω', 217),
 ('χριστός', 214),
 ('ἀλλ', 214),
 ('ἅγιος', 203),
 ('ἵημι', 202),
 ('νόμος', 194),
 ('γυνή', 192),
 ('γιγνώσκω', 190),
 ('χριστοῦ', 182),
 ('δύναμαι', 176),
 ('πιστεύω', 174),
 ('ἐθέλω', 170),
 ('φωνέω', 165),
 ('βασίλεια', 162),
 ('ἔθνος', 162),
 ('ἔργον', 162),
 ('πρότερος', 161),
 ('χάρις', 158),
 ('ὁράω', 157),
 ('καρδία', 156),
 ('ζωή', 151),
 ('ἀνήρ', 1

[{'i': '432951',
  'f': 'ἰησοῦς',
  'b': 'ιησους',
  'l': 'Ἰησοῦς',
  'e': 'ιησους',
  'p': 'n-p---ma-',
  'd': '15766',
  's': 'Joshua',
  'a': 'attic'},
 {'i': '432956',
  'f': 'ἰησοῦς',
  'b': 'ιησους',
  'l': 'Ἰησοῦς',
  'e': 'ιησους',
  'p': 'n-s---mn-',
  'd': '15766',
  's': 'Joshua',
  'a': 'attic epic'}]

In [None]:
"ἰησοῦ" : "ἰησοῦς",
"ἰησοῦν" : "ἰησοῦς",
"χριστοῦ" : "χριστός",
"χριστῷ" : "χριστός",
"κύριε" : "κύριος",
"κυρίου" : "κύριος",
"ἀβρααμ" : "ἀβραάμ"

In [41]:
[(tup[0], lemma_translator(tup[0]), tup[1]) for tup in NT_freqdist[:500]]

[('πᾶς', 'all, the whole', 1086),
 ('ἁμός', 'as, when / our, ours', 1078),
 ('εἶπον', 'to speak, say', 828),
 ('λέγω',
  'to gather, pick up / to say, speak / to lay asleep, lull to sleep',
  786),
 ('θεάομαι', 'to look on, gaze at, view, behold', 701),
 ('θεός', 'God', 620),
 ('ἡμός', '', 564),
 ('ἄνθρωπος', 'manfaced', 522),
 ('ποιέω', 'to make', 487),
 ('γίγνομαι', 'gi-geno', 482),
 ('σεύω', 'to put in quick motion: to drive, hunt, chase away', 476),
 ('ἔχω', 'to have', 465),
 ('ἰησοῦς', '', 454),
 ('ἔρχομαι', 'to come', 421),
 ('πατήρ', 'a father', 397),
 ('εἶμι', 'to go', 388),
 ('ἡμέρα', 'day', 380),
 ('υἱός', 'A son', 371),
 ('κύριος', 'having power / a lord, master', 371),
 ('εἶδον', 'to see', 367),
 ('πνεῦμα', 'a blowing', 357),
 ('πολύς', 'many', 341),
 ('λόγος', 'the word', 329),
 ('ἰησοῦ', '', 325),
 ('δίδωμι', 'to give', 312),
 ('ἀδελφός', 'sons of the same mother', 311),
 ('οὐρανός', 'heaven', 273),
 ('μαθητής', 'a learner, pupil', 262),
 ('ἐκεῖνος', 'the person there, th

In [26]:
# straightforward corrections might be added here

corrections = {
    "ἔχις" : "ἔχω"
}

for key in corrections.keys():
    AGT["lemmata"] = AGT["lemmata"].apply(lambda word_list: [corrections[key] if x == key else x for x in word_list])
    AGT["lemmatized_sentences"] = AGT["lemmatized_sentences"].apply(lambda sentences_list: [[corrections[key] if x == key else x for x in sentence] for sentence in sentences_list])

In [None]:
https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-PROIEL/master/grc_proiel-ud-train.conllu

In [57]:
# enrich morpheus by additional data from universaldependencies
corpus_perseus = pyconll.load.iter_from_url("https://raw.githubusercontent.com/UniversalDependencies/UD_Ancient_Greek-Perseus/master/grc_perseus-ud-train.conllu")
forms_lemmas_dict = {}
for sentence in corpus_perseus:
    for token in sentence:
        forms_lemmas_dict[token.form] = [{"l" : token.lemma, "p" : token.xpos, "s" : ""}]
        
for key in forms_lemmas_dict.keys():
    try:
        morpheus_dict[key]
    except:
        morpheus_dict[key] = forms_lemmas_dict[key]

In [27]:
sddk.write_file("SDAM_data/AGT/AGT_20201110.json", AGT, conf)

Your <class 'pandas.core.frame.DataFrame'> object has been succefully written as "https://sciencedata.dk/files/SDAM_root/SDAM_data/AGT/AGT_20201110.json"
