# Requirements

This notebook has been developed to be used locally (i.e. outside of Google Colab). It is because it relies upon lemmatization functions still under development. To run it in Google Colab, you firstly need to install anda package, what takes some time, since it is accompanied with importing a large Greek dictionary (having more than 600MB).

In [None]:
!pip install anda
from anda import gr

In [None]:
# to use the latest version (for development)
from importlib import reload
reload(gr)

In [None]:
import sddk

# Usage

If you have only one word, you can either return all possible lemmata associated with it separated by `/` (`return_all_unique_lemmata()`), or you can return only the first of them (`return_first_lemma()`). In  case of all lemmatization functions, there is a set of optional additional arguments:
* `all_lemmata=False`
* `filter_by_postag=None` (try `filter_by_postag=["n","a","v"]` to get nouns, adjectives and verbs
* `involve_unknown=False`, i.e. return (True) or omit (False) words in cases where no lemma was found)

In [None]:
gr.return_first_lemma("ἐπιστήμην")

'ἐπιστήμη'

In [None]:
gr.return_all_unique_lemmata("ἐπιστήμην")

'ἐπιστήμη'

You can also lemmatize an extensive string, consisting from a number of words, like this one:

In [None]:
string = "Πρότασις μὲν οὖν ἐστὶ λόγος καταφατικὸς ἢ ἀποφατικὸς τινὸς κατά τινος. Οὗτος δὲ ἢ καθόλου ἢ ἐν μέρει ἢ ἀδιόριστος. Λέγω δὲ καθόλου μὲν τὸ παντὶ ἢ μηδενὶ ὑπάρχειν, ἐν μέρει δὲ τὸ τινὶ ἢ μὴ τινὶ ἢ μὴ παντὶ ὑπάρχειν, ἀδιόριστον δὲ τὸ ὑπάρχειν ἢ μὴ ὑπάρχειν ἄνευ τοῦ καθόλου, ἢ κατὰ μέρος, οἷον τὸ τῶν ἐναντίων εἶναι τὴν αὐτὴν ἐπιστήμην ἢ τὸ τὴν ἡδονὴν μὴ εἶναι ἀγαθόν."

Then you run:

In [None]:
lemmatized_string = gr.lemmatize_string(string)
print(lemmatized_string)

['πρότασις', 'λόγος', 'καταφατικός', 'ἀποφατικός', 'καθόλου', 'μέρος', 'ἀδιόριστος', 'λέγω', 'καθόλου', 'πᾶς', 'μηδείς', 'ὑπάρχω', 'μέρος', 'πᾶς', 'ὑπάρχω', 'ἀδιόριστον', 'ὑπάρχω', 'ὑπάρχω', 'ἄνευ', 'καθόλου', 'μέρος', 'οἷος', 'ἐναντίος', 'αὐτην', 'ἐπιστήμη', 'ἡδονην', 'ἀγαθός']


The results above are still quite poor. Perhaps there is a problem with encoding...

You can also lemmatize the string and at the same time split it into sentences:

In [None]:
lemmatized_sentences = gr.get_lemmatized_sentences(string)
print(lemmatized_sentences)

[['πρότασις', 'λόγος', 'καταφατικός', 'ἀποφατικός'], ['καθόλου', 'μέρος', 'ἀδιόριστος'], ['λέγω', 'καθόλου', 'πᾶς', 'μηδείς', 'ὑπάρχω', 'μέρος', 'πᾶς', 'ὑπάρχω', 'ἀδιόριστον', 'ὑπάρχω', 'ὑπάρχω', 'ἄνευ', 'καθόλου', 'μέρος', 'οἷος', 'ἐναντίος', 'αὐτην', 'ἐπιστήμη', 'ἡδονην', 'ἀγαθός']]


In [None]:
lemmatized_sentences = gr.get_lemmatized_sentences(string, all_lemmata=True, filter_by_postag=["n","a","v"], involve_unknown=False)
print(lemmatized_sentences)

[['λόγος'], ['μέρος'], ['πᾶς', 'μηδείς', 'ὑπάρχω', 'μέρος', 'πᾶς', 'ὑπάρχω', 'ὑπάρχω', 'ὑπάρχω', 'ἄνω/ἀνίημι', 'μέρος', 'οἷος', 'ἐναντίος', 'ἐπιστήμη', 'ἀγαθός']]


In [None]:
gr.return_all_unique_translations("ὑπάρχειν", filter_by_postag=None, involve_unknown=False)

'to begin, make a beginning'

In [None]:
gr.lemma_translator("λόγος")

'the word'

In [None]:
string_tokenized = gr.tokenize_string(string)

In [None]:
gr.morphological_analysis(string)[1:4]

[{'i': '564347',
  'f': 'μέν',
  'b': 'μεν',
  'l': 'μέν',
  'e': 'μεν',
  'p': 'g--------',
  'd': '20753',
  's': 'on the one hand, on the other hand',
  'a': None},
 {'i': '642363',
  'f': 'οὖν',
  'b': 'ουν',
  'l': 'οὖν',
  'e': 'ουν',
  'p': 'g--------',
  'd': '23870',
  's': 'really, at all events',
  'a': None},
 {'i': '264221',
  'f': 'ἐστί',
  'b': 'εστι',
  'l': 'εἰμί',
  'e': 'ειμι',
  'p': 'v3spia---',
  'd': '9722',
  's': 'I have',
  'a': None}]

# Import corpora

In [None]:
c_aristotelicum = sddk.read_file("c_aristotelicum.json", "df", "31b393e2afe1ee96ce81869c7efe18cb")
c_hippocraticum = sddk.read_file("c_hippocraticum.json", "df", "31b393e2afe1ee96ce81869c7efe18cb")

this file is located in a public folder
this file is located in a public folder


# Testing lemmatization with Nicomachean Ethics

This two corpora already contain one version of lemmatization, but here we will improve it

In [None]:
EN_df = c_aristotelicum[c_aristotelicum["doc_id"]=="tlg0086.tlg010"]
EN_df

Unnamed: 0,filename,author,title,string,author_id,doc_id,raw_date,date_avr,date_probs,date_manual,provenience,wordcount,lemmata,lemmatized_sentences,lemmata_wordcount,num_of_sents
685,tlg0086.tlg010.perseus-grc1.xml,Aristotle,Nicomachean Ethics; Machine readable text; ed....,"βοοκ 1 πᾶσα τέχνη καὶ πᾶσα μέθοδος, ὁμοίως δὲ ...",tlg0086,tlg0086.tlg010,4 B.C.,-3.5,{'-3.5': 1},-3.5,pagan,56638,"[βοοκ, πᾶς, τέχνη, πᾶς, μέθοδος, ὅμοιος, πρᾶξί...","[[βοοκ, πᾶς, τέχνη, πᾶς, μέθοδος, ὅμοιος, πρᾶξ...",23811,3897


In [None]:
# Nicomachean ethics as a string"
EN_df_string = EN_df["string"].tolist()[0]
EN_df_string[:500]

'βοοκ 1 πᾶσα τέχνη καὶ πᾶσα μέθοδος, ὁμοίως δὲ πρᾶξίς τε καὶ προαίρεσις, ἀγαθοῦ τινὸς ἐφίεσθαι δοκεῖ· διὸ καλῶς ἀπεφήναντο τἀγαθόν, οὗ πάντʼ ἐφίεται. διαφορὰ δέ τις φαίνεται τῶν τελῶν· τὰ μὲν γάρ εἰσιν ἐνέργειαι, τὰ δὲ παρʼ αὐτὰς ἔργα τινά. ὧν δʼ εἰσὶ τέλη τινὰ παρὰ τὰς πράξεις, ἐν τούτοις βελτίω πέφυκε τῶν ἐνεργειῶν τὰ ἔργα. πολλῶν δὲ πράξεων οὐσῶν καὶ τεχνῶν καὶ ἐπιστημῶν πολλὰ γίνεται καὶ τὰ τέλη· ἰατρικῆς μὲν γὰρ ὑγίεια, ναυπηγικῆς δὲ πλοῖον, στρατηγικῆς δὲ νίκη, οἰκονομικῆς δὲ πλοῦτος. ὅσαι '

In [None]:
# lemmatization without any parametrization  
print(gr.lemmatize_string(EN_df_string[:500]))

['βοοκ', 'πᾶς', 'τέχνη', 'πᾶς', 'μέθοδος', 'ὅμοιος', 'πρᾶξίς', 'προαίρεσις', 'ἀγαθός', 'ἐφίημι', 'δοκέω', 'διό', 'καλός', 'ἀποφαίνω', 'ἀγαθός', 'ἕ', 'πάντʼ', 'ἐφίημι', 'διαφορά', 'φαίνω', 'τελέω', 'εἶμι', 'ἐνέργεια', 'παρʼ', 'ἔργον', 'εἶμι', 'τελέω', 'πρᾶξις', 'βελτίων', 'φύω', 'ἐνέργεια', 'ἔργον', 'πολύς', 'πρᾶξις', 'τεχνάζω', 'ἐπιστήμη', 'πολύς', 'γίγνομαι', 'τελέω', 'ἰατρικός', 'ὑγίεια', 'ναυπηγικός', 'πλοῖον', 'στρατηγικός', 'νικάω', 'οἰκονομικός', 'πλοῦτος', 'ὅσος']


In [None]:
# lemmatization with all lemmata
print(gr.lemmatize_string(EN_df_string[:500], all_lemmata=True))

['βοοκ', 'πᾶς/πάσσω', 'τέχνη', 'πᾶς/πάσσω', 'μέθοδος', 'ὅμοιος/ὁμοιόω', 'πρᾶξίς', 'προαίρεσις', 'ἀγαθός', 'τίς/τις', 'ἐφίημι', 'δοκέω', 'διό', 'κάλως/καλός', 'ἀποφαίνω', 'ἀγαθός', 'ὅς/ἵημι/οὗ/ἕ', 'πάντʼ', 'ἐφίημι', 'διαφορά/διάφορος', 'φαίνω', 'τέλος/τέλλω/τελέω', 'εἶμι/εἴσειμι/εἰμί', 'ἐνεργέω/ἐνέργεια', 'παρʼ', 'ἔργον', 'τίς/τις', 'εἶμι/εἰμί', 'τέλος/τελέω', 'τίς/τις', 'πρᾶξις/πράσσω', 'βελτίων', 'φύω', 'ἐνέργεια', 'ἔργον', 'πολύς', 'πρᾶξις/πράσσω', 'τέχνη/τεχνάζω', 'ἐπιστήμων/ἐπιστήμη', 'πολύς', 'γίγνομαι', 'τέλος/τελέω', 'ἰατρικός', 'ὑγίεια', 'ναυπηγικός', 'πλοῖον', 'στρατηγικός', 'νίκη/νῖκος/νικάω', 'οἰκονομικός', 'πλοῦτος', 'ὅσος']


In [None]:
# lemmatization with all lemmata, but only nouns, adjectives and verbs
# prefer noun and adjective where noun, adjective and verb is available
# prefer noun where noun and adjective is available
print(gr.lemmatize_string(EN_df_string[:500], all_lemmata=True, filter_by_postag=["n","a","v"], involve_unknown=True))

['βοοκ', 'πᾶς/πάσσω', 'τέχνη', 'πᾶς/πάσσω', 'μέθοδος', 'ὅμοιος/ὁμοιόω', 'πρᾶξίς', 'προαίρεσις', 'ἀγαθός', 'ἐφίημι', 'δοκέω', 'κάλως', 'ἀποφαίνω', 'ἀγαθός', 'ἵημι', 'πάντʼ', 'ἐφίημι', 'διαφορά', 'φαίνω', 'τέλος', 'εἶμι/εἴσειμι/εἰμί', 'ἐνέργεια', 'παρʼ', 'ἔργον', 'εἶμι/εἰμί', 'τέλος', 'πρᾶξις', 'βελτίων', 'φύω', 'ἐνέργεια', 'ἔργον', 'πολύς', 'πρᾶξις', 'τέχνη', 'ἐπιστήμη', 'πολύς', 'γίγνομαι', 'τέλος', 'ἰατρικός', 'ὑγίεια', 'ναυπηγικός', 'πλοῖον', 'στρατηγικός', 'νίκη/νῖκος', 'οἰκονομικός', 'πλοῦτος', 'ὅσος']


In [None]:
print(gr.lemmatize_string(EN_df_string[:500], all_lemmata=False, filter_by_postag=["n","a","v"], involve_unknown=True))

['βοοκ', 'πᾶς', 'τέχνη', 'πᾶς', 'μέθοδος', 'ὅμοιος', 'πρᾶξίς', 'προαίρεσις', 'ἀγαθός', 'ἐφίημι', 'δοκέω', 'κάλως', 'ἀποφαίνω', 'ἀγαθός', 'ἵημι', 'πάντʼ', 'ἐφίημι', 'διαφορά', 'φαίνω', 'τέλος', 'εἶμι', 'ἐνέργεια', 'παρʼ', 'ἔργον', 'εἶμι', 'τέλος', 'πρᾶξις', 'βελτίων', 'φύω', 'ἐνέργεια', 'ἔργον', 'πολύς', 'πρᾶξις', 'τέχνη', 'ἐπιστήμη', 'πολύς', 'γίγνομαι', 'τέλος', 'ἰατρικός', 'ὑγίεια', 'ναυπηγικός', 'πλοῖον', 'στρατηγικός', 'νίκη', 'οἰκονομικός', 'πλοῦτος', 'ὅσος']


In [None]:
print(gr.get_lemmatized_sentences(EN_df_string[:1000], all_lemmata=False, filter_by_postag=["n","a","v"], involve_unknown=True))

[['βοοκ', 'πᾶς', 'τέχνη', 'πᾶς', 'μέθοδος', 'ὅμοιος', 'πρᾶξίς', 'προαίρεσις', 'ἀγαθός', 'ἐφίημι', 'δοκέω'], ['κάλως', 'ἀποφαίνω', 'ἀγαθός', 'ἵημι', 'πάντʼ', 'ἐφίημι'], ['διαφορά', 'φαίνω', 'τέλος'], ['εἶμι', 'ἐνέργεια', 'παρʼ', 'ἔργον'], ['εἶμι', 'τέλος', 'πρᾶξις', 'βελτίων', 'φύω', 'ἐνέργεια', 'ἔργον'], ['πολύς', 'πρᾶξις', 'τέχνη', 'ἐπιστήμη', 'πολύς', 'γίγνομαι', 'τέλος'], ['ἰατρικός', 'ὑγίεια', 'ναυπηγικός', 'πλοῖον', 'στρατηγικός', 'νίκη', 'οἰκονομικός', 'πλοῦτος'], ['ὅσος', 'εἶμι', 'μίαν', 'δύναμις', 'ἱππικην', 'χαλινοποιική', 'ὅσος', 'ἱππικός', 'ὄργανον', 'εἶμι', 'πᾶς', 'πολεμικός', 'πρᾶξις', 'στρατηγικός', 'τρόπος', 'ὑφʼ', 'ἕτερος'], ['ἅπας', 'ἀρχιτεκτονικῶν', 'τέλος', 'πᾶς', 'αἱρετός', 'ὑπʼ'], ['χάρις', 'ἐκεῖνος', 'διώκω'], ['διαφέρω', 'ἐνέργεια', 'τέλος', 'πρᾶξις', 'ἐπιστήμη'], ['τέλος', 'πρακτός', 'διʼ']]


In [None]:
print(gr.get_lemmatized_sentences(EN_df_string[:1000], all_lemmata=False, filter_by_postag=["n","a","v"], involve_unknown=False))

[['πᾶς', 'τέχνη', 'πᾶς', 'μέθοδος', 'ὅμοιος', 'προαίρεσις', 'ἀγαθός', 'ἐφίημι', 'δοκέω'], ['κάλως', 'ἀποφαίνω', 'ἀγαθός', 'ἵημι', 'ἐφίημι'], ['διαφορά', 'φαίνω', 'τέλος'], ['εἶμι', 'ἐνέργεια', 'ἔργον'], ['εἶμι', 'τέλος', 'πρᾶξις', 'βελτίων', 'φύω', 'ἐνέργεια', 'ἔργον'], ['πολύς', 'πρᾶξις', 'τέχνη', 'ἐπιστήμη', 'πολύς', 'γίγνομαι', 'τέλος'], ['ἰατρικός', 'ὑγίεια', 'ναυπηγικός', 'πλοῖον', 'στρατηγικός', 'νίκη', 'οἰκονομικός', 'πλοῦτος'], ['ὅσος', 'εἶμι', 'δύναμις', 'χαλινοποιική', 'ὅσος', 'ἱππικός', 'ὄργανον', 'εἶμι', 'πᾶς', 'πολεμικός', 'πρᾶξις', 'στρατηγικός', 'τρόπος', 'ἕτερος'], ['ἅπας', 'τέλος', 'πᾶς', 'αἱρετός'], ['χάρις', 'ἐκεῖνος', 'διώκω'], ['διαφέρω', 'ἐνέργεια', 'τέλος', 'πρᾶξις', 'ἐπιστήμη'], ['τέλος', 'πρακτός']]


In [None]:
list_of_tokens = gr.return_list_of_tokens("καλῶς")
list_of_tokens

NameError: name 'gr' is not defined

In [None]:
### simple test of how preference works
list_of_tokens = gr.return_list_of_tokens("καλῶς")
token_letters = set([token["p"][0] for token in list_of_tokens])
if (("n" or "a") in token_letters) and ("v" in token_letters):
    print("met")
    list_of_tokens = [token for token in list_of_tokens if token["p"][0] in ["a", "n"]]
# prefer nouns over adjectives
if "a" and "n" in token_letters:
    list_of_tokens = [token for token in list_of_tokens if token["p"][0] == "n"]
list_of_tokens

[{'i': '390384',
  'f': 'ἐφίημι',
  'b': 'εφιημι',
  'l': 'ἐφίημι',
  'e': 'εφιημι',
  'p': 'v1spia---',
  'd': '14291',
  's': 'to send to',
  'a': None}]

# Main Lemmatization

In [None]:
%%time
c_aristotelicum["lemmata"] = c_aristotelicum.apply(lambda row: gr.lemmatize_string(row["string"], all_lemmata=False, filter_by_postag=["n","a","v"], involve_unknown=True), axis=1)
c_hippocraticum["lemmata"] = c_hippocraticum.apply(lambda row: gr.lemmatize_string(row["string"], all_lemmata=False, filter_by_postag=["n","a","v"], involve_unknown=True), axis=1)

CPU times: user 7.66 s, sys: 220 ms, total: 7.88 s
Wall time: 8 s


In [None]:
c_aristotelicum["lemmatized_sentences"] = c_aristotelicum.apply(lambda row: gr.get_lemmatized_sentences(row["string"], all_lemmata=False, filter_by_postag=["n","a","v"], involve_unknown=True), axis=1)
c_hippocraticum["lemmatized_sentences"] = c_hippocraticum.apply(lambda row: gr.get_lemmatized_sentences(row["string"], all_lemmata=False, filter_by_postag=["n","a","v"], involve_unknown=True), axis=1)

In [None]:
c_aristotelicum.head(5)

Unnamed: 0,filename,author,title,string,author_id,doc_id,raw_date,date_avr,date_probs,date_manual,provenience,wordcount,lemmata,lemmatized_sentences,lemmata_wordcount,num_of_sents
678,tlg0086.tlg001.1st1K-grc2.xml,Aristotle,Aristotelis Analytica Priora et Posteriora; Ar...,ΑΝΑΛΥΤΙΚΩΝ ΠΡΟΤΕΡΩΝ Α. Πρῶτον εἰπεῖν περὶ τί κ...,tlg0086,tlg0086.tlg001,4 B.C.,-3.5,{'-3.5': 1},-3.5,pagan,59772,"[αναλυτικων, προτερων, πρῶτον, εἶπον, σκέψις, ...","[[αναλυτικων, προτερων], [πρῶτον, εἶπον, σκέψι...",21150,3645
679,tlg0086.tlg002.1st1K-grc2.xml,Aristotle,De anima; Aritoteles De anima,ΠEP1 ΨΥΧΗΣ Α Τῶν καλῶν καὶ τιμίων τὴν εἴδησιν ...,tlg0086,tlg0086.tlg002,4 B.C.,-3.5,{'-3.5': 1},-3.5,pagan,20988,"[ψυχης, κᾶλον, τίμιος, εἶδος, μαλλός, ἕτερος, ...","[[ψυχης, κᾶλον, τίμιος, εἶδος, μαλλός, ἕτερος,...",8893,1306
681,tlg0086.tlg005.1st1K-grc1.xml,Aristotle,De caelo; Aristoteles De coelo et De generatio...,ΠEPI ΟΥΡΑΝΟΥ A. Ἡ περὶ φύσεως ἐπιστήμη σχεδὸν ...,tlg0086,tlg0086.tlg005,4 B.C.,-3.5,{'-3.5': 1},-3.5,pagan,31395,"[ουρανου, φύσις, ἐπιστήμη, πλεῖστος, φαίνω, σῶ...","[[ουρανου], [φύσις, ἐπιστήμη, πλεῖστος, φαίνω,...",12915,1986
682,tlg0086.tlg006.1st1K-grc1.xml,Aristotle,Categoriae; Aristotelis Opera,ΚΑΤΗΓΟΡΙΑΙ. ὉΜΩΝΥΜΑ λέγεται ὧν ὄνομα μόνον κοι...,tlg0086,tlg0086.tlg006,4 B.C.,-3.5,{'-3.5': 1},-3.5,pagan,10317,"[κατηγοριαι, ὁμωνυμα, λέγω, ὄνομα, μόνος, κοιν...","[[κατηγοριαι], [ὁμωνυμα, λέγω, ὄνομα, μόνος, κ...",4372,659
683,tlg0086.tlg008.1st1K-grc1.xml,Aristotle,De divinatione per somnum; Aristotelis Opera,ΠΕΡΙ ΕΝΥΠΝΙΩΝ ΚΑΙ ΤΗΣ ΚΑΘ’ ΥΠΝΟΝ ΜΑΝΤΙΚΗΣ. Περ...,tlg0086,tlg0086.tlg008,4 B.C.,-3.5,{'-3.5': 1},-3.5,pagan,1207,"[περι, ενυπνιων, και, της, καθ, υπνον, μαντικη...","[[περι, ενυπνιων, και, της, καθ, υπνον, μαντικ...",533,69


In [None]:
conf = sddk.configure()
sddk.write_file("public_data/PIA/c_aristotelicum.json", c_aristotelicum, conf)
sddk.write_file("public_data/PIA/c_hippocraticum.json", c_hippocraticum, conf)

sciencedata.dk username (format '123456@au.dk'):  648597@au.dk
sciencedata.dk password:  ········


endpoint variable has been configured to: https://sciencedata.dk/files/
A file with the same name ("c_aristotelicum.json") already exists in this location.


Press Enter to overwrite it or choose different path and filename:  


Your <class 'pandas.core.frame.DataFrame'> object has been succefully written as "https://sciencedata.dk/files/public_data/PIA/c_aristotelicum.json"
A file with the same name ("c_hippocraticum.json") already exists in this location.


Press Enter to overwrite it or choose different path and filename:  


Your <class 'pandas.core.frame.DataFrame'> object has been succefully written as "https://sciencedata.dk/files/public_data/PIA/c_hippocraticum.json"
