In [1]:
# Imports

import os

from collections import defaultdict, Counter
from random import sample

import urllib.request
import urllib.parse

import lxml.html
from lxml import etree

from pyuca import Collator

from tqdm import tqdm

from pprint import pprint

In [2]:
# Set up tools

c = Collator()

In [3]:
# URIs for Perseus texts of Homer

works = ['tlg0012.tlg001', 'tlg0012.tlg002']

In [4]:
# # Get texts

# # Commented out—only need to do once

# for work in tqdm(works):
#     uri = f'https://raw.githubusercontent.com/PerseusDL/treebank_data/master/v2.1/Greek/texts/{work}.perseus-grc1.tb.xml'
#     connection = urllib.request.urlopen(uri)
#     tree = etree.parse(connection)
#     root = tree.getroot()
#     xml_string = etree.tostring(root, pretty_print=True).decode()
#     with open(f'texts/{work}.xml', 'w') as f:
#          f.write(xml_string)

In [5]:
# Function for getting word data from AGLDT

def get_words(file):
    tree = etree.parse(file)
    root = tree.getroot()
    words = root.xpath('.//word')
    return words

In [6]:
# Read texts

texts = [file for file in os.listdir('texts') if file.startswith('tlg0012')]

In [7]:
# Get word element list

words = []
for text in texts:
    words.extend(get_words(os.path.join('texts', text)))
    
print(f'There are {len(words)} \'words\' in the AGLDT version of Homer\'s *Iliad* and *Odyssey*.')

There are 236093 'words' in the AGLDT version of Homer's *Iliad* and *Odyssey*.


In [8]:
# Get forms and lemmas from word elements

forms = [word.attrib['form'] for word in words]

def get_lemma(word):
    attrib = word.attrib
    if 'lemma' in attrib.keys():
        return word.attrib['lemma']
    else:
        return None
    
lemmas = [get_lemma(word) for word in words]

unique_forms = sorted(set(forms))
unique_lemmas = sorted(set([lemma for lemma in lemmas if lemma]))

print(f'There are {len(unique_forms)} unique forms in the AGLDT Homer.')
print(f'There are {len(unique_lemmas)} unique lemmas in the AGLDT Homer.')

There are 30815 unique forms in the AGLDT Homer.
There are 8832 unique lemmas in the AGLDT Homer.


In [9]:
# Get hapaxes

hapaxes = [lemma for lemma, count in list(Counter(lemmas).most_common()) if count == 1]

print(f'There are {len(hapaxes)} unique lemmas in the AGLDT Homer.')
print(f'A sample of AGLDT hapaxes includes:\n {sample(hapaxes, 10)}')

There are 2997 unique lemmas in the AGLDT Homer.
A sample of AGLDT hapaxes includes:
 ['κρεῖον', 'Θέστωρ', 'ἀναδέσμη', 'ὄνησις', 'αἱμοφόρυκτος', 'Ἀστυόχεια', 'Ἰθώμη', 'Αἰγείδην', 'ἐξορμάω', 'δεδοκημένος']


In [10]:
for hapax in sorted(hapaxes, key=c.sort_key):
    print(hapax)

???
̓"̓
῞ἥρα
ʽἁλοσύδνη
ʽἑκτορίδης
ʽἑρμῆς
ʽὡς
ἀαγής
ἀβακέω
Ἀβαρβαρέη
Ἄβληρος
ἀβλής
ἄβλητος
ἄβρομος
ἀβροτάζω
ἄβροτος
Ἀβυδόθεν
Ἀβυδόθι
Ἄβυδος
Ἀγάθων
ἀγαίομαι
Ἀγαμεμνονίδης
Ἀγαμήδη
ἄγαμος
ἀγανόφρων
Ἀγαπήνωρ
Ἀγασθένης
ἀγάστονος
Ἀγαυή
ἀγγελίης
ἀγεληδόν
ἀγέραστος
ἀγκάζομαι
ἀγκυλχείλης
Ἀγλαία
ἀγλαίζω
ἀγνώς
ἄγονος
ἀγορητύς
Ἄγριος
ἀγριόφωνος
ἀγριοώτης
ἀγρονόμος
ἀγρότης
ἀγρώσσω
ἄγρωστις
ἀγυρτάζω
ἀγχιβαθής
ἀγχίνοος
̓ἀγχίσης
ἄγχω
ἀδαημονία
ἀδάμαστος
ἀδήριτος
Ἀδράστεια
ἄδραστος
Ἄδραστος
Ἀδρήστη
Ἀδρηστίνη
ἀεκήλιος
ἀελλής
ἀελπής
ἀελπτέω
ἀέναος
ἀεργία
ἀεσιφροσύνη
ἄζα
Ἀζείδης
ἄζω
ἀηδών
ἀηθέσσω
ἀήσυλος
ἄητος
ἀθεεί
Ἀθλαία
ἀθλητής
ἄθυμος
ἀθύρω
Ἄθως
Ἀί
Ἄι
Αἰακός
Αἰγαίων
Αἰγείδην
αἴγεος
Αἰγιάλεια
Αἰγίλιψ
Αἴγινα
Αἴγιον
αἴγυπτος
Ἄιδης
Ἅιδης
αἰδοῖον
Ἄιδος
Ἀϊδόσδε
Ἀιδωνεύς
αἴητος
αἴθε
αἴθην
Αἴθικες
Αἴθρη
αἶθρος
ἀική
ἀικῶς
αἱμοφόρυκτος
αἱμύλος
αἵμων
Αἵμων
αἰναρέτης
Αἴνιος
αἰνόθεν
αἰνοπαθής
αἰόλλω
αἰολοθώρηξ
αἰολομίτρης
αἰολόπωλος
αἰπήεις
Αἰπύ
Αἰπύτιος
ἄιρος
αἴσιος
Αἰσύμηθεν
αἰσυμνητήρ
αἰσυμνήτης
Αἴσυμνος
Αἴσων
αἰ

μυχμός
μυχοίτατος
μυχόνδε
μῶλυ
μωμάομαι
μωμεύω
μῶμος
νάκος
ναρκάω
νάσσω
ναυσικλειτός
Ναυτεύς
ναυτιλία
Νέαιρα
νεαρός
νειόθεν
νειόθι
νεκάς
νεμέθω
νέμος
νεοαρδής
νεογιλός
νεοθηλής
νεοίη
νεοπενθής
νεόπλυτος
νεόπριστος
νεόσμηκτος
νεόστροφος
νεότευκτος
νεοτευχής
νέποδες
νεστορίδης
νήδυια
Νήιον
νηκουστέω
Νηληι
Νηλήιος
νηλιτής
Νημερτής
νηνεμία
νήνεμος
νηπενθής
νηπιαχεύω
Νήρικος
Νήριτον
Νησαίη
νητός
Νῖσα
Νίσυρος
νίφω
νόησις
Νομίων
νομόνδε
νοτία
νουν
Νῦσα
νωθής
νωχελία
ξαίνω
ξενοσύνη
ξερόν
ξυνεείκοσι
ξυρόν
ξυστός
ὀαριστής
οβριμοπάτρη
ὄγκιον
Ὀγχηστός
ὁδεύω
ὁδοιπόριον
ὁδοιπόρος
Ὀδύσσειος
ὄθριξ
οἴαξ
οἰδέω
οἰέτης
οἴη
οἰκωφελία
Ὀϊλιάδης
οἶμος
οἰνοβαρής
Οἰνοπίδης
οἰνοπληθής
οἰνοποτήρ
Οἴνοψ
οἶνωψ
οἰοχίτων
οἶστρος
οἰσύινος
Οἴτυλος
Οἰχαλίηθεν
οἴω
ὀκριάομαι
ὀκτάκνημος
ὀλβιοδαίμων
ὀλετήρ
ὀλιγηπελία
ὀλίγιστος
Ὀλιζών
ὅλμος
ὀλολυγή
ὀλοοίτροχος
Ὀλοοσσών
Ὀλύμπια
Ὀλυμπιάς
Ὄλυμπόνδε
ὁμαλός
ὁμαρτήδην
ὁμηγυρίζομαι
ὁμήγυρις
ὁμηρέω
ὁμόθεν
ὁμοστιχάω
ὁμότιμος
ὁμόφρων
ὁμόω
ὄμφαξ
ὁμώνυμος
ὀνείρειος
ὀνειροπόλος
ὀνειρόπολο

In [11]:
with open('data/homeric_hapaxes.txt', 'w') as f:
    for hapax in sorted(hapaxes, key=c.sort_key):
        f.write(f'{hapax}\n')