In [None]:
import re
import time

from grc_utils import has_ambiguous_dichrona_in_open_syllables
from macronize import macronize, macronize_text


test_words = ['λύω', 'ὕδασιν', 'ἱστάμεθα', 'ὕδωρ']

start_time = time.time()
batch_results = macronize(test_words, ifeellucky=True)
end_time = time.time()
print(f"Batch processing time: {end_time - start_time} seconds")

for w in test_words:
    print(f"{w} -> {batch_results[w]}")

sentence = 'Δαρείου καὶ ἱστάμεθα Παρυσάτιδος γίγνονται παῖδες δύο, πρεσβύτερος μὲν Ἀρταξέρξης, νεώτερος δὲ Κῦρος· ἐπεὶ δὲ ἠσθένει Δαρεῖος καὶ ὑπώπτευε τελευτὴν τοῦ βίου, ἐβούλετο τὼ παῖδε ἀμφοτέρω παρεῖναι. ὁ μὲν οὖν πρεσβύτερος παρὼν ἐτύγχανε· Κῦρον δὲ μεταπέμπεται ἀπὸ τῆς ἀρχῆς ἧς αὐτὸν σατράπην ἐποίησε, καὶ στρατηγὸν δὲ αὐτὸν ἀπέδειξε πάντων ὅσοι ἐς Καστωλοῦ πεδίον ἁθροίζονται. ἀναβαίνει οὖν ὁ Κῦρος λαβὼν Τισσαφέρνην ὡς φίλον, καὶ τῶν Ἑλλήνων ἔχων ὁπλίτας ἀνέβη τριακοσίους, ἄρχοντα δὲ αὐτῶν Ξενίαν Παρράσιον.'

print(f'\n{sentence}')
print(f'Macronized text:\n{macronize_text(sentence)}')

def words(text):
    if not re.search(r'\s', text):
        return text
    else:
        # There's whitespace: split into tokens
        # Tokens: 
        # - \w+ matches words
        # - [^\w\s]+ matches punctuation
        # - \s+ matches whitespace
        tokens = re.findall(r'\w+|[^\w\s]+|\s+', text)

    # Extract just the words to macronize
    return [t for t in tokens if re.match(r'^\w+$', t)]

Batch processing time: 1.9832110404968262 seconds
λύω -> λῡ́ω
ὕδασιν -> ῠ̔́δᾰσῐν
ἱστάμεθα -> ῐ̔στᾰ́μεθᾰ
ὕδωρ -> ὕδωρ

Δαρείου καὶ ἱστάμεθα Παρυσάτιδος γίγνονται παῖδες δύο, πρεσβύτερος μὲν Ἀρταξέρξης, νεώτερος δὲ Κῦρος· ἐπεὶ δὲ ἠσθένει Δαρεῖος καὶ ὑπώπτευε τελευτὴν τοῦ βίου, ἐβούλετο τὼ παῖδε ἀμφοτέρω παρεῖναι. ὁ μὲν οὖν πρεσβύτερος παρὼν ἐτύγχανε· Κῦρον δὲ μεταπέμπεται ἀπὸ τῆς ἀρχῆς ἧς αὐτὸν σατράπην ἐποίησε, καὶ στρατηγὸν δὲ αὐτὸν ἀπέδειξε πάντων ὅσοι ἐς Καστωλοῦ πεδίον ἁθροίζονται. ἀναβαίνει οὖν ὁ Κῦρος λαβὼν Τισσαφέρνην ὡς φίλον, καὶ τῶν Ἑλλήνων ἔχων ὁπλίτας ἀνέβη τριακοσίους, ἄρχοντα δὲ αὐτῶν Ξενίαν Παρράσιον.
Elapsed time: 1.89 seconds
Macronized text:
Δαρείου καὶ ῐ̔στᾰ́μεθᾰ Παρυσάτιδος γίγνονται παῖδες δῠ́ο, πρεσβῠ́τερος μὲν Ἀρταξέρξης, νεώτερος δὲ Κῦρος· ἐπεὶ δὲ ἠσθένει Δαρεῖος καὶ ῠ̔πώπτευε τελευτὴν τοῦ βῐ́ου, ἐβούλετο τὼ παῖδε ᾰ̓μφοτέρω πᾰρεῖναι. ὁ μὲν οὖν πρεσβῠ́τερος παρὼν ἐτύγχᾰνε· Κῦρον δὲ μετᾰπέμπεται ἀπὸ τῆς ἀρχῆς ἧς αὐτὸν σατράπην ἐποίησε, καὶ στρατηγὸν δὲ αὐτὸν ἀπέδει