Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add Ancient Greek langdata #19

Merged
merged 5 commits into from
Feb 21, 2018
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
21 changes: 21 additions & 0 deletions Greek.xheights
Original file line number Diff line number Diff line change
Expand Up @@ -58,6 +58,27 @@ FreeMono_Bold 62
FreeSans_Bold 77
FreeSerif_Bold 68
Georgia_Bold 68
GFS_Artemisia 62
GFS_Artemisia_Bold 63
GFS_Artemisia_Bold_Italic 62
GFS_Artemisia_Italic 61
GFS_Bodoni 70
GFS_Bodoni_Bold 70
GFS_Bodoni_Bold_Italic 70
GFS_Bodoni_Italic 70
GFS_Didot 58
GFS_Didot_Bold 59
GFS_Didot_Bold_Italic 62
GFS_Didot_Italic 61
GFS_DidotClassic 70
GFS_Neohellenic 50
GFS_Neohellenic_Bold 50
GFS_Neohellenic_Bold_Italic 50
GFS_Neohellenic_Italic 50
GFS_Philostratos 70
GFS_Porson 70
GFS_Pyrsos 70
GFS_Solomos 70
Impact_Condensed 87
Lucida_Sans_Semi-Bold 73
Lucida_Sans_Typewriter_Bold 73
Expand Down
27 changes: 27 additions & 0 deletions font_properties
Original file line number Diff line number Diff line change
Expand Up @@ -2346,6 +2346,33 @@ GeoSlb712_Md_BT 0 0 0 0 0
GeoSlb712_Md_BT_Bold 0 1 0 0 0
GeoSlb712_Md_BT_Italic 1 0 0 0 0
GeoSlb712_XBd_BT 0 0 0 0 0
GFSArtemisia 0 0 0 1 0
GFSArtemisiaBold 0 1 0 1 0
GFSArtemisiaBoldItalic 1 1 0 1 0
GFSArtemisiaItalic 1 0 0 1 0
GFSBaskerville 0 0 0 1 0
GFSBodoni 0 0 0 1 0
GFSBodoniBold 0 1 0 1 0
GFSBodoniBoldItalic 1 1 0 1 0
GFSBodoniItalic 1 0 0 1 0
GFSCompletum 0 0 0 0 0
GFSDecker 0 0 0 0 0
GFSDidot 0 0 0 1 0
GFSDidotBold 0 1 0 1 0
GFSDidotBoldItalic 1 1 0 1 0
GFSDidotItalic 1 0 0 1 0
GFSDidotClassic 0 0 0 1 0
GFSElpis 0 0 0 1 0
GFSGazis 0 0 0 1 0
GFSNeohellenic 0 0 0 0 0
GFSNeohellenicBold 0 1 0 0 0
GFSNeohellenicBoldItalic 1 1 0 0 0
GFSNeohellenicItalic 1 0 0 0 0
GFSOlga 0 0 0 1 0
GFSPhilostratos 0 0 0 1 0
GFSPorson 0 0 0 1 0
GFSPyrsos 1 0 0 1 0
GFSSolomos 1 0 0 1 0
Gianotten_LT_Pro 0 0 0 1 0
Gianotten_LT_Pro_Bold 0 1 0 1 0
Gianotten_LT_Pro_Bold_Italic 1 1 0 1 0
Expand Down
28 changes: 28 additions & 0 deletions grc/grc.config
Original file line number Diff line number Diff line change
@@ -0,0 +1,28 @@
# Tesseract Ancient Greek training <http://ancientgreekocr.org>
# Build from the http://ancientgreekocr.org/grctraining.git repository
# commit: f7959cbcb09e989381171198c266939e0d715488
#
# Wordlists derived from https://github.com/PerseusDL/canonical-greekLit
# commit: 5d069b29bd9dd40c8bb1dc1b9e2623236ebb22b9

# New segsearch produces better results
enable_new_segsearch 1

# Increase penalty for incorrect punctuation, important as
# diacritics can easily be misrecognised as punctuation
language_model_penalty_punc 0.35

# Increase minimum linesize. This minimises cases of accents
# being incorrectly recognised as separate lines.
textord_min_linesize 2.25

# Also helps to ensure that accents aren't incorrectly recognised
# as separate lines
textord_occupancy_threshold 0.7

# Helps to ensure rows don't overlap
textord_excess_blobsize 0.6

# Disable rare, variant, archaic and Greek numeral characters
# (can be enabled with tessedit_char_unblacklist)
tessedit_char_blacklist ͰͱͲͳʹ͵ͶͷͻͼͽϏϐϑϒϔϕϖϗϘϙϚϛϜϝϞϟϠϡϰϱϲϳϴϵ϶ϹϺϻϼϽϾϿ
39 changes: 39 additions & 0 deletions grc/grc.numbers
Original file line number Diff line number Diff line change
@@ -0,0 +1,39 @@









)
)
]
η
ης
.
-
,
)
%
η
ης
ο
ος
ου
(
(
( )
(
( )
(
( )
( ),
( .
( )
( .
[ ]
[ ]
#
#
59 changes: 59 additions & 0 deletions grc/grc.punc
Original file line number Diff line number Diff line change
@@ -0,0 +1,59 @@
.
,
..
...
...)
...»
...]
..)
.)
-
)
),
).
)...
»
»,
».
»...
»)
]
·
*
;
;)
,
(
*
* *
(
( .
( .)
( ...
( ,
( )
( ),
( ).
-
- -
- ,
--
[
[ ]
[ .
...
..
,
’,
’.
«
« »
« »,
« ».
« ,
« .
« ...
»
68 changes: 68 additions & 0 deletions grc/grc.training_text
Original file line number Diff line number Diff line change
@@ -0,0 +1,68 @@
δοκοῦντα δάκρυα φηγοὶ σπεύδοντες Πηνειὲ τιμῆς εὐπετῶς ἑνὶ
εὐχερὴς νεὸς θέμις ἐνὶ οἶσθα βοῦς καθῆραι δέους ὁρῶμέν μεγάλας
εἵνεκ᾿ ἤνεγκε ὑψηλὰ εἰρημένων εἰρηνικοὺς ἑορταῖς Καρδιηνῷ
ὡραίους ἱματιοπώλιδος παντὶ ἢοὔτοι αἰαῖ Οὐαλερίῳ καλιῇ ἡγεῖσθαι
ἂλλων ὅρκον ὄψιν εἶδοςκαὶ Αὖλιν ἀμφὶ πόλεις ὑποκειμένου
ἦξε κρέας ὦτ̓ τούσδ᾿ προβάτων ἔδοξαν ἀρχαίων εὔβοτος ἀπόδειξις
ὧρά ὥρμησεν θάλασσαν ὕμνησαν φεύγοντος ἠναγκάσθη βουλευσάμενοι
θηρᾶν ἤφασε ἀδελφὼ ἄνθετο πόλεμοι ἔχῃ δύοὃς ἅρματε Αἰγυπτίοις
καθ᾿ἃ ὗσεν εἴσπλουν οἷαί πάθη ἵππουρος συνήθεια Οἳ ἣκετε
Νάξῳ ᾧπερ βοώντων ὓπουλον ὢν̓ Ῥωμαῖοί ὄνασθαι βλάβην Ἀλκιβιάδῃ
φυτὣν ᾗτινι ἑκατοστῷ κυανέῃσιν ἧ ἓξ Δημοτίωνι ἕσπεό μετρητὸνᾖ
Ἑλλησποντίοις ἁγαθοὶ Χῖοι ὀργιζόμενοι Αἴδουοι ἥδ̓ σκέψει
Λεωτυχίδῃ ἐπῳάζει αὑτῶν̓ Βαλεντινιανὸς ῥέος Γλαυκίᾳ Πρωταγόρας
ΠΑΡΑΓΓΕΛΙΑ Κάτλος Ζέχιν ὂψεσι Ἕλλῃ Στότζας ἠρήσαντο ἆθλον
Ὅπερ προσῴκισαν Φανοστράτῳ ὤεα Ἰακχαῖον ἸΣΟΤΕΛΗΣ Μαρωνείτης
Ἡσίπεια ἰσόῤῬοπον ῥᾷστοι ῥᾴω Ἄνδροκλος Ὁρτήσιος Ὀρσινόμην
ἈΘΕΩΡΗΤΟΣ Ξένοςτὸν Τρόφιμε ᾤμωξαν Ἠγαπᾶτο ἘΚ Ἔχομεν Ὑμηττῷ
ΦΙΛΙΠΠΙΔΗΣ Ἴαμβος Νάσοις Ἥκω ᾔδεισθα πρώτῂ Ἅιδαν Ἱππίταν
Ὄσσης ὑπερώϊα ΘΟΕ ἐπικυΐσκεται ὠνόμασταἰ κικλῄσκω Ὡρατίους
ᾄσειεν Ἆρον ᾠδικώτερον Ἁγίου Ἦρα Ὠλενίοιο ἐΰξοος ᾆσας Ἶσίς
Κισσηῒς ἀγαθᾦ ᾑρούμην Ὦχον Ἤρᾳ δεριϝες αἲ Ὧρος Ὕδραν ᾅσμασι
αὒξεται Θρᾴκᾐ Ἵππος γρηῢν ᾇπερ ἐντελεχείᾀ ἰσοϋψεῖς ΚΡΑΥΑΛΛΙΔΑΙ
ἔῤῬωγε ᾕρημαι ἈΔΕΛΦΙΖΕΙΝ πρῲ ἒτι ἇ Ὥραισι Ψαμάθῃ διορίσαντας
ΜΟΥΝΤΧΙΩΝ πέπονθεν ᾁσαντας δᾲς κλαῗδας Ἂ προσαγορεύοντες
μεταβάλλοντας Ὤλενος Ὢ ΠΕΝΤΗΚΟΣΤΕΥΕΣΘΑΙ Ὃ Ἢ ὑπόληψιν Ἓ ἐμπεσών
Ἃ προκεχειρ͂οτονημένοις λβ́οὐ πραῧναι ῥήσεις ἐπώ̀κισαν ῡ
ᾱ ᾍ Ἲ ᾂ ᾡτινιοῦν Ἧ ἐπιͅκύρωσιν πρηο̈́νηται ῎τεκον ὁλκῆς͵
Ἣ ἘΝΝΕΆΚΡΟΥΝΟΝ Ότι Ήρη ῑσχὺν ᾬμην ᾨ ᾥ ᾞσάν ᾘόνιον ᾒ ᾌδης
Ὣς Ὗ προμολ̆σιν ζ̣α̣θέας τῇσ͵ʹ ΐ ῠ Καπιτώ̄λιον Βθθομιῐ Ύπομνήματα
Ίουστινιανὸς Έλληνι ( ) * , - . 0 1 2 3 4 5 6 7 8 9 < >
[ ] « » ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ⁰ Ͱ ͱ Ͳ ͳ Ͷ ͷ ͻ ͼ ͽ ; · Ϊ Ϋ Ϗ
ϐ ϑ ϒ ϔ ϕ ϖ ϗ Ϙ ϙ Ϛ ϛ Ϝ Ϟ ϟ Ϡ ϡ ϰ ϱ ϲ ϳ ϴ ϵ ϶ Ϲ Ϻ ϻ ϼ Ͻ
Ͼ Ͽ Ἇ Ἒ Ἳ Ἷ Ὂ Ὓ ᾃ ᾈ ᾉ ᾊ ᾋ ᾎ ᾏ ᾓ ᾙ ᾚ ᾛ ᾜ ᾝ ᾟ ᾢ ᾣ ᾩ ᾪ ᾫ ᾭ
ᾮ ᾯ ᾰ Ᾰ Ᾱ Ὰ Ά ᾼ Ὲ Έ Ὴ Ή ῌ Ῐ Ῑ Ὶ Ί ΰ Ῠ Ῡ Ὺ Ύ Ὸ Ό Ὼ Ώ ῼ “
” ‹ › νίκη παῖδα Ἀτθὶς ἔνδειαν ἐκκωφωθὲν ἑκατὸν πληρῶσαι
ἀποθανεῖν βροντὴν ὁπλιτικὸν ὑμέτερον ἐξέπεσεν ἐποίησε νοῦσος
μετῆλθε πάθος ὁλκάδων λεγόμενα πρῶθ᾿ λόγους θηλυκὰ Συρακούσας
λιπαροὺς ἀφικνεῖται λοβῷ ὡραίοισι αἱρουμένου παράδοξον ἢεἴ
Οἰνομάῳ οὐδῷ θνητῇ ἡγεμονικῷ κἂνεἰ ᾿ὅλμος φιλεῖ Εἶθ̓ Οὖρσον
ἀντία ἐπιμελῶς ὑψιμέδων ἦχε εἰσέτι ὦνόητοι καθύπερθε σπανίως
ἔσομαι ἐπίτηδες εὔτονοι ἄξιος ὧνλύων ὥπλισμαι ποιησάμενος
ὕφυδροι ὄφρά μάτην ἐλάττους μηχανᾶταί ἤμυσαν εἰσαγαγὼν ἄλλοτ᾿
ἀποθανόντων πραχθέντων ὃ ἅπαντεσ̓ βουλομένου ἃλις ὗσέ οἴνῳ
εἷλες πλήθους εἵλιξάν ἡττήθησαν ἳνα ἣμισυ Γυλίππῳ ᾧπερ λαβών
ὓ χὢς Ῥόην ὄφλοι ἀποβαλὼν Ἀττικοὺς ὣςοὐδ᾿ ὄντωνᾗ ἑταιρίας
εὕρῃ ἧπται τοῦἓν Δόλοπες ἕκαστονεἶναι τᾖ Ἑλληνίους ἁρπαστὸν
Χαλκηδονίοις ὀνομάζειν ἉΛΑΙΕΥΣ ἥρμοσται ξυνέγραψε Λίβων
ῥιζῶν Λακεδαιμονίουσ̓ ᾿Βαγώου ῥηθεῖσι κυνηγίᾳ Πόλυβος Γέσκωνα
Κλωθὼ ἈΖΗΝΙΕΥΣ ὂν Ἕτερος Σεμίδαλις ἠθέλησα ἆξον Ὅπου Ἰνδῴοισι
Φασηλίταις ὤνιον Ἰουγούρθα ἘΠΙΔΙΕΤΕΣ Μορρεύς Ἡσαΐου αἱμοῤῬοιέων
σκιρτᾷ ἐξᾴττουσα Ἄνυτε Ὁμοίοις Ὀδυσῆι ΕΖΗΘΝ ΔΙΑΛΕΞΙΣ Τιμοκλείας
ᾤκουν Ἠγασάμην Ἐλάιον Ἔχιδναν Ὑστερικ ᾿ΠΟΛΥΚΡΑΤΗΝ Ἴτωνά
Νίκη Ἥρῃ ᾔνεσεν κερχνῂς Ἅιδαν Ἱπποδάμεια Ὄρνους ὀϊστός Οἰδιπόδῃ
ἐλαΐνοις ὠφελήσεἰ λῄσασθαι Ὡλιεὺς ᾄσαι Ἆλις ᾠζυρέ Ἁλιμουσίους
Ἦσαν Ὠρείτης πραΰνουσιν βοᾆ Ἶσι Ἀλαλκομενηῒς ᾦ ᾑρηκέναι
Ὦρόν Ἤπειρὸν λοϝερ οἱονεἲ Ὧδέ Ὕψοις ᾅδουσα ὒν χέσᾐ Ἵν̓ πρηῢν
ᾇ ᾀσθὲν Πολϋΐδῳ ΠΥΡΡΑ Ῥηϊσταὶ ᾕμακτο ΠΛΑΓΓΟΝΙΟΝ ὀρφανιζομένῲ
μἒν πἇσιν Ὥριμος Ψαμμήτιχος φιλίαις ΚΙΒΩΡΙΑ πεπλεγμένη ᾁδομεν
ᾲ κληῗδα Ἂ ἀκούων φιάλην Ὤφθη Ὢ ΜΑΡΣΥΑΣ Ὃν Ἢν ψόγον Ἓξ δηλώσας
Ἃιδου ὁ͂ ̓́Ιδαν ῧ μιμήσεις ἡμ̀ῖν ῡ βᾱ ᾍδας Ἲς ᾂ ᾡτινιοῦν
Ἧ ἂνͅ πρηο̈́νεται ῎᾿δρασαν ͵α Ἣ Άψάρου Όμηρον Ήρη ῑ ᾬμην
ᾨ ᾥου ᾞσάν ᾘδέσθησαν ᾒ ᾌ Ὣς Ὗς Ἠλέκτ̆ου ἀ̣λ̣λ̣ω̣ς̣ ʹ ΐ ῠ
Καπιτώ̄λιον ῐ Ύπομνήματα Ίουστινιανὸς Έλληνες ( ) * , -
. 0 1 2 3 4 5 6 7 8 9 < > [ ] « » ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ⁰ Ͱ
ͱ Ͳ ͳ Ͷ ͷ ͻ ͼ ͽ ; · Ϊ Ϋ Ϗ ϐ ϑ ϒ ϔ ϕ ϖ ϗ Ϙ ϙ Ϛ ϛ Ϝ Ϟ ϟ Ϡ
ϡ ϰ ϱ ϲ ϳ ϴ ϵ ϶ Ϲ Ϻ ϻ ϼ Ͻ Ͼ Ͽ Ἇ Ἒ Ἳ Ἷ Ὂ Ὓ ᾃ ᾈ ᾉ ᾊ ᾋ ᾎ ᾏ
ᾓ ᾙ ᾚ ᾛ ᾜ ᾝ ᾟ ᾢ ᾣ ᾩ ᾪ ᾫ ᾭ ᾮ ᾯ ᾰ Ᾰ Ᾱ Ὰ Ά ᾼ Ὲ Έ Ὴ Ή ῌ Ῐ Ῑ
Ὶ Ί ΰ Ῠ Ῡ Ὺ Ύ Ὸ Ό Ὼ Ώ ῼ “ ” ‹ ›
Loading