# Setup CLTK and import TLG

Follow the [setup instructions from the CLTK tutorial here](https://github.com/cltk/tutorials/blob/master/2%20Import%20corpora.ipynb).

In [2]:
from cltk.corpus.utils.importer import CorpusImporter

In [3]:
my_greek_downloader = CorpusImporter('greek')

In [4]:
my_greek_downloader.import_corpus('tlg', '~/cltk/corpora/TLG_E/')

# Pre-process TLG E corpus

## Covert Beta Code to Unicode

http://docs.cltk.org/en/latest/greek.html#converting-tlg-texts-with-tlgu

In [13]:
from cltk.corpus.greek.tlgu import TLGU

tlgu = TLGU()
tlgu.convert_corpus(corpus='tlg')  # writes to: ~/cltk_data/greek/text/tlg/plaintext/

## Cleanup texts

Overwrite the plaintext files with more aggresive cleanup, but keep periods.

http://docs.cltk.org/en/latest/greek.html#text-cleanup

In [14]:
!head ~/cltk_data/greek/text/tlg/plaintext/TLG0437.TXT


{ΑΠΑΓΧΟΜΕΝΟΣ} 
παράσιτον αὐτόσιτον: αὑτὸν γοῦν τρέφων 
τὰ πλεῖστα συνερανιστὸς εἶ τῷ δεσπότῃ. 
      καὶ σκάφην λαβών τινα 
τῶν ἐσχαριτῶν τῶν καθαρῶν  
{ΑΠΟΛΕΙΠΟΥΣΑ} 
τὸ γὰρ ἐνδελεχῶς μεθύειν τίν' ἡδονὴν ἔχει, 
ἀποστεροῦντα ζῶνθ' ἑαυτὸν τοῦ φρονεῖν, 
ὃ μέγιστον ἡμῶν ἀγαθὸν ἔσχεν ἡ φύσις; 


In [15]:
from cltk.corpus.utils.formatter import tlg_plaintext_cleanup
import os

In [16]:
plaintext_dir = os.path.expanduser('~/cltk_data/greek/text/tlg/plaintext/')
files = os.listdir(plaintext_dir)

for file in files:
    file = os.path.join(plaintext_dir, file)
    with open(file) as file_open:
        file_read = file_open.read()

    clean_text = tlg_plaintext_cleanup(file_read, rm_punctuation=True, rm_periods=False)
    clean_text = clean_text.lower()
    with open(file, 'w') as file_open:
        file_open.write(clean_text)

In [12]:
!head ~/cltk_data/greek/text/tlg/plaintext/TLG0437.TXT 

 παράσιτον αὐτόσιτον αὑτὸν γοῦν τρέφων τὰ πλεῖστα συνερανιστὸς εἶ τῷ δεσπότῃ. καὶ σκάφην λαβών τινα τῶν ἐσχαριτῶν τῶν καθαρῶν τὸ γὰρ ἐνδελεχῶς μεθύειν τίν ἡδονὴν ἔχει ἀποστεροῦντα ζῶνθ ἑαυτὸν τοῦ φρονεῖν ὃ μέγιστον ἡμῶν ἀγαθὸν ἔσχεν ἡ φύσις; πάλιν ἡ τοῦ βίου ὑγρότης με τοῦ σοῦ τέθαιφε τὴν ἀσωτίαν ὑγρότητα γὰρ νῦν προσαγορεύουσίν τινες. Λάχης. ἐγὼ δὲ πρὸς σέ. πρόαγε. ποῖ; ὅποι μ ἐρωτᾷς; ὡς Φιλουμένην παρ ᾗ τἀπιδόσιμ ἡμῖν ἐστιν ἧς ἐχθὲς πιεῖν κυάθους ἕκαστον ἐβιάσω σὺ δώδεκα. εἰσῆλθεν ἡμίκραιρα τακερὰ δέλφακος ταύτης μὰ τὸν Δί οὐχὶ κατέλιπον δ ἐγὼ οὐδέν. καὶ πλεκτάνην στιφρὰν σφόδρ ἐν τούτοις τέ που αἰσχυνόμενον ἧπαρ καπρίσκου σκατοφάγου. ἐγὼ δὲ πρὸς τὰ θερμὰ ταῦθ ὑπερβολῇ τοὺς δακτύλους δήπουθεν Ἰδαίους ἔχω καὶ τὸν λάρυγγ ἥδιστα πυριῶ τεμαχίοις. κάμινος οὐκ ἄνθρωπος. χλωρὸν ἐρέβινθόν τινα ἐκοττάβιζον κενὸν ὅλως. τράγημα δὲ ἔστιν πιθήκου τοῦτο δήπου δυστυχοῦς. τὸν πλακοῦντα κόμμιδι οὐ μέλιτι διεκόσμει. Παράσιτον αὐτόσιτον αὑτὸν γοῦν τρέφων τὰ πλεῖστα συνερανιστὸς εἶ τῷ δεσπότῃ. Καὶ σκάφη