# Basic Natural Language Processing with cltk

## Tokenization (Latin)

let's take a Latin text (in this case, a swath from the preface of Cato's *De Agricultura*) and assign `=` it to a variable `cato_agri_praef`

In [1]:
cato_agri_praef = "Est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum. Maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli. Quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare. Et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur. Mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum. At ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt. Nunc, ut ad rem redeam, quod promisi institutum principium hoc erit."

In [2]:
print(cato_agri_praef)

Est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum. Maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli. Quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare. Et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur. Mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum. At ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt. Nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.


next, let's make the text all lowercase so that it is a bit more readable when we want to do word frequency lists

In [3]:
cato_agri_praef_lowered = cato_agri_praef.lower()

In [4]:
print(cato_agri_praef_lowered)

est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum. maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli. quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare. et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur. mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum. at ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt. nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.


### Tokenize sentences

if you want to tokenize the sentences of the passage, import (`import`) the sentence tokenizer (`TokenizeSentence`)

In [5]:
from cltk.tokenize.sentence import TokenizeSentence

Choose a variable `tokenizer` and assign `=` it to the function of Latin sentence tokenization `TokenizeSentence('latin')`

In [6]:
tokenizer = TokenizeSentence('latin')

Choose a variable `cato_sentence_tokens` and assign `=` it to the process of tokenizing the Latin sentences of the text you have chosen `tokenizer.tokenize_sentences(cato_agri_praef_lowered)`

In [7]:
cato_sentence_tokens = tokenizer.tokenize_sentences(cato_agri_praef_lowered)

print that variable `cato_sentence_tokens` in order to reveal the passage broken up into its various sentences

In [8]:
print(cato_sentence_tokens)

['est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum.', 'maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli.', 'quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare.', 'et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur.', 'mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum.', 'at ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt.', 'nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.']


you may also view the sentences as a list `list()`

In [9]:
list(cato_sentence_tokens)

['est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum.',
 'maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli.',
 'quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare.',
 'et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur.',
 'mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum.',
 'at ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt.',
 'nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.']

you can view it as clean sentences

In [10]:
for sentence in cato_sentence_tokens:
    print(sentence)
    print()

est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum.

maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli.

quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare.

et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur.

mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum.

at ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt.

nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.



You can count `len()` the tokenized sentences

In [11]:
print(len(cato_sentence_tokens))

7


you can even view them in numbered sentences with spacing 

In [12]:
for index, item in enumerate(cato_sentence_tokens):
    print(str(index + 1) + ':   ' + item)

1:   est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum.
2:   maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli.
3:   quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare.
4:   et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur.
5:   mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum.
6:   at ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt.
7:   nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.


### tokenize words

import word tokenizer `WordTokenizer`

In [13]:
from cltk.tokenize.word import WordTokenizer

assign a variable `tok` to the function of word tokening in Latin `WordTokenizer(language='latin')`

In [14]:
tok = WordTokenizer(language='latin')

assign `=` a variable `cato_word_tokens` to the function of tokenizing the text `tok.tokenize(cato_agri_praef_lowered)`

In [15]:
cato_word_tokens = tok.tokenize(cato_agri_praef_lowered)

In [16]:
print(cato_word_tokens)

['est', 'interdum', 'praestare', 'mercaturis', 'rem', 'quaerere', ',', 'nisi', 'tam', 'periculosum', 'sit', ',', 'et', 'item', 'foenerari', ',', 'si', 'tam', 'honestum', '.', 'maiores', 'nostri', 'sic', 'habuerunt', 'et', 'ita', 'in', 'legibus', 'posiverunt', ':', 'furem', 'dupli', 'condemnari', ',', 'foeneratorem', 'quadrupli', '.', 'quanto', 'peiorem', 'civem', 'existimarint', 'foeneratorem', 'quam', 'furem', ',', 'hinc', 'licet', 'existimare', '.', 'et', 'virum', 'bonum', 'quom', 'laudabant', ',', 'ita', 'laudabant', ':', 'bonum', 'agricolam', 'bonum', '-que', 'colonum', ';', 'amplissime', 'laudari', 'existimabatur', 'qui', 'ita', 'laudabatur', '.', 'mercatorem', 'autem', 'strenuum', 'studiosum', '-que', 'rei', 'quaerendae', 'existimo', ',', 'verum', ',', 'ut', 'supra', 'dixi', ',', 'periculosum', 'et', 'calamitosum', '.', 'at', 'ex', 'agricolis', 'et', 'viri', 'fortissimi', 'et', 'milites', 'strenuissimi', 'gignuntur', ',', 'maxime', '-que', 'pius', 'quaestus', 'stabilissimus', '-q

to get rid of punctuation...

In [17]:
cato_word_tokens_no_punt = [token for token in cato_word_tokens if token not in ['.', ',', ':', ';']]

In [18]:
print(cato_word_tokens_no_punt)

['est', 'interdum', 'praestare', 'mercaturis', 'rem', 'quaerere', 'nisi', 'tam', 'periculosum', 'sit', 'et', 'item', 'foenerari', 'si', 'tam', 'honestum', 'maiores', 'nostri', 'sic', 'habuerunt', 'et', 'ita', 'in', 'legibus', 'posiverunt', 'furem', 'dupli', 'condemnari', 'foeneratorem', 'quadrupli', 'quanto', 'peiorem', 'civem', 'existimarint', 'foeneratorem', 'quam', 'furem', 'hinc', 'licet', 'existimare', 'et', 'virum', 'bonum', 'quom', 'laudabant', 'ita', 'laudabant', 'bonum', 'agricolam', 'bonum', '-que', 'colonum', 'amplissime', 'laudari', 'existimabatur', 'qui', 'ita', 'laudabatur', 'mercatorem', 'autem', 'strenuum', 'studiosum', '-que', 'rei', 'quaerendae', 'existimo', 'verum', 'ut', 'supra', 'dixi', 'periculosum', 'et', 'calamitosum', 'at', 'ex', 'agricolis', 'et', 'viri', 'fortissimi', 'et', 'milites', 'strenuissimi', 'gignuntur', 'maxime', '-que', 'pius', 'quaestus', 'stabilissimus', '-que', 'consequitur', 'minime', '-que', 'invidiosus', 'minime', '-que', 'male', 'cogitantes'

In [19]:
len(cato_word_tokens_no_punt)

115

### Individual word count

let's say you want to create a word frequency list

first, import the counter function

In [20]:
from collections import Counter

In [21]:
cato_word_counts_counter = Counter(cato_word_tokens_no_punt)
print(cato_word_counts_counter)

Counter({'et': 6, '-que': 6, 'ita': 3, 'bonum': 3, 'rem': 2, 'tam': 2, 'periculosum': 2, 'in': 2, 'furem': 2, 'foeneratorem': 2, 'laudabant': 2, 'qui': 2, 'ut': 2, 'minime': 2, 'sunt': 2, 'est': 1, 'interdum': 1, 'praestare': 1, 'mercaturis': 1, 'quaerere': 1, 'nisi': 1, 'sit': 1, 'item': 1, 'foenerari': 1, 'si': 1, 'honestum': 1, 'maiores': 1, 'nostri': 1, 'sic': 1, 'habuerunt': 1, 'legibus': 1, 'posiverunt': 1, 'dupli': 1, 'condemnari': 1, 'quadrupli': 1, 'quanto': 1, 'peiorem': 1, 'civem': 1, 'existimarint': 1, 'quam': 1, 'hinc': 1, 'licet': 1, 'existimare': 1, 'virum': 1, 'quom': 1, 'agricolam': 1, 'colonum': 1, 'amplissime': 1, 'laudari': 1, 'existimabatur': 1, 'laudabatur': 1, 'mercatorem': 1, 'autem': 1, 'strenuum': 1, 'studiosum': 1, 'rei': 1, 'quaerendae': 1, 'existimo': 1, 'verum': 1, 'supra': 1, 'dixi': 1, 'calamitosum': 1, 'at': 1, 'ex': 1, 'agricolis': 1, 'viri': 1, 'fortissimi': 1, 'milites': 1, 'strenuissimi': 1, 'gignuntur': 1, 'maxime': 1, 'pius': 1, 'quaestus': 1, 'st

## Tokenization (Greek)

let's take a Greek text (in this case, a swath from the preface of Athenaeus) and assign `=` it to a variable `athenaeus_incipit`

In [22]:
athenaeus_incipit = "Ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ· ποιεῖται δὲ τὸν λόγον πρὸς Τιμοκράτην· Δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα. Ὑπόκειται δὲ τῷ λόγῳ Λαρήνσιος Ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος· ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν. Ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον. Καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς. Τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος Ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ Ἀθήνησι ῥήτορες, ὑπὸ τῆς ἐν τῷ λέγειν θερμότητος πρὸς τὰ ἑπόμενα τῆς βίβλου βαθμηδὸν ὑπεράλλεται."

In [23]:
print(athenaeus_incipit)

Ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ· ποιεῖται δὲ τὸν λόγον πρὸς Τιμοκράτην· Δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα. Ὑπόκειται δὲ τῷ λόγῳ Λαρήνσιος Ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος· ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν. Ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον. Καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς. Τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος Ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ Ἀθήνησι ῥήτορες, ὑπὸ τῆς ἐν τῷ λέγειν θερμότητ

next, let's make the text all lowercase so that it is a bit more readable when we want to do word frequency lists

In [24]:
athenaeus_incipit_lowered = athenaeus_incipit.lower()

In [25]:
print(athenaeus_incipit_lowered)

ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ· ποιεῖται δὲ τὸν λόγον πρὸς τιμοκράτην· δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα. ὑπόκειται δὲ τῷ λόγῳ λαρήνσιος ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος· ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν. ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον. καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς. τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ ἀθήνησι ῥήτορες, ὑπὸ τῆς ἐν τῷ λέγειν θερμότητ

### Tokenize sentences

if you want to tokenize the sentences of the passage, import `import` the sentence tokenizer `TokenizeSentence`

In [26]:
from cltk.tokenize.sentence import TokenizeSentence

Choose a variable `tokenizer` and assign `=` it to the function of Greek sentence tokenization `TokenizeSentence('Greek')`

In [27]:
tokenizer = TokenizeSentence('greek')

Choose a variable `athenaeus_sentence_tokens` and assign `=` it to the process of tokenizing the Greek sentences of the text you have chosen `tokenizer.tokenize_sentences(athenaeus_incipit_lowered)`

In [28]:
athenaeus_sentence_tokens = tokenizer.tokenize_sentences(athenaeus_incipit_lowered)

print that variable `athenaeus_sentence_tokens` in order to reveal the passage broken up into its various sentences

In [29]:
print(athenaeus_sentence_tokens)

['ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ·', 'ποιεῖται δὲ τὸν λόγον πρὸς τιμοκράτην·', 'δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα.', 'ὑπόκειται δὲ τῷ λόγῳ λαρήνσιος ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος·', 'ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν.', 'ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον.', 'καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς.', 'τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ ἀθήνησι ῥήτορες, ὑπὸ τῆ

you may also view the sentences as a list `list()`

In [30]:
list(athenaeus_sentence_tokens)

['ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ·',
 'ποιεῖται δὲ τὸν λόγον πρὸς τιμοκράτην·',
 'δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα.',
 'ὑπόκειται δὲ τῷ λόγῳ λαρήνσιος ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος·',
 'ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν.',
 'ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον.',
 'καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς.',
 'τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ ἀθήνησι ῥήτορες,

you can view it as clean sentences

In [31]:
for sentence in athenaeus_sentence_tokens:
    print(sentence)
    print()

ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ·

ποιεῖται δὲ τὸν λόγον πρὸς τιμοκράτην·

δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα.

ὑπόκειται δὲ τῷ λόγῳ λαρήνσιος ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος·

ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν.

ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον.

καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς.

τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ ἀθήνησι ῥήτορες, ὑπὸ τῆς ἐν τῷ λέγειν θ

to make thing clearer, let's put an astrisk before each line

In [32]:
for sentence in athenaeus_sentence_tokens:
    print("*", sentence)

* ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ·
* ποιεῖται δὲ τὸν λόγον πρὸς τιμοκράτην·
* δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα.
* ὑπόκειται δὲ τῷ λόγῳ λαρήνσιος ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος·
* ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν.
* ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον.
* καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς.
* τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ ἀθήνησι ῥήτορες, ὑπὸ τῆς ἐν τῷ

You can count `len()` the tokenized sentences

In [33]:
print(len(athenaeus_sentence_tokens))

8


you can even view them in numbered sentences with spacing 

In [34]:
for index, item in enumerate(athenaeus_sentence_tokens):
    print(str(index + 1) + ':   ' + item)

1:   ἀθήναιος μὲν ὁ τῆς βίβλου πατήρ·
2:   ποιεῖται δὲ τὸν λόγον πρὸς τιμοκράτην·
3:   δειπνοσοφιστὴς δὲ ταύτῃ τὸ ὄνομα.
4:   ὑπόκειται δὲ τῷ λόγῳ λαρήνσιος ῥωμαῖος, ἀνὴρ τῇ τύχῃ περιφανής, τοὺς κατὰ πᾶσαν παιδείαν ἐμπειροτάτους ἐν αὑτοῦ δαιτυμόνας ποιούμενος·
5:   ἐν οἷς οὐκ ἔσθ᾽ οὗτινος τῶν καλλίστων οὐκ ἐμνημόνευσεν.
6:   ἰχθῦς τε γὰρ τῇ βίβλῳ ἐνέθετο καὶ τὰς τούτων χρείας καὶ τὰς τῶν ὀνομάτων ἀναπτύξεις καὶ λαχάνων γένη παντοῖα καὶ ζῴων παντοδαπῶν καὶ ἄνδρας ἱστορίας συγγεγραφότας καὶ ποιητὰς καὶ φιλοσόφους καὶ ὄργανα μουσικὰ καὶ σκωμμάτων εἴδη μυρία καὶ ἐκπωμάτων διαφορὰς καὶ πλούτους βασιλέων διηγήσατο καὶ νηῶν μεγέθη καὶ ὅσα ἄλλα οὐδ᾽ ἂν εὐχερῶς ἀπομνημονεύσαιμι, ἢ ἐπιλίποι μ᾽ ἂν ἡ ἡμέρα κατ᾽ εἶδος διεξερχόμενον.
7:   καί ἐστιν ἡ τοῦ λόγου οἰκονομία μίμημα τῆς τοῦ δείπνου πολυτελείας καὶ ἡ τῆς βίβλου διασκευὴ τῆς ἐν τῷ δείπνῳ παρασκευῆς.
8:   τοιοῦτον ὁ θαυμαστὸς οὗτος τοῦ λόγου οἰκονόμος ἀθήναιος ἥδιστον λογόδειπνον εἰσηγεῖται κρείττων τε αὐτὸς ἑαυτοῦ γινόμενος, ὥσπερ οἱ ἀθήνησ

### tokenize words

import word tokenizer `WordTokenizer`

In [35]:
from cltk.tokenize.word import WordTokenizer

assign `=` a variable `tok` to the function of word tokening in Greek `WordTokenizer(language='latin')`

In [36]:
tok = WordTokenizer(language='greek')

assign `=` a variable `athenaeus_word_tokens` to the function of tokenizing the text `tok.tokenize(athenaeus_incipit_lowered)`

In [37]:
athenaeus_word_tokens = tok.tokenize(athenaeus_incipit_lowered)

In [38]:
print(athenaeus_word_tokens)

['ἀθήναιος', 'μὲν', 'ὁ', 'τῆς', 'βίβλου', 'πατήρ·', 'ποιεῖται', 'δὲ', 'τὸν', 'λόγον', 'πρὸς', 'τιμοκράτην·', 'δειπνοσοφιστὴς', 'δὲ', 'ταύτῃ', 'τὸ', 'ὄνομα', '.', 'ὑπόκειται', 'δὲ', 'τῷ', 'λόγῳ', 'λαρήνσιος', 'ῥωμαῖος', ',', 'ἀνὴρ', 'τῇ', 'τύχῃ', 'περιφανής', ',', 'τοὺς', 'κατὰ', 'πᾶσαν', 'παιδείαν', 'ἐμπειροτάτους', 'ἐν', 'αὑτοῦ', 'δαιτυμόνας', 'ποιούμενος·', 'ἐν', 'οἷς', 'οὐκ', 'ἔσθ᾽', 'οὗτινος', 'τῶν', 'καλλίστων', 'οὐκ', 'ἐμνημόνευσεν', '.', 'ἰχθῦς', 'τε', 'γὰρ', 'τῇ', 'βίβλῳ', 'ἐνέθετο', 'καὶ', 'τὰς', 'τούτων', 'χρείας', 'καὶ', 'τὰς', 'τῶν', 'ὀνομάτων', 'ἀναπτύξεις', 'καὶ', 'λαχάνων', 'γένη', 'παντοῖα', 'καὶ', 'ζῴων', 'παντοδαπῶν', 'καὶ', 'ἄνδρας', 'ἱστορίας', 'συγγεγραφότας', 'καὶ', 'ποιητὰς', 'καὶ', 'φιλοσόφους', 'καὶ', 'ὄργανα', 'μουσικὰ', 'καὶ', 'σκωμμάτων', 'εἴδη', 'μυρία', 'καὶ', 'ἐκπωμάτων', 'διαφορὰς', 'καὶ', 'πλούτους', 'βασιλέων', 'διηγήσατο', 'καὶ', 'νηῶν', 'μεγέθη', 'καὶ', 'ὅσα', 'ἄλλα', 'οὐδ᾽', 'ἂν', 'εὐχερῶς', 'ἀπομνημονεύσαιμι', ',', 'ἢ', 'ἐπιλίποι', 'μ᾽', 'ἂν', 'ἡ',

to get rid of punctuation

In [39]:
athenaeus_word_tokens_no_punt = [token for token in athenaeus_word_tokens if token not in ['.', ',', ':', ';']]

In [40]:
print(athenaeus_word_tokens_no_punt)

['ἀθήναιος', 'μὲν', 'ὁ', 'τῆς', 'βίβλου', 'πατήρ·', 'ποιεῖται', 'δὲ', 'τὸν', 'λόγον', 'πρὸς', 'τιμοκράτην·', 'δειπνοσοφιστὴς', 'δὲ', 'ταύτῃ', 'τὸ', 'ὄνομα', 'ὑπόκειται', 'δὲ', 'τῷ', 'λόγῳ', 'λαρήνσιος', 'ῥωμαῖος', 'ἀνὴρ', 'τῇ', 'τύχῃ', 'περιφανής', 'τοὺς', 'κατὰ', 'πᾶσαν', 'παιδείαν', 'ἐμπειροτάτους', 'ἐν', 'αὑτοῦ', 'δαιτυμόνας', 'ποιούμενος·', 'ἐν', 'οἷς', 'οὐκ', 'ἔσθ᾽', 'οὗτινος', 'τῶν', 'καλλίστων', 'οὐκ', 'ἐμνημόνευσεν', 'ἰχθῦς', 'τε', 'γὰρ', 'τῇ', 'βίβλῳ', 'ἐνέθετο', 'καὶ', 'τὰς', 'τούτων', 'χρείας', 'καὶ', 'τὰς', 'τῶν', 'ὀνομάτων', 'ἀναπτύξεις', 'καὶ', 'λαχάνων', 'γένη', 'παντοῖα', 'καὶ', 'ζῴων', 'παντοδαπῶν', 'καὶ', 'ἄνδρας', 'ἱστορίας', 'συγγεγραφότας', 'καὶ', 'ποιητὰς', 'καὶ', 'φιλοσόφους', 'καὶ', 'ὄργανα', 'μουσικὰ', 'καὶ', 'σκωμμάτων', 'εἴδη', 'μυρία', 'καὶ', 'ἐκπωμάτων', 'διαφορὰς', 'καὶ', 'πλούτους', 'βασιλέων', 'διηγήσατο', 'καὶ', 'νηῶν', 'μεγέθη', 'καὶ', 'ὅσα', 'ἄλλα', 'οὐδ᾽', 'ἂν', 'εὐχερῶς', 'ἀπομνημονεύσαιμι', 'ἢ', 'ἐπιλίποι', 'μ᾽', 'ἂν', 'ἡ', 'ἡμέρα', 'κατ᾽', 'εἶδος'

count words 

In [41]:
len(athenaeus_word_tokens_no_punt)

162