Natural language processing (NLP) involves the observation and manipulation of text strings, including but not limited to: transforming orthographies, tagging things within a text (such as parts-of-speech, syntax, proper nouns), counting things (e.g., word frequencies), and segmenting (dividing a text by sentences or by words). We'll cover a few of these here.

# Segmenting text by sentence

Latin orthography uses a few characters for sentence-final punctuation ('.', '?', '!'), however problems arise because "." may also be used in non-senentence-final situations (most frequently praenomina -- 'M. Tullius Cicero', 'Cn. Pompey Magnus').

For Greek texts, similar challenges arise with periods (usually in the form of ellipses '...') being used as an editorial convention for missing characters or words.

In [7]:
# Let's start by binding a text string to a variable

# intro to Cato's de agricultura
cato_agri_praef = "Est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum. Maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli. Quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare. Et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur. Mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum. At ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt. Nunc, ut ad rem redeam, quod promisi institutum principium hoc erit."

In [2]:
print(cato_agri_praef)

Est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum. Maiores nostri sic habuerunt et ita in legibus posiverunt: furem dupli condemnari, foeneratorem quadrupli. Quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare. Et virum bonum quom laudabant, ita laudabant: bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur. Mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum. At ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt. Nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.


In [3]:
# http://docs.cltk.org/en/latest/latin.html#sentence-tokenization

from cltk.tokenize.sentence import TokenizeSentence

In [4]:
tokenizer = TokenizeSentence('latin')

In [5]:
cato_sentence_tokens = tokenizer.tokenize_sentences(cato_agri_praef)

In [6]:
print(cato_sentence_tokens)

['Est interdum praestare mercaturis rem quaerere, nisi tam periculosum sit, et item foenerari, si tam honestum.', 'Maiores nostri sic habuerunt et ita in legibus posiverunt:', 'furem dupli condemnari, foeneratorem quadrupli.', 'Quanto peiorem civem existimarint foeneratorem quam furem, hinc licet existimare.', 'Et virum bonum quom laudabant, ita laudabant:', 'bonum agricolam bonumque colonum; amplissime laudari existimabatur qui ita laudabatur.', 'Mercatorem autem strenuum studiosumque rei quaerendae existimo, verum, ut supra dixi, periculosum et calamitosum.', 'At ex agricolis et viri fortissimi et milites strenuissimi gignuntur, maximeque pius quaestus stabilissimusque consequitur minimeque invidiosus, minimeque male cogitantes sunt qui in eo studio occupati sunt.', 'Nunc, ut ad rem redeam, quod promisi institutum principium hoc erit.']


In [8]:
# This has correctly identified 9 sentences
len(cato_sentence_tokens)

9