In [1]:
# Imports

import string
import re

import html    

from cltk.corpus.latin import latinlibrary
from cltk.tokenize.sentence import TokenizeSentence

from pprint import pprint

In [2]:
# Setup CLTK tools

sentence_tokenizer = TokenizeSentence('latin')


In [3]:
# Get Cicero

cicero_files = [file for file in latinlibrary.fileids() if 'cicero/' in file]
cicero_raw = latinlibrary.raw(cicero_files)

In [4]:
# Preprocess texts

def preprocess(text):    

    text = html.unescape(text) # Handle html entities
    text = re.sub(r'&nbsp;?', ' ',text) #&nbsp; stripped incorrectly in corpus?
    text = re.sub('\x00',' ',text) #Another space problem?
    
    text = re.sub('(\[|\() ?\d+ ?(\]|\)) ','', text) # Remove chapter markers
    text = re.sub('\t\t Cicero \n\t\t The Latin Library \n\t\t The Classics Page','', text)
    text = re.sub('Cicero:','', text)
    
    text = re.sub(r'\[(M{1,4}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})|M{0,4}(CM|C?D|D?C{1,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,4})|M{0,4}(CM|CD|D?C{0,3})(XC|X?L|L?X{1,3})(IX|IV|V?I{0,3})|M{0,4}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|I?V|V?I{1,3}))]','',text)
    text = re.sub('M\. CICERO','',text)

    translator = str.maketrans({key: " " for key in '0123456789'})
    text = text.translate(translator)
        
    text = re.sub('\s+\n+\s+','\n', text) # Remove double lines and trim spaces around new lines
    text = re.sub('\n+?',' ', text) # Remove new lines
    text = re.sub('[\s]+',' ', text) # Remove double spaces
    
    return text

In [5]:
cicero_pp = preprocess(cicero_raw)

In [6]:
cicero_sents = sentence_tokenizer.tokenize(cicero_pp)

In [7]:
cicero280 = [sent for sent in cicero_sents if len(sent) == 280]

In [8]:
print(len(cicero280))

43


In [9]:
for i, sent in enumerate(cicero280):
    print('%d. %s\n' % (i+1, sent))

1. non faciam ut enumerem miserias omnis in quas incidi per summam iniuriam et scelus non tam inimicorum meorum quam invidorum, ne et meum maerorem exagitem et te in eundem luctum vocem; hoc adfirmo, neminem umquam tanta calamitate esse adfectum, nemini mortem magis optandam fuisse.

2. in altera epistula praeter consuetudinem tuam diem non adscribis sed satis significas tempus; lege enim ab octo tribunis pl. promulgata scribis te eas litteras eo ipso die dedisse, id est a. d. iiii Kal. Novembris, et quid putes utilitatis eam promulgationem attulisse perscribis.

3. si Brutus putabit me quaternas centesimas oportuisse decernere, cum tota provincia singulas observarem itaque edixissem idque etiam acerbissimis faeneratoribus probaretur, si praefecturam negotiatori denegatam queretur, quod ego Torquato nostro in tuo Laenio, Pompeio ipsi in Sex.

4. quas quidem cum exspectassem iam diu, admiratus sum, ut vidi obsignatam epistulam, brevitatem eius, ut aperui, rursus sunchusin litterularum, 

In [10]:
cicero560 = [sent for sent in cicero_sents if len(sent) == 560]

In [11]:
print(len(cicero560))

3


In [12]:
for i, sent in enumerate(cicero560):
    print('%d. %s\n' % (i+1, sent))

1. Vt igitur ante meridiem discesserunt paulumque requierunt, in primis hoc a se Cotta animadversum esse dicebat, omne illud tempus meridianum Crassum in acerrima atque attentissima cogitatione posuisse seseque, qui vultum eius, cum ei dicendum esset, obtutumque oculorum in cogitando probe nosset atque in maximis causis saepe vidisset, tum dedita opera quiescentibus aliis in eam exedram venisse, in qua Crassus posito lectulo recubuisset, cumque eum defixum in cogitatione esse sensisset, statim recessisse atque in eo silentio duas horas fere esse consumptas.

2. alter unguentis adfluens, calamistrata coma, despiciens conscios stuprorum ac veteres vexatores aetatulae suae, puteali et faeneratorum gregibus inflatus, a quibus compulsus olim, ne in Scyllaeo illo aeris alieni tamquam [in] fretu ad columnam adhaeresceret, in tribunatus portum perfugerat, contemnebat equites Romanos, minitabatur senatui, venditabat se operis atque ab iis se ereptum ne de ambitu causam diceret praedicabat, ab i