In [6]:
# Imports

import os

from collections import defaultdict, Counter

import urllib.request
import urllib.parse

import lxml.html
from lxml import etree

from tqdm import tqdm

from pprint import pprint

In [2]:
# # URIs for Perseus texts of Terence

# uris = [
#     'https://raw.githubusercontent.com/PerseusDL/canonical-latinLit/master/data/phi0134/phi001/phi0134.phi001.perseus-lat2.xml',
#     'https://raw.githubusercontent.com/PerseusDL/canonical-latinLit/master/data/phi0134/phi002/phi0134.phi002.perseus-lat2.xml',
#     'https://raw.githubusercontent.com/PerseusDL/canonical-latinLit/master/data/phi0134/phi003/phi0134.phi003.perseus-lat2.xml',
#     'https://raw.githubusercontent.com/PerseusDL/canonical-latinLit/master/data/phi0134/phi004/phi0134.phi004.perseus-lat2.xml',
#     'https://raw.githubusercontent.com/PerseusDL/canonical-latinLit/master/data/phi0134/phi005/phi0134.phi005.perseus-lat2.xml',
#     'https://raw.githubusercontent.com/PerseusDL/canonical-latinLit/master/data/phi0134/phi006/phi0134.phi006.perseus-lat2.xml',    
# ]

In [3]:
# Get texts
#
# Commented out—only need to do once

# for uri in tqdm(uris):
#     ns = {'tei': 'http://www.tei-c.org/ns/1.0'}
#     connection = urllib.request.urlopen(uri)
#     tree = etree.parse(connection)
#     root = tree.getroot()
#     xml_string = etree.tostring(root, pretty_print=True).decode()
#     name = root.xpath('.//tei:title', namespaces=ns)[0].text
#     with open(f'texts/{name.lower()}.xml', 'w') as f:
#          f.write(xml_string)

In [30]:
# Function for getting speaker data from Perseus/TEI

def get_speaker_data(file):
    def get_text(node):
        return ' '.join(node.itertext()).strip()
    ns = {'tei': 'http://www.tei-c.org/ns/1.0'}
    tree = etree.parse(file)
    root = tree.getroot()
    speaker_nodes = root.xpath('.//tei:sp', namespaces=ns)
    speaker_blocks = defaultdict(list)
    for node in speaker_nodes:
        speaker = node.xpath('tei:speaker', namespaces=ns)[0].text
        lines = node.xpath('tei:l', namespaces=ns)
        for line in lines:
            speaker_blocks[speaker].append(f'{line.text} {line.tail}'.strip())
    return speaker_blocks

In [5]:
# Get texts in consistent order

texts = sorted(os.listdir('texts'))
print(texts)

In [31]:
# Get speaker data for Terence

speaker_data = []

for text in texts:
    speaker_data.append(get_speaker_data(os.path.join('texts', text)))

In [33]:
# Sample of Andria data

pprint(speaker_data[0])

defaultdict(<class 'list'>,
            {'Aes.': ['Otiose nunc iam ilico hic consiste.',
                      'Quid respectas? nihil pericli est: nunquam dum ego '
                      'adero hic te tanget.',
                      'Quamquam est scelestus non committet hodie unquam '
                      'iterum ut vapulet.',
                      'Scio.',
                      'Abi prae strenue ac fores aperi.',
                      'I intro iam nunc.',
                      'Accede illuc Parmeno;',
                      'Nimium istoc abisti: hic propter hunc adsiste. Hem, sic '
                      'volo.',
                      'Cave nunc iam oculos a meis oculis quoquam demoveas '
                      'tuos:',
                      'Ne mora sit si innuerim quin pugnus continuo in mala '
                      'haereat.',
                      'Hem, serva: omitte mulierem.',
                      'Geminabit nisi caves.',
                      'Non innueram: verum in istam partem

In [38]:
# Dramatis Personae as told through defaultdict keys

for i, item in enumerate(speaker_data):
    print(f'{texts[i]}\n{list(item.keys())}\n')


adelphi.xml
['Prologus', 'De.', 'Mi.', 'Sa.', 'Aes.', 'Sy.', 'Ct.', 'So.', 'Ca.', 'Ge.', 'He.', 'Pa.', 'Dr.', 'Mi', 'Om.']

andria.xml
['Prologus', 'Si.', 'So.', 'Da.', 'Pa.', 'My.', 'Ch.', 'By.', 'Le.', 'Gl.', 'Cr.', 'Dr.', 'Om.']

eunuchus.xml
['Prologus', 'Ph.', 'Pa.', 'Th.', 'Gn.', 'Ch.', 'Thr.', 'Py.', 'Antipho', 'An.', 'CA.', 'Dorias', 'Phaedria', 'Do.', 'Dor.', 'TA.', 'Chl.', 'Sa.', 'Tha.', 'Tia.', 'Tt.', 'Ct.', 'So.', 'La.', 'Gil.', 'Omnes']

heautontimorumenos.xml
['Prologus', 'Ch.', 'Me.', 'Cl.', 'Clin.', 'Clit.', 'Sy.', 'Dr.', 'Ba.', 'An.', 'So.', 'Nu.', 'Ph.', 'Ci.', 'CI.', 'Om.']

hecyra.xml
['Prologus', 'Ph.', 'Sy.', 'Pa.', 'La.', 'So.', 'Pi.', 'Sostrata', 'Pam.', 'Par.', 'Paw.', 'My.', 'Pamphilius', 'Pa', 'MIy.', 'Ba.', 'Om.']

phormio.xml
['Prologus', 'Ge.', 'Da.', 'An.', 'Ph.', 'Phi.', 'Ani.', 'De.', 'He.', 'Cra.', 'Cri.', 'Anq.', 'Do.', 'Ph', 'Ch.', 'So.', 'Na.', 'Deo.', 'Gre.', 'Om.']



In [42]:
# First 10 lines for speaker De. (= Demea)

pprint(speaker_data[0]['De.'][:10])

['Ehem, opportune: te ipsum quaerito.',
 'Rogas me, ubi nobis Aeschinus',
 'Siet, quid tristis ego sim?',
 'Quid ille fecerit? quem neque pudet',
 'Quicquam; nec metuit quemquam; neque legem putat',
 'Tenere se ullam: nam illa quae antehac facta sunt',
 'Omitto: modo quid designavit!',
 'Fores effregit atque in aedes irruit',
 'Alienas: ipsum dominum atque omnem familiam',
 'Mulcavit usque ad mortem: eripuit mulierem']


In [45]:
# Line counts for Terence speakers per play; nb: includes partial lines

for i, item in enumerate(speaker_data):
    print(f'{texts[i]}\n')
    for k, v in item.items():
        print(f'{k}: {len(v)}')
    print('\n')

adelphi.xml

Prologus: 25
De.: 343
Mi.: 250
Sa.: 85
Aes.: 121
Sy.: 215
Ct.: 52
So.: 43
Ca.: 11
Ge.: 62
He.: 66
Pa.: 2
Dr.: 1
Mi: 4
Om.: 1
Da.: 0


andria.xml

Prologus: 27
Si.: 394
So.: 36
Da.: 341
Pa.: 239
My.: 88
Ch.: 200
By.: 30
Le.: 10
Gl.: 1
Cr.: 51
Dr.: 2
Om.: 1


eunuchus.xml

Prologus: 45
Ph.: 157
Pa.: 274
Th.: 246
Gn.: 177
Ch.: 313
Thr.: 52
Py.: 176
Antipho: 10
An.: 23
CA.: 1
Dorias: 14
Phaedria: 14
Do.: 20
Dor.: 7
TA.: 1
Chl.: 1
Sa.: 5
Tha.: 5
Tia.: 1
Tt.: 2
Ct.: 1
So.: 1
La.: 21
Gil.: 2
Omnes: 1


heautontimorumenos.xml

Prologus: 52
Ch.: 503
Me.: 215
Cl.: 134
Clin.: 43
Clit.: 65
Sy.: 362
Dr.: 7
Ba.: 41
An.: 7
So.: 65
Nu.: 3
Ph.: 2
Ci.: 1
CI.: 1
Om.: 1


hecyra.xml

Prologus: 57
Ph.: 165
Sy.: 13
Pa.: 190
La.: 219
So.: 68
Pi.: 1
Sostrata: 7
Pam.: 86
Par.: 80
Paw.: 13
My.: 29
Pamphilius: 54
Pa: 1
MIy.: 1
Ba.: 74
Om.: 1


phormio.xml

Prologus: 34
Ge.: 396
Da.: 41
An.: 151
Ph.: 318
Phi.: 1
Ani.: 1
De.: 271
He.: 7
Cra.: 5
Cri.: 2
Anq.: 1
Do.: 31
Ph: 2
Ch.: 151
So.: 31
Na.: 57
De

In [47]:
# Word counts for Terence speakers by play

for i, item in enumerate(speaker_data):
    print(f'{texts[i]}\n')
    for k, v in item.items():
        running = 0
        for line in v:
            running += len(line)
        print(f'{k}: {running}')
    print('\n')        

adelphi.xml

Prologus: 1048
De.: 10812
Mi.: 8244
Sa.: 3202
Aes.: 3937
Sy.: 7089
Ct.: 1979
So.: 1570
Ca.: 454
Ge.: 2417
He.: 2510
Pa.: 72
Dr.: 40
Mi: 103
Om.: 9
Da.: 0


andria.xml

Prologus: 1110
Si.: 13850
So.: 950
Da.: 11059
Pa.: 8244
My.: 2436
Ch.: 6372
By.: 996
Le.: 411
Gl.: 42
Cr.: 1716
Dr.: 14
Om.: 9


eunuchus.xml

Prologus: 1859
Ph.: 4818
Pa.: 8851
Th.: 8328
Gn.: 6428
Ch.: 11912
Thr.: 1518
Py.: 6048
Antipho: 575
An.: 690
CA.: 8
Dorias: 815
Phaedria: 626
Do.: 390
Dor.: 119
TA.: 26
Chl.: 18
Sa.: 196
Tha.: 127
Tia.: 7
Tt.: 77
Ct.: 4
So.: 6
La.: 609
Gil.: 105
Omnes: 24


heautontimorumenos.xml

Prologus: 2114
Ch.: 17525
Me.: 6846
Cl.: 4368
Clin.: 1598
Clit.: 1823
Sy.: 12363
Dr.: 121
Ba.: 1695
An.: 211
So.: 2240
Nu.: 53
Ph.: 14
Ci.: 9
CI.: 52
Om.: 24


hecyra.xml

Prologus: 2262
Ph.: 6689
Sy.: 487
Pa.: 7333
La.: 9752
So.: 2877
Pi.: 10
Sostrata: 413
Pam.: 3051
Par.: 2823
Paw.: 798
My.: 1417
Pamphilius: 2929
Pa: 9
MIy.: 15
Ba.: 3367
Om.: 9


phormio.xml

Prologus: 1437
Ge.: 14071
Da.: