# Work with text in Pandas

This notebook contains the Pandas instructions to load the a corpus in Pandas.

We perform some simple information extracting on the data.

In [1]:
import os
import pandas as pd

# Data files
We read exactly the same file as is read by R in [bigTablesR](bigTablesR.ipynb).

In [2]:
VERSION = "0.1"
PANDAS_DIR = os.path.abspath("../pandas")
TEXT_DIR = os.path.abspath("../txt")
TABLE_FILE_PD = f"{PANDAS_DIR}/data-{VERSION}.pd"
TABLE_FILE_TXT = f"{TEXT_DIR}/data-{VERSION}.txt"

if not os.path.exists(TEXT_DIR):
    os.makedirs(TEXT_DIR)

In [3]:
frame = pd.read_parquet(TABLE_FILE_PD, engine="pyarrow")
print("Done. Size={}".format(frame.size))

Done. Size=7273184


In [4]:
frame.shape

(227287, 32)

In [5]:
frame.head(30)

Unnamed: 0,nd,element,str,after,in.chapter,in.chunk,chapter,chunk,curr,empty,...,rend_h2,rend_h3,rend_h4,rend_i,rend_sc,rend_spat,rend_sup,to,type,value
0,218426,chapter,,,,,TEI header,,,,...,,,,,,,,,,
1,222359,fileDesc,,,218426.0,218470.0,,,,,...,,,,,,,,,,
2,218470,chunk,,,218426.0,,TEI header,-1.0,,,...,,,,,,,,,,
3,227280,titleStmt,,,218426.0,218470.0,,,,,...,,,,,,,,,,
4,227277,title,,,218426.0,218470.0,,,,,...,,,,,,,,,main,
5,1,word,De,,218426.0,218470.0,,,,,...,,,,,,,,,,
6,2,word,lotgevallen,,218426.0,218470.0,,,,,...,,,,,,,,,,
7,3,word,van,,218426.0,218470.0,,,,,...,,,,,,,,,,
8,4,word,Ferdinand,,218426.0,218470.0,,,,,...,,,,,,,,,,
9,5,word,Huyck,,218426.0,218470.0,,,,,...,,,,,,,,,,


In [6]:
columnList = frame.columns.values.tolist()
columnList

['nd',
 'element',
 'str',
 'after',
 'in.chapter',
 'in.chunk',
 'chapter',
 'chunk',
 'curr',
 'empty',
 'empty_lb',
 'empty_link',
 'empty_pb',
 'empty_pb_n',
 'is_meta',
 'is_note',
 'n',
 'place',
 'rend',
 'rend_1tab',
 'rend_b',
 'rend_bq',
 'rend_h2',
 'rend_h3',
 'rend_h4',
 'rend_i',
 'rend_sc',
 'rend_spat',
 'rend_sup',
 'to',
 'type',
 'value']

# Chapters

Let us extract some data.
First a list of the book names.

In [7]:
chapters = frame[frame.element == "chapter"].chapter

for chapter in chapters:
    print(chapter)

TEI header
2 interpGrp
Brief van den Heer P. aan den Uitgever, tot inleiding dienende.
[Woord van de uitgever]
Eerste hoofdstuk.
Tweede hoofdstuk.
Derde hoofdstuk.
Vierde hoofdstuk.
Vijfde hoofdstuk.
Zesde hoofdstuk.
Zevende hoofdstuk.
Achtste hoofdstuk.
Negende hoofdstuk.
Tiende hoofdstuk.
Elfde hoofdstuk.
Twaalfde hoofdstuk.
Dertiende hoofdstuk.
Veertiende hoofdstuk.
Vijftiende hoofdstuk.
Zestiende hoofdstuk.
Zeventiende hoofdstuk.
Achttiende hoofdstuk.
Negentiende hoofdstuk.
Twintigste hoofdstuk.
Een-en-twintigste hoofdstuk.
Twee-en-twintigste hoofdstuk.
Drie-en-twintigste hoofdstuk.
Vier-en-twintigste hoofdstuk.
Vijf-en-twintigste hoofdstuk.
Zes-en - twintigste hoofdstuk.
Zeven-en-twintigste hoofdstuk.
Acht-en-twintigste hoofdstuk.
Negen-en-twintigste hoofdstuk.
Dertigste hoofdstuk.
Een-en-dertigste hoofdstuk.
Twee-en-dertigste hoofdstuk.
Drie-en-dertigste hoofdstuk.
Vier-en-dertigste hoofdstuk.
Vijf-en-dertigste hoofdstuk.
Zes-en-dertigste hoofdstuk.
Zeven-en-dertigste hoofdstuk.


# Text

Now the complete text of the whole book.

In [8]:
words = frame.loc[frame.element == "word"]
text = words.str + words.after

with open(TABLE_FILE_TXT, "w") as pt:
    pt.write("".join(text).replace("\\n", "\n"))
    pt.write("\n")

In [9]:
!head {TABLE_FILE_TXT}

De lotgevallen van Ferdinand HuyckJacob van LennepGEBRUIKT EXEMPLAARexemplaar universiteitsbibliotheek Leiden, signatuur: 1224 C 8 en 1224 C 9 ​ALGEMENE OPMERKINGENDit bestand biedt, behoudens een aantal hierna te noemen ingrepen, een diplomatische weergave van de eerste druk van De lotgevallen van Ferdinand Huyck in twee delen, van Jacob van Lennep uit 1840 ​REDACTIONELE INGREPENdeel 1, p. I: de kop ‘Eerste deel’ is tussen vierkante haken toegeveoegddeel 1, p. VI: het paginanummer IV is verbeterd in VIdeel 1, p. XVII: de kop ‘Woord van de uitgever’ is tussen vierkante haken toegeveoegddeel 2, p. 1: de kop ‘Tweede deel’ is tussen vierkante haken toegeveoegddeel 2, p. 459: de kop ‘Nawoord’ is tussen vierkante haken toegeveoegd ​Bij de omzetting van de gebruikte bron naar deze publicatie in de dbnl is een aantal delen van de tekst niet overgenomen. Hieronder volgen de tekstgedeelten die wel in het origineel voorkomen maar hier uit de lopende tekst zijn weggelaten. Ook de blanco pagina's 

# Drill down to a passage

Let us get the words from the first chunk.

In [10]:
wordIds = frame[(frame.element == "word") & (frame["in.chunk"] == 218470)].nd
print(wordIds.values)

<IntegerArray>
[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
 ...
 292, 293, 294, 295, 296, 297, 298, 299, 300, 301]
Length: 301, dtype: Int64


Now the *text* of the first verse.

In [11]:
words = frame[(frame.element == "word") & (frame["in.chunk"] == 218470)]
text = words.str + words.after
print(("".join(text)).replace("\\n", "\n"))

De lotgevallen van Ferdinand HuyckJacob van LennepGEBRUIKT EXEMPLAARexemplaar universiteitsbibliotheek Leiden, signatuur: 1224 C 8 en 1224 C 9 ​ALGEMENE OPMERKINGENDit bestand biedt, behoudens een aantal hierna te noemen ingrepen, een diplomatische weergave van de eerste druk van De lotgevallen van Ferdinand Huyck in twee delen, van Jacob van Lennep uit 1840 ​REDACTIONELE INGREPENdeel 1, p. I: de kop ‘Eerste deel’ is tussen vierkante haken toegeveoegddeel 1, p. VI: het paginanummer IV is verbeterd in VIdeel 1, p. XVII: de kop ‘Woord van de uitgever’ is tussen vierkante haken toegeveoegddeel 2, p. 1: de kop ‘Tweede deel’ is tussen vierkante haken toegeveoegddeel 2, p. 459: de kop ‘Nawoord’ is tussen vierkante haken toegeveoegd ​Bij de omzetting van de gebruikte bron naar deze publicatie in de dbnl is een aantal delen van de tekst niet overgenomen. Hieronder volgen de tekstgedeelten die wel in het origineel voorkomen maar hier uit de lopende tekst zijn weggelaten. Ook de blanco pagina's 

Let us get the words and text of an arbitrary passage, say chapter `"Veertiende hoofdstuk."`, chunk `6`.

First the id of the chunk (i.e. the Tetx-Fabric node number):

In [12]:
chunk_id = frame[
    (frame.element == "chunk")
    & (frame.chapter == "Veertiende hoofdstuk.")
    & (frame.chunk == 6)
].nd.iloc[0]
print(chunk_id)

219527


Now the word ids of that chunk:

In [13]:
words = frame[(frame.element == "word") & (frame["in.chunk"] == chunk_id)]
print(words.nd.values)

<IntegerArray>
[69830, 69831, 69832, 69833, 69834, 69835, 69836, 69837, 69838, 69839, 69840,
 69841, 69842, 69843, 69844, 69845, 69846, 69847, 69848, 69849, 69850, 69851,
 69852, 69853, 69854, 69855, 69856, 69857, 69858, 69859]
Length: 30, dtype: Int64


And, finally, the text of those words.

In [14]:
text = words.str + words.after
print(("".join(text)).replace("\\n", "\n"))

- ‘Nou dat trappie op,’ zeide zij mij, zoodra ik bij haar stond: ‘en dan de derde deur aan je rechterhand; maar pas op! het is wat doister hier.’ -



Now let us organize this in two functions: one that returns the chunk object given a passage, and one that prints the texts of the words in a given object.

In [15]:
def object2text(nd):
    element = frame[frame.nd == nd].element.iloc[0]
    inotype = "in." + element
    words = frame[(frame.element == "word") & (frame[inotype] == nd)]
    text = words.str + words.after
    return ("".join(text)).replace("\\n", "\n")


def chunk2object(chapter, chunk):
    return frame[
        (frame.element == "chunk")
        & (frame.chapter == chapter)
        & (frame.chunk == chunk)
    ].nd.iloc[0]


def chunk2text(chapter, chunk):
    return object2text(chunk2object(chapter, chunk))


def chapter2object(chapter):
    return frame[
        (frame.element == "chapter") & (frame.chapter == chapter)
    ].nd.iloc[0]


def chapter2text(chapter):
    return object2text(chapter2object(chapter))

In [16]:
print(chunk2text("Veertiende hoofdstuk.", 6))

- ‘Nou dat trappie op,’ zeide zij mij, zoodra ik bij haar stond: ‘en dan de derde deur aan je rechterhand; maar pas op! het is wat doister hier.’ -



In [17]:
ch14 = chapter2text("Veertiende hoofdstuk.")
print(ch14[0:500])
print("...")
print(ch14[-500:])

Veertiende hoofdstuk.
Waarin Ferdinand op cognacq onthaald en tegen wil en dank in nieuwe avonturen gesleept wordt.
Ik wandelde dan, niet lang na dat wij van tafel waren opgestaan, naar de Raamgracht, en vond weldra het huis, dat ik zocht, en hetwelk kenbaar was aan het, vrij slecht geschilderd, doch sprekend gelijkend afbeeldsel eener in Amsterdam te dier tijd welbekende groenvrouw, 't welk achter de glasruiten der zijkamer geplaatst was, nevens een bordje, waarop in gekleurde letteren te lezen
...
n van beide verdachte personen zijn, noch Mejuffrouw van Beveren, noch ik, zoo raad ik u maar, u daarover niet verder te bekommeren. Er zijn zaken van meer belang, die uw onderzoek kunnen bezig houden.’ -
Met deze woorden rees ik op, nam mijn afscheid en verliet het huis, niet weinig ontevreden over het noodlot, dat mij scheen te vervolgen en tegen wil en dank van de eene avontuur in de andere te halen en een rol te doen spelen in allerlei zaken, waarmede ik niet verlangde iets te doen te h

# Bi-grams

We make a column of chunk-bound bi-grams of words. The two words are separated by an underscore `_`.

In [18]:
chunkNext = frame[frame.element == "word"]["in.chunk"]
chunkPrev = frame[frame.element == "word"]["in.chunk"].shift(1)
word = frame[frame.element == "word"].str
wordNext = frame[frame.element == "word"].str.shift(1)

In [19]:
lastInChunk = chunkPrev != chunkNext
wordNext[lastInChunk] = ""

In [20]:
bigram = ["{}_{}".format(*p) for p in zip(word, wordNext)]

In [21]:
bigram[10_000:10_030]

['aanbieden_pijp',
 '-_aanbieden',
 '_-',
 '-_',
 'Ik_-',
 'dank_Ik',
 'je_dank',
 'zeide_je',
 'ik_zeide',
 'want_ik',
 'ofschoon_want',
 'ik_ofschoon',
 'later_ik',
 'die_later',
 'gewoonte_die',
 'weder_gewoonte',
 'heb_weder',
 'aangenomen_heb',
 'ik_aangenomen',
 'was_ik',
 'op_was',
 'mijn_op',
 'reis_mijn',
 'bij_reis',
 'mangel_bij',
 'aan_mangel',
 'goeden_aan',
 'tabak_goeden',
 'het_tabak',
 'roken_het']