This notebook provides an regular expression based approach to search for letter openings in a literary text corpus. The first part of the notebook covers the preparation of the corpus. The second part is the extraction of letter openings by looking for typical expressions in the beginning of German-language letters. The openings are collected in a list. The algorithms loops over that list to see if a list entry matches with a token in the corpus texts. The list can be modified. Please take into account that too generic letter openings like "Mein[e]" cannot be processed because there are too many matches in the corpus texts (the most of them false positives).

In [None]:
# Import 
import os
import pandas as pd
import regex as re
from pathlib import Path
from collections import Counter

In the following, we read in the corpus. Here, we only take a subset of the corpus to shorten the process time.  

In [5]:
# Generate a corpus by loading all the txt files from the chosen directory 
# and list the names of the first 10 txt files 
corpus = os.listdir('d-prose_subsets/d-prose_subset6')
corpus[:10]

['von_Wolzogen_Ernst_Vom_Peperl_und von andern_Raritaeten_Der_Raritaetenliabhaber.txt',
 'von_Zobeltitz_Fedor_Das_Heiratsjahr.txt',
 'zu_Reventlow_Franziska_Der_feine_Dieb.txt',
 'Voss_Richard_Brutus.txt',
 'Wolff_Julius_Der_Raubgraf.txt',
 'Wichert_Ernst_Endrik_Kraupatis.txt',
 'Weiss_Ernst_Mensch_gegen_Mensch.txt',
 'Zweig_Stefan_Vergessene_Traeume.txt',
 'Von_Sacher-Masoch_Leopold_Polnische_Geschichten_Sapiehas_Busse.txt',
 'von_Vischer_Friedrich_Theodor_Auch_Einer.txt']

With the next cell, we ask for the number of corpus texts in the chosen subset. 

In [6]:
# Print how many txt files are in the corpus
corpus_length = len(corpus)
print(corpus_length)

206


We then create an empty dictionary and add the file name and the text of the document as columns to build a dataframe of two columns.

In [10]:
# Create an empty dictionary for preparation of the conversion of the txt-file-corpus to a data frame
empty_dictionary = {}

# Loop through the folder of documents to open and read each one
for document in corpus:
    with open('d-prose_subsets/d-prose_subset6/' + document, 'r', encoding = 'utf-8') as to_open:
         empty_dictionary[document] = to_open.read()

# Populate the data frame with two columns: file name and document text
d_prose_texts = (pd.DataFrame.from_dict(empty_dictionary, 
                                       orient = 'index')
                .reset_index().rename(index = str, 
                                      columns = {'index': 'file_name', 0: 'document_text'}))

In the next cell, we verify the content of the first 10 lines of the dataframe.

In [11]:
# show the first 10 lines of the data frame
d_prose_texts[:10]

Unnamed: 0,file_name,document_text
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,"Der Raritätenliabhaber\n\n»Ja, grüaß Eahna Got..."
1,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.\n\nErstes Kapitel.\n\nIn welc...
2,zu_Reventlow_Franziska_Der_feine_Dieb.txt,Der feine Dieb\n\nGelegentlich einer Ferienrei...
3,Voss_Richard_Brutus.txt,"Brutus, auch Du!\n\nErster Teil\n\nErstes Kapi..."
4,Wolff_Julius_Der_Raubgraf.txt,Der Raubgraf\n\nErstes Kapitel.\n\nAuf einem F...
5,Wichert_Ernst_Endrik_Kraupatis.txt,Endrik Kraupatis\n\nDie große Mühle in Kraupat...
6,Weiss_Ernst_Mensch_gegen_Mensch.txt,Mensch gegen Mensch\n\nI\n\nAlfred Dawidowitsc...
7,Zweig_Stefan_Vergessene_Traeume.txt,Vergessene Träume\n\nDie Villa lag hart am Mee...
8,Von_Sacher-Masoch_Leopold_Polnische_Geschichte...,"Sapiehas Busse\n\nEs war am 3. Mai 1685, zur Z..."
9,von_Vischer_Friedrich_Theodor_Auch_Einer.txt,Auch Einer\n\nvon denjenigen nemlich — — — kur...


In [12]:
# Get the headers of each column
headers_d_prose = d_prose_texts.columns.tolist()

# Print the column headers
for header in headers_d_prose:
    print(header)

file_name
document_text


In the next cell, we extract the title of the text by extracting the first line followed by two line breaks. This is possible because we know about the structure of the text that were manually prepared following that schema.

In [13]:
#extract the title of the text as a further column with metadata


# Define the regular expression pattern to extract the title followed by double line break \n\n
pattern = r'^(.*?)\n\n'

# Extract the first line and create a new 'titles' column
d_prose_texts['title'] = d_prose_texts['document_text'].str.extract(pattern, flags=re.DOTALL)

# Print the DataFrame to see the results
d_prose_texts[:10]


Unnamed: 0,file_name,document_text,title
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,"Der Raritätenliabhaber\n\n»Ja, grüaß Eahna Got...",Der Raritätenliabhaber
1,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.\n\nErstes Kapitel.\n\nIn welc...,Das Heiratsjahr.
2,zu_Reventlow_Franziska_Der_feine_Dieb.txt,Der feine Dieb\n\nGelegentlich einer Ferienrei...,Der feine Dieb
3,Voss_Richard_Brutus.txt,"Brutus, auch Du!\n\nErster Teil\n\nErstes Kapi...","Brutus, auch Du!"
4,Wolff_Julius_Der_Raubgraf.txt,Der Raubgraf\n\nErstes Kapitel.\n\nAuf einem F...,Der Raubgraf
5,Wichert_Ernst_Endrik_Kraupatis.txt,Endrik Kraupatis\n\nDie große Mühle in Kraupat...,Endrik Kraupatis
6,Weiss_Ernst_Mensch_gegen_Mensch.txt,Mensch gegen Mensch\n\nI\n\nAlfred Dawidowitsc...,Mensch gegen Mensch
7,Zweig_Stefan_Vergessene_Traeume.txt,Vergessene Träume\n\nDie Villa lag hart am Mee...,Vergessene Träume
8,Von_Sacher-Masoch_Leopold_Polnische_Geschichte...,"Sapiehas Busse\n\nEs war am 3. Mai 1685, zur Z...",Sapiehas Busse
9,von_Vischer_Friedrich_Theodor_Auch_Einer.txt,Auch Einer\n\nvon denjenigen nemlich — — — kur...,Auch Einer


You can see still some \n\n these are line breaks. You can use regular expressions to extract the first line as title of the text. And the file name contains the name of the author, but that is not as easy to extract. Better to be extracted from the metadata with a comparison of filename and filename indicated in metadata.

In the next cell, we do some basic text cleaning steps.

In [14]:
#create a new column
#use regular expressions to clean the plain text and store the cleaned text in a new column as a further layer of the text without deleting the original version
d_prose_texts['clean_text'] = d_prose_texts['document_text'].str.replace('\s+', ' ') # remove double white space
d_prose_texts['clean_text'] = d_prose_texts['clean_text'].str.replace('\n+', '\n') # remove double line break
d_prose_texts['clean_text'] = d_prose_texts['clean_text'].str.replace('&', 'and') # exchange & for 'and'



  d_prose_texts['clean_text'] = d_prose_texts['document_text'].str.replace('\s+', ' ') # remove double white space
  d_prose_texts['clean_text'] = d_prose_texts['clean_text'].str.replace('\n+', '\n') # remove double line break


In [30]:
# with this cell, we generate another column with the lower cased texts.
d_prose_texts['clean_text_lower'] = d_prose_texts['clean_text'].str.lower()

In [31]:
# show the first 10 lines of the data frame
d_prose_texts[:10]

Unnamed: 0,file_name,title,clean_text,counter_brief_e,context_around_keyword,context_around_letter_openings,clean_text_lower
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,Der Raritätenliabhaber,"Der Raritätenliabhaber »Ja, grüaß Eahna Gott, ...",0,[],"[wißt 's ös , meine lieben freunde , was s ' g...","der raritätenliabhaber »ja, grüaß eahna gott, ..."
1,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.,Das Heiratsjahr. Erstes Kapitel. In welchem si...,42,[ihren Pensionsfreundinnen schrieb sie sich wö...,"[ich doch andrer meinung , geehrter herr baron...",das heiratsjahr. erstes kapitel. in welchem si...
2,zu_Reventlow_Franziska_Der_feine_Dieb.txt,Der feine Dieb,Der feine Dieb Gelegentlich einer Ferienreise ...,0,[],"[schien , als habe der liebe gott in einer bou...",der feine dieb gelegentlich einer ferienreise ...
3,Voss_Richard_Brutus.txt,"Brutus, auch Du!","Brutus, auch Du! Erster Teil Erstes Kapitel Es...",4,"[hatte zurückziehen können , die Schlacht an d...",[der herr ist deines oheims geehrter gast … hö...,"brutus, auch du! erster teil erstes kapitel es..."
4,Wolff_Julius_Der_Raubgraf.txt,Der Raubgraf,Der Raubgraf Erstes Kapitel. Auf einem Felsen ...,19,[Grafen Albrecht feind werden und ihm die Fehd...,[dem jutta wie eine königin geehrt und gefeier...,der raubgraf erstes kapitel. auf einem felsen ...
5,Wichert_Ernst_Endrik_Kraupatis.txt,Endrik Kraupatis,Endrik Kraupatis Die große Mühle in Kraupatisc...,18,[ihr ihn hattet . Ich besinne mich noch wie he...,[den besuch des müllers sehr geehrt . eine sol...,endrik kraupatis die große mühle in kraupatisc...
6,Weiss_Ernst_Mensch_gegen_Mensch.txt,Mensch gegen Mensch,"Mensch gegen Mensch I Alfred Dawidowitsch, ein...",5,[eigentlich nicht gewohnt… sie blieb zu Hause ...,[er . » aber ich liebe dich doch nicht . warum...,"mensch gegen mensch i alfred dawidowitsch, ein..."
7,Zweig_Stefan_Vergessene_Traeume.txt,Vergessene Träume,Vergessene Träume Die Villa lag hart am Meer. ...,0,[],[leichte duft der ersten halbverschwiegenen ju...,vergessene träume die villa lag hart am meer. ...
8,Von_Sacher-Masoch_Leopold_Polnische_Geschichte...,Sapiehas Busse,"Sapiehas Busse Es war am 3. Mai 1685, zur Zeit...",1,[],[von den reizen und der liebenswürdigkeit der ...,"sapiehas busse es war am 3. mai 1685, zur zeit..."
9,von_Vischer_Friedrich_Theodor_Auch_Einer.txt,Auch Einer,"Auch Einer von denjenigen nemlich — — — kurz, ...",25,[im König Lear aufmerksam . Der brave Kent lan...,"[herzlich fühlte ich mich nun geehrt , daß er ...","auch einer von denjenigen nemlich — — — kurz, ..."


Now, we want to find out more about the texts in our corpus. 
For instance, we want to find out if there are letters in the corpus texts.

In [17]:
# with a simple regular expression, we look for "Brief" in the corpus
#d_prose_texts['clean_text'].str.extract(r'(liebe)')#[1]
#d_prose_texts['clean_text'].str.extract(r'(Brief[e]?)')#[1]
d_prose_texts['counter_brief_e'] = d_prose_texts['clean_text'].str.count(r'(Brief[e]?)')#[1]
#len(d_prose_texts['clean_text'])

## Attention
The next cell is optionally. It adds the context around the token "Brief[e]?"
Skip the cell if you are only interested in letter openings that follow in the cell after.

In [19]:


import pandas as pd
import re
from nltk.tokenize import word_tokenize

# Load your corpus data into a DataFrame (assuming the corpus is in a CSV file)
#corpus_data = pd.read_csv('your_corpus_file.csv')

# Define a function to extract the desired text around the keyword
def extract_context_around_keyword(text, keyword, tokens_before, tokens_after):
    keyword_indices = [i for i, token in enumerate(text) if token == keyword]
    
    extracted_texts = []
    for keyword_index in keyword_indices:
        start_index = max(0, keyword_index - tokens_before)
        end_index = min(len(text), keyword_index + len(keyword) + tokens_after)
        extracted_text = ' '.join(text[start_index:end_index])
        extracted_texts.append(extracted_text)
    
    return extracted_texts

# Tokenize the 'clean_text' column and create a new column 'tokenized_text'
d_prose_texts['tokenized_text'] = d_prose_texts['clean_text'].apply(lambda x: word_tokenize(x, language='german'))

# Extract context around the keyword 'Brief'
tokens_before = 20
tokens_after = 50
keyword = 'Brief'
d_prose_texts['context_around_keyword'] = d_prose_texts['tokenized_text'].apply(lambda x: extract_context_around_keyword(x, keyword, tokens_before, tokens_after))

# Save the result to a new CSV file
d_prose_texts.to_csv('output_data_briefe_subset6.csv', index=False)


The code of the next cell iterates over the corpus texts and looks for matches with the regular expressions of the list "letter_openings".

In [32]:
import pandas as pd
import re
from nltk.tokenize import word_tokenize

# Load your corpus data into a DataFrame (assuming the corpus is in a CSV file)
# corpus_data = pd.read_csv('your_corpus_file.csv')

# Define a function to extract the desired text around the keywords (regular expressions)
def extract_context_around_openings(text, letter_openings, tokens_before, tokens_after):
    extracted_texts = []
    
    for letter_opening in letter_openings:
        opening_indices = [i for i, token in enumerate(text) if re.search(letter_opening, token, re.IGNORECASE)]
        for opening_index in opening_indices:
            start_index = max(0, opening_index - tokens_before)
            end_index = min(len(text), opening_index + tokens_after + 1)  # Adding 1 to include the last token
            extracted_text = ' '.join(text[start_index:end_index])
            extracted_texts.append(extracted_text)
    
    return extracted_texts

# Tokenize the 'clean_text' column and create a new column 'tokenized_text'
d_prose_texts['tokenized_text'] = d_prose_texts['clean_text_lower'].apply(lambda x: word_tokenize(x, language='german'))

# List of regular expressions as keywords
letter_openings = [ 
    r'mein liebe[rsn]?',
    r'hochverehrte[rsn]?',
    r'geehrt[esn]?',
    r'sehr geehrte[srn]?',
    r'sehr verehrte[rs]?',
    r'grüss dich',
    r'grüß dich',
    r'liebe[sr]?',
    #r'werter',
    #r'mein geliebte[rs]?',
    #r'[teuerste[sr]?',
    #r'liebchen'
           ]  # Example keywords, modify as needed

# Extract context around the letter openings
tokens_before = 5
tokens_after = 10
d_prose_texts['context_around_letter_openings'] = d_prose_texts['tokenized_text'].apply(lambda x: extract_context_around_openings(x, letter_openings, tokens_before, tokens_after))

# Save the result to a new CSV file
d_prose_texts.to_csv('output_data_letter_openings_subset6.csv', index=False)


As the dataframe is to huge to have a look at comfortably, we copy the dataframe and limit it to the columns of our interest by deleting the columns we do not need.

In [33]:
#copy the dataframe
d_prose_brief_openings = d_prose_texts

In [38]:
d_prose_brief_openings

Unnamed: 0,file_name,title,clean_text,counter_brief_e,context_around_keyword,context_around_letter_openings
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,Der Raritätenliabhaber,"Der Raritätenliabhaber »Ja, grüaß Eahna Gott, ...",0,[],"[wißt 's ös , meine lieben freunde , was s ' g..."
1,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.,Das Heiratsjahr. Erstes Kapitel. In welchem si...,42,[ihren Pensionsfreundinnen schrieb sie sich wö...,"[ich doch andrer meinung , geehrter herr baron..."
2,zu_Reventlow_Franziska_Der_feine_Dieb.txt,Der feine Dieb,Der feine Dieb Gelegentlich einer Ferienreise ...,0,[],"[schien , als habe der liebe gott in einer bou..."
3,Voss_Richard_Brutus.txt,"Brutus, auch Du!","Brutus, auch Du! Erster Teil Erstes Kapitel Es...",4,"[hatte zurückziehen können , die Schlacht an d...",[der herr ist deines oheims geehrter gast … hö...
4,Wolff_Julius_Der_Raubgraf.txt,Der Raubgraf,Der Raubgraf Erstes Kapitel. Auf einem Felsen ...,19,[Grafen Albrecht feind werden und ihm die Fehd...,[dem jutta wie eine königin geehrt und gefeier...
...,...,...,...,...,...,...
201,Wassermann_Jakob_Die_Geschichte_der_jungen_Ren...,Die Geschichte der jungen Renate Fuchs,Die Geschichte der jungen Renate Fuchs Erstes ...,62,"[was sie gewann , war fern und ungreifbar , wi...",[. ihre treue renate . geehrtes fräulein fuchs...
202,Wohlbrueck_Olga_Des_Ratsherrn_Leinius_Tochter.txt,Des Ratsherrn Leinius Tochter,Des Ratsherrn Leinius Tochter Es ist eine Gesc...,2,[. In der Stille des dunklen Stübchens schmied...,"[niemand anderes war als meine liebe urahne , ..."
203,von_Wolzogen_Ernst_Der_Kraft-Mayr.txt,Der Kraft-Mayr.,Der Kraft-Mayr. Erstes Kapitel. »Der weeiche K...,46,"[mit seinen großen , steilen Zügen folgende Ze...","[seltsam begeistert , auf die hochverehrten el..."
204,Waser_Maria_Die_Geschichte_der_Anna.txt,Die Geschichte der Anna Waser,Die Geschichte der Anna Waser Es war nach eine...,69,"[Lächeln , einen ins Innerste hinein erwärmten...","[, » daß ihr , vielgeehrte frau , an meiner an..."


In [40]:
#delete the columns from the copy that we do not need or that need to much space
#del d_prose_brief_openings['tokenized_text']
#del d_prose_brief_openings['clean_text_lower']
#del d_prose_brief_openings['document_text']

In [39]:
#show small dataframe 
d_prose_brief_openings

Unnamed: 0,file_name,title,clean_text,counter_brief_e,context_around_keyword,context_around_letter_openings
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,Der Raritätenliabhaber,"Der Raritätenliabhaber »Ja, grüaß Eahna Gott, ...",0,[],"[wißt 's ös , meine lieben freunde , was s ' g..."
1,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.,Das Heiratsjahr. Erstes Kapitel. In welchem si...,42,[ihren Pensionsfreundinnen schrieb sie sich wö...,"[ich doch andrer meinung , geehrter herr baron..."
2,zu_Reventlow_Franziska_Der_feine_Dieb.txt,Der feine Dieb,Der feine Dieb Gelegentlich einer Ferienreise ...,0,[],"[schien , als habe der liebe gott in einer bou..."
3,Voss_Richard_Brutus.txt,"Brutus, auch Du!","Brutus, auch Du! Erster Teil Erstes Kapitel Es...",4,"[hatte zurückziehen können , die Schlacht an d...",[der herr ist deines oheims geehrter gast … hö...
4,Wolff_Julius_Der_Raubgraf.txt,Der Raubgraf,Der Raubgraf Erstes Kapitel. Auf einem Felsen ...,19,[Grafen Albrecht feind werden und ihm die Fehd...,[dem jutta wie eine königin geehrt und gefeier...
...,...,...,...,...,...,...
201,Wassermann_Jakob_Die_Geschichte_der_jungen_Ren...,Die Geschichte der jungen Renate Fuchs,Die Geschichte der jungen Renate Fuchs Erstes ...,62,"[was sie gewann , war fern und ungreifbar , wi...",[. ihre treue renate . geehrtes fräulein fuchs...
202,Wohlbrueck_Olga_Des_Ratsherrn_Leinius_Tochter.txt,Des Ratsherrn Leinius Tochter,Des Ratsherrn Leinius Tochter Es ist eine Gesc...,2,[. In der Stille des dunklen Stübchens schmied...,"[niemand anderes war als meine liebe urahne , ..."
203,von_Wolzogen_Ernst_Der_Kraft-Mayr.txt,Der Kraft-Mayr.,Der Kraft-Mayr. Erstes Kapitel. »Der weeiche K...,46,"[mit seinen großen , steilen Zügen folgende Ze...","[seltsam begeistert , auf die hochverehrten el..."
204,Waser_Maria_Die_Geschichte_der_Anna.txt,Die Geschichte der Anna Waser,Die Geschichte der Anna Waser Es war nach eine...,69,"[Lächeln , einen ins Innerste hinein erwärmten...","[, » daß ihr , vielgeehrte frau , an meiner an..."


In [28]:
#as the dataframe is still to huge, we segment it into segments of ca. 250 texts and save the dataframe segment to a new csv.file
d_prose_brief_openings_subset6 = d_prose_brief_openings#[251:500]
d_prose_brief_openings_subset6.to_csv('output_briefe_all_openings_subset6.csv', index=False)

end of notebook 2