In [2]:
# Import 
import os
import pandas as pd
import regex as re
from pathlib import Path
from collections import Counter

In [7]:
#open the metadata file
# Path to your csv file
metadata_file = '../d-prose_V2_norm_year.csv'

# Read the csv file and load it into a DataFrame
#df = pd.read_csv(metadata_file) #in the case of irregularities in the data, you can skip the rows with no content
#the delimiter should be indicated as ";" if it is not the default: ','
df = pd.read_csv(metadata_file, delimiter=';', error_bad_lines=False, na_values=['NA', 'NaN'])


First, we want to get an overview on the corpus by looking at the metadata table. For that we read in the metadata table as a dataframe.

In the next step, we print the headers of the columns to get to know what is in the dataframe before looking at the actual dataframe in detail. This is also to check how many columns the dataframe has.

In [8]:
#get information on the metadata table

# Get the headers of each column
headers = df.columns.tolist()

# Print the column headers
for header in headers:
    print(header)

ID
Repositorium
Vorname Autor
Nachname Autor
Nationalität
Pseudonym/Anderer Name
Gesamtname Autor
Geburtsjahr
Sterbejahr
Autor:innengender
Titel
Dateiname
verwendetes Datum
Wörter
Typen
norm_year


We then print the content of the first 10 lines of the dataframe.

In [9]:
# show the first 10 lines of the data frame
df[:10]

Unnamed: 0,ID,Repositorium,Vorname Autor,Nachname Autor,Nationalität,Pseudonym/Anderer Name,Gesamtname Autor,Geburtsjahr,Sterbejahr,Autor:innengender,Titel,Dateiname,verwendetes Datum,Wörter,Typen,norm_year
0,1,gutenberg,Arthur,Achleitner,Deutschland,,Arthur Achleitner,1858.0,1927,male,Das Schloß im Moor,Achleitner_Arthur_Das_Schloss_im_Moor,1903,50886,9654,1903
1,2,gutenberg,Arthur,Achleitner,Deutschland,,Arthur Achleitner,1858.0,1927,male,Der Finanzer,Achleitner_Arthur_Der_Finanzer,1903,23933,5941,1903
2,3,gutenberg,Karl,Adolph,Österreich,,Karl Adolph,1869.0,1931,male,Haus Nummer 37,Adolph_Karl_Haus_Nummer,1908,102735,17038,1908
3,4,gutenberg,Karl,Adolph,Österreich,,Karl Adolph,1869.0,1931,male,Schackerl,Adolph_Karl_Schackerl,1912,39838,9266,1912
4,5,gutenberg,Karl,Adolph,Österreich,,Karl Adolph,1869.0,1931,male,Töchter,Adolph_Karl_Toechter,1914,87720,15569,1914
5,6,textgrid,Peter,Altenberg,Deutschland,,Peter Altenberg,1890.0,1960,male,Aus dem Tagebuche der edlen Miss Madrilene,Altenberg_Peter_Aus_dem_Tagebuche,1901,1879,769,1901
6,7,textgrid,Peter,Altenberg,Deutschland,,Peter Altenberg,1890.0,1960,male,Aus unseren Tränen wird Weisheit; aber aus eur...,Altenberg_Peter_Aus_unseren_Traenen,1908,1442,669,1908
7,8,textgrid,Peter,Altenberg,Deutschland,,Peter Altenberg,1890.0,1960,male,De Libertate,Altenberg_Peter_De_Libertate,1901,1310,654,1901
8,9,textgrid,Peter,Altenberg,Deutschland,,Peter Altenberg,1890.0,1960,male,Der Besuch,Altenberg_Peter_Der_Besuch,1896,1156,557,1896
9,10,textgrid,Peter,Altenberg,Deutschland,,Peter Altenberg,1890.0,1960,male,Der Hofmeister,Altenberg_Peter_Der_Hofmeister,1896,1280,585,1896


## Looking into the corpus texts
Now we want to look directly into the corpus by opening the folder with the plain text files and creating a dataframe out of the filename in the first column and the plain text of the file in the second column.

In [13]:
# Generate a corpus by loading all the txt files from the chosen directory 
# and list the names of the first 10 txt files 
corpus = os.listdir('../d-prose_1870-1920_V.2.0/')
corpus[:10]

['von_Wolzogen_Ernst_Vom_Peperl_und von andern_Raritaeten_Der_Raritaetenliabhaber.txt',
 'Ernst_Otto_Satiren_Die_Neunte_in_Kluetenbuettel.txt',
 'Anzengruber_Ludwig_Kalendergeschichten_Treff-Ass.txt',
 'Fontane_Theodor_Cecile.txt',
 'Scheerbart_Paul_Das_grosse_Licht_Die_Perlmutterstadt.txt',
 'Hollaender_Felix_Die_Briefe_des_Fraeulein.txt',
 'Heyse_Paul_Gegen_den_Strom.txt',
 'Federer_Heinrich_Umbrische_Reisegeschichtlein_San_Benedettos_Dornen.txt',
 'Groller_Balduin_Detektiv_Dagobert_Eine_teure_Depesche.txt',
 'von_Zobeltitz_Fedor_Das_Heiratsjahr.txt']

With the next cell, we ask for the number of corpus texts. 

In [14]:
# Print how many txt files are in the corpus
corpus_length = len(corpus)
print(corpus_length)

2511


We then create an empty dictionary and add the file name and the text of the document as columns to build a dataframe of two columns.

In [16]:
# Create an empty dictionary for preparation of the conversion of the txt-file-corpus to a data frame
empty_dictionary = {}

# Loop through the folder of documents to open and read each one
for document in corpus:
    with open('../d-prose_1870-1920_V.2.0/' + document, 'r', encoding = 'utf-8') as to_open:
         empty_dictionary[document] = to_open.read()

# Populate the data frame with two columns: file name and document text
d_prose_texts = (pd.DataFrame.from_dict(empty_dictionary, 
                                       orient = 'index')
                .reset_index().rename(index = str, 
                                      columns = {'index': 'file_name', 0: 'document_text'}))

In the next cell, we verify the content of the first 10 lines of the dataframe.

In [17]:
# show the first 10 lines of the data frame
d_prose_texts[:10]

Unnamed: 0,file_name,document_text
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,"Der Raritätenliabhaber\n\n»Ja, grüaß Eahna Got..."
1,Ernst_Otto_Satiren_Die_Neunte_in_Kluetenbuette...,Die Neunte in Klütenbüttel\n\nIn Klütenbüttel ...
2,Anzengruber_Ludwig_Kalendergeschichten_Treff-A...,"Treff-Aß\n\nGibt es ein Buch des Schicksals, s..."
3,Fontane_Theodor_Cecile.txt,Cécile\n\nErstes Kapitel\n\n»Thale. Zweiter…«\...
4,Scheerbart_Paul_Das_grosse_Licht_Die_Perlmutte...,Die Perlmutterstadt\n\nBekanntlich weilt der u...
5,Hollaender_Felix_Die_Briefe_des_Fraeulein.txt,"Die Briefe des Fräulein Brandt\n\nIserbaude, 7..."
6,Heyse_Paul_Gegen_den_Strom.txt,Gegen den Strom\n\nErstes Kapitel.\n\nEs war z...
7,Federer_Heinrich_Umbrische_Reisegeschichtlein_...,San Benedettos Dornen und San Francescos Rosen...
8,Groller_Balduin_Detektiv_Dagobert_Eine_teure_D...,Eine teure Depesche\n\nSie saßen wieder zu dri...
9,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.\n\nErstes Kapitel.\n\nIn welc...


In [18]:
# Get the headers of each column
headers_d_prose = d_prose_texts.columns.tolist()

# Print the column headers
for header in headers_d_prose:
    print(header)

file_name
document_text


In the next cell, we extract the title of the text by extracting the first line followed by two line breaks. This is possible because we know about the structure of the text that were manually prepared following that schema.

In [19]:
#extract the title of the text as a further column with metadata


# Define the regular expression pattern to extract the title followed by double line break \n\n
pattern = r'^(.*?)\n\n'

# Extract the first line and create a new 'titles' column
d_prose_texts['title'] = d_prose_texts['document_text'].str.extract(pattern, flags=re.DOTALL)

# Print the DataFrame to see the results
d_prose_texts[:10]


Unnamed: 0,file_name,document_text,titles
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,"Der Raritätenliabhaber\n\n»Ja, grüaß Eahna Got...",Der Raritätenliabhaber
1,Ernst_Otto_Satiren_Die_Neunte_in_Kluetenbuette...,Die Neunte in Klütenbüttel\n\nIn Klütenbüttel ...,Die Neunte in Klütenbüttel
2,Anzengruber_Ludwig_Kalendergeschichten_Treff-A...,"Treff-Aß\n\nGibt es ein Buch des Schicksals, s...",Treff-Aß
3,Fontane_Theodor_Cecile.txt,Cécile\n\nErstes Kapitel\n\n»Thale. Zweiter…«\...,Cécile
4,Scheerbart_Paul_Das_grosse_Licht_Die_Perlmutte...,Die Perlmutterstadt\n\nBekanntlich weilt der u...,Die Perlmutterstadt
5,Hollaender_Felix_Die_Briefe_des_Fraeulein.txt,"Die Briefe des Fräulein Brandt\n\nIserbaude, 7...",Die Briefe des Fräulein Brandt
6,Heyse_Paul_Gegen_den_Strom.txt,Gegen den Strom\n\nErstes Kapitel.\n\nEs war z...,Gegen den Strom
7,Federer_Heinrich_Umbrische_Reisegeschichtlein_...,San Benedettos Dornen und San Francescos Rosen...,San Benedettos Dornen und San Francescos Rosen
8,Groller_Balduin_Detektiv_Dagobert_Eine_teure_D...,Eine teure Depesche\n\nSie saßen wieder zu dri...,Eine teure Depesche
9,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.\n\nErstes Kapitel.\n\nIn welc...,Das Heiratsjahr.


You can see still some \n\n these are line breaks. You can use regular expressions to extract the first line as title of the text. And the file name contains the name of the author, but that is not as easy to extract. Better to be extracted from the metadata with a comparison of filename and filename indicated in metadata.

In the next cell, we do some basic text cleaning steps.

In [20]:
#create a new column
#use regular expressions to clean the plain text and store the cleaned text in a new column as a further layer of the text without deleting the original version
d_prose_texts['clean_text'] = d_prose_texts['document_text'].str.replace('\s+', ' ') # remove double white space
d_prose_texts['clean_text'] = d_prose_texts['clean_text'].str.replace('\n+', '\n') # remove double line break
d_prose_texts['clean_text'] = d_prose_texts['clean_text'].str.replace('&', 'and') # exchange & for 'and'



  d_prose_texts['clean_text'] = d_prose_texts['document_text'].str.replace('\s+', ' ') # remove double white space
  d_prose_texts['clean_text'] = d_prose_texts['clean_text'].str.replace('\n+', '\n') # remove double line break


In [21]:
# with this cell, we generate another column with the lower cased texts.
d_prose_texts['clean_text_lower'] = d_prose_texts['clean_text'].str.lower()

In [22]:
# show the first 10 lines of the data frame
d_prose_texts[:10]

Unnamed: 0,file_name,document_text,titles,clean_text,clean_text_lower
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,"Der Raritätenliabhaber\n\n»Ja, grüaß Eahna Got...",Der Raritätenliabhaber,"Der Raritätenliabhaber »Ja, grüaß Eahna Gott, ...","der raritätenliabhaber »ja, grüaß eahna gott, ..."
1,Ernst_Otto_Satiren_Die_Neunte_in_Kluetenbuette...,Die Neunte in Klütenbüttel\n\nIn Klütenbüttel ...,Die Neunte in Klütenbüttel,Die Neunte in Klütenbüttel In Klütenbüttel sol...,die neunte in klütenbüttel in klütenbüttel sol...
2,Anzengruber_Ludwig_Kalendergeschichten_Treff-A...,"Treff-Aß\n\nGibt es ein Buch des Schicksals, s...",Treff-Aß,"Treff-Aß Gibt es ein Buch des Schicksals, so k...","treff-aß gibt es ein buch des schicksals, so k..."
3,Fontane_Theodor_Cecile.txt,Cécile\n\nErstes Kapitel\n\n»Thale. Zweiter…«\...,Cécile,Cécile Erstes Kapitel »Thale. Zweiter…« »Letzt...,cécile erstes kapitel »thale. zweiter…« »letzt...
4,Scheerbart_Paul_Das_grosse_Licht_Die_Perlmutte...,Die Perlmutterstadt\n\nBekanntlich weilt der u...,Die Perlmutterstadt,Die Perlmutterstadt Bekanntlich weilt der ural...,die perlmutterstadt bekanntlich weilt der ural...
5,Hollaender_Felix_Die_Briefe_des_Fraeulein.txt,"Die Briefe des Fräulein Brandt\n\nIserbaude, 7...",Die Briefe des Fräulein Brandt,"Die Briefe des Fräulein Brandt Iserbaude, 7. J...","die briefe des fräulein brandt iserbaude, 7. j..."
6,Heyse_Paul_Gegen_den_Strom.txt,Gegen den Strom\n\nErstes Kapitel.\n\nEs war z...,Gegen den Strom,Gegen den Strom Erstes Kapitel. Es war zu Anfa...,gegen den strom erstes kapitel. es war zu anfa...
7,Federer_Heinrich_Umbrische_Reisegeschichtlein_...,San Benedettos Dornen und San Francescos Rosen...,San Benedettos Dornen und San Francescos Rosen,San Benedettos Dornen und San Francescos Rosen...,san benedettos dornen und san francescos rosen...
8,Groller_Balduin_Detektiv_Dagobert_Eine_teure_D...,Eine teure Depesche\n\nSie saßen wieder zu dri...,Eine teure Depesche,Eine teure Depesche Sie saßen wieder zu dritt ...,eine teure depesche sie saßen wieder zu dritt ...
9,von_Zobeltitz_Fedor_Das_Heiratsjahr.txt,Das Heiratsjahr.\n\nErstes Kapitel.\n\nIn welc...,Das Heiratsjahr.,Das Heiratsjahr. Erstes Kapitel. In welchem si...,das heiratsjahr. erstes kapitel. in welchem si...


Now we want to find out more about the texts in our corpus. 
For instance, we want to find out if there are letters in the corpus texts.

In [29]:
# with a simple regular expression, we look for "Brief" in the corpus
#d_prose_texts['clean_text'].str.extract(r'(liebe)')#[1]
#d_prose_texts['clean_text'].str.extract(r'(Brief[e]?)')#[1]
d_prose_texts['counter_brief_e'] = d_prose_texts['clean_text'].str.count(r'(Brief[e]?)')#[1]
#len(d_prose_texts['clean_text'])

In [134]:
import pandas as pd
import re
from nltk.tokenize import word_tokenize

# Load your corpus data into a DataFrame (assuming the corpus is in a CSV file)
#corpus_data = pd.read_csv('your_corpus_file.csv')

# Define a function to extract the desired text around the keyword
def extract_context_around_keyword(text, keyword, tokens_before, tokens_after):
    keyword_indices = [i for i, token in enumerate(text) if token == keyword]
    
    extracted_texts = []
    for keyword_index in keyword_indices:
        start_index = max(0, keyword_index - tokens_before)
        end_index = min(len(text), keyword_index + len(keyword) + tokens_after)
        extracted_text = ' '.join(text[start_index:end_index])
        extracted_texts.append(extracted_text)
    
    return extracted_texts

# Tokenize the 'clean_text' column and create a new column 'tokenized_text'
d_prose_texts['tokenized_text'] = d_prose_texts['clean_text'].apply(lambda x: word_tokenize(x, language='german'))

# Extract context around the keyword 'Brief'
tokens_before = 20
tokens_after = 50
keyword = 'Brief'
d_prose_texts['context_around_keyword'] = d_prose_texts['tokenized_text'].apply(lambda x: extract_context_around_keyword(x, keyword, tokens_before, tokens_after))

# Save the result to a new CSV file
d_prose_texts.to_csv('output_data_briefe.csv', index=False)


As the dataframe is to huge to have a look at comfortably, we copy the dataframe and limit it to the columns of our interest by deleting the columns we do not need.

In [33]:
#copy the dataframe
d_prose_brief_context = d_prose_texts

In [32]:
#delete the columns from the copy that we do not need or that need to much space
del d_prose_brief_context['tokenized_text']
del d_prose_brief_context['clean_text_lower']
del d_prose_brief_context['document_text']

Unnamed: 0,file_name,document_text,titles,clean_text,clean_text_lower,counter_brief_e
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,"Der Raritätenliabhaber\n\n»Ja, grüaß Eahna Got...",Der Raritätenliabhaber,"Der Raritätenliabhaber »Ja, grüaß Eahna Gott, ...","der raritätenliabhaber »ja, grüaß eahna gott, ...",0
1,Ernst_Otto_Satiren_Die_Neunte_in_Kluetenbuette...,Die Neunte in Klütenbüttel\n\nIn Klütenbüttel ...,Die Neunte in Klütenbüttel,Die Neunte in Klütenbüttel In Klütenbüttel sol...,die neunte in klütenbüttel in klütenbüttel sol...,0
2,Anzengruber_Ludwig_Kalendergeschichten_Treff-A...,"Treff-Aß\n\nGibt es ein Buch des Schicksals, s...",Treff-Aß,"Treff-Aß Gibt es ein Buch des Schicksals, so k...","treff-aß gibt es ein buch des schicksals, so k...",2
3,Fontane_Theodor_Cecile.txt,Cécile\n\nErstes Kapitel\n\n»Thale. Zweiter…«\...,Cécile,Cécile Erstes Kapitel »Thale. Zweiter…« »Letzt...,cécile erstes kapitel »thale. zweiter…« »letzt...,43
4,Scheerbart_Paul_Das_grosse_Licht_Die_Perlmutte...,Die Perlmutterstadt\n\nBekanntlich weilt der u...,Die Perlmutterstadt,Die Perlmutterstadt Bekanntlich weilt der ural...,die perlmutterstadt bekanntlich weilt der ural...,0
...,...,...,...,...,...,...
2506,Thoma_Ludwig_In_den_Ferien.txt,In den Ferien\n\nEs ist die große Vakanz gewes...,In den Ferien,"In den Ferien Es ist die große Vakanz gewesen,...","in den ferien es ist die große vakanz gewesen,...",1
2507,Loens_Hermann_Tiergeschichten_Die_Einwanderer.txt,Die Einwanderer\n\n»Eine dumme Geschichte das«...,Die Einwanderer,"Die Einwanderer »Eine dumme Geschichte das«, d...","die einwanderer »eine dumme geschichte das«, d...",0
2508,Spielhagen_Friedrich_Noblesse_oblige.txt,Noblesse oblige\n\nErstes Buch.\n\nErstes Kapi...,Noblesse oblige,Noblesse oblige Erstes Buch. Erstes Kapitel. D...,noblesse oblige erstes buch. erstes kapitel. d...,174
2509,Ganghofer_Ludwig_Fliegender_Sommer_Der_blinde_...,Der blinde Passagier\n\nWir hatten uns über da...,Der blinde Passagier,Der blinde Passagier Wir hatten uns über das u...,der blinde passagier wir hatten uns über das u...,0


In [34]:
#show small dataframe 
d_prose_brief_context

Unnamed: 0,file_name,document_text,titles,clean_text,clean_text_lower,counter_brief_e
0,von_Wolzogen_Ernst_Vom_Peperl_und von andern_R...,"Der Raritätenliabhaber\n\n»Ja, grüaß Eahna Got...",Der Raritätenliabhaber,"Der Raritätenliabhaber »Ja, grüaß Eahna Gott, ...","der raritätenliabhaber »ja, grüaß eahna gott, ...",0
1,Ernst_Otto_Satiren_Die_Neunte_in_Kluetenbuette...,Die Neunte in Klütenbüttel\n\nIn Klütenbüttel ...,Die Neunte in Klütenbüttel,Die Neunte in Klütenbüttel In Klütenbüttel sol...,die neunte in klütenbüttel in klütenbüttel sol...,0
2,Anzengruber_Ludwig_Kalendergeschichten_Treff-A...,"Treff-Aß\n\nGibt es ein Buch des Schicksals, s...",Treff-Aß,"Treff-Aß Gibt es ein Buch des Schicksals, so k...","treff-aß gibt es ein buch des schicksals, so k...",2
3,Fontane_Theodor_Cecile.txt,Cécile\n\nErstes Kapitel\n\n»Thale. Zweiter…«\...,Cécile,Cécile Erstes Kapitel »Thale. Zweiter…« »Letzt...,cécile erstes kapitel »thale. zweiter…« »letzt...,43
4,Scheerbart_Paul_Das_grosse_Licht_Die_Perlmutte...,Die Perlmutterstadt\n\nBekanntlich weilt der u...,Die Perlmutterstadt,Die Perlmutterstadt Bekanntlich weilt der ural...,die perlmutterstadt bekanntlich weilt der ural...,0
...,...,...,...,...,...,...
2506,Thoma_Ludwig_In_den_Ferien.txt,In den Ferien\n\nEs ist die große Vakanz gewes...,In den Ferien,"In den Ferien Es ist die große Vakanz gewesen,...","in den ferien es ist die große vakanz gewesen,...",1
2507,Loens_Hermann_Tiergeschichten_Die_Einwanderer.txt,Die Einwanderer\n\n»Eine dumme Geschichte das«...,Die Einwanderer,"Die Einwanderer »Eine dumme Geschichte das«, d...","die einwanderer »eine dumme geschichte das«, d...",0
2508,Spielhagen_Friedrich_Noblesse_oblige.txt,Noblesse oblige\n\nErstes Buch.\n\nErstes Kapi...,Noblesse oblige,Noblesse oblige Erstes Buch. Erstes Kapitel. D...,noblesse oblige erstes buch. erstes kapitel. d...,174
2509,Ganghofer_Ludwig_Fliegender_Sommer_Der_blinde_...,Der blinde Passagier\n\nWir hatten uns über da...,Der blinde Passagier,Der blinde Passagier Wir hatten uns über das u...,der blinde passagier wir hatten uns über das u...,0


In [None]:
#as the dataframe is still to huge, we segment it into segments of ca. 250 texts and save the dataframe segment to a new csv.file
d_prose_brief_context_2 = d_prose_brief_context[251:500]
d_prose_brief_context_2.to_csv('output_briefe_all_context_2.csv', index=False)

end of notebook 1