# Metadata

Loads and cleans the Metadata from Compact Memory

In [1]:
# for the sake of readability remove the warnings
import warnings

warnings.filterwarnings('ignore')

### Bibliotheken importieren

In [2]:
import pandas as pd
import numpy as np

## Metadaten laden
Die Daten werden aus der Datei `CM_Seiten_Metadaten.csv` geladen.
Alle Metadaten finden sich in dem Ordner `metadata`.
Die Spalten sollten mit den richtigen Datentypen geladen werden.

In [3]:
# Specify the desired data types for each column
dtype_options = {
    'VLID_Seite': 'Int64',
    'OT_PATH': 'str',
    'VLID_Zs': 'Int64',
    'VLID_Parent': 'Int64',
    'Parent Knotentyp': 'str',
    'Parent-Type': 'str',
    'Zs_Caption': 'str',
    'Volume_Caption': 'str',
    'Heft_Caption': 'str',
    'Aufsatz_Caption': 'str',
    'Datum': 'str',  # You'll need to parse this as date later
    'Seite (OT_SORT)': 'Int64',
    'Seite_Caption': 'str',
    'Seitenzahl_Caption': 'str'
}
# Load the CSV file with dtype parameter
df_metadata = pd.read_csv("metadata/CM_Seiten_Metadaten.csv", sep="\t", dtype=dtype_options, parse_dates=['Datum'])

## Statistiken über die Metadaten  
Hier erst einmal die Statistiken zu den Metadaten.

In [4]:
df_metadata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 918165 entries, 0 to 918164
Data columns (total 14 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   VLID_Seite          918165 non-null  Int64 
 1   OT_PATH             918165 non-null  object
 2   VLID_Zs             918165 non-null  Int64 
 3   VLID_Parent         918165 non-null  Int64 
 4   Parent Knotentyp    918165 non-null  object
 5   Parent-Type         918165 non-null  object
 6   Zs_Caption          918165 non-null  object
 7   Volume_Caption      918164 non-null  object
 8   Heft_Caption        823773 non-null  object
 9   Aufsatz_Caption     163772 non-null  object
 10  Datum               918165 non-null  object
 11  Seite (OT_SORT)     918165 non-null  Int64 
 12  Seite_Caption       584763 non-null  object
 13  Seitenzahl_Caption  814735 non-null  object
dtypes: Int64(4), object(10)
memory usage: 101.6+ MB


In [5]:
df_metadata.describe()

Unnamed: 0,VLID_Seite,VLID_Zs,VLID_Parent,Seite (OT_SORT)
count,918165.0,918165.0,918165.0,918165.0
mean,3742243.0,3748121.0,4144832.0,27.944801
std,1904469.0,1972278.0,2329042.0,94.073622
min,52598.0,52596.0,177657.0,1.0
25%,2617876.0,2583875.0,2626174.0,4.0
50%,3050373.0,3020846.0,3054014.0,8.0
75%,3980816.0,4782723.0,5449731.0,16.0
max,10976100.0,11014680.0,11014790.0,3888.0


In [6]:
df_metadata.head()

Unnamed: 0,VLID_Seite,OT_PATH,VLID_Zs,VLID_Parent,Parent Knotentyp,Parent-Type,Zs_Caption,Volume_Caption,Heft_Caption,Aufsatz_Caption,Datum,Seite (OT_SORT),Seite_Caption,Seitenzahl_Caption
0,52598,|52596||9443938||52598|,52596,9443938,Metadaten,journal volume,... Bericht ueber den Verein für die Provinz W...,8 (1835),,,1835-01-01,1,[Seite],
1,52599,|52596||9443938||52599|,52596,9443938,Metadaten,journal volume,... Bericht ueber den Verein für die Provinz W...,8 (1835),,,1835-01-01,2,[Seite],
2,52600,|52596||9443938||52600|,52596,9443938,Metadaten,journal volume,... Bericht ueber den Verein für die Provinz W...,8 (1835),,,1835-01-01,3,[Seite],
3,52601,|52596||9443938||52601|,52596,9443938,Metadaten,journal volume,... Bericht ueber den Verein für die Provinz W...,8 (1835),,,1835-01-01,4,Seite 4,4.0
4,52602,|52596||9443938||52602|,52596,9443938,Metadaten,journal volume,... Bericht ueber den Verein für die Provinz W...,8 (1835),,,1835-01-01,5,Seite 5,5.0


In [7]:
df_metadata.tail()

Unnamed: 0,VLID_Seite,OT_PATH,VLID_Zs,VLID_Parent,Parent Knotentyp,Parent-Type,Zs_Caption,Volume_Caption,Heft_Caption,Aufsatz_Caption,Datum,Seite (OT_SORT),Seite_Caption,Seitenzahl_Caption
918160,1958923,|11014679||11014793||1958923|,11014679,11014793,Metadaten,journal volume,Séance du comité de direction du ...,1914,,,1914-01-01,47,Seite 45,45.0
918161,1958924,|11014679||11014793||1958924|,11014679,11014793,Metadaten,journal volume,Séance du comité de direction du ...,1914,,,1914-01-01,48,[Seite],
918162,1958925,|11014679||11014793||1958925|,11014679,11014793,Metadaten,journal volume,Séance du comité de direction du ...,1914,,,1914-01-01,49,[Seite],
918163,1958926,|11014679||11014793||1958926|,11014679,11014793,Metadaten,journal volume,Séance du comité de direction du ...,1914,,,1914-01-01,50,[Seite],
918164,1958927,|11014679||11014793||1958927|,11014679,11014793,Metadaten,journal volume,Séance du comité de direction du ...,1914,,,1914-01-01,51,[Seite],


In [8]:
df_metadata.sample(5)

Unnamed: 0,VLID_Seite,OT_PATH,VLID_Zs,VLID_Parent,Parent Knotentyp,Parent-Type,Zs_Caption,Volume_Caption,Heft_Caption,Aufsatz_Caption,Datum,Seite (OT_SORT),Seite_Caption,Seitenzahl_Caption
912844,10749445,|10719318||10749704||10749445|,10719318,10749704,Metadaten,journal volume,Aḥiasaf,3 (1895/6),,,1895-01-01,253,Seite 431,431
916731,10768923,|10719318||10772218||10768923|,10719318,10772218,Metadaten,journal volume,Aḥiasaf,11 (1903/4),,,1903-01-01,471,Seite 458,458
88583,2408815,|2379786||2379939||2379948||2408665||2408815|,2379786,2408665,Metadaten,article,Palästina,8 (1835),Heft 8 (August 1936),Probleme der Jugendverwahrlosung in Palästina,1936-08-01,2,Seite 398,398
626376,3342840,|3315709||3316186||3316199||3342840|,3315709,3316199,Metadaten,journal issue,Die Welt,8 (1835),12 (23.3.1906),,1906-03-23,8,,(null)
804061,5367722,|5367336||6488242||5991011||5367722|,5367336,5991011,Metadaten,journal issue,Das jüdische Literaturblatt,8 (1835),No. 12. (23.3.1881),,1881-03-23,4,Seite 48,48


In [9]:
df_metadata.corr()

Unnamed: 0,VLID_Seite,VLID_Zs,VLID_Parent,Seite (OT_SORT)
VLID_Seite,1.0,0.891214,0.840641,0.121274
VLID_Zs,0.891214,1.0,0.813594,0.109924
VLID_Parent,0.840641,0.813594,1.0,0.09955
Seite (OT_SORT),0.121274,0.109924,0.09955,1.0


In [10]:
df_metadata.shape

(918165, 14)

## Beispiel für die Metadaten
Damit können wir die Spalten und die Werte in den Metadaten sehen um die Daten besser zu verstehen.

In [11]:
df_metadata.sample(5)

Unnamed: 0,VLID_Seite,OT_PATH,VLID_Zs,VLID_Parent,Parent Knotentyp,Parent-Type,Zs_Caption,Volume_Caption,Heft_Caption,Aufsatz_Caption,Datum,Seite (OT_SORT),Seite_Caption,Seitenzahl_Caption
293683,2679589,|2651273||2653156||2653183||2679589|,2651273,2653183,Metadaten,journal issue,Jüdische Rundschau,8 (1835),Heft 27 (4.4.1930),,1930-04-04,1,,(null)
560381,3239966,|3224737||3225606||3225611||3239966|,3224737,3225611,Metadaten,journal issue,Allgemeine Zeitung des Judenthums,8 (1835),Heft 4 (22.1.1849),,1849-01-22,7,Seite 51,51
210009,2562114,|2554541||2554813||2554816||2562114|,2554541,2554816,Metadaten,journal issue,Dibre Emeth,8 (1835),3-4 (1874),,1874-01-01,15,,(null)
492496,3068133,|3062972||3063062||3063098||3068133|,3062972,3063098,Metadaten,journal issue,Die Wahrheit,8 (1835),Heft 36 (13.9.1901),,1901-09-13,2,,(null)
136759,2479951,|2446951||2448122||2448159||2479951|,2446951,2448159,Metadaten,journal issue,Der Israelit,8 (1835),Heft 39-40 (20.5.1891),,1891-05-20,10,,(null)


## Die Spalten der Metadaten anzeigen

In [12]:
df_metadata.columns

Index(['VLID_Seite', 'OT_PATH', 'VLID_Zs', 'VLID_Parent', 'Parent Knotentyp',
       'Parent-Type', 'Zs_Caption', 'Volume_Caption', 'Heft_Caption',
       'Aufsatz_Caption', 'Datum', 'Seite (OT_SORT)', 'Seite_Caption',
       'Seitenzahl_Caption'],
      dtype='object')

## Bereinigung der Metadaten

Unnötige Spalten entfernen. Wir benötigen die Informationen zu den Dateien und den Seiten nicht. Diese dienen nur zur Verknüpfung der Metadaten mit den Texten der einzelnen Artikel und Seiten, ist aber für die Analyse nicht relevant.

Das sind: VLID_Seite, OT_PATH, VLID_Zs, VLID_Parent, Parent Knotentyp, Parent-Type, Heft_Caption, Aufsatz_Caption, Seite (OT_SORT), Seite_Caption, Seitenzahl_Caption

Anmerkung: VLID steht für Verlagslösungs-ID, OT für Online-Titelsuche, Zs für Zeitschrift, Heft für Ausgabe, Aufsatz für Artikel, Seite für Seite


In [13]:
df_metadata.drop(columns=['VLID_Seite', 'OT_PATH', 'VLID_Zs', 'VLID_Parent', 'Parent Knotentyp', 'Parent-Type', 'Seite (OT_SORT)', 'Aufsatz_Caption', 'Seite_Caption', 'Seitenzahl_Caption'], axis=1, inplace=True)

### Testen ob die Spalten entfernt wurden

In [14]:
df_metadata.head()

Unnamed: 0,Zs_Caption,Volume_Caption,Heft_Caption,Datum
0,... Bericht ueber den Verein für die Provinz W...,8 (1835),,1835-01-01
1,... Bericht ueber den Verein für die Provinz W...,8 (1835),,1835-01-01
2,... Bericht ueber den Verein für die Provinz W...,8 (1835),,1835-01-01
3,... Bericht ueber den Verein für die Provinz W...,8 (1835),,1835-01-01
4,... Bericht ueber den Verein für die Provinz W...,8 (1835),,1835-01-01


In [15]:
df_metadata.sample(5)

Unnamed: 0,Zs_Caption,Volume_Caption,Heft_Caption,Datum
850613,Boletín informativo de la Sociedad Cultural Is...,8 (1835),"6 (Junio, 1967)",1967-06-01
680594,Jüdischer Bote vom Rhein,8 (1835),152 (28.4.1922),1922-04-28
431469,Wiener Morgenzeitung,8 (1835),Heft 357 (19.1.1920),1920-01-19
114684,Der Israelit,8 (1835),Heft 3 (16.1.1861),1861-01-16
792620,Der Schild,8 (1835),9 (8.5.1930),1930-05-08


In [16]:
df_metadata.columns

Index(['Zs_Caption', 'Volume_Caption', 'Heft_Caption', 'Datum'], dtype='object')

### Liste aller Zeitschriften

Anzahl der Zeitschriften ausgeben lassen und die Liste aller Zeitschriften.

In [17]:
len(df_metadata['Zs_Caption'].unique())

308

In [18]:
df_metadata['Zs_Caption'].unique()

array(['... Bericht ueber den Verein für die Provinz Westfalen zur Bildung von Elementar-Lehrern und Befoerderung von Handwerken und Kuensten unter den Juden',
       'Führer durch die jüdische Gemeindeverwaltung und Wohlfahrtspflege in Deutschland',
       'Sechzehnter Bericht über die Religionsschule der jüdischen Gemeinde, womit zu der Sonntag den 26. März in dem Hörsaale der jüdischen Knaben-Schule ... öffentlichen Prüfung ... einladet',
       '... Bericht ueber den Verein für Westfalen und Rheinprovinz zur Bildung von Elementar-Lehrern und Befoerderung von Handwerken und Kuensten unter den Juden',
       "... Verwaltungsbericht des Haupt-Grenz-Comité's zu Königsberg i. Pr. für Beseitigung der Nothstände unter den Israeliten West-Rußlands",
       'Führer durch die jüdische Wohlfahrtspflege in Deutschland',
       'Bericht der Isr. Religionsschule zu Kiel',
       'Actes et conférences de la Société des Études Juives',
       'Jüdischer Almanach', 'Österreichisch-ungarische Cantor

## Duplikate entfernen
Durch die Spalte ZS-Caption sieht man, dass einige Zeitschriften mehrfach vorkommen. Diese Duplikate müssen entfernt werden.

Es kommen dann immer noch die Zeitschriften mehrfach vor aber mit unterschiedlichen Heft- und Volumenangaben. Das ist in Ordnung, da es sich um unterschiedliche Ausgaben handelt.

In [19]:
cols_to_check = ['Zs_Caption', 'Volume_Caption', 'Heft_Caption', 'Datum']

# Remove duplicates from specific columns
df_metadata = df_metadata.drop_duplicates(subset=cols_to_check)

In [20]:
df_metadata.shape[0]

55300

In [21]:
df_metadata.sample(5)

Unnamed: 0,Zs_Caption,Volume_Caption,Heft_Caption,Datum
764400,Handwerk und Gewerbe,8 (1835),1. u. 2. Oktober-Heft,1915-10-01
257374,Jüdische Presse,8 (1835),17 (23.4.1926),1926-04-23
776487,Der israelitische Lehrer,8 (1835),45 (5.10.1863),1863-10-05
740423,Die jüdische Presse,8 (1835),11 (18.3.1886),1886-01-01
100752,Neue Nationalzeitung,8 (1835),Heft 32 (14.8.1908),1908-08-14


### Show the dataframe

In [22]:
df_metadata

Unnamed: 0,Zs_Caption,Volume_Caption,Heft_Caption,Datum
0,... Bericht ueber den Verein für die Provinz W...,8 (1835),,1835-01-01
93,Führer durch die jüdische Gemeindeverwaltung u...,1932-33,,1932-01-01
687,Sechzehnter Bericht über die Religionsschule d...,0,,1871-01-01
724,... Bericht ueber den Verein für Westfalen und...,9 (1836),,1836-01-01
881,... Verwaltungsbericht des Haupt-Grenz-Comité'...,Erstes Semester 1870,,1870-01-01
...,...,...,...,...
917902,Séance du comité de direction du ...,1910,,1910-01-01
917948,Séance du comité de direction du ...,1911,,1911-01-01
918012,Séance du comité de direction du ...,1912,,1912-01-01
918068,Séance du comité de direction du ...,1913,,1913-01-01


So viele Zeitschriften sind dennoch mehrfach vorhanden.

In [23]:
# count duplicate rows in 'Zs_Caption'
df_metadata['Zs_Caption'].duplicated().sum()

54992

## Clean up the titles

Wir ersetzen die Zeichen `...` durch `*` und entfernen führende und abschließende Leerzeichen.
Die ... waren in den Titeln wohl Platzhalter für Datumsangaben, die nicht mehr vorhanden sind.
Durch das Ersetzen mit einer Wildcard können wir die Titel besser finden.

In [24]:
#df_metadata['Zs_Caption'] = df_metadata['Zs_Caption'].str.replace("\.\.\.", "*", regex=True)
df_metadata['Zs_Caption'] = df_metadata['Zs_Caption'].str.strip()

In [None]:
# remove all nan values
df_metadata = df_metadata.fillna("")
df_metadata = df_metadata.replace('nan', '')
df_metadata

# Bereinigung der Spalten

## Jahr aus Datum extrahieren

In [29]:
# take the Datum as datetime and extract the year
df_metadata['Datum'].replace({'0001-01-07': '1896-01-07'}, inplace=True) # ist ein Fehler in den Daten
df_metadata['Datum'] = pd.to_datetime(df_metadata['Datum'], errors='coerce')
df_metadata['Year'] = pd.to_numeric(df_metadata['Datum'].dt.year)
df_metadata.sample(5)

Unnamed: 0,Zs_Caption,Volume_Caption,Heft_Caption,Datum,Year
83759,Palästina,8 (1835),Heft 6-7,1927-01-01,1927.0
292149,Jüdische Rundschau,8 (1835),Heft 14 (17.2.1928),1928-02-17,1928.0
254381,Der treue Zionswächter,8 (1835),24 (15.6.1847),1847-06-15,1847.0
508578,Die Wahrheit,8 (1835),Heft 34 (19.8.1932),1932-08-19,1932.0
216822,Central-Verein-Zeitung,8 (1835),Heft 6 (Juni 1926),1926-06-01,1926.0


In [30]:
df_metadata

Unnamed: 0,Zs_Caption,Volume_Caption,Heft_Caption,Datum,Year
0,... Bericht ueber den Verein für die Provinz W...,8 (1835),,1835-01-01,1835.0
93,Führer durch die jüdische Gemeindeverwaltung u...,1932-33,,1932-01-01,1932.0
687,Sechzehnter Bericht über die Religionsschule d...,0,,1871-01-01,1871.0
724,... Bericht ueber den Verein für Westfalen und...,9 (1836),,1836-01-01,1836.0
881,... Verwaltungsbericht des Haupt-Grenz-Comité'...,Erstes Semester 1870,,1870-01-01,1870.0
...,...,...,...,...,...
917902,Séance du comité de direction du ...,1910,,1910-01-01,1910.0
917948,Séance du comité de direction du ...,1911,,1911-01-01,1911.0
918012,Séance du comité de direction du ...,1912,,1912-01-01,1912.0
918068,Séance du comité de direction du ...,1913,,1913-01-01,1913.0


## XXX Ausgabe der Zeitschriften

In [None]:
df_metadata['Volume_Caption'].unique().tolist()

In [None]:
# Convert 'Year' column to string for comparison
df_metadata['Year'] = df_metadata['Year'].astype(str)

# Initialize an empty list to store tuples of values and corresponding years
values_and_years_to_print = []

# Iterate over each row in the DataFrame
for index, row in df_metadata.iterrows():
    # Check if the year from 'Year' column is included in the 'Volume_Caption' column
    if row['Year'] not in row['Volume_Caption']:
        # If the year is not included, append a tuple of (value, year) to the list
        values_and_years_to_print.append((row['Volume_Caption'], row['Year']))

# Print the values and corresponding years
for value, year in values_and_years_to_print:
    print(f"Volume Caption: {value}, Year: {year}")



## XXX Ausgabe der Hefte

In [None]:
# list all unique values in 'Heft_Caption'
df_metadata['Heft_Caption'].unique().tolist()


In [None]:
# Extract the year from 'Heft_Caption' column
year_regex = r'(?:Heft \d{4}\D*)(\d{4})|\b(\d{4})\b'
extracted_years = df_metadata['Heft_Caption'].str.extract(year_regex)

# Apply lambda function to handle the extracted year values
df_metadata['Heft_Year'] = extracted_years.apply(lambda x: x[0] if not pd.isnull(x[0]) else x[1], axis=1)

df_metadata.sample(5)

## XXX Check if the years in 'Heft_Year' and 'Year' are different

In [None]:
# Check if 'Heft_Year' and 'Year' contain different values
#  Replace non-finite values in 'Year' with an empty string
df_metadata['Year'].fillna("", inplace=True)

# Convert 'Year' to string
df_metadata['Year'] = df_metadata['Year'].astype(str)
df_metadata['Heft_Year'] = df_metadata['Heft_Year'].astype(str)

# Check if 'Heft_Year' and 'Year' contain different values
different_values_mask = df_metadata['Heft_Year'] != df_metadata['Year']

# Print rows where the values are different
df_metadata[different_values_mask]


In [None]:
df_metadata['Year'].dtype

## Aggregation der Metadaten

Die Title werden zusammengeführt und die frühesten und spätesten Jahre und Daten ermittelt.
Lücken werden dabei nicht berücksichtigt.
Die Daten aus der ZDB sind auch nicht so detailiert, dass sie die einzelnen Ausgaben und Jahrgänge enthalten.

In [31]:
# Step 1: Create a new DataFrame with unique values from 'Zs_Caption'
unique_titles_df = pd.DataFrame(df_metadata['Zs_Caption'].unique(), columns=['Zs_Caption'])

# Step 2-4: Iterate over each unique title, find earliest and latest year, and store in a new DataFrame
result_rows = []
for title in unique_titles_df['Zs_Caption']:
    # Filter df_metadata for the current title
    title_metadata = df_metadata[df_metadata['Zs_Caption'] == title]
    # Find the earliest and latest year
    year_from = title_metadata['Year'].min()
    year_to = title_metadata['Year'].max()
    # Append the result as a new row
    result_rows.append({'Zs_Caption': title, 'Year_From': year_from, 'Year_To': year_to})

# Create a new DataFrame with the results
result_df = pd.DataFrame(result_rows)

# Convert string representations of "nan" to actual NaN values
result_df['Year_To'] = result_df['Year_To'].replace('nan', np.nan)

# Replace NaN values and missing values in 'Year_To' with the corresponding values from 'Year_From'
result_df['Year_To'].fillna(result_df['Year_From'], inplace=True)

result_df['Year_From'] = pd.to_numeric(result_df['Year_From'], errors='coerce').fillna(0).astype(int)
result_df['Year_To'] = pd.to_numeric(result_df['Year_To'], errors='coerce').fillna(0).astype(int)

# Print the resulting DataFrame
result_df

Unnamed: 0,Zs_Caption,Year_From,Year_To
0,... Bericht ueber den Verein für die Provinz W...,1835,1835
1,Führer durch die jüdische Gemeindeverwaltung u...,1932,1932
2,Sechzehnter Bericht über die Religionsschule d...,1871,1871
3,... Bericht ueber den Verein für Westfalen und...,1836,1836
4,... Verwaltungsbericht des Haupt-Grenz-Comité'...,1870,1870
...,...,...,...
303,Illustrirter jüdischer Familienkalender,1881,1907
304,Jahresbericht der Jugendgruppe (begründet von ...,1913,1913
305,Jüdisches Gemeindeblatt für den Verband der Ku...,1937,1938
306,Aḥiasaf,1893,1922


In [32]:
# Iterate over each unique title in the 'Zs_Caption' column
for title in unique_titles_df['Zs_Caption']:
    # Filter df_metadata for the current title
    title_metadata = df_metadata[df_metadata['Zs_Caption'] == title]
    # Find the earliest and latest date
    date_from = title_metadata['Datum'].min()
    date_to = title_metadata['Datum'].max()
    # Append the result as a new row to the existing results_df
    result_df = result_df.append({'Zs_Caption': title, 'Date_From': date_from, 'Date_To': date_to}, ignore_index=True)

# Step 5: Replace NaN values in 'Date_To' with values from 'Date_From'
result_df['Date_To'].fillna(result_df['Date_From'], inplace=True)

# Step 6: Convert 'Date_From' and 'Date_To' to datetime
result_df['Date_From'] = pd.to_datetime(result_df['Date_From'])
result_df['Date_To'] = pd.to_datetime(result_df['Date_To'])

# Print the resulting DataFrame
result_df


Unnamed: 0,Zs_Caption,Year_From,Year_To,Date_From,Date_To
0,... Bericht ueber den Verein für die Provinz W...,1835.0,1835.0,NaT,NaT
1,Führer durch die jüdische Gemeindeverwaltung u...,1932.0,1932.0,NaT,NaT
2,Sechzehnter Bericht über die Religionsschule d...,1871.0,1871.0,NaT,NaT
3,... Bericht ueber den Verein für Westfalen und...,1836.0,1836.0,NaT,NaT
4,... Verwaltungsbericht des Haupt-Grenz-Comité'...,1870.0,1870.0,NaT,NaT
...,...,...,...,...,...
611,Illustrirter jüdischer Familienkalender,,,1881-01-01,1907-01-01
612,Jahresbericht der Jugendgruppe (begründet von ...,,,1913-01-01,1913-01-01
613,Jüdisches Gemeindeblatt für den Verband der Ku...,,,1937-08-01,1938-11-01
614,Aḥiasaf,,,1893-01-01,1922-01-01


In [33]:
# Merge unique_titles_df with df_metadata to get dates for each Zs_Caption
merged_df = pd.merge(unique_titles_df, df_metadata[['Zs_Caption', 'Datum']], on='Zs_Caption', how='left')

# Group by Zs_Caption and aggregate to find the earliest and latest dates
aggregated_df = merged_df.groupby('Zs_Caption').agg(Date_From=('Datum', 'min'), Date_To=('Datum', 'max')).reset_index()

# Replace NaN values in 'Date_To' with values from 'Date_From'
aggregated_df['Date_To'].fillna(aggregated_df['Date_From'], inplace=True)

# Convert 'Date_From' and 'Date_To' to datetime
aggregated_df['Date_From'] = pd.to_datetime(aggregated_df['Date_From'])
aggregated_df['Date_To'] = pd.to_datetime(aggregated_df['Date_To'])

# Update result_df with the aggregated dates
result_df.update(aggregated_df)

# Print the resulting DataFrame
result_df

Unnamed: 0,Zs_Caption,Year_From,Year_To,Date_From,Date_To
0,... Bericht der Jüdischen Haushaltungsschule z...,1835.0,1835.0,1821-01-01,1910-01-01
1,... Bericht ueber den Verein für Westfalen und...,1932.0,1932.0,1836-01-01,1836-01-01
2,... Bericht ueber den Verein für die Provinz W...,1871.0,1871.0,1835-01-01,1835-01-01
3,... Jahresbericht der Israelitischen Waisenans...,1836.0,1836.0,1915-01-01,1917-01-01
4,... Jahresbericht der Jüdischen Frauenvereinig...,1870.0,1870.0,1855-01-01,1922-01-01
...,...,...,...,...,...
611,Illustrirter jüdischer Familienkalender,,,1881-01-01,1907-01-01
612,Jahresbericht der Jugendgruppe (begründet von ...,,,1913-01-01,1913-01-01
613,Jüdisches Gemeindeblatt für den Verband der Ku...,,,1937-08-01,1938-11-01
614,Aḥiasaf,,,1893-01-01,1922-01-01


### Löschen von NaN-Werten

In [None]:
df_metadata = df_metadata.fillna("")
df_metadata = df_metadata.replace('nan', '')

result_df = result_df.fillna("")
result_df = result_df.replace('nan', '')



## Speichern der aggregierten Metadaten

In [34]:
result_df.to_csv("metadata/CM_Seiten_Metadaten_aggregated.csv", sep="\t", index=False)

# Save the cleaned metadata

In [None]:
df_metadata.to_csv("metadata/CM_Seiten_Metadaten_cleaned.csv", sep="\t", index=False)

### Speichern der Zeitschriftentitel in einer Textdatei

In [None]:
with open("metadata/journal_titles.txt", "w") as f:
    for title in df_metadata['Zs_Caption'].unique():
        # remove leading and trailing whitespaces
        title = title.strip()
        f.write(f"{title}\n")
