In [18]:
import os
import glob

import pandas as pd
from datasets import Dataset, load_from_disk

In [19]:
ds_paths = glob.glob("*-cleaned") 
ds_paths.sort()
ds_paths = ds_paths[1:] # ignore american stories for now

In [20]:
ds_paths

['dbnl-subset-cleaned',
 'delpher-subset-cleaned',
 'plakaatboeken-cleaned',
 'wikipedia-subset-cleaned']

In [21]:
datasets = [load_from_disk(x) for x in ds_paths]
datasets[0] = datasets[0].rename_columns({"Title": "Filename"}) # dbnl
datasets[1] = datasets[1].rename_columns({"Newspaper": "Filename"}) # delpher
datasets[2] = datasets[2].rename_columns({"Book": "Filename"}) # plakaatboek
datasets[3] = datasets[3].rename_columns({"Topic": "Filename"}) # wikipedia

In [22]:
subset_ds = [x.select_columns(["Year", "Filename", "CleanedText"]) for x in datasets]
sources = [x.split('-')[0] for x in ds_paths]

In [23]:
new_dataset = pd.DataFrame()

for source, subset in zip(sources, subset_ds):
    df = subset.to_pandas()
    df["Source"] = [source]*len(df)
    df["ID"] = [source+str(i) for i in range(len(df))]
    print(f"On source: {source}")
    new_dataset = pd.concat([new_dataset, df], ignore_index=True)

On source: dbnl
On source: delpher
On source: plakaatboeken
On source: wikipedia


In [24]:
new_dataset["SourceCountry"] = ["NL"]*len(new_dataset)
new_dataset["SourceCountry"] = ["NL"]*len(new_dataset)
new_dataset["SourceLang"] = ["nl"]*len(new_dataset)
new_dataset["CurrentLang"] = ["nl"]*len(new_dataset)

Create two datasets: one with text and information, one with metadata

df 1 columns: source, id, cleaned_text, 
df 2 columns: id, filename, source_country, source_language, current_language, translated?, topic, year(published) 

In [25]:
new_ds = Dataset.from_pandas(new_dataset)
ds1 = new_ds.select_columns(["Source", "ID", "CleanedText"])
ds2 = new_ds.select_columns(["ID", "Filename", "SourceCountry", "SourceLang", "CurrentLang", "Year"])
ds1.save_to_disk("all-texts")
ds2.save_to_disk("all-metadata")
# TODO: add the topic column using the topic model
print(ds1, ds2)

Saving the dataset (0/1 shards):   0%|          | 0/125540 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/125540 [00:00<?, ? examples/s]

Dataset({
    features: ['Source', 'ID', 'CleanedText'],
    num_rows: 125540
}) Dataset({
    features: ['ID', 'Filename', 'SourceCountry', 'SourceLang', 'CurrentLang', 'Year'],
    num_rows: 125540
})


In [26]:
ds1[2]['CleanedText']

"1672 en 1673, in Uw Vaderland gepleegd, te leeren kennen; en heeft men aan U de Franschen van dezen tijd, als veel edeler en navolgenswaardiger Wezens, dan hunne Voorzaten, op allerhande wijzen, tragten te doen voorkomen; Gij zult in dit Boekje, bij een vlijtig en opmerkzaam gebruik, overreed kunnen worden, dat de Laatsten nog oneindig slegter en godlozer gehandeld hebben, dan de Eersten.  Spoort U dit nu aan tot dankbaarheid aan God, voor de Verlossing van der Franschen Tijrannij, en tot ijver in het volbrengen der plichten, die Gij aan God, aan het Vaderland, en aan het Huis van Oranje verschuldigd zijt; Gij zult daar uit het bedoelde nut trekken, en volkomen beantwoorden aan het oogmerk van Uwen heil toebiddenden Vriend, {== afbeelding ==} {>>afbeelding<<} Geene Exemplaren zijn echt, dan die op bovenstaande wijze gestempeld zijn. Eerste en voorbereidende Zamenspraak. Zoon. Lieve Vader! Ik moet U uit naam van mijnen Onderwijzer een verzoek doen, dat mij regt aangenaam zijn zal, wann

In [31]:
ds1 = load_from_disk("all-texts")

In [32]:
ds1["ID"]

['dbnl0',
 'dbnl1',
 'dbnl2',
 'dbnl3',
 'dbnl4',
 'dbnl5',
 'dbnl6',
 'dbnl7',
 'dbnl8',
 'dbnl9',
 'dbnl10',
 'dbnl11',
 'dbnl12',
 'dbnl13',
 'dbnl14',
 'dbnl15',
 'dbnl16',
 'dbnl17',
 'dbnl18',
 'dbnl19',
 'dbnl20',
 'dbnl21',
 'dbnl22',
 'dbnl23',
 'dbnl24',
 'dbnl25',
 'dbnl26',
 'dbnl27',
 'dbnl28',
 'dbnl29',
 'dbnl30',
 'dbnl31',
 'dbnl32',
 'dbnl33',
 'dbnl34',
 'dbnl35',
 'dbnl36',
 'dbnl37',
 'dbnl38',
 'dbnl39',
 'dbnl40',
 'dbnl41',
 'dbnl42',
 'dbnl43',
 'dbnl44',
 'dbnl45',
 'dbnl46',
 'dbnl47',
 'dbnl48',
 'dbnl49',
 'dbnl50',
 'dbnl51',
 'dbnl52',
 'dbnl53',
 'dbnl54',
 'dbnl55',
 'dbnl56',
 'dbnl57',
 'dbnl58',
 'dbnl59',
 'dbnl60',
 'dbnl61',
 'dbnl62',
 'dbnl63',
 'dbnl64',
 'dbnl65',
 'dbnl66',
 'dbnl67',
 'dbnl68',
 'dbnl69',
 'dbnl70',
 'dbnl71',
 'dbnl72',
 'dbnl73',
 'dbnl74',
 'dbnl75',
 'dbnl76',
 'dbnl77',
 'dbnl78',
 'dbnl79',
 'dbnl80',
 'dbnl81',
 'dbnl82',
 'dbnl83',
 'dbnl84',
 'dbnl85',
 'dbnl86',
 'dbnl87',
 'dbnl88',
 'dbnl89',
 'dbnl90',
 'dbnl91'