In [1]:
%load_ext autoreload
%autoreload 2
# for development



In [2]:
import os
import pandas as pd
import numpy as np
from collections import defaultdict

In [3]:
# as recommended in the pandas documentation
# pd.options.mode.copy_on_write = True

In [4]:
from data_definitions import *
# coll, common_tables, ids, nids, content_cols, cols, uniq_per_table, tblregister

In [5]:
from help_functions import * 
# sup, deldupids, my_conv, try_padding, makedate_from_givendate, get_unique_lower, case_insensitive_unique_list, replace_ids


## steps

1. get old tables from mysql database (this could be substituted with filesystem). Note: there are different databases for each period
2. which tables are common to different databases (they do not all contain the same tables)
3. which id columns and which content columns do the tables contain (once again, not all original databases are exactly the same)
4. merge common tables and deduplicate references 
5. dump this intermediate result to disk
6. transformations of the persoon table (checking ids, deduplicate, normalizing dates)
7. transformations of the aanstellingen table (same as step 6)
8. id reference transformations



In [6]:
# step 2
transposed_graph = defaultdict(list)
for node, neighbours in coll.items():
    for neighbour in neighbours:
        transposed_graph[neighbour].append(node)


In [7]:
common_tables

['AcademischeTitel',
 'AdellijkeTitel',
 'aliassen',
 'Bron',
 'BronRegentDetails',
 'College',
 'Functie',
 'FunctieBovenLokaal',
 'FunctieLokaal',
 'lokaal',
 'provinciaal',
 'Regent',
 'regionaal',
 'stand',
 'BovenLokaalCollegeRegentDetails']

In [8]:
import json
with open('connection.json','r') as infl:
    con = json.load(infl)
    
connection_string = con['raa_old']

In [9]:
table_dict = defaultdict(dict)
for table in common_tables:
    for periode in transposed_graph[table]:
        periode = periode.strip().replace(' ', '_')
        tname = '_'.join([periode, table]).strip()
        print(f"getting {tname}")
        dftable = pd.read_sql_table(con=connection_string, table_name=tname)
        dftable = dftable.rename(columns={c:c.lower() for c in dftable.columns})
        dftable.reset_index(inplace=True)
        if table.lower() in replacements:
            targettable = replacements[table.lower()]
        else:
            targettable = table.lower()
        print(f"adding {table.lower()} to {periode} as {targettable}")
        table_dict[periode][targettable] = dftable

getting batfra_AcademischeTitel
adding academischetitel to batfra as academischetitel
getting negentiende_eeuw_AcademischeTitel
adding academischetitel to negentiende_eeuw as academischetitel
getting me_AcademischeTitel
adding academischetitel to me as academischetitel
getting divperioden_AcademischeTitel
adding academischetitel to divperioden as academischetitel
getting republiek_AcademischeTitel
adding academischetitel to republiek as academischetitel
getting batfra_AdellijkeTitel
adding adellijketitel to batfra as adellijketitel
getting negentiende_eeuw_AdellijkeTitel
adding adellijketitel to negentiende_eeuw as adellijketitel
getting me_AdellijkeTitel
adding adellijketitel to me as adellijketitel
getting divperioden_AdellijkeTitel
adding adellijketitel to divperioden as adellijketitel
getting republiek_AdellijkeTitel
adding adellijketitel to republiek as adellijketitel
getting batfra_aliassen
adding aliassen to batfra as aliassen
getting negentiende_eeuw_aliassen
adding aliassen to

In [10]:
common_tables = [replacements.get(t.lower()) or t.lower() for t in common_tables]

In [11]:
for tbl in common_tables:
    for key in table_dict.keys():
        if tbl in table_dict[key].keys():
            addtbl = table_dict[key][tbl]
        else:
            print (f"no {tbl} in {key}")

no functiebovenlokaal in negentiende_eeuw


In [12]:
tblregister

{'persoon': {'id': 'persoon_id',
  'old_id': 'old_idregent',
  'uniq': 'persoon_id',
  'reftables': {'academischetitel': 'old_idacademischetitel',
   'adellijketitel': 'old_idadellijketitel'},
  'is_reference': False,
  'oldids': ['IDRegent', 'IDAdellijkeTitel', 'IDAcademischeTitel']},
 'aliassen': {'id': 'alias_id',
  'old_id': None,
  'uniq': 'alias',
  'reftables': {'persoon': 'old_idpersoon'},
  'is_reference': False,
  'oldids': ['IDPersoon']},
 'bronregentdetails': {'id': 'bronrd_id',
  'old_id': None,
  'uniq': 'deel_en_paginanummer',
  'reftables': {'bron': 'old_idbron', 'persoon': 'old_idregent'},
  'is_reference': False,
  'oldids': ['IDRegent', 'IDBron']},
 'aanstelling': {'id': 'aanstelling_id',
  'old_id': None,
  'uniq': 'id',
  'reftables': {'college': 'old_idcollege',
   'functie': 'old_idfunctie',
   'lokaal': 'old_lokaal',
   'provinciaal': 'old_provinciaal',
   'regionaal': 'old_regio',
   'stand': 'old_stand',
   'persoon': 'old_idregent'},
  'is_reference': False,


In [13]:
nids

{'persoon': ['idregent', 'idadellijketitel', 'idacademischetitel'],
 'aliassen': ['idpersoon'],
 'bronregentdetails': ['idregent', 'idbron'],
 'aanstelling': ['id',
  'idregent',
  'idfunctie',
  'idcollege',
  'lokaal',
  'provinciaal',
  'regio',
  'stand',
  'vertegenwoordigend'],
 'academischetitel': ['idacademischetitel'],
 'adellijketitel': ['idadellijketitel'],
 'bron': ['idbron'],
 'college': ['idcollege', 'id'],
 'functie': ['idfunctie', 'id'],
 'functiebovenlokaal': ['id functiebovenlokaal'],
 'functielokaal': ['id functielokaal'],
 'lokaal': ['idlokaal'],
 'provinciaal': ['idprovincie'],
 'regionaal': ['idregio', 'idregio'],
 'stand': ['idstand']}

In [14]:
# step 4: join tables
# joined means merged as in making one table from different tables
# we first change the ids and reference ids to old ids and add the table origin to the id

idmappings = defaultdict(list)
raw_joined_tables = {}
for tbl in common_tables:
    for key in table_dict.keys():
        try:
            if tbl in table_dict[key].keys():
                addtbl = table_dict[key][tbl]
                assert len(addtbl) > 0
            else:
                print (f"no {tbl} in {key}")
            try:
                for idnr in tblregister[tbl]['oldids']:
                    idnr = idnr.lower()
                    addtbl[f'old_{idnr}'] = addtbl[idnr].astype(pd.Int64Dtype()).apply(lambda x: f"{key}_{x}")
                    idmappings[f'old_{idnr}'].append(tbl)
            except (KeyError, TypeError):
                print (f"no {idnr} on {tbl} in {key}")
            if tbl in replacements:
                ntbl = replacements[tbl]
            else:
                ntbl = tbl
            if tbl in raw_joined_tables.keys():
                print(f"joining {key}, {tbl}")
                raw_joined_tables[ntbl] = pd.concat([raw_joined_tables[tbl],addtbl])
            else:
                raw_joined_tables[ntbl] = addtbl
        except AssertionError:
            print(f'skipping {key}-{tbl} because it contains no values')
            # joined_tables[tbl].reset_index(inplace=True, drop=True)

joining negentiende_eeuw, academischetitel
joining me, academischetitel
joining divperioden, academischetitel
joining republiek, academischetitel
joining negentiende_eeuw, adellijketitel
joining me, adellijketitel
joining divperioden, adellijketitel
joining republiek, adellijketitel
joining negentiende_eeuw, aliassen
joining me, aliassen
joining divperioden, aliassen
joining republiek, aliassen
joining negentiende_eeuw, bron
joining me, bron


joining divperioden, bron
joining republiek, bron
joining negentiende_eeuw, bronregentdetails
joining me, bronregentdetails
joining divperioden, bronregentdetails
joining republiek, bronregentdetails
joining negentiende_eeuw, college
joining me, college
joining divperioden, college
joining republiek, college
joining negentiende_eeuw, functie
joining me, functie
joining divperioden, functie
joining republiek, functie
skipping batfra-functiebovenlokaal because it contains no values
no functiebovenlokaal in negentiende_eeuw
skipping me-functiebovenlokaal because it contains no values
skipping divperioden-functiebovenlokaal because it contains no values
joining republiek, functiebovenlokaal
joining negentiende_eeuw, functielokaal
skipping me-functielokaal because it contains no values
skipping divperioden-functielokaal because it contains no values
joining republiek, functielokaal
joining negentiende_eeuw, lokaal
joining me, lokaal
joining divperioden, lokaal
joining republiek, lokaal
join

In [15]:
nids =  {k.lower():[x.lower() for x in v.get('oldids') or []] for k,v in tblregister.items()}

In [16]:
# step 4: deduplicate common tables

joined_tables = {}
for tablename in common_tables:
    if tablename in replacements:
       tablename = replacements[tablename]
    tbl = raw_joined_tables[tablename]
    val_column = tblregister[tablename].get('uniq') or ''
    id_cols = nids[tablename]
    try:
        idc = [i for i in id_cols if i.find(val_column)>-1][0]
    except (IndexError, KeyError):
        # a bit of a lame fallback for the aliassen table
        idc = id_cols[0]
    oldidc = f'old_{idc}'
    if val_column in tbl.columns and tablename not in list(replacements.keys())+['aliassen','bronregentdetails']:
        dedup = deldupids(tbl, val_column, oldidc)
        r = dedup
    else:
        r = tbl
    joined_tables[tablename] = r
    # newid_mappings[tablename] = make_idmapping(r, val_column, oldidc)
    # else:
    #     print('fout', tablename, tbl.columns, oldidc)
    

In [17]:
# step 4a: add aanstelling and person tables to joined_tables 
# and we remove old tables from the dictionary, just to be sure

joined_tables['aanstelling'] = raw_joined_tables.pop('aanstelling')
joined_tables['persoon'] = raw_joined_tables.pop('persoon')

In [18]:
# step 5: dump the joined tables to disk
# note these tables are still not cleaned up

ids = nids # to keep things confused

try:
    os.makedirs(outdir)
except FileExistsError:
    pass
for key in joined_tables.keys():
    dfout = joined_tables[key]
    dfout.to_csv(os.path.join(outdir, key + '.csv'))
    

In [19]:
# step 6: transformations of the persoon table
# we still need to set a new id on regent 
persoon = joined_tables['persoon']
persoon["persoon_id"] = persoon.index + 1 
persoon.reset_index(inplace=True, drop=True)


In [20]:
# step 6: check if ids are duplicated
persoon.old_idregent.value_counts().sort_values(ascending=False)

batfra_1426              1
batfra_1294              1
batfra_1759              1
negentiende_eeuw_2918    1
republiek_4147           1
                        ..
republiek_321            1
batfra_1867              1
negentiende_eeuw_6159    1
negentiende_eeuw_6657    1
negentiende_eeuw_3660    1
Name: old_idregent, Length: 15775, dtype: int64

In [21]:
joined_tables['aanstelling'].columns

Index(['index', 'id', 'periode', 'idregent', 'idfunctie', 'idcollege',
       'begindag', 'beginmaand', 'beginjaar', 'einddag', 'eindmaand',
       'eindjaar', 'vertegenwoordigend', 'provinciaal', 'opmerkingen', 'stand',
       'lokaal', 'regio', 'old_id', 'old_idregent', 'old_idfunctie',
       'old_idcollege', 'old_lokaal', 'old_provinciaal', 'old_regio',
       'old_stand', 'old_vertegenwoordigend'],
      dtype='object')

In [22]:
cols = ['geboortejaar','geslachtsnaam', 'heerlijkheid',
       'overlijdensjaar', 'overlijdensmaand',
       'tussenvoegsel','voornaam']

In [23]:
# step 6: remove duplicates
duplicates = persoon.loc[(persoon[cols].duplicated(keep=False))].sort_values('geslachtsnaam')

In [24]:
# step 6 remove duplicates
xx = duplicates.merge(duplicates, left_on=cols,right_on=cols, suffixes=('l', 's'))

In [25]:
# step 6: there are duplicate ids that have to be cleaned up
keypairs = xx.loc[xx.idregentl != xx.idregents][['idregentl' ,'idregents']]
dup = persoon.loc[persoon.duplicated(cols)]
zz = keypairs.loc[keypairs.idregentl.isin(dup.idregent)]


In [26]:
# step 6: continue cleaning up
persoon[cols].drop_duplicates(inplace=True)
persoon.reset_index(drop=True, inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  persoon[cols].drop_duplicates(inplace=True)


In [27]:
# step 6: more person table cleaning up 
# (the NAs appear as NA in the resulting web representation)


persoon.heerlijkheid.fillna('', inplace=True)
persoon.heerlijkheid2.fillna('', inplace=True)
persoon.heerlijkheid = persoon.apply(lambda x: x.heerlijkheid + ' en ' + x.heerlijkheid2  if x.heerlijkheid2 !='' else x.heerlijkheid, axis=1)

# step 6: normalize dates
# we replace overlijdensjaar with ? as last digit with 9
# that is the only real edit, all other non-standard date elements are replaced
persoon.overlijdensjaar.replace('?','9', inplace=True)

# step 6: more normalizing dates
for j in ["geboortedag", "geboortemaand", "geboortejaar", 
          "overlijdensdag", "overlijdensmaand", "overlijdensjaar"]:
    persoon[j] = pd.to_numeric(persoon[j], errors="coerce")

# step 6: there is a lot of dates that need to be normalized
persoon["geboortedatum_als_bekend"] = persoon.apply(lambda x: '-'.join([try_padding(d) for d in [
                        x.geboortedag, x.geboortemaand, x.geboortejaar ] if d and not np.isnan(d)]),
                        axis=1)

# the d==d is a workaround for all None and NaN, as they are the only items that have no identity
persoon["overlijdensdatum_als_bekend"] = persoon.apply(lambda x: '-'.join([try_padding(d) for d in [
                        x.overlijdensdag, x.overlijdensmaand, x.overlijdensjaar ] if d and d==d]),
                        axis=1)


# step 6: date normalizing
persoon["geboortedatum"] = persoon.geboortedatum_als_bekend.apply(lambda x: makedate_from_givendate(x,start=True))
persoon["overlijdensdatum"] = persoon.overlijdensdatum_als_bekend.apply(lambda x: makedate_from_givendate(x,start=False))



In [28]:
# step 6 NaN filling for some fields
persoon.tussenvoegsel.fillna('', inplace=True)
persoon.geslachtsnaam.fillna('', inplace=True) # gross
persoon['searchable'] = persoon[["tussenvoegsel", "geslachtsnaam"]].apply(lambda x: ' '.join(x), axis=1).str.strip()


In [29]:
# step 6: test for birth dates
persoon[['geboortedatum_als_bekend', 'geboortedatum']].sample(25)

Unnamed: 0,geboortedatum_als_bekend,geboortedatum
4881,19-07-1775,1775-07-19
14992,,
9292,1646,1646-01-01
11538,,
747,,
6953,,
12009,,
14401,1588,1588-01-01
4427,28-02-1797,1797-02-28
4473,,


In [30]:
# step 6: we add this to the joined_tables
persoon.reset_index(drop=True, inplace=True)
joined_tables['persoon'] = persoon
#regent.searchable

In [31]:
persoon.rename(columns={'id_regent':'persoon_id'},inplace=True)

In [32]:
# step 7: transformations of aanstelling table 
aanstelling = joined_tables['aanstelling']

In [33]:
# step 7: cleaning up strange dates with technical brute force

# we tried to do this with more heuristics, but in the end we just edit out faulty stuff as we do not know
# what to make of it anyway
for d in ['begindag', 'beginmaand', 'beginjaar', 'einddag','eindmaand','eindjaar']:
    try:
        #blcrd[d] = blcrd[d].str.replace(r'[^0-9]+','',regex=True)
        #blcrd[d] = blcrd[d].str.replace(r'[\)\<\-\?\/\>]|Jaco|Duve|Leid|Clee|Will|Krus','',regex=True)
        aanstelling[d] = pd.to_numeric(aanstelling[d], errors='coerce') # this automatically kicks out mistakes in dates
    except AttributeError:
        pass

In [34]:
# step 7: another round of date mangling for aanstelling table
aanstelling["van_als_bekend"] = aanstelling.apply(lambda x: '-'.join([try_padding(d) for d in [
                        x.begindag, x.beginmaand, x.beginjaar ] if d and not np.isnan(d)]),
                        axis=1)

aanstelling["tot_als_bekend"] = aanstelling.apply(lambda x: '-'.join([try_padding(d) for d in [
                        x.einddag, x.eindmaand, x.eindjaar] if d and d==d]),
                        axis=1)

In [35]:
# step 7: renaming
for item in ['van', 'tot']:
    if item == 'tot':
        start = False
    else:
        start=True
    aanstelling[item] = aanstelling[f"{item}_als_bekend"].apply(lambda x: makedate_from_givendate(x,start=start))
    aanstelling[item] = aanstelling[item].astype(str)
   

In [36]:
# step 7: add to joined_tables 

joined_tables['aanstelling'] = aanstelling

## reference replacement

- gegeven een tbl met daarin titel, titelid, oude titel willen we hebben unieke titel, unieke id, referentie naar oude titel
- dus idealiter oude titel  -> nieuwe id, nieuwe titel
- daarom moeten we  unieke lijst van titels hebben
- daaruit genereren we een unieke lijst van titels + id
- we voegen die dan toe aan de tabel waarin die titel wordt gerefereerd

In [37]:
# step 8: 
# we have a number of tables that are referenced

idmappings = {i:list(set(idmappings[i])) for i in idmappings.keys()}
#idmappings

In [38]:
idmappings

{'old_idacademischetitel': ['persoon', 'academischetitel'],
 'old_idadellijketitel': ['persoon', 'adellijketitel'],
 'old_idpersoon': ['aliassen'],
 'old_idbron': ['bron', 'bronregentdetails'],
 'old_idregent': ['persoon', 'bronregentdetails', 'aanstelling'],
 'old_idcollege': ['aanstelling', 'college'],
 'old_id': ['aanstelling', 'functie', 'college'],
 'old_idfunctie': ['functie', 'aanstelling'],
 'old_id functiebovenlokaal': ['functiebovenlokaal'],
 'old_id functielokaal': ['functielokaal'],
 'old_idlokaal': ['lokaal'],
 'old_idprovincie': ['provinciaal'],
 'old_idregio': ['regionaal'],
 'old_idstand': ['stand'],
 'old_lokaal': ['aanstelling'],
 'old_provinciaal': ['aanstelling'],
 'old_regio': ['aanstelling'],
 'old_stand': ['aanstelling'],
 'old_vertegenwoordigend': ['aanstelling']}

In [39]:
# reverse map the ids and references we have to change
graph=idmappings
transposed_graph = defaultdict(list)
for node, neighbours in graph.items():
    for neighbour in neighbours:
        transposed_graph[neighbour.lower()].append(node.lower())
#transposed_graph

In [40]:
tblregister

{'persoon': {'id': 'persoon_id',
  'old_id': 'old_idregent',
  'uniq': 'persoon_id',
  'reftables': {'academischetitel': 'old_idacademischetitel',
   'adellijketitel': 'old_idadellijketitel'},
  'is_reference': False,
  'oldids': ['IDRegent', 'IDAdellijkeTitel', 'IDAcademischeTitel']},
 'aliassen': {'id': 'alias_id',
  'old_id': None,
  'uniq': 'alias',
  'reftables': {'persoon': 'old_idpersoon'},
  'is_reference': False,
  'oldids': ['IDPersoon']},
 'bronregentdetails': {'id': 'bronrd_id',
  'old_id': None,
  'uniq': 'deel_en_paginanummer',
  'reftables': {'bron': 'old_idbron', 'persoon': 'old_idregent'},
  'is_reference': False,
  'oldids': ['IDRegent', 'IDBron']},
 'aanstelling': {'id': 'aanstelling_id',
  'old_id': None,
  'uniq': 'id',
  'reftables': {'college': 'old_idcollege',
   'functie': 'old_idfunctie',
   'lokaal': 'old_lokaal',
   'provinciaal': 'old_provinciaal',
   'regionaal': 'old_regio',
   'stand': 'old_stand',
   'persoon': 'old_idregent'},
  'is_reference': False,


In [41]:
reftables = [t for t in tblregister if tblregister[t]['is_reference'] is True]
list(set(reftables))

['regionaal',
 'adellijketitel',
 'academischetitel',
 'provinciaal',
 'bron',
 'stand',
 'functiebovenlokaal',
 'functielokaal',
 'functie',
 'college',
 'lokaal']

In [42]:
# this function now converts selected columns like function and titles to lowercase 

clean_references = {}


In [43]:
references = {}
for tbln in tblregister: 
    print(f"working on {tbln}")
    uniqcolumn = tblregister[tbln]['uniq'], 
    old_id_column = tblregister[tbln]['old_id']
    if tbln in reftables:
        updated_table = get_unique_lower(tbln, joined_tables, tblregister)
        ntbl = updated_table['newtable']
        ntbl.reset_index(inplace=True, drop=True)
        references[tbln] = ntbl
    else:
        ntbl = joined_tables[tbln]
        uniqcolumn = tblregister[tbln]['id']
    if not old_id_column:
        ntbl.rename(columns={'index':f"{tbln}_id"}, inplace=True)
    try:
        if tblregister[tbln]['is_reference'] is False:
            clref = make_idmapping(ntbl, old_id_column=old_id_column, is_nested=False)
        else:
            clref = make_idmapping(ntbl, old_id_column=old_id_column, is_nested=True)
    except TypeError: 
        clref = alt_idmapping(ntbl, val_column=uniqcolumn, old_id_column=old_id_column)
    except KeyError:
        pass
    clean_references[tbln] = clref    
    print (f"updated {tbln}")
    


working on persoon
updated persoon
working on aliassen
updated aliassen
working on bronregentdetails


updated bronregentdetails
working on aanstelling
updated aanstelling
working on academischetitel
updated academischetitel
working on adellijketitel
updated adellijketitel
working on bron
updated bron
working on college
updated college
working on functie
updated functie
working on functiebovenlokaal
updated functiebovenlokaal
working on functielokaal
updated functielokaal
working on lokaal
updated lokaal
working on provinciaal
updated provinciaal
working on regionaal
updated regionaal
working on stand
updated stand


In [44]:
# all tables with references have to be updated
updatetables = [t for t in tblregister if 'reftables' in tblregister[t]]

In [45]:
references['adellijketitel']

Unnamed: 0,adellijketitel,id,adellijketitel_id,old_idadellijketitel
0,baron,1,1,"[batfra_3, negentiende_eeuw_9, me_2, divperiod..."
1,baron (Empire),2,2,[batfra_10]
2,burggraaf,3,3,"[negentiende_eeuw_8, me_7, republiek_10]"
3,comte (Empire),4,4,"[batfra_9, negentiende_eeuw_11]"
4,comte (d'Empire),5,5,[republiek_9]
5,duc (Empire),6,6,[batfra_11]
6,graaf,7,7,"[batfra_4, negentiende_eeuw_7, me_3, divperiod..."
7,hertog,8,8,"[negentiende_eeuw_5, me_4]"
8,knaap,9,9,[me_8]
9,markgraaf,10,10,[me_9]


In [46]:
nwetabellen = {}
worktable = None
for tbln in tblregister:
    if tbln in updatetables:
        worktable = references.get(tbln)
        updated_reference_columns = {}
        if worktable is None:
            worktable = joined_tables[tbln]
        for reference in tblregister[tbln]['reftables'].keys():
            referencecolumn = tblregister[tbln]['reftables'][reference]
            workreference = clean_references.get(reference)
            if workreference is not None:
                column = tblregister[tbln]['reftables'][reference] #['id']
                uniqcolumn = tblregister[reference]['uniq']
                # print(templ.substitute(tbln=tbln, referencecolumn=referencecolumn, reference=reference, column=column, uniqcolumn=uniqcolumn))
                columnlist = list(worktable.columns)+[f'{reference}_id']
                maptable = clean_references[reference]
                mapped_table = worktable[column].map(maptable)
                # worktable[f'{reference}_id'] = mapped_table
                try:
                    print(f'updating {tbln} with {reference}')
                    worktable[f'{reference}_id'] = mapped_table
                    worktable = worktable.copy()
                    # worktable[f'{reference}_id'] = worktable[column].map(maptable)
                    # worktable = worktable.merge(workreference[[column, f'{rtbl}_id']], left_on=referencecolumn, right_on=column, how='left')
                    mclist = [c for c in columnlist if c in worktable.columns]
                    updatedworktable = worktable[mclist]
                except KeyError:
                    print(f'could not update {tbln} with {column}', worktable.columns)
            if reference not in nwetabellen.keys():
                nwetabellen[reference] = references[reference]
            worktable = updatedworktable
            worktable.reset_index(drop=True, inplace=True)
        nwetabellen[tbln] = worktable
        print('nwetabellen updated with ', tbln)
    else:
        nwetabellen[tbln] = references[tbln]

# we need to fix some more

updating persoon with academischetitel
updating persoon with adellijketitel
nwetabellen updated with  persoon
updating aliassen with persoon
nwetabellen updated with  aliassen
updating bronregentdetails with bron
updating bronregentdetails with persoon
nwetabellen updated with  bronregentdetails
updating aanstelling with college
updating aanstelling with functie
updating aanstelling with lokaal
updating aanstelling with provinciaal
updating aanstelling with regionaal
updating aanstelling with stand
updating aanstelling with persoon
nwetabellen updated with  aanstelling


In [47]:
for tbl in nwetabellen:
    idnm = f'{tbl}_id'
    if idnm not in nwetabellen[tbl].columns:
        nwetabellen[tbl].reset_index(inplace=True, drop=True)
        nwetabellen[tbl][idnm] = nwetabellen[tbl].index

In [48]:
aanstelling = nwetabellen['aanstelling']
persoon = nwetabellen['persoon']

In [49]:
patchtbl = idmappings['old_idregent']
# idmappings

In [51]:
# a bit of checking. If the values in the two tables are different this throws an assertion error
compr = aanstelling.persoon_id.value_counts() == nwetabellen['aanstelling'].persoon_id.value_counts()
assert(len(compr.loc[~compr])==0)

In [52]:
#some renaming to be sure
persoon = nwetabellen['persoon']
persoon.rename(columns={
        'heerlijkheid':'heerlijkheid',
        'voornaam':'voornaam',
        'tussenvoegsel':'tussenvoegsel',
        'geslachtsnaam':'geslachtsnaam',
        'searchable_geslachtsnaam':'searchable',
        'geboortedatum':'geboortedatum',
        'geboortedatum_als_bekend':'geboortedatum_als_bekend',
        'geboorteplaats':'geboorteplaats',
        'doopjaar':'doopjaar',
        'overlijdensdatum':'overlijdensdatum',
        'overlijdensdatum_als_bekend':'overlijdensdatum_als_bekend',
        'overlijdensplaats':'overlijdensplaats',
        'adellijketitel_id':'adellijketitel_id',
        'academischetitel_id':'academischetitel_id',
        'opmerkingen':'opmerkingen',
        }, inplace=True)
nwetabellen['persoon'] = persoon

In [53]:
persoon.columns

Index(['index', 'idregent', 'geslachtsnaam', 'tussenvoegsel',
       'idadellijketitel', 'idacademischetitel', 'voornaam', 'adel',
       'adelspredikaat', 'heerlijkheid', 'heerlijkheid2', 'geboortejaar',
       'onbepaaldgeboortedatum', 'overlijdensjaar',
       'onbepaaldoverlijdensdatum', 'opmerkingen', 'periode', 'eindcontrole',
       'old_idregent', 'old_idadellijketitel', 'old_idacademischetitel',
       'geboortedag', 'geboortemaand', 'doopjaar', 'geboorteplaats',
       'overlijdensdag', 'overlijdensmaand', 'overlijdensplaats', 'tempid',
       'opmerkingen2', 'persoon_id', 'geboortedatum_als_bekend',
       'overlijdensdatum_als_bekend', 'geboortedatum', 'overlijdensdatum',
       'searchable', 'academischetitel_id', 'adellijketitel_id'],
      dtype='object')

In [54]:
#some more renaming to be sure
aanstelling = nwetabellen['aanstelling']
aanstelling.rename(columns={'id': 'id',
 'begindag': 'begindag',
 'beginjaar': 'beginjaar',
 'beginmaand': 'beginmaand',
 'einddag': 'einddag',
 'eindjaar': 'eindjaar',
 'eindmaand': 'eindmaand',
 #'idcollege': 'idcollege',
 #'idfunctie': 'idfunctie',
 #'idregent': 'idregent',
 #'index': 'index',
 #'lokaal': 'lokaal',
 #'old_id': 'old_id',
 'old_idcollege': 'old_idcollege',
 'old_idfunctie': 'old_idfunctie',
 'old_idregent': 'old_idregent',
 'old_lokaal': 'old_lokaal',
 'old_provinciaal': 'old_provinciaal',
 'old_regio': 'old_regio',
 'old_stand': 'old_stand',
 'old_vertegenwoordigend': 'old_vertegenwoordigend',
 'opmerkingen': 'opmerkingen',
 'periode': 'periode',
 'vertegenwoordigend': 'vertegenwoordigend',
 'college_id': 'college_id',
 'functie_id': 'functie_id',
 'lokaal_id': 'lokaal_id',
 'provinciaal_id': 'provincie_id',
 'regionaal_id': 'regio_id',
 'stand_id': 'stand_id',
 'persoon_id': 'persoon_id'}, inplace=True)
nwetabellen['aanstelling'] = aanstelling

In [198]:
pmap = {'me':1,'republiek_':1,'batfra_':2,'negentiende_eeuw_':3,'divperioden_':4}
for t in nwetabellen:
    table = nwetabellen[t]
    oldcols = [c for c in table if 'old_' in c]
    if len(oldcols)>0:
        for i in range(5):
            table[i]=0
        table = table.copy()
        for x in oldcols:
            np.where()

academischetitel ['old_idacademischetitel']
adellijketitel ['old_idadellijketitel']
persoon ['old_idregent', 'old_idadellijketitel', 'old_idacademischetitel']
aliassen ['old_idpersoon']
bron ['old_idbron']
bronregentdetails ['old_idregent', 'old_idbron']
college ['old_idcollege']
functie ['old_idfunctie']
lokaal ['old_idlokaal']
provinciaal ['old_idprovincie']
regionaal ['old_idregio']
stand ['old_idstand']
aanstelling ['old_id', 'old_idregent', 'old_idfunctie', 'old_idcollege', 'old_lokaal', 'old_provinciaal', 'old_regio', 'old_stand', 'old_vertegenwoordigend']
functiebovenlokaal ['old_id functiebovenlokaal']
functielokaal ['old_id functielokaal']


In [200]:
nwetabellen['persoon']['old_idacademischetitel'].value_counts()

republiek_7              2360
batfra_1                 2252
republiek_4              2225
republiek_<NA>           2090
negentiende_eeuw_<NA>    1702
negentiende_eeuw_2       1604
divperioden_1             740
batfra_4                  596
me_1                      446
negentiende_eeuw_1        380
batfra_0                  302
republiek_3               260
divperioden_4             251
me_3                      208
me_2                       90
negentiende_eeuw_3         61
batfra_3                   60
me_5                       34
divperioden_3              31
negentiende_eeuw_4         27
negentiende_eeuw_6          9
republiek_6                 8
batfra_<NA>                 6
batfra_6                    5
negentiende_eeuw_8          5
me_6                        4
batfra_9                    4
batfra_5                    3
negentiende_eeuw_5          3
negentiende_eeuw_7          3
batfra_7                    2
negentiende_eeuw_10         1
batfra_10                   1
negentiend

In [55]:
aanstelling.columns

Index(['aanstelling_id', 'id', 'periode', 'idregent', 'idfunctie', 'idcollege',
       'begindag', 'beginmaand', 'beginjaar', 'einddag', 'eindmaand',
       'eindjaar', 'vertegenwoordigend', 'provinciaal', 'opmerkingen', 'stand',
       'lokaal', 'regio', 'old_id', 'old_idregent', 'old_idfunctie',
       'old_idcollege', 'old_lokaal', 'old_provinciaal', 'old_regio',
       'old_stand', 'old_vertegenwoordigend', 'van_als_bekend',
       'tot_als_bekend', 'van', 'tot', 'college_id', 'functie_id', 'lokaal_id',
       'provincie_id', 'regio_id', 'stand_id', 'persoon_id'],
      dtype='object')

In [56]:
exporttabellen = {'academischetitel':'academische_titel', 
                  'adellijketitel':'adellijke_titel', 
                  'aliassen':'alias', 
                  'bron':'bron', 
                  'bronregentdetails':'bron_details', 
                  'college':'instelling', 
                  'functie':'functie', 
                  'lokaal':'lokaal', 
                  'provinciaal':'provincie', 
                  'regionaal':'regio', 
                  'stand':'stand',
                  'gewest':'gewest',
                  'aanstelling':'aanstelling',
                  'persoon':'persoon'}

In [57]:
# pandas cannot handle period in to_sql so we convert it to text

for column in ['geboortedatum', 'overlijdensdatum']:
    persoon[column] = persoon[column].astype('str')
    persoon[column] = persoon[column].apply(lambda x: 'Null' if isinstance(x, str) and x in ['','NaT','Null','None'] else x)
    
for column in ['van', 'tot']:
    #aanstelling[column] = aanstelling[column].fillna(0)
    aanstelling[column] = aanstelling[column].astype('str')
    aanstelling[column] = aanstelling[column].apply(lambda x: 'Null' if isinstance(x, str) and x in ['','NaT','Null','None'] else x)

In [58]:
#another check
assert(len(aanstelling.loc[aanstelling.tot == 'None'])==0)

In [59]:
college = joined_tables['college']
toe_dir = './original/brondata/Republiek/Institutionele toelichtingen Republiek/'
fllst = os.listdir(toe_dir)
college['toelichting'] = ''

In [60]:
from bs4 import BeautifulSoup
clgs = {}
for item in fllst:
    nm = os.path.splitext(item)[0]
    knm = nm.split('(')[0].strip()
    # print(nm)
    with open(os.path.join(toe_dir,item),encoding='latin1') as infl:
        htmlsource = BeautifulSoup(infl, 'html.parser')
        toelichting = htmlsource('body')[0].renderContents().strip()
        clgs[nm] = toelichting
        clgs[knm] = toelichting # not nice, but some names appear with and others without years

In [61]:
college['toelichting'] = college.college.map(clgs)

In [62]:
college.loc[college.toelichting.notna()]

Unnamed: 0,college_id,college,old_idcollege,toelichting
4,4,Admiraliteit in Friesland (1596-1795),"[divperioden_6, republiek_34]","b""<h3>Institutionele toelichting Admiraliteit ..."
5,5,Admiraliteit in Zeeland (1584-1795),[republiek_32],b'<h3>Institutionele toelichting Admiraliteit ...
6,6,Admiraliteit in het Noorderkwartier (1589-1795),"[divperioden_48, republiek_33]","b""<h3>Institutionele toelichting Admiraliteit ..."
7,7,Admiraliteit op de Maze (1586-1795),"[divperioden_45, republiek_30]",b'<h3>Institutionele toelichting Admiraliteit ...
8,8,Admiraliteit te Amsterdam (1586-1795),"[divperioden_7, republiek_31]","b""<h3>Institutionele toelichting Admiraliteit ..."
31,31,College van Superintendentie der Admiralteit (...,"[divperioden_8, republiek_130]","b""<h3>Institutionele toelichting College van S..."
164,164,Gecommitteerde Raden van Holland in het Noorde...,[republiek_8],"b""<h3>Institutionele toelichting Gecommitteerd..."
165,165,Gecommitteerde Raden van Holland in het Zuider...,[republiek_7],b'<h3>Institutionele toelichting Gecommitteerd...
166,166,Gecommitteerde Raden van Zeeland (1578-1795),[republiek_14],"b""<h3>Institutionele toelichting Gecommitteerd..."
169,169,Gedeputeerde Staten van Friesland (1577-1795),"[divperioden_5, republiek_19]","b""<h3>Institutionele toelichting Gedeputeerde ..."


In [63]:
college['toelichting']

0                                                    NaN
1                                                    NaN
2                                                    NaN
3                                                    NaN
4      b"<h3>Institutionele toelichting Admiraliteit ...
                             ...                        
523                                                  NaN
524                                                  NaN
525                                                  NaN
526                                                  NaN
527                                                  NaN
Name: toelichting, Length: 528, dtype: object

In [64]:
college.loc[college.toelichting!='']

Unnamed: 0,college_id,college,old_idcollege,toelichting
0,0,Administrateurs de la Loterie Impériale de France,[batfra_269],
1,1,Administrateurs der Posterijen,[batfra_250],
2,2,Administration Générale des Poudres et Salpêtres,[batfra_173],
3,3,Administration des Monnaies,[batfra_203],
4,4,Admiraliteit in Friesland (1596-1795),"[divperioden_6, republiek_34]","b""<h3>Institutionele toelichting Admiraliteit ..."
...,...,...,...,...
523,523,WIC ter Kamer van het Noorderkwartier,[republiek_44],
524,524,Wetgevend Lichaam van het Bataafse Gemenebest ...,[batfra_80],
525,525,"Wetgevend Lichaam, Vergadering van Hun Hoog Mo...",[batfra_243],
526,526,"Wetgevend Lichaam, Vergadering van Hun Hoog Mo...",[batfra_78],


In [65]:
# for tbl in nwetabellen.keys():
#     if tbl in clean_references.keys():
#         nwetabellen[tbl] = clean_references[tbl]

In [111]:
nwetabellen['aanstelling'].columns

Index(['aanstelling_id', 'id', 'periode', 'idregent', 'idfunctie', 'idcollege',
       'begindag', 'beginmaand', 'beginjaar', 'einddag', 'eindmaand',
       'eindjaar', 'vertegenwoordigend', 'provinciaal', 'opmerkingen', 'stand',
       'lokaal', 'regio', 'old_id', 'old_idregent', 'old_idfunctie',
       'old_idcollege', 'old_lokaal', 'old_provinciaal', 'old_regio',
       'old_stand', 'old_vertegenwoordigend', 'van_als_bekend',
       'tot_als_bekend', 'van', 'tot', 'college_id', 'functie_id', 'lokaal_id',
       'provincie_id', 'regio_id', 'stand_id', 'persoon_id'],
      dtype='object')

In [176]:
# and a bit of name cleanup
columnmaps={
"academischetitel": {
    'academischetitel':'naam',
    # 'old_idacademischetitel':'old_idacademischetitel',
    'academischetitel_id':'id',
    'id':'id'},

"adellijketitel": {
    'adellijketitel':'naam',
    # 'old_idadellijketitel':'old_idadellijketitel',
    'adellijketitel_id':'id',
    'id':'id'},

"aliassen": {
    'alias':'naam',
    # 'old_idpersoon':'old_idpersoon',
    'regent_id':'persoon_id',
    'id':'id'},

"bron": {
    'index':'id',
    'bron':'naam',
    # 'old_idbron':'old_idbron',
    'bron_id':'id',
    'id':'id'},

"bronregentdetails": {
    'id':'id',
    'deel en paginanummer':'details',
    # 'old_idregent':'old_idregent',
    # 'old_idbron':'old_idbron',
    'bron_id':'bron_id',
    'regent_id':'regent_id'},

"college": {
    'college':'naam',
    'periode':'periode',
    # 'old_idcollege':'old_idcollege',
    'college_id':'college_id',
    # 'id':'id'
    },

"functie": {
    'functie':'naam',
    'periode':'periode',
    'lokaal':'lokaal',
    # 'old_idfunctie':'old_idfunctie',
    'functie_id':'id',
    'id':'id'},

"lokaal": {
    'lokaal':'naam',
    # 'old_idlokaal':'old_idlokaal',
    'lokaal_id':'id',
    'id':'id'},

"provinciaal": {
    'provincie':'naam',
    # 'old_idprovincie':'old_idprovincie',
    'provinciaal_id':'id',
    'id':'id'},

"regionaal": {
    'regio':'naam',
    # 'old_idregio':'old_idregio',
    'regionaal_id':'id',
    'id':'id'},

"stand": {
    'stand':'naam',
    # 'old_idstand':'old_idstand',
    'stand_id':'stand_id',
    'id':'id'},

"persoon": {
    'adel':'adel',
    'adelspredikaat':'adelspredikaat',
    'doopjaar':'doopjaar',
    'eindcontrole':'eindcontrole',
    'geboortedag':'geboortedag',
    'geboortejaar':'geboortejaar',
    'geboortemaand':'geboortemaand',
    'geboorteplaats':'geboorteplaats',
    'geslachtsnaam':'geslachtsnaam',
    'heerlijkheid':'heerlijkheid',
    # 'old_idacademischetitel':'old_idacademischetitel',
    # 'old_idadellijketitel':'old_idadellijketitel',
    # 'old_idregent':'old_idregent',
    'opmerkingen':'opmerkingen',
    'overlijdensdag':'overlijdensdag',
    'overlijdensjaar':'overlijdensjaar',
    'overlijdensmaand':'overlijdensmaand',
    'overlijdensplaats':'overlijdensplaats',
    'periode':'periode',
    'tussenvoegsel':'tussenvoegsel',
    'voornaam':'voornaam',
    #'regent_id':'id',
    'persoon_id':'persoon_id',
    'academischetitel_id':'academischetitel_id',
    'adellijketitel_id':'adellijketitel_id',
    'geboortedatum':'geboortedatum',
    'overlijdensdatum':'overlijdensdatum',
    'geboortedatum':'geboortedatum',
    'overlijdensdatum':'overlijdensdatum',
    'searchable':'searchable'},

"aanstelling": {
    'begindag':'begindag',
    'beginjaar':'beginjaar',
    'beginmaand':'beginmaand',
    'einddag':'einddag',
    'eindjaar':'eindjaar',
    'eindmaand':'eindmaand',
    'aanstelling_id':'aanstelling_id',
    # 'old_id':'old_id',
    # 'old_idcollege':'old_idcollege',
    # 'old_idfunctie':'old_idfunctie',
    # 'old_idregent':'old_idregent',
    # 'old_lokaal':'old_lokaal',
    # 'old_provinciaal':'old_provinciaal',
    # 'old_regio':'old_regio',
    # 'old_stand':'old_stand',
    # 'old_vertegenwoordigend':'old_vertegenwoordigend',
    'opmerkingen':'opmerkingen',
    'periode':'periode',
    'vertegenwoordigend':'vertegenwoordigend',
    'college_id':'instelling_id',
    'functie_id':'functie_id',
    'lokaal_id':'lokaal_id',
    'provinciaal_id':'provincie_id',
    'regionaal_id':'regio_id',
    'stand_id':'stand_id',
    #'regent_id':'persoon_id',
    'persoon_id':'persoon_id',
    'van_als_bekend':'van_als_bekend',
    'tot_als_bekend':'tot_als_bekend',
    'van':'van',
    'tot':'tot'},
    
    'bronfunctiedetails':{
        'idbron':'idbron', 
        'idbovenlokaalcollegeregentdetails':'idaanstelling', 
        # 'old_idbron':'old_idbron',
        # 'old_idbovenlokaalcollegeregentdetails':'old_idbovenlokaalcollegeregentdetails', 
        'bron_id':'bron_id', 
        'aanstelling_id':'aanstelling_id'},

    'functiebovenlokaal':{
        'functiebovenlokaal_id':'functiebovenlokaal_id',
        'functiebovenlokaal':'functiebovenlokaal', 
        # 'old_id functiebovenlokaal': 'old_id functiebovenlokaal'
    },

    'functielokaal':{
        'functielokaal_id':'functielokaal_id',
        'functielokaal':'functielokaal', 
        # 'old_id functielokaal': 'old_id functielokaal'
    }
}



In [177]:
nwetabellen['college']

Unnamed: 0,college,id,college_id,old_idcollege
0,Administrateurs de la Loterie Impériale de France,1,1,[batfra_269]
1,Administrateurs der Posterijen,2,2,[batfra_250]
2,Administration Générale des Poudres et Salpêtres,3,3,[batfra_173]
3,Administration des Monnaies,4,4,[batfra_203]
4,Admiraliteit in Friesland (1596-1795),5,5,"[divperioden_6, republiek_34]"
...,...,...,...,...
522,WIC ter Kamer van het Noorderkwartier,523,523,[republiek_44]
523,Wetgevend Lichaam van het Bataafse Gemenebest ...,524,524,[batfra_80]
524,"Wetgevend Lichaam, Vergadering van Hun Hoog Mo...",525,525,[batfra_243]
525,"Wetgevend Lichaam, Vergadering van Hun Hoog Mo...",526,526,[batfra_78]


In [146]:
for tbl in nwetabellen:
    if tbl not in columnmaps:
        print(tbl)

In [147]:
columnmaps['college']

{'college': 'naam', 'periode': 'periode', 'college_id': 'college_id'}

In [175]:
extab = {}
for tbl in nwetabellen:
    t = nwetabellen[tbl]
    # if tbl in clean_references.keys():
    #     if tbl not in ['persoon', 'aanstelling']:
    #         t = clean_references[tbl]
    target = columnmaps[tbl]
    extab['aanstelling'] = aanstelling
    extab['persoon'] = persoon
    if target:
        xtab = t.rename(columns=target)
        drops = [c for c in t.columns if c not in target.keys()]
        tabn = exporttabellen.get(tbl) or ''
        if 'naam' in xtab.columns:
            xtab['naam'].fillna('', inplace=True)
        extab[tabn] = xtab.drop(columns=drops)


{'college': 'naam', 'periode': 'periode', 'college_id': 'college_id'}


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


In [164]:
columnmaps['college']

{'college': 'naam', 'periode': 'periode', 'college_id': 'college_id'}

In [178]:
# load reference tables first
torder = ['academische_titel', 
          'adellijke_titel',  
          'bron',
          'instelling', 
          'functie', 
          'lokaal', 
          'provincie', 
          'regio', 
          'stand', 
          'persoon', 
          'alias',
          #'aanstelling', 
          'bron_details']

In [179]:
extab['persoon'] = extab['persoon'].replace('NaT', pd.NA)
extab['persoon'] = extab['persoon'].replace('Null', pd.NA)

## Write to Database

In [180]:
import json
with open('connection.json','r') as infl:
    con = json.load(infl)
    
connection_string = con['raa_out']

In [181]:
connection_string

'mysql+pymysql://rik:X0chi@localhost/raa_out2'

In [188]:
import sys, subprocess, os
from io import StringIO
import pandas as pd
VERBOSE = True

from sqlalchemy import create_engine, inspect
from sqlalchemy.schema import CreateSchema

engine = create_engine(connection_string, echo=False)

In [189]:
#from https://stackoverflow.com/questions/50927740/sqlalchemy-create-schema-if-not-exists
from sqlalchemy_utils.functions import database_exists, create_database

if not database_exists(connection_string):
    create_database(connection_string)

In [190]:


def mdb_to_sql(engine, database_path, prefix='',basedir='.'):
    """via pandas"""
    subprocess.call(["mdb-schema", database_path, "mysql"])
    # Get the list of table names with "mdb-tables"
    table_names = subprocess.Popen(["mdb-tables", "-1", database_path],
                                   stdout=subprocess.PIPE).communicate()[0]
    tables = table_names.splitlines()
    sys.stdout.flush()
    # Dump each table as a stringio using "mdb-export",
    out_tables = {}
    prefix = prefix.replace(' ', '_') + '_'
    for rtable in tables:
        table = rtable.decode()
        if VERBOSE: print('running table:',table)
        if table != '':
            tname = prefix+table
            if VERBOSE: print("Dumping " + table)
            contents = subprocess.Popen(["mdb-export", database_path, table],
                                        stdout=subprocess.PIPE).communicate()[0]
            temp_io = StringIO(contents.decode("utf8")) # not f*cking latin1
            #print(table, temp_io)
            table = pd.read_csv(temp_io)
            try:
                table.to_sql(con=engine, name=tname, index=False, if_exists="replace")
                t_out_name = os.path.join(basedir,'mdbdump',tname)+'.csv'
                print('outfile', t_out_name)
                table.to_csv(t_out_name,sep="\t")
                print ("written: ", tname)
                done.append(tname)
            except:
                print('fout', tname)
                # table.to_sql(con=engine, name=tname, index=False, if_exists="replace")
                # t_out_name = os.path.join(basedir,'mdbdump',tname)+'.csv'
                # table.to_csv(t_out_name,sep="\t")


In [191]:
from pymysql import OperationalError


engine = create_engine(connection_string, echo=False)

for tbl in torder:
    table = extab[tbl]
    table.to_sql(con=engine, name=tbl, index=False, if_exists="append")

In [192]:
# we do aanstelling separately because duplicate ids cause too much trouble and we do not need them for anything anyway
aanstelling = extab['aanstelling']
truncated_aanstelling = aanstelling[[c for c in aanstelling.columns if c not in ['id']]]

In [194]:
for column in ['van', 'tot']:
    #aanstelling[column] = aanstelling[column].fillna(0)
    truncated_aanstelling[column] = aanstelling[column].astype('str')
    truncated_aanstelling[column] = aanstelling[column].apply(lambda x: pd.NA if isinstance(x, str) and x in ['','NaT','Null','None'] else x)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  truncated_aanstelling[column] = aanstelling[column].astype('str')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  truncated_aanstelling[column] = aanstelling[column].apply(lambda x: pd.NA if isinstance(x, str) and x in ['','NaT','Null','None'] else x)


In [195]:
truncated_aanstelling.to_sql(con=engine, name='aanstelling', index=False, if_exists="append")

In [196]:
dboutdir = './targetdb_dump'
for table in extab:
    tn = os.path.join(f"{dboutdir}_{table}.pkl")
    extab[table].to_pickle(tn)
truncated_aanstelling.to_pickle(f"{dboutdir}_aanstelling.pkl")