# Koppeling tussen was-wordt en definitietabel

Vinden we alle waarden voor rVvN, VvN en SBB uit de was-wordt lijst terug in de definitietabel? Alle vegetatietypen die niet automatisch tot H0000 leiden in de was wordt, zouden we willen terugvinden in de definietabel habitattypen.

Om deze twee tabellen goed te matchen, moeten we in ieder geval de volgende dingen doen:

- vegetatiecodes ontdoen van hoofdletters
- vegetatiecodes ontdoen van `leading zero's`
- Codes voor rompgemeenschappen en derivaatgemeenschappen in de definitietabel ontdoen van extra formatting
- De kolom `Code vegetatietype` uit de definitietabel splitsen in twee kolommen voor VvN en SBB. 

In [27]:
import re
import pandas as pd

In [28]:
ww = pd.read_excel(
    '../data/ww_split.xlsx',
    dtype="string"
)

In [29]:
ww_not_H0000 = ww.__deepcopy__()

# Verwijderen van alle rijen uit de waswordt lijst die vertalen naar H0000 of H9999. Deze verwacht je niet terug te vinden in de definitietabel
ww_not_H0000 = ww_not_H0000[ww_not_H0000['Habitattypen-Jakko']!='H0000']
ww_not_H0000 = ww_not_H0000[ww_not_H0000['Habitattypen-Jakko']!='H9999']

# Verwijderen van alle rijen uit de was wordt lijst die een leeg habitattype hebben. Johannes Tonckens: "de waarde voor habitattype is denk ik alleen leeg bij de hogere niveuas (orde, verbond). Dan is het vegetatietype niet goed genoeg ontwikkeld omhet onder te bregen bij een associatie die wel naar eenhabitattype leidt. Dat het dan H0000 wordt is dus wel terecht."
ww_not_H0000 = ww_not_H0000[~ww_not_H0000['Habitattypen-Jakko'].isna()]

# Verwijderen van alle rijen in de waswordt lijst waarin voor het habtype verwezen wordt naar subassociaties
ww_not_H0000 = ww_not_H0000[~ww_not_H0000['Habitattypen-Jakko'].apply(lambda x: 'zie subassociaties' in x if x is not None else False)]

In [30]:
dt = pd.read_excel(
    '../data/definitietabel habitattypen (versie 24 maart 2009)_0.xls', 
    sheet_name = 1,
    dtype="string"
)

In [31]:
# Verwijderen van kolommen zonder vegetatiecode. Dit zijn kolommen met waterplantengemeenschappen en vegetatieloze regels.
dt = dt[~dt['Code vegetatietype'].isna()]

# Opsplitsen van kolom `Code vegetatietype` aparte kolommen voor SBB- en VvN-code
dt['SBB'] = dt['Code vegetatietype']
dt = dt.rename(columns={'Code vegetatietype':'VvN'})
dt['VvN'][dt['VvN'].apply(lambda x: 'SBB' in x)] = None
dt['SBB'][~dt['SBB'].apply(lambda x: 'SBB' in x)] = None

# Verwijderen van leading 'SBB-' in SBB-code.
dt['SBB'] = dt['SBB'].str.replace('SBB-', '')

In [32]:
def disect_vvn(vvn_code: str):
    # klasse
    klasse = None
    try:
        klasse_span = re.search(r'^\d+', vvn_code).span()
        klasse = vvn_code[klasse_span[0]:klasse_span[1]]
    except:
        pass
        #print('klasse in VvN code not well defined')
    
    # orde en verbond
    orde = None
    try:
        orde = re.findall('[a-zA-Z]+', vvn_code)[0]
    except:
        pass
        #print('orde in VvN code not well defined')
    
    # associatie
    associatie = None
    try:
        associatie = re.findall('\d+', vvn_code)[1]
    except:
        pass
        #print('associatie in VvN code not well defined')
    
    # subassociatie
    subassociatie = None
    try:
        subassociatie = re.findall('[a-zA-Z]+', vvn_code)[1]
    except:
        pass
        #print('subassociatie in VvN code not well defined')
    
    return klasse, orde, associatie, subassociatie


def clean_vvn(vegcode: str):
    try:
        k, o, a, s = disect_vvn(vegcode)

        # verwijder leading zeros uit klasse 
        k = str(int(k))
        
        # orde en verbond naar lowercase
        o = o.lower()
        
        # verwijder leading zeros uit associatie
        if a is None:
            a = ''
        else:
            a = str(int(a))
        
        # als subassociatie niet aanwezig is, maak er een lege string van.
        if s is None:
            s = ''
        s = s.lower()
            
        return k + o + a + s
    except:
        pass


def convert_dg_rg_codes(vvn: str):
    '''
    Alleen gebruikt voor de definitietabel habitattypen. Zet codes voor Rompgemeenschappen en Derivaatgemeenschappen om in het format dat gebruikt wordt in de waswordt lijst.
    '''
    try:
        return re.sub('-', '', re.sub('\[.*\]', '', vvn))
    except:
        pass

    
def get_associatie(vvn):
    k, o, a, _ = disect_vvn(vvn)
    try:
        return k + o + a
    except:
        pass
    
    
def get_verbond(vvn):
    k, o, _, _ = disect_vvn(vvn)
    try:
        return k + o
    except:
        pass

In [33]:
ww_not_H0000['VvN'] = ww_not_H0000['VvN'].apply(clean_vvn)
ww_not_H0000['VvN'] = ww_not_H0000['VvN'].astype('string')

# Volgorde hieronder is belangrijk! Eerst convert_dg_rg_codes en pas daarna clean_vvn, anders gaat het fout met romp- en derivaatgemeenschappen
dt['VvN'] = dt['VvN'].apply(lambda x: convert_dg_rg_codes(x))
dt['VvN'] = dt['VvN'].apply(clean_vvn)
dt['VvN'] = dt['VvN'].astype('string')

In [34]:
ww_not_H0000['SBB'] = ww_not_H0000['SBB'].str.lower()
dt['SBB'] = dt['SBB'].str.lower()

In [35]:
ww_not_H0000['VvN_associatie'] = ww_not_H0000['VvN'].apply(get_associatie)
ww_not_H0000['VvN_verbond'] = ww_not_H0000['VvN'].apply(get_verbond)

#### Overlap in VvN codes

In [36]:
vvn_ww = set(ww_not_H0000['VvN'][~ww_not_H0000['VvN'].isna()])
vvn_dt = set(dt['VvN'][~dt['VvN'].isna()])

print('{} unieke VvN codes in de was-wordt'.format(len(vvn_ww)))
print('{} unieke VvN codes in de definitietabel'.format(len(vvn_dt)))
print('{} VvN codes uit de was-wordt worden teruggevonden in de definitietabel'.format(len(vvn_ww.intersection(vvn_dt))))

428 unieke VvN codes in de was-wordt
289 unieke VvN codes in de definitietabel
269 VvN codes uit de was-wordt worden teruggevonden in de definitietabel


In [37]:
ww_not_H0000['VvN_in_dt'] = ww_not_H0000['VvN'].isin(vvn_dt)
ww_not_H0000['VvN_assoc_in_dt'] = ww_not_H0000['VvN_associatie'].isin(vvn_dt)
ww_not_H0000['VvN_verbond_in_dt'] = ww_not_H0000['VvN_verbond'].isin(vvn_dt)

dt['VvN_in_ww'] = dt['VvN'].isin(vvn_ww)

#### Overlap SBB en definitietabel
Alle (op één na) waardes voor SBB uit de definitietabel worden teruggevonden in de waswordt. andersom is dat niet het geval, omdat alleen SBB-codes in de definitietabel staan waarvoor geen VvN code bestaat.

In [38]:
sbb_ww = set(ww_not_H0000['SBB'][~ww_not_H0000['SBB'].isna()])
sbb_dt = set(dt['SBB'][~dt['SBB'].isna()])

print('{} unieke SBB codes in de was-wordt'.format(len(sbb_ww)))
print('{} unieke SBB codes in de definitietabel'.format(len(sbb_dt)))
print('{} SBB codes uit de was-wordt worden teruggevonden in de definitietabel'.format(len(sbb_ww.intersection(sbb_dt))))

508 unieke SBB codes in de was-wordt
66 unieke SBB codes in de definitietabel
59 SBB codes uit de was-wordt worden teruggevonden in de definitietabel


In [39]:
sbb_dt - (sbb_ww.intersection(sbb_dt))

{'11/c', '11a-b', '26-xxx [08-f]', '40a-d', '43-e', '43-f', '43-g'}

In [40]:
ww_not_H0000['SBB_in_dt'] = ww_not_H0000['SBB'].isin(sbb_dt)
dt['SBB_in_ww'] = dt['SBB'].isin(sbb_ww)

In [41]:
ww_not_H0000.to_excel('../data/ww_cleaned.xlsx', index=False)
dt.to_excel('../data/dt_cleaned.xlsx', index=False)

#### Eerst checken op VvN, dan associatie, dan verbond, dan SBB

Wanneer zowel VvN, VvN-associatie, VvN-verbond of SBB niet kunnen worden teruggevonden in de definitietabel, is één van de volgende dingen aan de hand:
- Habitattype doorgestreept of discussiepunt in waswordt tabel.
  - `14RG10` is doorgestreept, of tussen haakjes en discussiepunt
- Habitattype in waswordt is rood (=voorstel) en dus nog niet in deftabel
  - `42RG01`
- Waswordt geeft habitatopsomming voor associatie, terwijl er 'zie subassociaties' had moeten staan. In de defitietabel zijn alleen de subassociaties terug te vinden:
  - `17aa1`
  - `27aa2`
  - `29aa3`
  - `31ab1`
  - 
- VvN en SBB allebei niet terug te vinden:
  - `5rg3`
  - `5rg8` / `05-e`
  - `33DG2`
  - `33RG1`
  - `41Aa02(a)`