In [1]:
import pandas as pd
import jellyfish as jf  # https://jellyfish.readthedocs.io/en/latest/comparison.html
import numpy as np

In [2]:
kldb = pd.read_excel('kldb_2010_stichwoerter.xls')
kldb

Unnamed: 0,Stichwort,Schlüssel KldB 2010
0,3-D-Designer/in,23223
1,Aalbrutzüchter/in,11412
2,Aalfischer/in,11422
3,Aalräucherer/-räucherin,29242
4,Abbauhauer/in,21112
...,...,...
27849,Zylindervorbereiter/in (Druckformherstellung),23212
27850,Zytoassistent/in,81212
27851,Zytogenetiker/in,41284
27852,Zytologe/Zytologin,41284


In [3]:
tb = pd.read_excel('era_122_tarifbeispiele_uebersicht.xlsx')
tb

Unnamed: 0,organisations_schluessel,arbeitsaufgabe_titel,arbeitsaufgabe_beschreibung,anlernen_ausbildung,erfahrung,denken,handlungspielraum,kommunikation,fuehrung,punkte,entgeltgruppe
0,01.02.02.05,Rechnungsprüfer/-in 1,Vorkontieren von Rechnungen/ Rechnungsprüfung,B1,E1,D2,H2,K2,F0,20,EG06
1,01.02.02.10,Rechnungsprüfer/-in 2,Prüfen von Lieferantenrechnungen,B2,E2,D2,H3,K2,F0,27,EG08
2,01.02.02.20,Rechnungsprüfungsleiter/-in,Leiten der Rechnungsprüfung,B4,E4,D4,H5,K4,F2,54,EG14
3,01.04.01.10,Sachbearb./-in Betriebsbuchhaltung,Vorbereiten von Teilabschlüssen/ periodischen ...,B2,E2,D2,H3,K2,F0,27,EG08
4,01.04.03.05,Budgetsachbearbeiter/-in,Planen und Überwachen von Plankosten (Budgets),B3,E3,D3,H3,K3,F0,36,EG10
...,...,...,...,...,...,...,...,...,...,...,...
117,08.06.01.15,Spritzlackierer/-in 2,Nach- und Spritzlackieren von Teilen,B2,E3,D2,H3,K2,F0,29,EG08
118,08.06.02.15,Anlagenbediener/-in,"Bedienen von Anlagen der Foto-, Ätz- oder Ione...",A4,E0,D2,H1,K1,F0,12,EG04
119,08.06.02.20,Vorarbeiter/-in Oberfläche,"Einstellen von Anlagen der Foto-, Ätz-, Ioneni...",B2,E2,D3,H3,K2,F1,31,EG09
120,08.07.01.05,Schweißer/-in 1,Punktschweißen von Hand,A1,,D1,H1,K1,F0,6,EG01


In [4]:
tb['predicted_kldb_stichwort'] = np.nan
tb['jaro_winkler_similarity_score'] = np.nan
tb

Unnamed: 0,organisations_schluessel,arbeitsaufgabe_titel,arbeitsaufgabe_beschreibung,anlernen_ausbildung,erfahrung,denken,handlungspielraum,kommunikation,fuehrung,punkte,entgeltgruppe,predicted_kldb_stichwort,jaro_winkler_similarity_score
0,01.02.02.05,Rechnungsprüfer/-in 1,Vorkontieren von Rechnungen/ Rechnungsprüfung,B1,E1,D2,H2,K2,F0,20,EG06,,
1,01.02.02.10,Rechnungsprüfer/-in 2,Prüfen von Lieferantenrechnungen,B2,E2,D2,H3,K2,F0,27,EG08,,
2,01.02.02.20,Rechnungsprüfungsleiter/-in,Leiten der Rechnungsprüfung,B4,E4,D4,H5,K4,F2,54,EG14,,
3,01.04.01.10,Sachbearb./-in Betriebsbuchhaltung,Vorbereiten von Teilabschlüssen/ periodischen ...,B2,E2,D2,H3,K2,F0,27,EG08,,
4,01.04.03.05,Budgetsachbearbeiter/-in,Planen und Überwachen von Plankosten (Budgets),B3,E3,D3,H3,K3,F0,36,EG10,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,08.06.01.15,Spritzlackierer/-in 2,Nach- und Spritzlackieren von Teilen,B2,E3,D2,H3,K2,F0,29,EG08,,
118,08.06.02.15,Anlagenbediener/-in,"Bedienen von Anlagen der Foto-, Ätz- oder Ione...",A4,E0,D2,H1,K1,F0,12,EG04,,
119,08.06.02.20,Vorarbeiter/-in Oberfläche,"Einstellen von Anlagen der Foto-, Ätz-, Ioneni...",B2,E2,D3,H3,K2,F1,31,EG09,,
120,08.07.01.05,Schweißer/-in 1,Punktschweißen von Hand,A1,,D1,H1,K1,F0,6,EG01,,


# Functions


In [5]:
# function that returns the most similar KldB Stichwort for a given Tarifbeispiel
# uses the jaro winkler similarity method for string comparison

def TopJaroWinklerSimilarity(some_tarifbeispiel, all_kldb_occupations):
    # populate list with all jaro-wrinkler similarity scores
    all_results = {}
    for value in all_kldb_occupations:
        all_results[value] = jf.jaro_winkler_similarity(some_tarifbeispiel, value)

    # get the highest scores    
    max_value = max(all_results.values())  # maximum values
    max_keys = [k for k, v in all_results.items() if v == max_value] # getting all keys containing the 'maximum value'

    return [max_keys, max_value]

In [6]:
# append values to original table

tb_edit = tb.copy()
tb_edit = tb_edit.set_index('arbeitsaufgabe_titel')

for value in tb_edit.index:
    result = TopJaroWinklerSimilarity(value, kldb.Stichwort)[0]
    similarity = TopJaroWinklerSimilarity(value, kldb.Stichwort)[1]
    tb_edit.loc[value, 'predicted_kldb_stichwort'] = ', '.join(result)
    tb_edit.loc[value, 'jaro_winkler_similarity_score'] = similarity
    print(result)

['Rechnungsprüfer/in']
['Rechnungsprüfer/in']
['Rechnungsprüfungsbeamt(er/in)']
['Sachbearbeiter/in']
['Kreditsachbearbeiter/in']
['Bereichsleiter/in']
['Controller/in']
['Kaufmann/-frau - Bank']
['Kaufmann/-frau - Bank']
['Devisensachbearbeiter/in']
['Einkaufssachbearbeiter/in']
['Einkäufer/in']
['Einkäufer/in']
['Mediadisponent/in']
['Fertigungssteuerer/-steuerin']
['Lagerist/in']
['Lagerverwalterhelfer/in']
['Personalsachbearbeiter/in']
['Personalbetreuer/in']
['Ausbildungsmeister/in']
['Ausbildungsmeister/in']
['Entgraterhelfer/in']
['Systembetreuer/in (EDV)']
['Systemmanager/in']
['Anwendungsberater/in']
['Anwendungsprogrammierer/in']
['Softwareentwickler/in']
['Softwareentwickler/in']
['Bürohilfskraft']
['Bürofachkraft']
['Sekretär/in']
['Sekretär/in']
['Fertigungsassistent/in']
['Betriebsmittelmechaniker/in']
['Betriebsmittelmechaniker/in']
['Betriebsmeister/in']
['Anlagenmechaniker/in']
['Systemtechniker/in - IT']
['Betriebselektriker/in']
['Betriebselektriker/in']
['Betriebsel

In [7]:
tb_edit.reset_index(inplace=True)

In [9]:
tb_edit = tb_edit.merge(kldb, how='left', left_on='predicted_kldb_stichwort', right_on='Stichwort')
tb_edit.rename(columns={'Schlüssel KldB 2010':'kldb_schluessel'}, inplace=True)
tb_edit

Unnamed: 0,arbeitsaufgabe_titel,organisations_schluessel,arbeitsaufgabe_beschreibung,anlernen_ausbildung,erfahrung,denken,handlungspielraum,kommunikation,fuehrung,punkte,entgeltgruppe,predicted_kldb_stichwort,jaro_winkler_similarity_score,Stichwort,kldb_schluessel
0,Rechnungsprüfer/-in 1,01.02.02.05,Vorkontieren von Rechnungen/ Rechnungsprüfung,B1,E1,D2,H2,K2,F0,20,EG06,Rechnungsprüfer/in,0.971429,Rechnungsprüfer/in,72214.0
1,Rechnungsprüfer/-in 2,01.02.02.10,Prüfen von Lieferantenrechnungen,B2,E2,D2,H3,K2,F0,27,EG08,Rechnungsprüfer/in,0.971429,Rechnungsprüfer/in,72214.0
2,Rechnungsprüfungsleiter/-in,01.02.02.20,Leiten der Rechnungsprüfung,B4,E4,D4,H5,K4,F2,54,EG14,Rechnungsprüfungsbeamt(er/in),0.926628,Rechnungsprüfungsbeamt(er/in),73283.0
3,Sachbearb./-in Betriebsbuchhaltung,01.04.01.10,Vorbereiten von Teilabschlüssen/ periodischen ...,B2,E2,D2,H3,K2,F0,27,EG08,Sachbearbeiter/in,0.876471,Sachbearbeiter/in,71302.0
4,Budgetsachbearbeiter/-in,01.04.03.05,Planen und Überwachen von Plankosten (Budgets),B3,E3,D3,H3,K3,F0,36,EG10,Kreditsachbearbeiter/in,0.884300,Kreditsachbearbeiter/in,72113.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,Spritzlackierer/-in 2,08.06.01.15,Nach- und Spritzlackieren von Teilen,B2,E3,D2,H3,K2,F0,29,EG08,Spritzlackierer/in (Waren),0.927106,Spritzlackierer/in (Waren),22202.0
118,Anlagenbediener/-in,08.06.02.15,"Bedienen von Anlagen der Foto-, Ätz- oder Ione...",A4,E0,D2,H1,K1,F0,12,EG04,Anlagenbediener/in,0.989474,Anlagenbediener/in,25122.0
119,Vorarbeiter/-in Oberfläche,08.06.02.20,"Einstellen von Anlagen der Foto-, Ätz-, Ioneni...",B2,E2,D3,H3,K2,F1,31,EG09,Vorarbeiter/in,0.907692,Vorarbeiter/in,27302.0
120,Schweißer/-in 1,08.07.01.05,Punktschweißen von Hand,A1,,D1,H1,K1,F0,6,EG01,Schweißer/in,0.960000,Schweißer/in,24422.0


In [11]:
tb_edit.drop(['Stichwort'], axis=1, inplace=True)

In [12]:
tb_edit

Unnamed: 0,arbeitsaufgabe_titel,organisations_schluessel,arbeitsaufgabe_beschreibung,anlernen_ausbildung,erfahrung,denken,handlungspielraum,kommunikation,fuehrung,punkte,entgeltgruppe,predicted_kldb_stichwort,jaro_winkler_similarity_score,kldb_schluessel
0,Rechnungsprüfer/-in 1,01.02.02.05,Vorkontieren von Rechnungen/ Rechnungsprüfung,B1,E1,D2,H2,K2,F0,20,EG06,Rechnungsprüfer/in,0.971429,72214.0
1,Rechnungsprüfer/-in 2,01.02.02.10,Prüfen von Lieferantenrechnungen,B2,E2,D2,H3,K2,F0,27,EG08,Rechnungsprüfer/in,0.971429,72214.0
2,Rechnungsprüfungsleiter/-in,01.02.02.20,Leiten der Rechnungsprüfung,B4,E4,D4,H5,K4,F2,54,EG14,Rechnungsprüfungsbeamt(er/in),0.926628,73283.0
3,Sachbearb./-in Betriebsbuchhaltung,01.04.01.10,Vorbereiten von Teilabschlüssen/ periodischen ...,B2,E2,D2,H3,K2,F0,27,EG08,Sachbearbeiter/in,0.876471,71302.0
4,Budgetsachbearbeiter/-in,01.04.03.05,Planen und Überwachen von Plankosten (Budgets),B3,E3,D3,H3,K3,F0,36,EG10,Kreditsachbearbeiter/in,0.884300,72113.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
117,Spritzlackierer/-in 2,08.06.01.15,Nach- und Spritzlackieren von Teilen,B2,E3,D2,H3,K2,F0,29,EG08,Spritzlackierer/in (Waren),0.927106,22202.0
118,Anlagenbediener/-in,08.06.02.15,"Bedienen von Anlagen der Foto-, Ätz- oder Ione...",A4,E0,D2,H1,K1,F0,12,EG04,Anlagenbediener/in,0.989474,25122.0
119,Vorarbeiter/-in Oberfläche,08.06.02.20,"Einstellen von Anlagen der Foto-, Ätz-, Ioneni...",B2,E2,D3,H3,K2,F1,31,EG09,Vorarbeiter/in,0.907692,27302.0
120,Schweißer/-in 1,08.07.01.05,Punktschweißen von Hand,A1,,D1,H1,K1,F0,6,EG01,Schweißer/in,0.960000,24422.0


In [13]:
tb_edit.to_excel('era_122_tarifbeispiele_with_kldb.xlsx', index=False)