This is the data preprocessing part, all existing data (under "data" folder) has been preprocessed, if there is no new data you can skip this part.

In [1]:
from xml.etree import ElementTree as ET
from tqdm import tqdm
import csv
import pandas as pd
import spacy
import re
sp = spacy.load('de_core_news_lg')

2022-08-11 20:20:15.941487: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2022-08-11 20:20:15.941549: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


# Raw Data

## ESCO (Skills)

Downloaded from https://esco.ec.europa.eu/en/use-esco/download

Version: ESCO dataset - v1.0.7

Content: classification

Language: de

File type: csv

We only used the "skills_de.csv" which contains all information of skills themselves

## DIN PAS 1045 (Courses)

Privoded by Fraunhofer FOKUS


### Extract Course Information from XML Raw as CSV

In [2]:
def import_course(input_file):
    tree = ET.parse(input_file)
    courses = tree.findall('.//COURSE')

    header = ['course_name', 'course_id', 'course_description']
    data_list=[]
    
    for course in courses:
        name = course.find('CS_NAME').text
        id = course.find('CS_ID').text
        description = course.find('CS_DESC_LONG').text
        description = description.replace('\\','')
        data = [name, id, description]
        data_list.append(data)

    with open('../data/all_courses.csv', 'w', encoding='UTF8', newline='') as f:
        writer = csv.writer(f)
        # write the header
        writer.writerow(header)
        # write the data
        writer.writerows(data_list)

"2022-05-10_FOKUS_AWT_CompetencyExtraction_WB_Brandenburg_re-encoded.xml": complete dataset
    
"2022-05-10_FOKUS_AWT_CompetencyExtraction_WB_Brandenburg_control_re-encoded.xml": evaluation dataset

Choose one of those

In [3]:
# import_course('../data/2022-05-10_FOKUS_AWT_CompetencyExtraction_WB_Brandenburg_re-encoded.xml')
import_course('../data/2022-05-10_FOKUS_AWT_CompetencyExtraction_WB_Brandenburg_control_re-encoded.xml')

# Dataset 

##  Skill Dataset

In [4]:
skills = pd.read_csv('../data/skills_de.csv')[['conceptUri','preferredLabel','description']]
skills.columns = ['concept_uri','preferred_label','description']
skills.to_csv('../data/all_skills.csv', index = False)
skills

Unnamed: 0,concept_uri,preferred_label,description
0,http://data.europa.eu/esco/skill/0005c151-5b5a...,Musikpersonal verwalten,Zuweisen und Verwalten der Aufgaben des Person...
1,http://data.europa.eu/esco/skill/00064735-8fad...,Strafvollzugsverfahren beaufsichtigen,Überwachen des Betriebs einer Justizvollzugsan...
2,http://data.europa.eu/esco/skill/000709ed-2be5...,nicht unterdrückende Praktiken anwenden,"Ermitteln von Repressionen in Gesellschaften, ..."
3,http://data.europa.eu/esco/skill/0007bdc2-dd15...,Einhaltung von Vorschriften von Eisenbahnfahrz...,"Kontrollieren von Fahrzeugen, Komponenten und ..."
4,http://data.europa.eu/esco/skill/00090cc1-1f27...,verfügbare Dienste ermitteln,Ermitteln der verschiedenen verfügbaren Dienst...
...,...,...,...
13886,http://data.europa.eu/esco/skill/ffef5eb3-a15e...,berufliche Leistungsfähigkeit von Nutzern/Nutz...,"Wiederherstellen der kognitiven, sensomotorisc..."
13887,http://data.europa.eu/esco/skill/fff0b074-5a76...,Beleuchtung in Transportgeräten einbauen,Einbau von Beleuchtungselementen in Transportg...
13888,http://data.europa.eu/esco/skill/fff0e2cd-d0bd...,Verarbeitung natürlicher Sprache,"Technologien, die es IKT-Geräten ermöglichen, ..."
13889,http://data.europa.eu/esco/skill/fff5bc45-b506...,Bauarbeiten koordinieren,Koordinierung der Tätigkeiten mehrerer Bauarbe...


## DIN PAS 1045 Course Description Dataset

In [5]:
courses = pd.read_csv('../data/all_courses.csv')[['course_id','course_name','course_description']]
courses.to_csv('../data/all_courses.csv', index = False)
courses

Unnamed: 0,course_id,course_name,course_description
0,A1E06AAB-F264-4308-F318-2C2E43E1CB54,Experte im Prozessmanagement,Die aktuell vorherrschende Situation auf dem A...
1,A1DFC244-E07B-BE74-4422-1995EE3B5F8A,Experte in Cloud Computing,"""Cloud Computing"" ist die bedarfsabhängige Ber..."
2,A1E08F41-0B47-7D51-C6F5-47D497F050F0,Experte in Investition und Finanzierung,Die aktuell vorherrschende Situation auf dem A...
3,A1DFF789-1B71-1CD5-F972-9AA4F3B32C8B,Experte in Unternehmensaufbau und Organisation,Der Kurs zielt auf die Verbesserung der Führun...
4,A1E05E65-48FD-DE85-520D-283A9117BCD9,Experte in Unternehmensführung,Die aktuell vorherrschende Situation auf dem A...
5,A1E0969B-12DB-B016-964F-919D1DEB0112,IT-Projektmanagement,Die aktuell vorherrschende Situation auf dem A...
6,A1DFDEA2-E36E-E91A-D9B8-3F0956BECDE6,PHP Programmierer und Datenbankentwickler,PHP (Hypertext Preprocessor) ist eine quelloff...
7,A1DFEB90-BC08-8DA2-A8A2-30C4C2E6E989,"Programmierung PHP Frameworks: Laravel, Symfon...",PHP (Hypertext Preprocessor) ist eine quelloff...
8,A1DF7719-5965-53A1-C4CF-22D1AEE3D88B,Shopsystem Administrator,Ziel der Maßnahme ist es den Teilnehmern eine ...
9,A1DF94D9-0547-7ED8-AB3C-6233DFB724AE,Social-Media Manager,Ziel der Maßnahme ist es den Teilnehmern eine ...


# Data Preprocessing

In [6]:
def process_ER(doc):
    doc = sp(doc)
    doc_processed = ''
    for token in doc:
        for punctuation in ['/', "/-", "-"]:
            if punctuation in token.text:
                temp = token.text.replace(punctuation,'')
                if len(temp) != 0: token = sp(temp)[0]
        if not token.is_stop and not token.is_digit:
            #and re.match('^[äöüÄÖÜßA-Za-z0-9_-]*$', word.text):
            token = token.lemma_.lower()
            if token != "--": doc_processed += token.strip() + ' '
    return doc_processed.strip()

def process_NN(doc):
    doc = sp(doc)
    doc_processed = ''
    for token in doc:
        if not token.is_space:
            if token.is_punct and token.text != ',' : doc_processed += '. ' 
            else: doc_processed += token.text + ' '
    return doc_processed[:-1]

## ESCO Skills Dataset

### Skill Labels

In [7]:
skills['processed_label'] = skills['preferred_label'].apply(process_ER)

In [8]:
skills['processed_label'].to_csv("../data/labels_processed.csv")
skills['processed_label']

0                                  musikpersonal verwalten
1                      strafvollzugsverfahr beaufsichtigen
2                           unterdrückend praktik anwenden
3        einhaltung vorschrift eisenbahnfahrzeuge überp...
4                               verfügbar dienst ermitteln
                               ...                        
13886    beruflich leistungsfähigkeit nutzer nutzerinn ...
13887                  beleuchtung transportgerät einbauen
13888                       verarbeitung natürlich sprache
13889                               bauarbeit koordinieren
13890               absturzsicherung bordbretter anbringen
Name: processed_label, Length: 13891, dtype: object

### Skill Information
We used "preferredLabel" and "description" columns together as the feature.

In [9]:
skills['info'] = skills['preferred_label'] + '. ' + skills['description']

In [10]:
skills['info'].to_csv("../data/skills_info.csv")
skills['info']

0        Musikpersonal verwalten. Zuweisen und Verwalte...
1        Strafvollzugsverfahren beaufsichtigen. Überwac...
2        nicht unterdrückende Praktiken anwenden. Ermit...
3        Einhaltung von Vorschriften von Eisenbahnfahrz...
4        verfügbare Dienste ermitteln. Ermitteln der ve...
                               ...                        
13886    berufliche Leistungsfähigkeit von Nutzern/Nutz...
13887    Beleuchtung in Transportgeräten einbauen. Einb...
13888    Verarbeitung natürlicher Sprache. Technologien...
13889    Bauarbeiten koordinieren. Koordinierung der Tä...
13890    Absturzsicherungen und Bordbretter anbringen. ...
Name: info, Length: 13891, dtype: object

## DIN PAS 1045 Course Description Dataset

### Course Information
We used "course_name" and "couse_description" columns together as the feature.

In [11]:
courses['course_info'] = courses['course_name'] + '. ' + courses['course_description']

In [12]:
courses['course_info_ER'] = courses['course_info'].apply(process_ER)

In [13]:
courses['course_info_ER'].to_csv("../data/courses_info_ER.csv")
courses['course_info_ER']

0     experte prozessmanagement aktuell vorherrschen...
1     experte cloud computing cloud computing bedarf...
2     experte investition finanzierung aktuell vorhe...
3     experte unternehmensaufbau organisation kurs z...
4     experte unternehmensführung aktuell vorherrsch...
5     itprojektmanagement aktuell vorherrschend situ...
6     php programmierer datenbankentwickler php hype...
7     programmierung php framework laravel symfony z...
8     shopsystem administrator ziel maßnahme teilneh...
9     socialmedia manager ziel maßnahme teilnehmer s...
10    starte heranführung selbstständig tätigkeit he...
11    vermarktungsstrategie online offline aktuell v...
12    webentwicklung 2.0 html5 css3 wordpress ziel m...
13    zukunftswert mensch tiefgreifendwirksame indiv...
14    weiterbildung wildnispädagogik freuen intensiv...
15    qualifizierung anerkennung erzieher*inn iq net...
16    digital spielbasiert lernen einsatzmöglichkeit...
17    digital spielbasiert lernen einsatzmöglich

In [14]:
courses['course_info_NN'] = courses['course_info'].apply(process_NN)

In [15]:
courses['course_info_NN'].to_csv("../data/courses_info_NN.csv")
courses['course_info_NN']

0     Experte im Prozessmanagement . Die aktuell vor...
1     Experte in Cloud Computing . . Cloud Computing...
2     Experte in Investition und Finanzierung . Die ...
3     Experte in Unternehmensaufbau und Organisation...
4     Experte in Unternehmensführung . Die aktuell v...
5     IT-Projektmanagement . Die aktuell vorherrsche...
6     PHP Programmierer und Datenbankentwickler . PH...
7     Programmierung PHP Frameworks . Laravel , Symf...
8     Shopsystem Administrator . Ziel der Maßnahme i...
9     Social-Media Manager . Ziel der Maßnahme ist e...
10    Starte jetzt . Heranführung an die selbstständ...
11    Vermarktungsstrategien online und offline . Di...
12    Webentwicklung 2.0 . HTML5 , CSS3 , WordPress ...
13    Zukunftswert Mensch . tiefgreifend-wirksame in...
14    Weiterbildung Wildnispädagogik . Wir freuen un...
15    Qualifizierung zur Anerkennung für Erzieher*in...
16    Digitales spielbasiertes Lernen . Einsatzmögli...
17    Digitales spielbasiertes Lernen . Einsatzm