# Dataset 

In [308]:
import pandas as pd
import spacy
import re
sp = spacy.load('de_core_news_lg')

## ESCO Skill Dataset

In [309]:
skills = pd.read_csv('../data/skills_de.csv')[['conceptUri','preferredLabel','description']]
skills

Unnamed: 0,conceptUri,preferredLabel,description
0,http://data.europa.eu/esco/skill/0005c151-5b5a...,Musikpersonal verwalten,Zuweisen und Verwalten der Aufgaben des Person...
1,http://data.europa.eu/esco/skill/00064735-8fad...,Strafvollzugsverfahren beaufsichtigen,Überwachen des Betriebs einer Justizvollzugsan...
2,http://data.europa.eu/esco/skill/000709ed-2be5...,nicht unterdrückende Praktiken anwenden,"Ermitteln von Repressionen in Gesellschaften, ..."
3,http://data.europa.eu/esco/skill/0007bdc2-dd15...,Einhaltung von Vorschriften von Eisenbahnfahrz...,"Kontrollieren von Fahrzeugen, Komponenten und ..."
4,http://data.europa.eu/esco/skill/00090cc1-1f27...,verfügbare Dienste ermitteln,Ermitteln der verschiedenen verfügbaren Dienst...
...,...,...,...
13886,http://data.europa.eu/esco/skill/ffef5eb3-a15e...,berufliche Leistungsfähigkeit von Nutzern/Nutz...,"Wiederherstellen der kognitiven, sensomotorisc..."
13887,http://data.europa.eu/esco/skill/fff0b074-5a76...,Beleuchtung in Transportgeräten einbauen,Einbau von Beleuchtungselementen in Transportg...
13888,http://data.europa.eu/esco/skill/fff0e2cd-d0bd...,Verarbeitung natürlicher Sprache,"Technologien, die es IKT-Geräten ermöglichen, ..."
13889,http://data.europa.eu/esco/skill/fff5bc45-b506...,Bauarbeiten koordinieren,Koordinierung der Tätigkeiten mehrerer Bauarbe...


## DIN PAS 1045 Course Description Dataset

In [297]:
courses = pd.read_csv('../data/all_courses.csv')[['course_id','course_name','course_description']]
courses

Unnamed: 0,course_id,course_name,course_description
0,4A873264-7ADD-DE47-3039-1FDA692E8164,"""Schwierige"" Klienten? - Mit Patienten, Angehö...",- Analyse strapaziöser Gesprächsmuster\n- Schw...
1,99BEDCEB-4FF3-3F8F-88B7-B30E50638F01,Aktuelles Arbeitsrecht 2022,Kurzbeschreibung\nDas Arbeitsrecht unterliegt ...
2,97FD41FD-1A91-179C-3EA5-6A23E2F436D5,Ambulante Pflege - Rechtssicher Handeln und Ha...,- Grundlagen der straf- und zivilrechtlichen H...
3,A0CC573A-79D7-79A4-5B22-F675C4F06950,Aufgaben des gesetzlichen Betreuers - Zur Refo...,Kurzbeschreibung\nNoch im Jahr 2020 plant der ...
4,7C449EF7-12A8-82FC-0E5E-BD2885FDB93C,Basisqualifikation für ungelernte Pflegekräfte...,- Alten- und Krankenpflege\n . Körperpflege\n...
...,...,...,...
16847,A1E046BE-1C4B-B977-C9B9-88D8D2860107,5 Monate Weiterbildung: Organisation & Führung...,Die aktuell vorherrschende Situation auf dem A...
16848,A1DF8EEB-D317-70BA-508F-AFC732369860,Conversion und Usability Experte,Ziel der Maßnahme ist es den Teilnehmern eine ...
16849,A1DD9D98-2BA3-3A11-0A24-72FC4C79422A,Digital Transformation Management,Ziel der Maßnahme ist es den Teilnehmern eine ...
16850,A1DD60F7-9B6E-ECEE-F1DF-53FED2DCCC5C,E-Commerce Geschäftsmodelle,Ziel der Maßnahme ist es den Teilnehmern eine ...


# Data Preprocessing

In [350]:
a = "\n"
a.startswith("\n")

True

In [352]:
def processe(doc):
    doc_processed = []
    for sentence in doc:
        sentence = sp(sentence)
        sentence_processed = ''
        for word in sentence:
            if "/" in word.text:
                temp = word.text.replace('/','')
                if len(temp) != 0: word = sp(temp)[0]
            if "/-" in word.text: 
                temp = word.text.replace('/-','')
                if len(temp) != 0: word = sp(temp)[0]
            if "-" in word.text: 
                temp = word.text.replace('-','')
                if len(temp) != 0: word = sp(temp)[0]
            if not word.is_stop and not word.is_digit:
                #and re.match('^[äöüÄÖÜßA-Za-z0-9_-]*$', word.text):
                word = word.lemma_.lower()
                if word != "--": sentence_processed += word.strip() + ' '
        doc_processed.append(sentence_processed.strip())
    return doc_processed

## ESCO Skills Dataset

### Skill Labels

In [353]:
labels_processed = processe(skills['preferredLabel'])

In [354]:
df_labels_processed = pd.DataFrame(labels_processed, columns = ['processedLabel'])
df_labels_processed.to_csv("../data/labels_processed.csv")
df_labels_processed

Unnamed: 0,processedLabel
0,musikpersonal verwalten
1,strafvollzugsverfahr beaufsichtigen
2,unterdrückend praktik anwenden
3,einhaltung vorschrift eisenbahnfahrzeuge überp...
4,verfügbar dienst ermitteln
...,...
13886,beruflich leistungsfähigkeit nutzer nutzerinn ...
13887,beleuchtung transportgerät einbauen
13888,verarbeitung natürlich sprache
13889,bauarbeit koordinieren


### Skill Information
We used "preferredLabel" and "description" columns together as the feature.

In [355]:
skills['skill_info'] = skills['preferredLabel'] + ' ' + skills['description']

In [356]:
skills_info_processed = processe(skills['skill_info'])

In [357]:
df_skill_info_processed = pd.DataFrame(skills_info_processed, columns = ['skill_info_processed'])
df_skill_info_processed.to_csv("../data/skills_info_processed.csv")
df_skill_info_processed

Unnamed: 0,skill_info_processed
0,musikpersonal verwalten zuweise verwalten aufg...
1,strafvollzugsverfahr beaufsichtigen überwachen...
2,unterdrückend praktik anwenden ermittel repres...
3,einhaltung vorschrift eisenbahnfahrzeuge überp...
4,verfügbar dienst ermitteln ermitteln verschied...
...,...
13886,beruflich leistungsfähigkeit nutzer nutzerinn ...
13887,beleuchtung transportgerät einbauen einbau bel...
13888,verarbeitung natürlich sprache technologie ikt...
13889,bauarbeit koordinieren koordinierung tätigkeit...


## DIN PAS 1045 Course Description Dataset

### Course Information
We used "course_name" and "couse_description" columns together as the feature.

In [358]:
courses['course_info'] = courses['course_name'] + ' ' + courses['course_description']

In [359]:
courses_info_processed = processe(courses['course_info'])

In [360]:
df_courses_info_processed = pd.DataFrame(courses_info_processed, columns = ['course_info_processed'])
df_courses_info_processed.to_csv("../data/courses_info_processed.csv")
df_courses_info_processed

Unnamed: 0,course_info_processed
0,schwierig klient patient angehörige kollege cl...
1,aktuelles arbeitsrecht kurzbeschreibung \n arb...
2,ambulant pflege rechtssicher handeln haftungsr...
3,aufgabe gesetzlich betreuer reform betreuungsr...
4,basisqualifikation ungelernt pflegekräft zerti...
...,...
16847,monat weiterbildung organisation & führung lea...
16848,conversion usability experte ziel maßnahme tei...
16849,digital transformation management ziel maßnahm...
16850,ecommerce geschäftsmodell ziel maßnahme teilne...
