# NLP-based Competencies Extraction Service

##  Tools and Libaries
pandas: a software library written for the Python programming language for data manipulation and analysis

spacy: an open-source software library for advanced natural language processing

de_core_news_lg:  trained pipelines for German language

In [5]:
# pip install spacy
# python -m spacy download de_core_news_lg
import pandas as pd
import spacy
sp = spacy.load('de_core_news_lg')

## Dataset

### ESCO Skill Dataset

In [7]:
skills = pd.read_csv('../data/skills_de.csv')[['conceptUri','preferredLabel','description']]

In [8]:
skills

Unnamed: 0,conceptUri,preferredLabel,description
0,http://data.europa.eu/esco/skill/0005c151-5b5a...,Musikpersonal verwalten,Zuweisen und Verwalten der Aufgaben des Person...
1,http://data.europa.eu/esco/skill/00064735-8fad...,Strafvollzugsverfahren beaufsichtigen,Überwachen des Betriebs einer Justizvollzugsan...
2,http://data.europa.eu/esco/skill/000709ed-2be5...,nicht unterdrückende Praktiken anwenden,"Ermitteln von Repressionen in Gesellschaften, ..."
3,http://data.europa.eu/esco/skill/0007bdc2-dd15...,Einhaltung von Vorschriften von Eisenbahnfahrz...,"Kontrollieren von Fahrzeugen, Komponenten und ..."
4,http://data.europa.eu/esco/skill/00090cc1-1f27...,verfügbare Dienste ermitteln,Ermitteln der verschiedenen verfügbaren Dienst...
...,...,...,...
13886,http://data.europa.eu/esco/skill/ffef5eb3-a15e...,berufliche Leistungsfähigkeit von Nutzern/Nutz...,"Wiederherstellen der kognitiven, sensomotorisc..."
13887,http://data.europa.eu/esco/skill/fff0b074-5a76...,Beleuchtung in Transportgeräten einbauen,Einbau von Beleuchtungselementen in Transportg...
13888,http://data.europa.eu/esco/skill/fff0e2cd-d0bd...,Verarbeitung natürlicher Sprache,"Technologien, die es IKT-Geräten ermöglichen, ..."
13889,http://data.europa.eu/esco/skill/fff5bc45-b506...,Bauarbeiten koordinieren,Koordinierung der Tätigkeiten mehrerer Bauarbe...


### DIN PAS 1045 Course Description Dataset

In [10]:
courses = pd.read_csv('../data/all_courses1.csv')

In [11]:
courses

Unnamed: 0,course_name,course_id,course_description
0,"""Schwierige"" Klienten? - Mit Patienten, Angehö...",4A873264-7ADD-DE47-3039-1FDA692E8164,- Analyse strapaziöser Gesprächsmuster\n- Schw...
1,Aktuelles Arbeitsrecht 2022,99BEDCEB-4FF3-3F8F-88B7-B30E50638F01,Kurzbeschreibung\nDas Arbeitsrecht unterliegt ...
2,Ambulante Pflege - Rechtssicher Handeln und Ha...,97FD41FD-1A91-179C-3EA5-6A23E2F436D5,- Grundlagen der straf- und zivilrechtlichen H...
3,Aufgaben des gesetzlichen Betreuers - Zur Refo...,A0CC573A-79D7-79A4-5B22-F675C4F06950,Kurzbeschreibung\nNoch im Jahr 2020 plant der ...
4,Basisqualifikation für ungelernte Pflegekräfte...,7C449EF7-12A8-82FC-0E5E-BD2885FDB93C,- Alten- und Krankenpflege\n . Körperpflege\n...
...,...,...,...
16847,5 Monate Weiterbildung: Organisation & Führung...,A1E046BE-1C4B-B977-C9B9-88D8D2860107,Die aktuell vorherrschende Situation auf dem A...
16848,Conversion und Usability Experte,A1DF8EEB-D317-70BA-508F-AFC732369860,Ziel der Maßnahme ist es den Teilnehmern eine ...
16849,Digital Transformation Management,A1DD9D98-2BA3-3A11-0A24-72FC4C79422A,Ziel der Maßnahme ist es den Teilnehmern eine ...
16850,E-Commerce Geschäftsmodelle,A1DD60F7-9B6E-ECEE-F1DF-53FED2DCCC5C,Ziel der Maßnahme ist es den Teilnehmern eine ...


## Data Pre-processing


### ESCO Skills Dataset

Because the data comes from the official documents of European Commission, the quality is relatively good, so we didn't process data cleaning perform lemmatization. Here, the `.is_stop` and `.lemma` methods provided in spacy are used. method `.lemma` will convert punctuation other than hyphens to "--", we choose non-punctuation and non-empty terms. In the end we found that "\xa0" (on-breaking space in Latin1 (ISO 8859-1)) would not be processed by the previous steps, so here we hardcoded to remove them. Currently we only use "preferredLabel" column as the feature.

###  preferredLabel

In [12]:
# labels.to_csv("./data/skillLabels.csv")
labels = skills['preferredLabel'].copy(deep=True)

In [13]:
labels_processed = []
for label in (labels):
    label = sp(label)
    label_processed = ''
    for word in label:
        word = word.lemma_.lower()
        word = str(word)
        if word != '--' and word != '' and word != ' ':
            if word == '\xa0': continue
            label_processed += word + ' '
    labels_processed.append(label_processed[:-1])   

In [14]:
pd.DataFrame(labels_processed, columns = ['processedLabel'])

Unnamed: 0,processedLabel
0,musikpersonal verwalten
1,strafvollzugsverfahr beaufsichtigen
2,nicht unterdrückend praktik anwenden
3,einhaltung von vorschrift von eisenbahnfahrzeu...
4,verfügbar dienst ermitteln
...,...
13886,beruflich leistungsfähigkeit von nutzer nutzer...
13887,beleuchtung in transportgerät einbauen
13888,verarbeitung natürlich sprache
13889,bauarbeit koordinieren


#### description

In [15]:
skill_descriptions = skills['description'].copy(deep=True)

In [16]:
skill_descriptions

0        Zuweisen und Verwalten der Aufgaben des Person...
1        Überwachen des Betriebs einer Justizvollzugsan...
2        Ermitteln von Repressionen in Gesellschaften, ...
3        Kontrollieren von Fahrzeugen, Komponenten und ...
4        Ermitteln der verschiedenen verfügbaren Dienst...
                               ...                        
13886    Wiederherstellen der kognitiven, sensomotorisc...
13887    Einbau von Beleuchtungselementen in Transportg...
13888    Technologien, die es IKT-Geräten ermöglichen, ...
13889    Koordinierung der Tätigkeiten mehrerer Bauarbe...
13890    Anbringen von Absturzsicherungen und Bordbrett...
Name: description, Length: 13891, dtype: object

### DIN PAS 1045 Course Description Dataset
We used "course_name" and "couse_description" columns together as the feature.

In [17]:
courses['course_info'] = courses['course_name'] + " " + courses['course_description']
courses_info = courses['course_info'].copy(deep=True)

In [18]:
courses_info_processed = []
for course_info in (courses_info):
    course_info = sp(course_info)
    course_info_processed = ''
    for word in course_info:
        if not word.is_stop:
            word = word.lemma_.lower()
            if word != '--' and word != "" and word != " ":
                if "/-" in word: word = word.split("/-")[0]
                course_info_processed += word + ' '
    courses_info_processed.append(course_info_processed)  

In [19]:
pd.DataFrame(courses_info_processed, columns = ['coursesInfoProcessed'])

Unnamed: 0,coursesInfoProcessed
0,schwierig klient patient angehörige kollege cl...
1,aktuelles arbeitsrecht 2022 kurzbeschreibung \...
2,ambulant pflege rechtssicher handeln haftungsr...
3,aufgabe gesetzlich betreuer reform betreuungsr...
4,basisqualifikation ungelernt pflegekräft zerti...
...,...
16847,5 monat weiterbildung organisation & führung l...
16848,conversion usability experte ziel maßnahme tei...
16849,digital transformation management ziel maßnahm...
16850,e-commerce geschäftsmodell ziel maßnahme teiln...


## NLP Algorithms

### Modified Ontology-based Entity Recognition

`termStore:  {controlled vocabulary (vocabularies in label): URI}`

In [20]:
termStore = {}
URI = 0
for label_processed in labels_processed:
    label_processed = sp(label_processed)
    for word in label_processed:
        word = str(word)
        if word not in termStore:
            termStore[word] = URI
            URI += 1

In [21]:
pd.DataFrame(termStore.items(), columns = ['controlledVocabulary', 'URI'])

Unnamed: 0,controlledVocabulary,URI
0,musikpersonal,0
1,verwalten,1
2,strafvollzugsverfahr,2
3,beaufsichtigen,3
4,nicht,4
...,...,...
12194,scala,12194
12195,bodentragfähigkeit,12195
12196,bibliotheksartikel,12196
12197,absturzsicherung,12197


`sequenceStore: {URIs : (index, sequence consisted of controlled vocabularies (label))}`

In [22]:
sequenceStore = {}
for i,label_processed in enumerate(labels_processed):
    URIs = []
    label_processed = sp(label_processed)
    for word in label_processed:
        URIs.append(termStore[str(word)])
    sequenceStore[tuple(URIs)] = (i,str(label_processed))

In [38]:
pd.DataFrame(sequenceStore.items(), columns = ['URIs', '(index, label)'])

Unnamed: 0,URIs,"(index, label)"
0,"(0, 1)","(0, musikpersonal verwalten)"
1,"(2, 3)","(1, strafvollzugsverfahr beaufsichtigen)"
2,"(4, 5, 6, 7)","(2, nicht unterdrückend praktik anwenden)"
3,"(8, 9, 10, 9, 11, 12)","(3, einhaltung von vorschrift von eisenbahnfah..."
4,"(13, 14, 15)","(4, verfügbar dienst ermitteln)"
...,...,...
13879,"(1834, 6874, 9, 521, 522, 29, 726, 1364)","(13886, beruflich leistungsfähigkeit von nutze..."
13880,"(2244, 65, 1931, 308)","(13887, beleuchtung in transportgerät einbauen)"
13881,"(1775, 1361, 2393)","(13888, verarbeitung natürlich sprache)"
13882,"(3634, 498)","(13889, bauarbeit koordinieren)"


The algorithm scans the tokenized courses information from the beginning until a word contained in the `termStore` is reached. Starting from this word a lookahead is performed searching for the longest sequence of words, which are contained in the `termStore`. As soon as a subsequent term is not included in the `termStore`, the `check_candidates` method to find all sequence still contained in the `sequenceStore` by using URIs. 

In [29]:
def get_relations(index_start, index_end):
    URIs_candidates = []
    word_candidates = []
    relations = []
    courses_info_processed_subset = courses_info_processed[index_start:index_end]
    for i, course_info_processed in enumerate(courses_info_processed_subset):
        index_course = index_start + i
        for word in sp(course_info_processed):
            word = str(word)
            if word in termStore:
                word_candidates.append(word)
                URIs_candidates.append(termStore[word])
            else:
                if URIs_candidates != []:
                    URIs_candidates, relations = check_candidates(URIs_candidates, index_course, relations)
                word_candidates = []
    URIs_candidates, relations = check_candidates(URIs_candidates, index_course, relations)
    for relation in relations:
        print(courses['course_name'][relation[0]] + '   ' + courses['course_id'][relation[0]])
        print(' ---> ' + skills['preferredLabel'][relation[1]] + '   ' + skills['conceptUri'][relation[1]])
        print()
        
def check_candidates(URIs_candidates, index_course, relations):
    n = len(URIs_candidates)
    for i in range(n):
        for j in range(i+1, n+1):
            URIs = tuple(URIs_candidates[i:j])
            if URIs in sequenceStore:
                index_label = sequenceStore[URIs][0]
                if (index_course, index_label) not in relations:
                    relations.append((index_course, index_label))
    URIs_candidates = []
    return URIs_candidates, relations

# Testing

In [33]:
get_relations(300,330)

Englisch - Grundkurs (Seminar zur Grundversorgung nach dem BbgWBG)   4527E4F0-2B73-354B-C2F2-6F98EAF15940
 ---> Englisch   http://data.europa.eu/esco/skill/6d3edede-8951-4621-a835-e04323300fa0

Finanzbuchführung EDV-unterstützt - Anwendung kaufmännischer Software - Modul 2 kaufmännischer Bereich   6C51A9EA-8369-9EF6-469B-8F192B60DCBC
 ---> Jahresabschluss   http://data.europa.eu/esco/skill/4a460161-eaea-4fe2-bd0e-164ccc635be1

Finanzbuchführung Jahresabschluss / Anlagenbuchhaltung - EDV-unterstützt - Modul 11 kaufmännischer Bereich   6C526AE1-187A-A1EE-D557-B57FB448EE03
 ---> Jahresabschluss   http://data.europa.eu/esco/skill/4a460161-eaea-4fe2-bd0e-164ccc635be1

Fräsen konventionell - Modul 13   6C4A31B0-D8EC-C786-8E8D-609AEA7E08AD
 ---> planen   http://data.europa.eu/esco/skill/e49f4158-9d4c-425d-bf32-dfe89b19840a

Geprüfter Industriemeister/ Geprüfte Industriemeisterin Fachrichtung Metall   69FAEA3F-32B2-261E-9F1B-5C721C6862EF
 ---> Kommunikation   http://data.europa.eu/esco/skill/1

In [36]:
course_id = '64A884F1-A9C0-0E71-FF7D-09AE2A5319C7'
courses[courses['course_id'] == course_id][['course_name','course_description']].values

array([['Internetseitenerstellung/HTML - Grundkurs (Seminar zur Grundversorgung nach dem BbgWBG)',
        'Vermittelt werden die wichtigsten Techniken für das Erstellen einer Internetseite mit Hilfe von HTML, CSS und JavaScript.     ']],
      dtype=object)

In [37]:
course_id = '64AA4F58-BD57-75E1-CD8C-96D4301739E9'
courses[courses['course_id'] == course_id][['course_name','course_description']].values

array([['Gesunde Ernährung für die Familie (Seminar zur Grundversorgung nach dem BbgWBG)',
        'Ausgehend vom Schweregrad der Arbeit werden die täglich notwendig aufzunehmenden Nähr- und Wirkstoffe ermittelt als Einführung in die Ernährungslehre. Die Bedeutung der 3 Hauptnährstoffe für den menschlichen Körper werden erläutert und der Aufbau und die Versorgung mit Kohlenhydraten, Fetten und Eiweiß sowie die Erhaltung der Vitamine und Mineralstoffe. Es werden ernährungsphysiologische Gerichte zusammengestellt und die Nahrungszubereitung an Hand von Beispielen wird realisiert.       ']],
      dtype=object)

In [None]:
# code from paper discard
# def annotate (text):
#     tt = sp(text)
#     s = p = 0
#     at = ''
#     a = []
#     for token in tt:
#         p += 1
#         if s > 1:
#             s -= 1
#             continue
#         elif token.lemma_ not in termStore:
#             at = at + ' ' + token
#         else: 
#             phrase,l = lookahead(tt[p+1:], [token], 1)
#             if phrase != []:
#                 URI = sequenceStore.get(phrase)
#                 if URI != None:
#                     a = a.append((p, phrase, URI))
#                     at += ' ' + phrase
#                     continue
#             at += ' ' + token
#         return a, at

# def lookahead(tt, fp, n):
#     if len(tt) == 0: return fp, n 
#     termFound = tt[0].lemma_.lower() in termStore                                         
#     phraseFound = tuple(fp) in sequenceStore
#     if termFound or phraseFound:                                   
#         fp.append(tt[0])
#         ph, l = lookahead(tt[1:], fp, n+1)
#         print(fp, ph)
#         if tuple(ph) in sequenceStore: return ph, l
#         elif phraseFound: return fp, n
#     return ([],n)