# __Analyse der Anforderungen__

In diesem Schritt werden die meistgenannten Anforderungen identifiziert und in ein Wörterbuch überführt

In [1]:
import pandas as pd
import nltk
from nltk.corpus import stopwords  
from gensim.models.phrases import Phrases, Phraser
pd.set_option('display.max_colwidth', 50)
import os

# Working-Directory
os.chdir('C:/Users/Sven Konermann/Documents/Master/2_Semester/aF_E_Faelle/Unterlagen/JobCloud_Daten')

In [2]:
# Einlesen der Daten über ein csv File
data = pd.read_csv("Gesamtanalyse_gefiltert_Bank.csv", sep=";")
print(data.shape)

# Auf Null-Werte prüfen und diese löschen
data = data[~data['Text_Anforderungen'].isnull()]

# Erneutes Tokenisieren
data['text_tok'] = data.apply(lambda row: nltk.word_tokenize(row['Text_Anforderungen']), axis=1)

(5476, 15)


In [None]:
# Jahr auswählen, für das ein Wörterbuch erstellt werden soll
data = data.loc[data.year == 2021]

Phrasen sammeln

In [3]:
# Finden von oft vorkommenden Phrasen mit einer Länge zwischen 2 und 4 Wörtern
from nltk import ngrams
vals = [y for x in data['Text_Anforderungen'] for y in x.split()]

n = [2,3,4]
a = pd.Series([y for x in n for y in ngrams(vals, x)]).value_counts()
a.head(25)

(per, email)                           678
(freuen, bewerbung)                    655
(wort, schrift)                        637
(jahr, berufserfahrung)                633
(vollständig, bewerbungsunterlagen)    555
(gerne, verfügung)                     536
(gut, kenntnis)                        464
(intern, extern)                       461
(weit, auskunft)                       438
(freuen, vollständig)                  436
(kaufmännisch, ausbildung)             419
(gut, deutsch)                         415
(gut, englischkenntnisse)              414
(kaufmännisch, grundausbildung)        410
(deutsch, englisch)                    399
(human, resources)                     382
(per, sofort)                          375
(deutsch, gut)                         375
(jahr, erfahrung)                      357
(deutsch, englischkenntnisse)          347
(41, 58)                               347
(englischkenntnisse, wort)             344
(sowie, gut)                           332
(interesse,

In [4]:
# Abspeichern in ein CSV als Basis für das Wörterbuch
a.to_csv("ngram_count_all_Data_Bank.csv", encoding="utf-8", sep=";")

Fix-Wörter sammeln

In [5]:
# Einmal vorkommende Wörter in Set abspeichern
results = set()
data['text_tok'].apply(results.update)
n = results
len(n)

74089

In [6]:
# Vergleiche das Vorkommen von unique words im Text_new (Unique words list kommt vom Tokanizing oben).
# Danach ausschreiben der Begriffe, welche Anforderungen entsprechen, in ein Wörterbuch

wordsets = [ frozenset(document.split(' ')) for document in data['Text_Anforderungen'] ]
results = []
for word in n:
    count = sum( 1 for s in wordsets if word in s )
    results.append((count, word))
    
for count, word in sorted(results, reverse=True):
    if count >= 25: # Mindestanzahl Nennungen der Begriffe
        print(word, ";", count)

sowie ; 3291
gut ; 3139
freuen ; 2730
deutsch ; 2480
bereich ; 2474
erfahrung ; 2243
kunde ; 2226
team ; 2186
hoch ; 2072
gerne ; 2006
weit ; 1887
suchen ; 1850
persönlichkeit ; 1839
bieten ; 1755
aufgabe ; 1691
berufserfahrung ; 1641
neu ; 1532
jahr ; 1521
bewerbung ; 1502
per ; 1500
kenntnis ; 1491
ausbildung ; 1454
kaufmännisch ; 1373
schweiz ; 1320
stehen ; 1311
vorteil ; 1301
beratung ; 1281
verfügen ; 1267
weiterbildung ; 1253
teamfähig ; 1250
bank ; 1244
intern ; 1184
arbeiten ; 1151
bringen ; 1144
abgeschlossen ; 1134
vollständig ; 1130
umfeld ; 1120
frage ; 1107
profil ; 1096
kontakt ; 1080
bewerbungsunterlagen ; 1069
bitte ; 1063
fähigkeit ; 1062
management ; 1053
stelle ; 1052
online ; 1044
email ; 1039
persönlich ; 1033
aktiv ; 1032
selbständig ; 1029
bewerben ; 1021
betreuung ; 1002
dynamisch ; 1000
arbeitsweise ; 997
tätigkeit ; 989
senden ; 969
kunden ; 951
unterstützen ; 947
41 ; 945
unterstützung ; 942
erwarten ; 942
unternehmen ; 937
englischkenntnisse ; 936
mitarbeit

erledigung ; 164
dossier ; 164
projektleitungserfahrung ; 163
leistungsbereitschaft ; 163
kundenportefeuille ; 163
hektisch ; 163
wer ; 162
bankfachlich ; 162
renommiert ; 161
motivationsschreiben ; 160
entgegen ; 160
durchsetzungsvermögen ; 160
analyst ; 160
nebst ; 159
gestaltungsspielraum ; 159
gegenüber ; 159
ambitioniert ; 159
suisse ; 157
schwerpunkt ; 157
sachbearbeiterin ; 157
möglich ; 157
kranken ; 157
gebiet ; 157
immer ; 156
firma ; 156
verkaufsorientiert ; 155
schulung ; 155
lage ; 155
berater ; 155
administration ; 155
schaffen ; 154
kundenberaterin ; 154
überwachen ; 153
verkaufs ; 153
teams ; 153
stadt ; 153
sozial ; 153
sales ; 153
partnerschaftlich ; 153
lebensplanung ; 153
for ; 153
tagesgeschäft ; 152
qualifiziert ; 152
post ; 152
erteilen ; 152
engagieren ; 152
eingespielt ; 152
center ; 152
uni ; 151
relationship ; 151
motivieren ; 151
gesund ; 151
bewegen ; 151
begeistern ; 151
aufgabenvielfalt ; 151
80100 ; 151
vermögensverwaltung ; 150
teilen ; 150
link ; 150
k

stakeholdern ; 70
selbstständige ; 70
schaltfläche ; 70
respektieren ; 70
prävention ; 70
prozesse ; 70
new ; 70
gesamtheitlich ; 70
generalagent ; 70
finanzprodukt ; 70
ergebnis ; 70
entgegennehmen ; 70
by ; 70
32 ; 70
zurück ; 69
vorteilgute ; 69
servicequalität ; 69
mitdu ; 69
melden ; 69
kv ; 69
hlod ; 69
bevorzugt ; 69
bankenumfeld ; 69
auftritt ; 69
81 ; 69
062 ; 69
speziell ; 68
professional ; 68
produktpalette ; 68
persönlichkeiten ; 68
organisiert ; 68
mittlerer ; 68
migrosgruppejobs ; 68
konsequent ; 68
konkret ; 68
hfbf ; 68
have ; 68
hauptsächlich ; 68
gesundheit ; 68
ding ; 68
behörde ; 68
befristet ; 68
aspekt ; 68
277 ; 68
21 ; 68
207 ; 68
„ ; 67
zürcher ; 67
z ; 67
winterthur ; 67
vaduz ; 67
strong ; 67
spezifikation ; 67
six ; 67
pensum ; 67
pc ; 67
paaren ; 67
namhaft ; 67
modell ; 67
miftari ; 67
mandat ; 67
mandantin ; 67
lernbereitschaft ; 67
kreditgeschäft ; 67
kosomiftarischoepferagch ; 67
koso ; 67
klicken ; 67
kandidat ; 67
hochstehend ; 67
generell ; 67
einlei

reise ; 31
regel ; 31
rechtsdienst ; 31
portal ; 31
payment ; 31
nicole ; 31
mitgestaltung ; 31
meeting ; 31
lösen ; 31
kundenprojekt ; 31
karriereentwicklung ; 31
jeher ; 31
institutional ; 31
gesundheitsorganisation ; 31
geschäftlich ; 31
expert ; 31
eventuell ; 31
eröffnung ; 31
dukultur ; 31
blick ; 31
besonderer ; 31
berufe ; 31
auszuführen ; 31
arzt ; 31
arbeitszeiten ; 31
838 ; 31
69 ; 31
298 ; 31
2020 ; 31
2014 ; 31
ökonomisch ; 30
ziele ; 30
zeitgemässen ; 30
visana ; 30
virtual ; 30
vermögens ; 30
verkaufserfolg ; 30
vereint ; 30
umgehen ; 30
tour ; 30
teamfähigen ; 30
swift ; 30
stiftung ; 30
stehenihr ; 30
statistisch ; 30
sonja ; 30
solvency ; 30
selber ; 30
sandra ; 30
roger ; 30
risikoanalyse ; 30
registrieren ; 30
python ; 30
programmierkenntnisse ; 30
privatebankinggruppe ; 30
postfinance ; 30
pharmaassistentin ; 30
pensionierung ; 30
operational ; 30
mwd ; 30
mutationen ; 30
kinderkrippeihre ; 30
kennzahl ; 30
kannst ; 30
juli ; 30
januar ; 30
investieren ; 30
ideally

In [7]:
df = pd.DataFrame(results) 

In [8]:
# Abspeichern in ein CSV als Basis für das Wörterbuch
df.to_csv("ngram_count_all_single_Bank.csv", encoding="utf-8", sep=";")

In [9]:
len(results)

74089