# __Analyse der Anforderungen__

In diesem Schritt werden die meistgenannten Anforderungen identifiziert und in ein Wörterbuch überführt

In [1]:
import pandas as pd
import nltk
from nltk.corpus import stopwords  
from gensim.models.phrases import Phrases, Phraser
pd.set_option('display.max_colwidth', 50)
import os

# Working-Directory
os.chdir('C:/Users/Sven Konermann/Documents/Master/2_Semester/aF_E_Faelle/Unterlagen/00_all')

In [2]:
# Einlesen der Daten über ein csv File
data = pd.read_csv("Inserate_clean_Gesamtdatenanalyse.csv", sep=";")
print(data.shape)

# Auf Null-Werte prüfen und diese löschen
data = data[~data['Text_Anforderungen'].isnull()]

# Erneutes Tokenisieren
data['text_tok'] = data.apply(lambda row: nltk.word_tokenize(row['Text_Anforderungen']), axis=1)

(40822, 10)


In [3]:
# Jahr auswählen, für das ein Wörterbuch erstellt werden soll
data = data.loc[data.year == 2021]

Phrasen sammeln

In [4]:
# Finden von oft vorkommenden Phrasen mit einer Länge zwischen 2 und 4 Wörtern
from nltk import ngrams
vals = [y for x in data['Text_Anforderungen'] for y in x.split()]

n = [2,3,4]
a = pd.Series([y for x in n for y in ngrams(vals, x)]).value_counts()
a.head(25)

(â, â)                                                              2699
(â, â, â)                                                           2068
(â, â, â, â)                                                        1635
(verfã¼gen, ã¼ber)                                                   500
(business, analyst)                                                  477
(wort, schrift)                                                      458
(gut, deutsch)                                                       445
(gut, kenntnis)                                                      430
(â, «)                                                               403
(p, langdech)                                                        389
(intern, extern)                                                     378
(per, email)                                                         366
(deutsch, englischkenntnisse)                                        348
(jahr, berufserfahrung)                            

In [5]:
# Abspeichern in ein CSV als Basis für das Wörterbuch
a.to_csv("ngram_count_all_Data.csv", encoding="utf-8", sep=";")

Fix-Wörter sammeln

In [6]:
# Einmal vorkommende Wörter in Set abspeichern
results = set()
data['text_tok'].apply(results.update)
n = results
len(n)

67715

In [7]:
# Vergleiche das Vorkommen von unique words im Text_new (Unique words list kommt vom Tokanizing oben).
# Danach ausschreiben der Begriffe, welche Anforderungen entsprechen, in ein Wörterbuch
wordsets = [ frozenset(document.split(' ')) for document in data['Text_Anforderungen'] ]
results = []
for word in n:
    count = sum( 1 for s in wordsets if word in s )
    results.append((count, word))
for count, word in sorted(results, reverse=True):
    if count >= 25: # Mindestanzahl Nennungen der Begriffe
        print(word, ";", count)

gut ; 2390
sowie ; 2380
erfahrung ; 2146
fã¼r ; 2090
bereich ; 1973
deutsch ; 1756
freuen ; 1686
team ; 1659
kenntnis ; 1513
neu ; 1408
projekt ; 1356
kunde ; 1329
ã¼ber ; 1308
business ; 1277
hoch ; 1226
bieten ; 1180
suchen ; 1179
aufgabe ; 1119
gerne ; 1094
it ; 1061
berufserfahrung ; 1051
teamfähig ; 1049
umfeld ; 1037
technisch ; 1015
weit ; 1014
jahr ; 976
informatik ; 973
arbeiten ; 968
ausbildung ; 961
bringen ; 953
weiterentwicklung ; 950
weiterbildung ; 901
spannend ; 857
intern ; 852
schweiz ; 840
modern ; 834
management ; 831
per ; 828
unternehmen ; 820
bewerbung ; 817
vorteil ; 809
41 ; 805
analyse ; 798
extern ; 796
englischkenntnisse ; 788
umsetzung ; 786
sap ; 785
analytisch ; 779
wirtschaftsinformatik ; 767
bewerbungsunterlagen ; 738
dynamisch ; 737
prozeß ; 729
abgeschlossen ; 716
anforderung ; 715
englisch ; 701
flexibel ; 694
verschieden ; 691
wort ; 690
attraktiv ; 682
agil ; 682
entwicklung ; 658
interesse ; 643
mitarbeitende ; 640
stehen ; 639
arbeit ; 639
â ; 63

ausbau ; 111
zürich ; 110
fragestellung ; 110
dossier ; 110
allgemein ; 110
solutions ; 109
plus ; 109
performance ; 109
leiterin ; 109
hervorragend ; 109
erteilen ; 109
auswertung ; 109
ã¼berzeugen ; 108
entscheidungsweg ; 108
drei ; 108
cv ; 108
basel ; 108
aufgestellt ; 108
anforderungen ; 108
ãœberwachung ; 107
teilprojektleitung ; 107
swiss ; 107
passen ; 107
our ; 107
operation ; 107
notwendig ; 107
gezielt ; 107
freiraum ; 107
all ; 107
365 ; 107
ã¼bernimmst ; 106
voll ; 106
requests ; 106
projekte ; 106
kundinnen ; 106
crm ; 106
6 ; 106
50 ; 106
statistik ; 105
persçônlichkeit ; 105
organisatorisch ; 105
mobil ; 105
mail ; 105
legen ; 105
französisch ; 105
zuverlässig ; 104
unkompliziert ; 104
reisebereitschaft ; 104
perspektive ; 104
einhaltung ; 104
ausserdem ; 104
044 ; 104
vertieft ; 103
sozial ; 103
selbstständig ; 103
qualitativ ; 103
kosten ; 103
home ; 103
befinden ; 103
systems ; 102
sicherheit ; 102
konfiguration ; 102
karriere ; 102
itjobsyellowsharkcom ; 102
fico ; 

wwwyellowsharkcomp ; 53
within ; 53
willkommen ; 53
wer ; 53
vorhanden ; 53
voran ; 53
unit ; 53
teamspirit ; 53
stilsicheres ; 53
sinn ; 53
respekt ; 53
produktiv ; 53
platform ; 53
offene ; 53
modell ; 53
mitverantwortlich ; 53
mindset ; 53
kostenlos ; 53
industriell ; 53
hochschulstudium ; 53
gleich ; 53
gesundheit ; 53
forschung ; 53
entgegen ; 53
endtoend ; 53
echt ; 53
durchführung ; 53
blicken ; 53
befristet ; 53
beachten ; 53
17 ; 53
041 ; 53
zentrum ; 52
wã¼nschenswert ; 52
vorgesetzt ; 52
stufengerecht ; 52
selbststã¤ndigkeit ; 52
registrieren ; 52
namhaft ; 52
migrosgruppejobs ; 52
michael ; 52
mehrjçïhrig ; 52
ideen ; 52
hochstehend ; 52
fç¬hrung ; 52
experten ; 52
entscheidung ; 52
eingesetzt ; 52
departement ; 52
danken ; 52
berã¤tst ; 52
beispiel ; 52
bedarf ; 52
anâ ; 52
14 ; 52
zahlungsverkehr ; 51
vmware ; 51
sympathisch ; 51
statistisch ; 51
spielen ; 51
social ; 51
schnittstellen ; 51
qualifiziert ; 51
provider ; 51
passion ; 51
kooperativ ; 51
karte ; 51
integriere

hard ; 30
grossgeschrieben ; 30
gelebt ; 30
filtern ; 30
fhhf ; 30
fachstelle ; 30
fachkonzept ; 30
exciting ; 30
erfolgen ; 30
einbezug ; 30
directory ; 30
different ; 30
derâ ; 30
datenqualitã¤t ; 30
darum ; 30
cycle ; 30
crossfunktional ; 30
control ; 30
commerce ; 30
chain ; 30
bã¼rorã¤umlichkeit ; 30
bewirken ; 30
bewerbungstool ; 30
betriebswirtschaftslehre ; 30
beteiligen ; 30
berufspraxis ; 30
beiden ; 30
aufnehmen ; 30
arbeitsplã¤tze ; 30
arbeitsgruppe ; 30
antwort ; 30
anlaufstelle ; 30
activities ; 30
38 ; 30
21 ; 30
übersichtnicht ; 29
öffentlich ; 29
zustellung ; 29
zugewiesen ; 29
wobei ; 29
webapplikation ; 29
vorwiegend ; 29
vertiefung ; 29
verstçïndnis ; 29
verstã¤ndlich ; 29
verlieren ; 29
validieren ; 29
unternehmensberatung ; 29
unmittelbar ; 29
tã¤tigkeitsgebiet ; 29
suchabo ; 29
spiegeln ; 29
spannende ; 29
responsibility ; 29
rekrutierungsprozeß ; 29
receiving ; 29
qualitã¤ts ; 29
produktmanagement ; 29
point ; 29
operations ; 29
off ; 29
navision ; 29
mssql ; 29