Der *Hanover Tagger* bietet Lemmatisierer und Wortarterkenner (POS Tagger) für das Deutsche. *Hanover Tagger* (HanTa) herunterladen und installieren:

In [64]:
!pip install HanTa



Modul einbinden und ein vortrainiertes Modell laden:

In [65]:
from HanTa import HanoverTagger as ht
tagger = ht.HanoverTagger('morphmodel_ger.pgz')

In [66]:
print(tagger.analyze('Fachmärkte'))

('Fachmarkt', 'NN')


In [67]:
import spacy
import nltk
from pprint import pprint

In [68]:
nlp = spacy.load("de_core_news_sm")

In [69]:
file = 'K:\\GeM_digital\\WiSe_2021-2022\\Daten\\stellenanzeige.txt'

In [70]:
with open(file, mode = 'r', encoding = 'utf-8') as f:
    text = f.read()
print(text)

Die Universität Hamburg Marketing GmbH (UHHMG), eine hundertprozentige Tochtergesellschaft der Universität Hamburg (UHH), ist eine Full Service- und Dienstleistungsagentur. Mit rund 30 Beschäftigten zeichnet sie sich als Schnittstelle zwischen Universität, Wirtschaft, Öffentlichkeit und Politik aus. Als Spezialistin für Recruiting betreibt die UHHMG unter der Marke „stellenwerk“ verschiedene Recruiting-Formate zur studentischen Personalbeschaffung wie Online-Stellenbörsen, die deutschlandweit in Zusammenarbeit mit 19 Hochschulpartnern betrieben werden, Online-Magazine und virtuelle Jobmessen und Events. Auf den stellenwerk-Jobportalen finden Studierende einen Nebenjob zur Finanzierung des Studiums, Praktika oder Abschlussarbeiten, und für Absolvent*innen werden Einstiegspositionen angeboten. Für die Bespielung und Pflege der Jobboards des stellenwerks und der Plakatwechselrahmen (DIN A0 und DIN A1) auf dem Hauptcampus der Universität Hamburg und seinen außerhalb gelegenen Nebenstellen 

In [71]:
doc = nlp(text)

## Sentence splitting

In [72]:
sentences = [sentence.text for sentence in doc.sents]

In [73]:
for s in sentences:
    print(s)
    print()

Die Universität Hamburg Marketing GmbH (UHHMG), eine hundertprozentige Tochtergesellschaft der Universität Hamburg (UHH), ist eine Full Service- und Dienstleistungsagentur.

Mit rund 30 Beschäftigten zeichnet sie sich als Schnittstelle zwischen Universität, Wirtschaft, Öffentlichkeit und Politik aus.

Als Spezialistin für Recruiting betreibt die UHHMG unter der Marke „stellenwerk“ verschiedene Recruiting-Formate zur studentischen Personalbeschaffung wie Online-Stellenbörsen, die deutschlandweit in Zusammenarbeit mit 19 Hochschulpartnern betrieben werden, Online-Magazine und virtuelle Jobmessen und Events.

Auf den stellenwerk-Jobportalen finden Studierende einen Nebenjob zur Finanzierung des Studiums, Praktika oder Abschlussarbeiten, und für Absolvent*innen werden Einstiegspositionen angeboten.

Für die Bespielung und Pflege der Jobboards des stellenwerks und der Plakatwechselrahmen (DIN A0 und DIN A1) auf dem Hauptcampus der Universität Hamburg und seinen außerhalb gelegenen Nebenstel

## Tokenisierung

In [74]:
words = [token.text for token in doc]

In [75]:
print(words)

['Die', 'Universität', 'Hamburg', 'Marketing', 'GmbH', '(', 'UHHMG', ')', ',', 'eine', 'hundertprozentige', 'Tochtergesellschaft', 'der', 'Universität', 'Hamburg', '(', 'UHH', ')', ',', 'ist', 'eine', 'Full', 'Service-', 'und', 'Dienstleistungsagentur', '.', 'Mit', 'rund', '30', 'Beschäftigten', 'zeichnet', 'sie', 'sich', 'als', 'Schnittstelle', 'zwischen', 'Universität', ',', 'Wirtschaft', ',', 'Öffentlichkeit', 'und', 'Politik', 'aus', '.', 'Als', 'Spezialistin', 'für', 'Recruiting', 'betreibt', 'die', 'UHHMG', 'unter', 'der', 'Marke', '„', 'stellenwerk', '“', 'verschiedene', 'Recruiting-Formate', 'zur', 'studentischen', 'Personalbeschaffung', 'wie', 'Online-Stellenbörsen', ',', 'die', 'deutschlandweit', 'in', 'Zusammenarbeit', 'mit', '19', 'Hochschulpartnern', 'betrieben', 'werden', ',', 'Online-Magazine', 'und', 'virtuelle', 'Jobmessen', 'und', 'Events', '.', 'Auf', 'den', 'stellenwerk-Jobportalen', 'finden', 'Studierende', 'einen', 'Nebenjob', 'zur', 'Finanzierung', 'des', 'Studiu

In [76]:
tokens = [[token.text for token in sentence] for sentence in doc.sents]

In [77]:
print(tokens)

[['Die', 'Universität', 'Hamburg', 'Marketing', 'GmbH', '(', 'UHHMG', ')', ',', 'eine', 'hundertprozentige', 'Tochtergesellschaft', 'der', 'Universität', 'Hamburg', '(', 'UHH', ')', ',', 'ist', 'eine', 'Full', 'Service-', 'und', 'Dienstleistungsagentur', '.'], ['Mit', 'rund', '30', 'Beschäftigten', 'zeichnet', 'sie', 'sich', 'als', 'Schnittstelle', 'zwischen', 'Universität', ',', 'Wirtschaft', ',', 'Öffentlichkeit', 'und', 'Politik', 'aus', '.'], ['Als', 'Spezialistin', 'für', 'Recruiting', 'betreibt', 'die', 'UHHMG', 'unter', 'der', 'Marke', '„', 'stellenwerk', '“', 'verschiedene', 'Recruiting-Formate', 'zur', 'studentischen', 'Personalbeschaffung', 'wie', 'Online-Stellenbörsen', ',', 'die', 'deutschlandweit', 'in', 'Zusammenarbeit', 'mit', '19', 'Hochschulpartnern', 'betrieben', 'werden', ',', 'Online-Magazine', 'und', 'virtuelle', 'Jobmessen', 'und', 'Events', '.'], ['Auf', 'den', 'stellenwerk-Jobportalen', 'finden', 'Studierende', 'einen', 'Nebenjob', 'zur', 'Finanzierung', 'des', 

## Stemming

In [78]:
from nltk import SnowballStemmer
stemmer = SnowballStemmer('german')

In [79]:
stems = [stemmer.stem(word) for word in words]

In [80]:
print(stems)

['die', 'universitat', 'hamburg', 'marketing', 'gmbh', '(', 'uhhmg', ')', ',', 'ein', 'hundertprozent', 'tochtergesellschaft', 'der', 'universitat', 'hamburg', '(', 'uhh', ')', ',', 'ist', 'ein', 'full', 'service-', 'und', 'dienstleistungsagentur', '.', 'mit', 'rund', '30', 'beschaftigt', 'zeichnet', 'sie', 'sich', 'als', 'schnittstell', 'zwisch', 'universitat', ',', 'wirtschaft', ',', 'offent', 'und', 'polit', 'aus', '.', 'als', 'spezialistin', 'fur', 'recruiting', 'betreibt', 'die', 'uhhmg', 'unt', 'der', 'mark', '„', 'stellenwerk', '“', 'verschied', 'recruiting-format', 'zur', 'student', 'personalbeschaff', 'wie', 'online-stellenbors', ',', 'die', 'deutschlandweit', 'in', 'zusammenarbeit', 'mit', '19', 'hochschulpartn', 'betrieb', 'werd', ',', 'online-magazin', 'und', 'virtuell', 'jobmess', 'und', 'event', '.', 'auf', 'den', 'stellenwerk-jobportal', 'find', 'studier', 'ein', 'nebenjob', 'zur', 'finanzier', 'des', 'studium', ',', 'praktika', 'oder', 'abschlussarbeit', ',', 'und', 'fu

## Lemmatisierung

In [81]:
from nltk.stem import WordNetLemmatizer

In [82]:
lemmatizer = WordNetLemmatizer()

In [83]:
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

In [84]:
print(lemmatized_words)

['Die', 'Universität', 'Hamburg', 'Marketing', 'GmbH', '(', 'UHHMG', ')', ',', 'eine', 'hundertprozentige', 'Tochtergesellschaft', 'der', 'Universität', 'Hamburg', '(', 'UHH', ')', ',', 'ist', 'eine', 'Full', 'Service-', 'und', 'Dienstleistungsagentur', '.', 'Mit', 'rund', '30', 'Beschäftigten', 'zeichnet', 'sie', 'sich', 'al', 'Schnittstelle', 'zwischen', 'Universität', ',', 'Wirtschaft', ',', 'Öffentlichkeit', 'und', 'Politik', 'au', '.', 'Als', 'Spezialistin', 'für', 'Recruiting', 'betreibt', 'die', 'UHHMG', 'unter', 'der', 'Marke', '„', 'stellenwerk', '“', 'verschiedene', 'Recruiting-Formate', 'zur', 'studentischen', 'Personalbeschaffung', 'wie', 'Online-Stellenbörsen', ',', 'die', 'deutschlandweit', 'in', 'Zusammenarbeit', 'mit', '19', 'Hochschulpartnern', 'betrieben', 'werden', ',', 'Online-Magazine', 'und', 'virtuelle', 'Jobmessen', 'und', 'Events', '.', 'Auf', 'den', 'stellenwerk-Jobportalen', 'finden', 'Studierende', 'einen', 'Nebenjob', 'zur', 'Finanzierung', 'de', 'Studiums'

In [85]:
lemmas = [[token.lemma_ for token in sentence] for sentence in doc.sents]

In [86]:
print(lemmas)

[['der', 'Universität', 'Hamburg', 'Marketing', 'GmbH', '(', 'UHHMG', ')', ',', 'einen', 'hundertprozentige', 'Tochtergesellschaft', 'der', 'Universität', 'Hamburg', '(', 'UHH', ')', ',', 'sein', 'einen', 'Full', 'Service-', 'und', 'Dienstleistungsagentur', '.'], ['Mit', 'rund', '30', 'Beschäftigte', 'zeichnen', 'ich', 'sich', 'als', 'Schnittstelle', 'zwischen', 'Universität', ',', 'Wirtschaft', ',', 'Öffentlichkeit', 'und', 'Politik', 'aus', '.'], ['als', 'Spezialistin', 'für', 'Recruiting', 'betreiben', 'der', 'UHHMG', 'unter', 'der', 'Mark', '„', 'stellenwerk', '“', 'verschieden', 'Recruiting-Formate', 'zur', 'studentisch', 'Personalbeschaffung', 'wie', 'Online-Stellenbörsen', ',', 'der', 'deutschlandweit', 'in', 'Zusammenarbeit', 'mit', '19', 'Hochschulpartnern', 'betrieben', 'werden', ',', 'Online-Magazine', 'und', 'virtuelle', 'Jobmessen', 'und', 'Events', '.'], ['Auf', 'der', 'stellenwerk-Jobportalen', 'finden', 'Studierende', 'ein', 'Nebenjob', 'zur', 'Finanzierung', 'der', 'St

## Lemmatisierung und POS-Tagging mit *Hanover Tagger* 

In [87]:
sentences = [sentence.text for sentence in doc.sents]
for sent in sentences:
    wort = nltk.word_tokenize(sent)
    lemmata = tagger.tag_sent(wort,taglevel= 1)
    pprint(lemmata)    

[('Die', 'die', 'ART'),
 ('Universität', 'Universität', 'NN'),
 ('Hamburg', 'Hamburg', 'NE'),
 ('Marketing', 'Marketing', 'NN'),
 ('GmbH', 'Gmbh', 'NN'),
 ('(', '--', '$('),
 ('UHHMG', 'Uhhmg', 'NE'),
 (')', '--', '$('),
 (',', '--', '$,'),
 ('eine', 'eine', 'ART'),
 ('hundertprozentige', 'hundertprozentig', 'ADJA'),
 ('Tochtergesellschaft', 'Tochtergesellschaft', 'NN'),
 ('der', 'der', 'ART'),
 ('Universität', 'Universität', 'NN'),
 ('Hamburg', 'Hamburg', 'NE'),
 ('(', '--', '$('),
 ('UHH', 'Uhh', 'NE'),
 (')', '--', '$('),
 (',', '--', '$,'),
 ('ist', 'sein', 'VAFIN'),
 ('eine', 'eine', 'ART'),
 ('Full', 'Full', 'NE'),
 ('Service-', 'service-', 'TRUNC'),
 ('und', 'und', 'KON'),
 ('Dienstleistungsagentur', 'Dienstleistungsagentur', 'NN'),
 ('.', '--', '$.')]
[('Mit', 'mit', 'APPR'),
 ('rund', 'rund', 'ADV'),
 ('30', '30', 'CARD'),
 ('Beschäftigten', 'Beschäftigt', 'NN'),
 ('zeichnet', 'zeichnen', 'VVFIN'),
 ('sie', 'sie', 'PPER'),
 ('sich', 'sich', 'PRF'),
 ('als', 'als', 'APPR'),
 ('

## Stoppwörter

In [88]:
stopwords = nltk.corpus.stopwords.words('german')

In [89]:
print(stopwords)

['aber', 'alle', 'allem', 'allen', 'aller', 'alles', 'als', 'also', 'am', 'an', 'ander', 'andere', 'anderem', 'anderen', 'anderer', 'anderes', 'anderm', 'andern', 'anderr', 'anders', 'auch', 'auf', 'aus', 'bei', 'bin', 'bis', 'bist', 'da', 'damit', 'dann', 'der', 'den', 'des', 'dem', 'die', 'das', 'dass', 'daß', 'derselbe', 'derselben', 'denselben', 'desselben', 'demselben', 'dieselbe', 'dieselben', 'dasselbe', 'dazu', 'dein', 'deine', 'deinem', 'deinen', 'deiner', 'deines', 'denn', 'derer', 'dessen', 'dich', 'dir', 'du', 'dies', 'diese', 'diesem', 'diesen', 'dieser', 'dieses', 'doch', 'dort', 'durch', 'ein', 'eine', 'einem', 'einen', 'einer', 'eines', 'einig', 'einige', 'einigem', 'einigen', 'einiger', 'einiges', 'einmal', 'er', 'ihn', 'ihm', 'es', 'etwas', 'euer', 'eure', 'eurem', 'euren', 'eurer', 'eures', 'für', 'gegen', 'gewesen', 'hab', 'habe', 'haben', 'hat', 'hatte', 'hatten', 'hier', 'hin', 'hinter', 'ich', 'mich', 'mir', 'ihr', 'ihre', 'ihrem', 'ihren', 'ihrer', 'ihres', 'euc

In [90]:
words = [word for word in words if word.lower() not in stopwords]

In [92]:
print(words)

['Universität', 'Hamburg', 'Marketing', 'GmbH', '(', 'UHHMG', ')', ',', 'hundertprozentige', 'Tochtergesellschaft', 'Universität', 'Hamburg', '(', 'UHH', ')', ',', 'Full', 'Service-', 'Dienstleistungsagentur', '.', 'rund', '30', 'Beschäftigten', 'zeichnet', 'Schnittstelle', 'Universität', ',', 'Wirtschaft', ',', 'Öffentlichkeit', 'Politik', '.', 'Spezialistin', 'Recruiting', 'betreibt', 'UHHMG', 'Marke', '„', 'stellenwerk', '“', 'verschiedene', 'Recruiting-Formate', 'studentischen', 'Personalbeschaffung', 'Online-Stellenbörsen', ',', 'deutschlandweit', 'Zusammenarbeit', '19', 'Hochschulpartnern', 'betrieben', ',', 'Online-Magazine', 'virtuelle', 'Jobmessen', 'Events', '.', 'stellenwerk-Jobportalen', 'finden', 'Studierende', 'Nebenjob', 'Finanzierung', 'Studiums', ',', 'Praktika', 'Abschlussarbeiten', ',', 'Absolvent*innen', 'Einstiegspositionen', 'angeboten', '.', 'Bespielung', 'Pflege', 'Jobboards', 'stellenwerks', 'Plakatwechselrahmen', '(', 'DIN', 'A0', 'DIN', 'A1', ')', 'Hauptcampu

## Worthäufigkeiten

In [93]:
from nltk.probability import FreqDist

In [94]:
freq_dist = FreqDist(word.lower() for word in words)

In [95]:
print(freq_dist)

<FreqDist with 72 samples and 94 outcomes>


In [98]:
words_with_freqs = [(word, freq_dist[word]) for word in freq_dist.keys()]

In [103]:
sorted_words = sorted(words_with_freqs, reverse = True, key = lambda tup: tup[1])

In [104]:
sorted_words

[(',', 8),
 ('.', 5),
 ('universität', 4),
 ('hamburg', 3),
 ('(', 3),
 (')', 3),
 ('uhhmg', 2),
 ('din', 2),
 ('marketing', 1),
 ('gmbh', 1),
 ('hundertprozentige', 1),
 ('tochtergesellschaft', 1),
 ('uhh', 1),
 ('full', 1),
 ('service-', 1),
 ('dienstleistungsagentur', 1),
 ('rund', 1),
 ('30', 1),
 ('beschäftigten', 1),
 ('zeichnet', 1),
 ('schnittstelle', 1),
 ('wirtschaft', 1),
 ('öffentlichkeit', 1),
 ('politik', 1),
 ('spezialistin', 1),
 ('recruiting', 1),
 ('betreibt', 1),
 ('marke', 1),
 ('„', 1),
 ('stellenwerk', 1),
 ('“', 1),
 ('verschiedene', 1),
 ('recruiting-formate', 1),
 ('studentischen', 1),
 ('personalbeschaffung', 1),
 ('online-stellenbörsen', 1),
 ('deutschlandweit', 1),
 ('zusammenarbeit', 1),
 ('19', 1),
 ('hochschulpartnern', 1),
 ('betrieben', 1),
 ('online-magazine', 1),
 ('virtuelle', 1),
 ('jobmessen', 1),
 ('events', 1),
 ('stellenwerk-jobportalen', 1),
 ('finden', 1),
 ('studierende', 1),
 ('nebenjob', 1),
 ('finanzierung', 1),
 ('studiums', 1),
 ('prakti