JobAd_IE

Classification (Zone Analysis) and Information Extraction From Job Ads

Code for Classification and Information Extraction from job advertisements as part of my Master's Thesis.

1.Classification/Zone-Analysis

Splits JobAds into paragraphs and classifies them into the four classes

company description
job description
applicants profile
formalities

2. Information Extraction

Extract competences from applicants profiles

Die Klassen und weiteren Dateien des Projekts sind in der folgenden Paketstruktur geordnet, welche die jeweilige Funktionalität wiederspiegeln soll:

Sämtliche ausführbaren Klassen liegen als JUnit-Testklassen vor und stellen vollständige Workflows dar.

Mit classifyJobAdsIntoParagraphs kann eine Stellenanzeigen-Datenbank in Paragraphen der oben genannten Klassen klassifiziert werden. Die Ergebnisse werden als Datenbankfiles gespeichert (unter test/resources/classification/output).

SimpleRulebasedExraction verwendet diese als Input zur Kompetenzextraktion und speichert die Ergebnisse ebenfalls als Datenbankfile (test/resources/information_extraction/output).

Mit CreateCompetenceTrainingData, einem interaktiven Workflow zur Annotation von Kompetenzen, kann ein Testkorpus für Evaluationszwecke erstellt werden. (Ein manuell annotiertes Korpus befindet sich bereits im Ordern test/resources/information_extraction/trainingdata)

EvaluateSimpleRulebasedExtraction und EvaluateBootstrapExtraction, führen eine Extraktion mit dem jeweiligen Verfahren durch und evaluieren die Ergebnisse im Anschluss. Ausführliche Evaluationsergebnisse (inklusive aller richtig und falsch extrahieren Entitäten) werden als Text-files gespeichert (test/resources/informationextraction/output/evaluation_files). Bei der Evaluation des Bootstrapping-Ansatzes werden außerdem sämtliche automatisch generierten Patterns gespeichert (test/resources/information_extraction/output).

Zur Ausführung der JUnit Testklassen müssen folgende Dateien hinzugefügt werden:

In den Ordner information_extraction/data/openNLPmodels: de-sent.bin & de-token.bin (downloadlink: http://opennlp.sourceforge.net/models-1.5/)

In den Ordner information_extraction/data/sentencedata_models: ger-tagger+lemmatizer+morphology+graph-based-3.6+.tgz (downloadlink: https://code.google.com/archive/p/mate-tools/downloads)

1 Bundesinstitut für Berufsbildung

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
.settings		.settings
classification		classification
doc		doc
information_extraction/data		information_extraction/data
src		src
target		target
.classpath		.classpath
.gitignore		.gitignore
.project		.project
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.settings

.settings

classification

classification

doc

doc

information_extraction/data

information_extraction/data

src

src

target

target

.classpath

.classpath

.gitignore

.gitignore

.project

.project

README.md

README.md

pom.xml

pom.xml

Repository files navigation

JobAd_IE

1.Classification/Zone-Analysis

2. Information Extraction

About

Releases

Packages

Languages

geduldia/JobAd_IE

Folders and files

Latest commit

History

Repository files navigation

JobAd_IE

1.Classification/Zone-Analysis

2. Information Extraction

About

Resources

Stars

Watchers

Forks

Languages