In [4]:
import pickle
import pandas as pd

with open('data_pickle_format/synethetic_vacancies_final.pickle', 'rb') as f:
    df = pickle.load(f)   
    
df['title'] = df['job_description'].str.extract(
    r'(?:Job\s*Title|Title):\s*(.*?)(?:\.|\n)\s*(?:Job\s*Description|Description):', 
    expand=False
)
df['description'] = df['job_description'].str.extract(r'(?:Job\s*Description|Description):\s*(.*)', expand=False)

In [5]:
import spacy

nlpNL = spacy.load("nl_core_news_sm")
nlpEN = spacy.load("en_core_web_sm")

filter_and_lemma = []

for text in df['description']:
    if pd.notnull(text): 
        doc = nlpEN(text)
        filter_and_lemma.append([token.lemma_ for token in doc if not (token.is_stop or token.is_punct)])
    else:
        filter_and_lemma.append([])  
df['lemmas'] = filter_and_lemma

In [6]:
split_titles = []
for text in df['title']:
    if pd.notnull(text): 
        doc = nlpEN(text)
        split_titles.append([token.lower_ for token in doc if not (token.is_stop or token.is_punct)])
    else:
        split_titles.append([])  
df['split'] = split_titles
df['split']

0                 [support, technician]
1                     [data, scientist]
2      [information, security, manager]
3           [people, analyst, hr, tech]
4                [elearning, developer]
                     ...               
361         [ict, security, specialist]
362      [telecommunications, engineer]
363           [senior, data, scientist]
364                   [erp, consultant]
365               [software, developer]
Name: split, Length: 366, dtype: object

In [7]:
with open('data_pickle_format/labeled_vacancies_final.pickle', 'rb') as f:
    real_df = pickle.load(f)

from string import punctuation
import html
import re

def preprocess_text(text):
    text = text.lower()
    text = html.unescape(text)
    text = re.sub(r"https?://\S+", "", text) # remove http links
    text = re.sub(r"<.*?>", " ", text) # remove html tags
    text = re.sub(f"[{re.escape(punctuation)}]", "", text)  # Remove punctuation
    text = " ".join(text.split())  # Remove extra spaces, tabs, and new lines
    return text

real_df["description"] = real_df["description"].map(preprocess_text)

pd.set_option('display.max_colwidth', None)


In [8]:

import py3langid as langid

languages = []
for description in real_df['description']:
    lang, confidence = langid.classify(description)
    languages.append(lang)

real_df['language'] = languages

In [9]:
known_titles = set(" ".join(tokens) for tokens in df['split'] if tokens)

def extract_known_title(text, known_titles, nlp):
    if pd.isnull(text):
        return None
    doc = nlp(text.lower())
    tokens = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
    text_norm = " ".join(tokens)
    
    for title in known_titles:
        if title in text_norm:
            return title
    return None


real_df.loc[real_df['language'] == 'nl', 'extracted title'] = real_df.loc[real_df['language'] == 'nl', 'description'].apply(lambda x: extract_known_title(x, known_titles, nlpNL))
real_df.loc[real_df['language'] == 'en', 'extracted title'] = real_df.loc[real_df['language'] == 'en', 'description'].apply(lambda x: extract_known_title(x, known_titles, nlpEN))                                                                                                                            

In [12]:
len(real_df.loc[real_df['extracted title'].notnull()])

653

In [13]:
len(real_df.loc[real_df['extracted title'].isnull()])

1722

In [15]:
from rapidfuzz import fuzz, process

def fuzzy_extract_title(text, known_titles, nlp, threshold=85):
    if pd.isnull(text):
        return None
    doc = nlp(text.lower())
    tokens = [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
    text_norm = " ".join(tokens)
    
    match, score, _ = process.extractOne(text_norm, known_titles, scorer=fuzz.partial_ratio)
    return match if score > threshold else None

real_df.loc[real_df['language'] == 'nl', 'fuzzy title'] = real_df.loc[real_df['language'] == 'nl', 'description'].apply(lambda x: fuzzy_extract_title(x, known_titles, nlpNL))
real_df.loc[real_df['language'] == 'en', 'fuzzy title'] = real_df.loc[real_df['language'] == 'en', 'description'].apply(lambda x: fuzzy_extract_title(x, known_titles, nlpEN))                                                                                                                            

In [16]:
len(real_df.loc[real_df['fuzzy title'].notnull()])

1662

In [17]:
len(real_df.loc[real_df['fuzzy title'].isnull()])

713

In [21]:
real_df.loc[real_df['language']=='en'].tail(5)

Unnamed: 0,description,women_proportion,language,extracted title,fuzzy title
2312,company name bekend bij yacht job requirements you have knowledge and experience in executing infrastructure projects and outsourcing processes you can quickly navigate a large international organization with various stakeholders you are familiar with prince2 devops agile certification is not a requirement but your cv and portfolio of work demonstrate your proficiency in these areas as a candidate you do have experience in transition project management preferably with companies such as dxchl deep technical knowledge is not essential but a certain way of conceptual thinking for networking more specifically wlan connection good command of the english language dutch is considered as an advantage living in the netherlands must 2 office days are best practice location zaandam none company info none compensation benefits you will be seconded through yachts against an excellent remuneration package freelancers are more than welcome to react job type tijdelijke functieopdracht certifications none remote possible true,0.0,en,,project manager
2346,company name asml netherlands bv job requirements education and experience you are a motivated team player with effective communication skills who puts customer and enduser impact at the core of the work that is being done you can work independently with a focus on quality and an analytical but practical mindset working in an application support engineering role means bringing the following knowledge and expertise bachelor level or equivalent in electrical engineering embedded systems or information technology basic understanding and practical experience with linux windows ms office applications enduser support knowledge of engineering applications and in particular electrical engineering or firmware design is a plus strong communication skills and proficiency in the english language location veldhoven none company info asml is a dutch hightech company and one of the main suppliers of machines for the semiconductor industry in particular steppers and scanners which are used in chip making customers are often chip manufacturers asmls head office and business complex is in veldhoven where research and development and assembly take place in cleanrooms the company also has sixty service points in fourteen countries to support the installation and delivery of machines and spare parts asml was created from a joint venture between asm international and royal philips asml delivers worldwide but most of its customers are located in asia in 2011 66 of sales were achieved in that region 25 in the united states and just under 9 in europe the largest customer was responsible for a quarter of the total turnover asmls main supplier is zeiss a manufacturer of lenses and optical components zeisss share in asmls total purchasing costs is just under 30 due to the great mutual interests both companies have entered into a strategic alliance this can only be broken if one of the parties cancels three years in advance asml spends a lot of money on research and development compensation benefits preferred start date asap assignment duration 12 months fte 40 hours working from home partially 3 days in the office preferred language english job type tijdelijke functieopdracht certifications none remote possible true,0.0,en,,ai engineer
2367,company name bookingcom bv job requirements we have found that people who match the following requirements are the ones who fit us best a minimum of 45 years of experience in software development with java experience developing api services optimized for high traffic prior experience with kubernetes solid understanding of service oriented architecture and microservices experience with distributed systems which are highly scalable and available experience with technologies such as apigee harness is a plus location amsterdam welcome to our network company info bookingcom compensation benefits extra info duration 6 months with an option to extend 40 hours pw location amsterdam 23 days per week at the office a hacker rank test will be part of the selection procedure held by the client job type tijdelijke functieopdracht certifications none remote possible true,0.133333,en,,software developer
2368,company name bookingcom bv job requirements we have found that people who match the following requirements are the ones who fit us best minimum of 3 years of experience in the field using 2 or more serverside programming languages preferably java scala python perl etc experience with building scalable data pipelines in distributed environments with technologies such as hadoop cassandra kafka spark hbase mysql etc knowledgeable about data modelling data access and data storage techniques understands and can develop streaming processing applications using technologies like flink kafkastreams sparkstreaming etc handson experience of developing in and contributing to opensource data technologies such as hadoop demonstrable experience with sql hql cql etc experience of working on systems on a large scale good understanding of basic analytics and machine learning concepts preferably a university degree in computer science excellent communication written and spoken location amsterdam welcome to our network company info bookingcom compensation benefits extra info duration 7 months with an option to extend 40 hours pw location amsterdam job type tijdelijke functieopdracht certifications none remote possible true,0.307692,en,,
2374,company name randstad global it solutions bv job requirements your background minimum bachelor degree a first work experience in as a projectprogram coordinator is a plus having worked in a global international and digital environment is an advantage fluent in speaking and writing in english dutch is an asset additional languages are a plus familiar with working in a google environment what characterizes you sound reasoning and understanding process and improvement thinker you love problem solving strong critical thinking and analytical skills self starter loving autonomy to work strong interpersonal skills as well as attention to detail excellent organization interpersonal and time management skills teamwork mentality and willingness to assist wherever needed project management experience communicationmarketing background keen on delivering training and administrative support location diemen none company info global it randstad is transforming digitally to meet the demand of our clients talents and employees to realize our human forward strategy randstad needs to take the next step in our digital transformation journey with a number of large projects that will fundamentally shift our companies it landscape this with the aim to speed up our digital capabilities and to lead the core transformation of randstad increasing client and talent engagement and organizational efficiencies in order to continue to be the market leader at global it we strive to be the very best at what we do both in the eyes of our clients talent and our coworkers by making wise global technology choices for the benefit of randstad and delivering upon our promises randstad s success is our success we aspire to truly be one team in every sense we believe in one another support one another act transparently have courage to give feedback speak up and last but not least have fun we are a global team where central and local it specialists work together to achieve the best possible results for our business and where the total contribution is more than the sum of its parts the world around us we live in extraordinary times technology society the job market they re all rapidly advancing and opening up previously unimagined opportunities with innovation driving the world of work even faster many of us are left wondering how can i find a job that works for me people at the heart of everything we do working at randstad is unlike working at any organization because at randstad we put people at the heart of everything we do this goes for our clients our candidates our employees and society by combining our passion for people with the power of today s technologies we support people and organizations in realizing their true potential we call this human forward compensation benefits none job type tijdelijke functieopdracht certifications your background minimum bachelor degree a first work experience in as a projectprogram coordinator is a plus having worked in a global international and digital environment is an advantage fluent in speaking and writing in english dutch is an asset additional languages are a plus familiar with working in a google environment what characterizes you sound reasoning and understanding process and improvement thinker you love problem solving strong critical thinking and analytical skills self starter loving autonomy to work strong interpersonal skills as well as attention to detail excellent organization interpersonal and time management skills teamwork mentality and willingness to assist wherever needed project management experience communicationmarketing background keen on delivering training and administrative support your competencies within randstad we defined the following human forward leadership competencies delighting people connect people client talent employee society building strong client relationships and delivering clientcentric solutions performing today resourcefulness securing and developing resources effectively and efficiently leading change manages ambiguity operating effectively even when things are not certain or the way forward is not clear securing the future drives vision and purpose painting a compelling picture of the vision and strategy that motivates others into action remote possible false,0.0,en,,project manager


In [26]:
real_df.rename(columns={'fuzzy title' : 'positiontitle', 'description': 'job_description'}, inplace=True)
real_df[['positiontitle','job_description', 'women_proportion']]

Unnamed: 0,positiontitle,job_description,women_proportion
0,trainer,company name ministerie van financi n belastingdienst job requirements tmap next foundation ervaring met projecten in een agile omgeving senior tester met ervaring in testautomatisering 5 jaar kennis en ervaring met agilescrum wensen testtooling robotframework functioneel testen integratietesten performancetesten kennis van xml mq db2 kennis van container platforms location apeldoorn nederland none company info none compensation benefits dit is een opdracht tussen de 32 36 uur per week de startdatum is in overleg en de looptijd van de opdracht is in eerste instantie tot 31 december 2023 waarna er optie tot verlenging is voor deze rol zal je door yacht gedetacheerd worden bij de belastingdienst als senior tester je reiskosten worden uiteraard volledig vergoed een elektrische leaseauto welke je ook priv mag rijden behoort tot de mogelijkheden ook ontvang je een bonusregeling tot maximaal 8 van je bruto jaarsalaris 25 vakantiedagen en 833 vakantiegeld op fulltime jaarbasis daarnaast gaan we graag met je in gesprek over je persoonlijke ontwikkelingsplan en bespreken welke trainingen en opleidingen gewenst zijn want blijven ontwikkelen zijn de sleutelwoorden job type tijdelijke functieopdracht certifications tmap next foundation ervaring met projecten in een agile omgeving senior tester met ervaring in testautomatisering 5 jaar kennis en ervaring met agilescrum wensen testtooling robotframework functioneel testen integratietesten performancetesten kennis van xml mq db2 kennis van container platforms remote possible false,0.400000
1,scrum master,company name belastingdienst job requirements gecertificeerd scrum master minimaal psm ii of vergelijkbaar meerdere jaren aantoonbare ervaring als scrum master waaronder ervaring met safe of andere opschalingsmodellen ervaring met implementatie trajecten binnen een complexe omgeving professioneel vaardig in het nederlands en engels location apeldoorn nederland none company info de iv organisatie van de belastingdienst is verantwoordelijk voor en verzorgt de ict voorzieningen het merendeel van de applicaties wordt op dit moment door de iv organisatie zelf ontwikkeld onderhouden en beheerd in het eigen data center naast de zorg voor continu teit op de massale heffing en inningsprocessen die plaatsvinden binnen een degelijke stabiele omgeving wordt er tevens volop gewerkt aan modernisering van het iv landschap dit gebeurt deels intern door gebruik te maken van de expertise die intern aanwezig is maar ook door het aantrekken van kantenklaar oplossingen en expertise uit de markt compensation benefits auto van de zaak is bespreekbaar en mag uiteraard prive gebruikt worden salaris op basis van kennis en ervaring met een maximum van 5040 per maand indien gewenst direct vast contract voor onbepaalde tijd bij yacht voor deze opdracht geldt een 13e maand en voor andere opdrachten een 13e maand of deelname aan de yacht bonusregeling 833 vakantiegeld 25 vakantiedagen als je belooft dat je er iets leuks mee doet mogelijkheid voor het volgen van opleidingen cursussen trainingen pluspensioen vanaf de eerste werkdag bij ziekte eerste jaar 100 doorbetaald job type tijdelijke functieopdracht certifications gecertificeerd scrum master minimaal psm ii of vergelijkbaar meerdere jaren aantoonbare ervaring als scrum master waaronder ervaring met safe of andere opschalingsmodellen ervaring met implementatie trajecten binnen een complexe omgeving professioneel vaardig in het nederlands en engels remote possible true,0.750000
2,,company name duo job requirements 3 jaar ervaring in het volgende eisenpakket hbo denk en werkniveau relevante werkervaring in modelleren relevante werkervaring in een java omgeving relevante werkervaring met rest nice to have ervaring met java swing is een pr ervaring met velocity is een pr location groningen none company info compensation benefits deze opdracht staat ook open voor doorleen en zzpers job type tijdelijke functieopdracht certifications 3 jaar ervaring in het volgende eisenpakket hbo denk en werkniveau relevante werkervaring in modelleren relevante werkervaring in een java omgeving relevante werkervaring met rest nice to have ervaring met java swing is een pr ervaring met velocity is een pr competenties naast de specifieke aspecten die bij de rol ontwikkelaar zijn genoemd geldt dat je ook kan meedenken over hoe je de gemodelleerde informatie kunt gebruiken om de devops teams verder te helpen op elk vakgebied het idee is uiteraard dit als team te doen dus samendenken en werken is een hoofdzaak ofwel naast het werk wat je vanuit je rol doet heb je ook veel kansen om op je vakgebied een leidende rol te pakken remote possible true,0.500000
3,ui designer,company name dienst uitvoering onderwijs duo job requirements 5 jaar ervaring met de volgende eisen relevante ervaring in hbo niveau functies relevante werkervaring in ux interactie ontwerp ux design functies ervaring met human centered design customer journeys user stories scenario s screenflows wireframes en prototype en service design aantoonbaar met inzichtelijk online portfolio ervaring met het organiseren en begeleiden van effectieve groepssessies ervaring met het begeleiden van human centered design traject in n of meerdere multidisciplinaire scrumteams ervaring met agile werken werken in devops teams ervaring met scrumkanban nice to have relevante opleiding bijvoorbeeld human technology ux academy communicatiesystemen relevante ervaring bij grote uitvoeringsorganisaties ruime ervaring met digitale overheid aantoonbare ervaring met gebruikersonderzoek en usabilitytesting location groningen duo is op zoek naar een ux designer company info duo verzorgt als uitvoeringsorganisatie zijnde onderdeel van het ministerie van onderwijs cultuur en wetenschap de uitvoering van complexe wet en regelgeving en heeft een uitgebreid dienstenpakket duo financiert en informeert onderwijsdeelnemers en onderwijsinstellingen voor verdere informatie zie wwwduonl compensation benefits deze rol staat ook open voor zzpers en doorleen kandidaten job type tijdelijke functieopdracht certifications 5 jaar ervaring met de volgende eisen relevante ervaring in hbo niveau functies relevante werkervaring in ux interactie ontwerp ux design functies ervaring met human centered design customer journeys user stories scenario s screenflows wireframes en prototype en service design aantoonbaar met inzichtelijk online portfolio ervaring met het organiseren en begeleiden van effectieve groepssessies ervaring met het begeleiden van human centered design traject in n of meerdere multidisciplinaire scrumteams ervaring met agile werken werken in devops teams ervaring met scrumkanban nice to have relevante opleiding bijvoorbeeld human technology ux academy communicatiesystemen relevante ervaring bij grote uitvoeringsorganisaties ruime ervaring met digitale overheid aantoonbare ervaring met gebruikersonderzoek en usabilitytesting competenties klantgerichtheid analyseren samenwerken omgevingsbewustzijn plannen en organiseren voortgangscontrole zelfontwikkeling inlevingsvermogen initiatief remote possible true,0.500000
4,,company name asml netherlands bv job requirements location veldhoven none company info compensation benefits job type tijdelijke functie met optie op vast certifications remote possible false,0.000000
...,...,...,...
2370,ai specialist,company name specialist in parkeeroplossingen job requirements welke kennis en ervaring helpen je succesvol te zijn en energie te krijgen van deze functie it gerelateerde enof bedrijfseconomische achtergrond uitgebreide ervaring met het implementeren van webapplicaties software management implementatie van bedrijf kritische diensten en producten met grote impact in de maatschappij gewerkt met de ontwikkeling en toepassing van diverse api s afhankelijkheden tussen de verschillende functionaliteiten in betaalsystemen en applicaties high level kunnen analyseren en hierover begrijpelijk kunnen communiceren communicatief mondeling en schriftelijk vaardig en servicegericht sterk in het onderhouden van de klantrelatie en onderlinge communicatie in het team met diverse stakeholders een mensgerichte teamspeler gericht op samenwerking en resultaten behalen verantwoordelijke en kwaliteitsgerichte persoonlijkheid stressbestendig kunnen relativeren en prioriteren omgevingsbewustzijn relevante ontwikkelingen bij de klant en het team meewegen in je acties je bent gewend te werken met diverse werk culturen en communicatie in het engels zelf ook nederlands sprekend location utrecht welkom in ons netwerk company info werken in een klein internationaal team met korte lijnen kenmerkt het werken bij onze opdrachtgever met de kennis en ervaring van een grote internationale organisatie binnen handbereik we zorgen voor het door ontwikkelen van transactie en datadiensten en de opbouw van stabiele betrouwbare dienstverlening aantoonbaar in control zijn vormt hierin de basis met een hoge mate van automatisering en door ontwikkeling van de features in het systeem in korte tijd succes behalen waar het team en de klant gemotiveerd voor zijn we hebben met de klant een partnership en geven samen deze innovatie invulling je werkt in een klein internationaal geori nteerd team met veel betrokkenheid en verantwoordelijkheidsgevoel een ondernemende sfeer op ons kantoor in utrecht proactieve interne samenwerking ook met de internationale collega s van de duitse moederorganisatie en de development en operations teams in slowakije dat vraagt om communicatietalent assertiviteit en daadkracht daadwerkelijk je ervaring en idee n snel in actie omzetten veel ruimte voor verbetering en verandering eigen initiatieven worden erg gewaardeerd je werkt met meerdere externe stakeholders onze grootste klant translink leveranciers oracle en octopus dit jaar is het datacentre gemigreerd naar een cloud based oracle omgeving in frankfurt het draait op 3 availablity domains in duitsland en 1 locatie in het datacentre in hoofddorp voor andere applicaties veel nationale en internationale verbindingen zetten we op tussen cloud en datacentres en verbindingen met kantoornetwerken voor openbaar vervoer bedrijven en andere diensten aanbieders compensation benefits none job type tijdelijke functieopdracht certifications none remote possible true,0.100000
2371,,company name duo job requirements werkervaring in een devops team wensen kennis van uml en van modelleertools in staat snel een complex pakket te leren en zich eigen te maken senior op ontwerpvlak dat houdt in dat je in staat bent om in nietstandaard situaties of complexere situaties tot een goed ontwerp te komen je stelt je actief op je benadert collega s met vragen en advies ervaring met en kennis van jira scrum agile is een pr maar niet noodzakelijk werkervaring binnen de rijksoverheid werkervaring met het beheer van modelleringstools zoals magicdraw hbo werken denkniveau location groningen none company info duo verzorgt als uitvoeringsorganisatie zijnde onderdeel van het ministerie van onderwijs cultuur en wetenschap de uitvoering van complexe wet en regelgeving en heeft een uitgebreid dienstenpakket duo financiert en informeert onderwijsdeelnemers en onderwijsinstellingen voor verdere informatie zie wwwduonl compensation benefits deze opdracht staat ook open voor doorleen en zzpers job type tijdelijke functieopdracht certifications werkervaring in een devops team wensen kennis van uml en van modelleertools in staat snel een complex pakket te leren en zich eigen te maken senior op ontwerpvlak dat houdt in dat je in staat bent om in nietstandaard situaties of complexere situaties tot een goed ontwerp te komen je stelt je actief op je benadert collega s met vragen en advies ervaring met en kennis van jira scrum agile is een pr maar niet noodzakelijk werkervaring binnen de rijksoverheid werkervaring met het beheer van modelleringstools zoals magicdraw hbo werken denkniveau remote possible true,1.000000
2372,,company name it security organisatie job requirements you have several years experience with infrastructure and the allround it questions from 1st lines but also system expertise location leiden none company info het is een groeiend bedrijf voornamelijk in europa en nu willen ze ook de nederlandse markt veroveren en daarmee ben jij mogelijk de eerste medewerker die in nederland aan de slag gaat vanuit huis volledig daar er nog geen kantoor is compensation benefits job type vaste functie certifications none remote possible true,0.052632
2373,,company name duo job requirements minimaal hbo werk en denkniveau relevante werkervaring als requirements engineerinformatie analist kennis van etl tooling je beheerst de nederlandse in woord en geschrift location groningen none company info duo verzorgt als uitvoeringsorganisatie zijnde onderdeel van het ministerie van onderwijs cultuur en wetenschap de uitvoering van complexe wet en regelgeving en heeft een uitgebreid dienstenpakket duo financiert en informeert onderwijsdeelnemers en onderwijsinstellingen voor verdere informatie zie wwwduonl compensation benefits deze opdracht staat ook open voor doorleen en zzpers job type tijdelijke functieopdracht certifications remote possible true,0.000000


In [27]:
real_df[['positiontitle','job_description', 'women_proportion']].to_pickle("./data_pickle_format/titlelabeled.pickle")