In [1]:
import spacy
# import de_ict_ner_model
import de_soski_ner_model
from spacy.language import Language
import logging
log = logging.getLogger(__name__)
import sys
from smart_open import open
import json


In [2]:
import os,glob
from tqdm import tqdm
import pandas as pd
import random
folder_path = '/mnt/home/kartikeysharma/sentence_extraction/test_quarterly_datasets'

## DATASET

In [3]:
import re
def get_all_jsonl_job_ad_files(folder_path):
    # folder_path = 'ads_annotated/'
    file_names_jsonl = []
    for filename in glob.glob(os.path.join(folder_path, '*.jsonl.bz2')):
        with open(filename, 'r') as f:
            file_names_jsonl.append(filename)

    date_regex = re.compile(r'\d{4}-\d{2}')

    # Extract the dates from the file names and create a list of tuples with the date and file name
    date_file_tuples = [(date_regex.search(name).group(0), name) for name in file_names_jsonl]

    # Sort the list of tuples based on the extracted dates
    sorted_tuples = sorted(date_file_tuples)

    # Create a list of sorted file names from the sorted tuples
    sorted_file_names = [tup[1] for tup in sorted_tuples]
    return sorted_file_names

In [4]:
file_names_jsonl = get_all_jsonl_job_ad_files(folder_path)
file_names_jsonl

['/mnt/home/kartikeysharma/sentence_extraction/test_quarterly_datasets/ads_raw-2023-03.jsonl.bz2']

In [5]:
dataset = '/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2023-03.jsonl.bz2'

In [6]:
@Language.component('paragrapher')
def set_sentence_starts(doc):
    for i, token in enumerate(doc):
        if i > 0 and doc[i-1].text.count("\n") > 1 :
            doc[i].is_sent_start = True
            # log.error(f"SENTENCE BOUNDARY: {i}")
    return doc


def has_softskill_C(sentence):
    for token in sentence:
        if token.ent_type_.endswith("_C"):
            return True

## Load the ner model

In [7]:
nlp = de_soski_ner_model.load()
senter = nlp.create_pipe("sentencizer")
nlp.add_pipe("sentencizer")

doc = nlp("This is the first 24.07.2021 sentence. This .is .the .second sentence.")
for sent in doc.sents:
    print(sent.text)

  from .autonotebook import tqdm as notebook_tqdm


This is the first 24.07.2021 sentence.
This .is .the .second sentence.


In [8]:
# from spacy.pipeline.senter import DEFAULT_SENTER_MODEL
# config = {"model": DEFAULT_SENTER_MODEL,}

nlp = de_soski_ner_model.load()
senter = nlp.create_pipe("sentencizer")
nlp.add_pipe("sentencizer")
nlp.add_pipe('paragrapher', after="transformer")

# Get the names of all components in the pipeline
pipeline_names = nlp.pipe_names
print("Pipeline component names:", pipeline_names)

# Print detailed information about each pipeline component
for name in pipeline_names:
    pipe_component = nlp.get_pipe(name)
    print(f"\nComponent name: {name}")
    print(f"Component type: {type(pipe_component)}")
    if hasattr(pipe_component, "labels"):
        print(f"Labels: {pipe_component.labels}")
    if hasattr(pipe_component, "vocab"):
        print(f"Vocab: {pipe_component.vocab}")
    if hasattr(pipe_component, "model"):
        print(f"Model: {pipe_component.model}")

Pipeline component names: ['transformer', 'paragrapher', 'ner', 'sentencizer']

Component name: transformer
Component type: <class 'spacy_transformers.pipeline_component.Transformer'>
Labels: ()
Vocab: <spacy.vocab.Vocab object at 0x7f62d3b53400>
Model: <spacy_transformers.layers.transformer_model.TransformerModel object at 0x7f62bf2d5d80>

Component name: paragrapher
Component type: <class 'function'>

Component name: ner
Component type: <class 'spacy.pipeline.ner.EntityRecognizer'>
Labels: ('SoftSkill', 'SoftSkill_C')
Vocab: <spacy.vocab.Vocab object at 0x7f62d3b53400>
Model: <thinc.model.Model object at 0x7f62bd2833c0>

Component name: sentencizer
Component type: <class 'spacy.pipeline.sentencizer.Sentencizer'>
Labels: ()


In [9]:
# Print the pipeline components in order
for i, component in enumerate(nlp.pipeline):
    print(f"Pipeline component {i}: {component[0]} ({type(component[1])})")

Pipeline component 0: transformer (<class 'spacy_transformers.pipeline_component.Transformer'>)
Pipeline component 1: paragrapher (<class 'function'>)
Pipeline component 2: ner (<class 'spacy.pipeline.ner.EntityRecognizer'>)
Pipeline component 3: sentencizer (<class 'spacy.pipeline.sentencizer.Sentencizer'>)


## process each sentence and prepare prompt 

In [10]:
def prepare_prompt(sentence):
    # nlp = de_soski_ner_model.load()
    # dc = nlp(sentence)
    # print(dc.ents)
    text = sentence.text
    words = text.split()
    num_tokens = len(words)

    for ent in sentence.ents:
        if ent.label_ == 'SoftSkill_C':
            text = text.replace(ent.text, f"<SoftSkill_C>{ent.text}</SoftSkill_C>")
        if ent.label_ == 'SoftSkill':
            text = text.replace(ent.text, f"<SoftSkill>{ent.text}</SoftSkill>")
    # print(sentence)
    return text, num_tokens

## extract softskill_c terms as dataframe from the single jsonL file

In [11]:
def get_softskill(data, num, language):
    # log.warning(self.args)
    # entities = []
    # entity_labels = []
    # enitit_start_char = []
    # entity_end_char = []
    entity_sent = []
    
    job_ids_list = []
    year_list = []
    quarter_list = []
    creation_date_list = []
    text_valid_list = [] 
    length_list = []
    language_list = []
    text_list = []
    tokens_in_sent_list = []
    pipeline_version_list = []
    actual_sentence_list = []

    with open(data) as infile:
        json_lines = infile.readlines()
        # random.seed(11)
        # random.shuffle(json_lines)

        for i,l in enumerate(tqdm(json_lines)):
            # print(i)
            if i > num-1:
                break
            data = json.loads(l)
            if data['language'] != language or data["text_valid"] != 1 or "adve_text_copy" not in data:
                continue
            
            doc = nlp(data["adve_text_copy"])
            # print(f'the value of doc is {doc}')

            job_ids = data["adve_iden_adve"]
            year = data["adve_time_year"]
            quarter = data["adve_time_quar"]
            # creation_date = data["creation_date"]
            text_valid = data["text_valid"]
            length = data["length"]
            language = data["language"]
            text = data["adve_text_copy"]
            pipeline_version = data["pipeline_version"]
            # print(f'entities are {doc.ents}')
            # print('************************  NEW JOB AD ***************************  NEW JOB AD *****************************')
            # print(f'value of doc.ents is : {doc.ents}')
            # print(f'value of doc.sents is : {doc.sents}')

            if doc.ents:
                for j, sent in enumerate(doc.sents):
                    # print(f'sentence nummer{j} is here --> {sent.text}')
                    if not has_softskill_C(sent):
                        continue
                    # print(f"-------------SENT {j}")
                    # print(f'The value of the {j}th sentence is *****  {sent.text}')

                    flag_softskill = 0
                    flag_softskill_C = 0
                    for token  in sent:
                        # print(f'the token is {token.text}, and its label is {token.ent_type_}')
                        if token.ent_type_ == "SoftSkill":
                            flag_softskill = 1
                        if token.ent_type_ == "SoftSkill_C":
                            flag_softskill_C = 1
                    if flag_softskill == 1 and flag_softskill_C == 1:
                        print(doc)
                        prompt_sent, num_tokens = prepare_prompt(sent)
                        actual_sentence = sent.text
                        # print(f'The value of the produced prompt is @@@@@@  {prompt_sent}')
                        actual_sentence_list.append(actual_sentence)
                        tokens_in_sent_list.append(num_tokens)
                        entity_sent.append(prompt_sent)
                        job_ids_list.append(job_ids)
                        year_list.append(year)
                        quarter_list.append(quarter)
                        # creation_date_list.append(creation_date)
                        text_valid_list.append(text_valid)
                        length_list.append(length)
                        language_list.append(language)
                        text_list.append(text)
                        pipeline_version_list.append(pipeline_version)

                        continue
    
    zipped_list = list(zip( job_ids_list, year_list, quarter_list,entity_sent,actual_sentence_list,tokens_in_sent_list, text_valid_list, length_list, language_list, pipeline_version_list, text_list))
    df = pd.DataFrame(zipped_list, columns =['job_ids_list', 'year_list', 'quarter_list','entity_sent', 'actual_sentence_list','tokens_in_sent_list', 'text_valid_list', 'length_list', 'language_list', 'pipeline_version_list', 'text_list']) 
    return df

In [26]:
df.iloc[4]

job_ids_list                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           sjmm_qua-2-02-2021-06-02853-1-000018488
year_list                                                                                                                                                

In [31]:
dataset = '/mnt/home/kartikeysharma/sentence_extraction/new_quarterly_datasets/ads_raw-2021-06.jsonl.bz2'
df = get_softskill(dataset, 25, 'de')
df

  0%|          | 25/39897 [00:07<3:07:26,  3.55it/s]


Unnamed: 0,job_ids_list,year_list,quarter_list,entity_sent,actual_sentence_list,tokens_in_sent_list,text_valid_list,length_list,language_list,pipeline_version_list,text_list
0,sjmm_qua-2-02-2021-06-02852-1-000018481,2021,2021-06-01,"Ihre Stärken• Matura/angefangenes Studium im Bereich Marketing • Erste Berufserfahrung im Bereich Marketing und Grundkenntnisse von Produktionsabläufen der Werbemittelproduktion von Vorteil• <SoftSkill>Interesse an klassischer Musik</SoftSkill> und <SoftSkill_C>weiteren Musikgenres•</SoftSkill_C> <SoftSkill>Freude am Verfassen zielgruppenspezifischer Texte•</SoftSkill> <SoftSkill_C>Selbständiges</SoftSkill_C>, <SoftSkill_C>zuverlässiges</SoftSkill_C> und <SoftSkill>exaktes Arbeiten•</SoftSkill> <SoftSkill>Organisationstalent•</SoftSkill> <SoftSkill>Kommunikatives Auftreten</SoftSkill>, <SoftSkill>Teamgeist•</SoftSkill> Professioneller Umgang mit Office-Programmen\n\n","Ihre Stärken• Matura/angefangenes Studium im Bereich Marketing • Erste Berufserfahrung im Bereich Marketing und Grundkenntnisse von Produktionsabläufen der Werbemittelproduktion von Vorteil• Interesse an klassischer Musik und weiteren Musikgenres• Freude am Verfassen zielgruppenspezifischer Texte• Selbständiges, zuverlässiges und exaktes Arbeiten• Organisationstalent• Kommunikatives Auftreten, Teamgeist• Professioneller Umgang mit Office-Programmen\n\n",46,1,2348,de,f5db770,"Die Tonhalle-Gesellschaft Zürich AG ist Betreiberin des Tonhalle-Orchesters Zürich und Veranstalterin diverser Konzert- und Veranstaltungsserien. Unter der Leitung seines Music Directors Paavo Järvi gehört das Tonhalle-Orchester Zürich zu den führenden Orchestern Europas. Es arbeitet mit international gefeierten Gastdirigent*innen, Solist*innen und Komponist*innen zusammen.In Ergänzung zu den zahlreichen Konzerten in Zürich geht das Orchester auf internationale Tourneen und trägt den Ruf Zürichs als lebendige Musikstadt in renommierte Musikzentren der Welt hinaus.\n\nDie Tonhalle-Gesellschaft Zürich AG sucht per Mitte August eine*n PRAKTIKANT*IN MARKETING (50?60%)\n\nIhr Verantwortungsbereich• Unterstützung bei Marketing-Aktivitäten (Erstellung und Distribution von Flyern, Plakaten, Anzeigen, Bannern etc.)• Administrative Unterstützung bei der Planung und Durchführung von Events (auch vor Ort, inkl. Abendeinsätze) • Administrative Unterstützung Inserate (Koordination, Akquise, Rechnungsstellung)• Organisation und Betreuung von Promotion-Massnahmen (Koordination Einsatzorte und Mitarbeitende)• Mitarbeit bei der Betreuung des Clubs TOZzukunft für junge Leute bis 40 Jahre (Organisation von Events, Kommunikations- massnahmen und Akquise-Aktionen)• Betreuung und Pflege von Partnerschaften• Betreuung CRM• Allgemeine administrative Aufgaben\n\nIhre Stärken• Matura/angefangenes Studium im Bereich Marketing • Erste Berufserfahrung im Bereich Marketing und Grundkenntnisse von Produktionsabläufen der Werbemittelproduktion von Vorteil• Interesse an klassischer Musik und weiteren Musikgenres• Freude am Verfassen zielgruppenspezifischer Texte• Selbständiges, zuverlässiges und exaktes Arbeiten• Organisationstalent• Kommunikatives Auftreten, Teamgeist• Professioneller Umgang mit Office-Programmen\n\nWir bieten• Eine vielseitige und verantwortungsvolle Herausforderung• Eine sehr selbständige Aufgabe• Offenes und hilfsbereites Team• Ein interessantes, lebendiges und vielfältiges Arbeitsumfeld mit Arbeitsplatz im Herzen von Zürich• Einblick in eine renommierte Kulturinstitution • Vergütung des Praktikums plus Freikarten für Konzerte des Tonhalle-Orchesters Zürich\n\nIhre Bewerbung mit den üblichen Unterlagen senden Sie bitte bis spätestens 30. Mai 2021 an:Michaela Braun, Leitung Marketing & Kommunikation; michaela.braun@tonhalle.c"
1,sjmm_qua-2-02-2021-06-02853-1-000018483,2021,2021-06-01,"Für unsere Gastronomie am Standort Baar-Inwil suchen wir per 1. Juli 2021 oder nach Vereinbarung eine <SoftSkill_C>freundliche</SoftSkill_C>, <SoftSkill_C>zuverlässige</SoftSkill_C> und <SoftSkill>aufmerksame Persönlichkeit</SoftSkill> als\nSachbearbeiterin/Sachbearbeiter Gastronomie 50%\nUntere Rainstrasse 31, 6340 Baar\nAufgaben\n\n\t","Für unsere Gastronomie am Standort Baar-Inwil suchen wir per 1. Juli 2021 oder nach Vereinbarung eine freundliche, zuverlässige und aufmerksame Persönlichkeit als\nSachbearbeiterin/Sachbearbeiter Gastronomie 50%\nUntere Rainstrasse 31, 6340 Baar\nAufgaben\n\n\t",31,1,1130,de,f5db770,"Sachbearbeiterin/Sachbearbeiter Gastronomie 50%\n\nFür unsere Gastronomie am Standort Baar-Inwil suchen wir per 1. Juli 2021 oder nach Vereinbarung eine freundliche, zuverlässige und aufmerksame Persönlichkeit als\nSachbearbeiterin/Sachbearbeiter Gastronomie 50%\nUntere Rainstrasse 31, 6340 Baar\nAufgaben\n\n\tErste Anlaufstelle für externe Besucherinnen und Besucher\n\tOrganisation von Anlässen\n\tUnterstützung und Entlastung der Abteilungsleitung Gastronomie\n\tErstellen von Offerten und Rechnungen\n\tUnterstützung der Teams bei Anlass- und Angebotsplanungen\n\tSicherstellung eines reibungslosen Informationsflusses abteilungsintern und abteilungsübergreifend\n\tVerfassen von Sitzungsprotokollen und Verkaufskonzepten\n\tUnterstützung in unseren Gastronomiebetrieben bei Ausfällen\n\nProfil\n\n\tAbgeschlossene kaufmännische Grundausbildung\n\tMehrjährige Erfahrung in der Gastronomie\n\tHohe Dienstleistungsqualität, Flexibilität sowie exakte Arbeitsweise\n\tDifferenzierte mündliche und schriftliche Ausdrucksweise in Deutsch\n\tGute PC-Anwenderkenntnisse (MS-Office), Abacus-Erfahrung von Vorteil\n\nKontakt\nCéline Cudré\nSachbearbeiterin HR\n041 781 64 99"
2,sjmm_qua-2-02-2021-06-02853-1-000018486,2021,2021-06-01,"Für unsere Gärtnerei im Lassalle-Haus in Edlibach (Menzingen) suchen wir per 1. Juni 2021 oder nach Vereinbarung eine <SoftSkill_C>dienstleistungsorientierte</SoftSkill_C>, <SoftSkill_C>zuverlässige</SoftSkill_C> und <SoftSkill>teamfähige Persönlichkeit</SoftSkill> als\nArbeitsagogin/Arbeitsagoge 70-80%\nSchönbrunn 3, 6313 Edlibach\nAufgaben\n\n\t","Für unsere Gärtnerei im Lassalle-Haus in Edlibach (Menzingen) suchen wir per 1. Juni 2021 oder nach Vereinbarung eine dienstleistungsorientierte, zuverlässige und teamfähige Persönlichkeit als\nArbeitsagogin/Arbeitsagoge 70-80%\nSchönbrunn 3, 6313 Edlibach\nAufgaben\n\n\t",31,1,1137,de,f5db770,"Für unsere Gärtnerei im Lassalle-Haus in Edlibach (Menzingen) suchen wir per 1. Juni 2021 oder nach Vereinbarung eine dienstleistungsorientierte, zuverlässige und teamfähige Persönlichkeit als\nArbeitsagogin/Arbeitsagoge 70-80%\nSchönbrunn 3, 6313 Edlibach\nAufgaben\n\n\tBegleiten und Betreuen der Klientinnen und Klienten in ihrer täglichen Arbeit\n\tVerantwortlich für die Ausbildung der PrA-Lernenden\n\tAnbau und Ernte der Bewirtschaftungsfläche: Gemüse, Kräuter, Beeren, Blumen (Hauptaufgabe Gemüsebau)\n\tAnzucht von Jungpflanzen\n\tVerkaufsunterstützung der Gartenprodukte\n\tEinhalten der Arbeitssicherheit\n\tZusammenarbeit mit Angehörigen, rechtlichen Vertretern und externen Fachstellen\n\tAdministrative und organisatorische Arbeiten\n\nProfil\n\n\tAbgeschlossene Weiterbildung in der Arbeitsagogik oder vergleichbare Ausbildung\n\tAbgeschlossene Ausbildung als Gärtnerin/Gärtner EFZ\n\tMehrjährige Berufserfahrung\n\tGewandte mündliche und schriftliche Ausdrucksweise in Deutsch\n\tGute PC-Anwenderkenntnisse (Outlook, Word, Excel)\n\tBereitschaft zu sporadischen Wochenendeinsätzen\n\tFahrausweis Kat. B\n\nKontakt\nCéline Cudré\nSachbearbeiterin HR\n041 781 64 99"
3,sjmm_qua-2-02-2021-06-02853-1-000018487,2021,2021-06-01,"Volljährig und im Besitz einer IV-(Teil-)Rente (bitte der Bewerbung Nachweis beilegen)\n\t<SoftSkill>Robuste körperliche Verfassung</SoftSkill> und <SoftSkill>Fähigkeit, feinmotorische Arbeiten auszuführen</SoftSkill>\n\t<SoftSkill>Gepflegtes Auftreten</SoftSkill>\n\t<SoftSkill_C>Team-</SoftSkill_C> und <SoftSkill>praktische Lernfähigkeit</SoftSkill>\n\tGute Deutschkenntnisse\n\n","Volljährig und im Besitz einer IV-(Teil-)Rente (bitte der Bewerbung Nachweis beilegen)\n\tRobuste körperliche Verfassung und Fähigkeit, feinmotorische Arbeiten auszuführen\n\tGepflegtes Auftreten\n\tTeam- und praktische Lernfähigkeit\n\tGute Deutschkenntnisse\n\n",27,1,1052,de,f5db770,"Für unsere Abteilungen Hygiene und Verpackung, in der Produktionsstätte Bösch in Hünenberg, suchen wir per sofort oder nach Vereinbarung je\nMitarbeitende Hygiene/Verpackung 50 - 100% (mit IV-Rente)\nBösch 57, 6330 Hünenberg\nAufgaben\n\n\tProduzieren und Trocknen von Teigwaren und getrockneten Früchten\n\tAbwägen und Verpacken von Hygieneartikeln und Lebensmitteln\n\tVerpacken von Werbe- und Geschäftsdokumenten sowie Abstimmungsunterlagen\n\tKonfektionieren von Unterlagen, Mustern, Ordnern, Mappen\n\tVerpacken von spezifischen Fakturen sowie personifizierten Mailings\n\tLabeln von Mustern, Flyern, Beilagen und anderen Werbeträgern\n\tSortieren, aufbereiten und verpacken von Katalogen\n\tVerpacken und Kommissionieren von unterschiedlichsten Materialien\n\nProfil\n\n\tVolljährig und im Besitz einer IV-(Teil-)Rente (bitte der Bewerbung Nachweis beilegen)\n\tRobuste körperliche Verfassung und Fähigkeit, feinmotorische Arbeiten auszuführen\n\tGepflegtes Auftreten\n\tTeam- und praktische Lernfähigkeit\n\tGute Deutschkenntnisse\n\nKontakt\nMoreno Cararra\nJob Coach\n041 781 63 63"
4,sjmm_qua-2-02-2021-06-02853-1-000018488,2021,2021-06-01,Abgeschlossene Berufsausbildung oder Matura\n\t<SoftSkill_C>Kreatives</SoftSkill_C> und <SoftSkill>handwerkliches Geschick</SoftSkill>\n\t<SoftSkill>Flair im Umgang mit Menschen mit einer Beeinträchtigung</SoftSkill>\n\tGute PC-Anwenderkenntnisse (MS Office)\n\n,Abgeschlossene Berufsausbildung oder Matura\n\tKreatives und handwerkliches Geschick\n\tFlair im Umgang mit Menschen mit einer Beeinträchtigung\n\tGute PC-Anwenderkenntnisse (MS Office)\n\n,20,1,794,de,f5db770,"Für unsere Abteilung Handwerk & Kunst, an unserem Standort Baar-Inwil, suchen wir per\n1. August 2021 für 6 Monate zwei engagierte Personen für ein\nPraktikum 100%\nUntere Rainstrasse 31, 6340 Baar\nAufgaben\n\n\tUnterstützen und Begleiten einer Gruppe von erwachsenen Menschen mit einer psychischen, geistigen und/oder körperlichen Beeinträchtigung\n\tMithelfen beim Herstellen von marktfähigen Produkten mit verschiedensten Materialien wie Papier, Holz, Ton, Textil\n\tMithelfen beim Bearbeiten von Kundenaufträgen mit und durch die Klientinnen und Klienten\n\nProfil\n\n\tAbgeschlossene Berufsausbildung oder Matura\n\tKreatives und handwerkliches Geschick\n\tFlair im Umgang mit Menschen mit einer Beeinträchtigung\n\tGute PC-Anwenderkenntnisse (MS Office)\n\nKontakt\nCéline Cudré\nSachbearbeiterin HR\n041 781 64 99"
5,sjmm_qua-2-02-2021-06-02854-1-000018490,2021,2021-06-01,"Masterabschluss in Elektrotechnik, idealerweise mit Promotion\n\tFundierte Kenntnisse und einen praxisorientierten Leistungsausweis (Zusammenarbeit mit der Industrie) im Bereich der Hochfrequenz- und Antennentechnik\n\t<SoftSkill>Breites Netzwerk im industriellen Umfeld in der Schweiz</SoftSkill>\n\tFührungserfahrung und <SoftSkill>-kompetenz</SoftSkill>\n\t<SoftSkill_C>Fähigkeit</SoftSkill_C> und <SoftSkill>Bereitschaft Wissen und Praxiserfahrung an Studierende weiterzugeben</SoftSkill>\n\tExzellente Deutsch- und Englischkenntnisse sowie Bereitschaft in beiden Sprachen zu unterrichten\n\n","Masterabschluss in Elektrotechnik, idealerweise mit Promotion\n\tFundierte Kenntnisse und einen praxisorientierten Leistungsausweis (Zusammenarbeit mit der Industrie) im Bereich der Hochfrequenz- und Antennentechnik\n\tBreites Netzwerk im industriellen Umfeld in der Schweiz\n\tFührungserfahrung und -kompetenz\n\tFähigkeit und Bereitschaft Wissen und Praxiserfahrung an Studierende weiterzugeben\n\tExzellente Deutsch- und Englischkenntnisse sowie Bereitschaft in beiden Sprachen zu unterrichten\n\n",53,1,2534,de,f5db770,"Professor/in für Antenna and RF Engineering (100%)\n\nAus Drei wird Eins. Die OST – Ostschweizer Fachhochschule ist die gemeinsame Weiterführung der FHS St.Gallen, HSR Rapperswil und NTB Buchs. Wir sind an den Standorten St.Gallen, Buchs und Rapperswil zu Hause, lehren auf Bachelor- und Masterstufe, bieten Weiterbildungen und Dienstleistungen an und forschen anwendungsorientiert und praxisnah. Wir sind am Puls des Lebens, in der Mitte der Gesellschaft und im Dialog mit Lehre, Forschung und Wirtschaft.\n\nDas ICOM Institute for Communication Systems ist in der Hochschullehre wie in angewandter Forschung und Entwicklung erfolgreich. Wir suchen per 1. September 2021 für den Campus Rapperswil Sie als\n\nProfessor/in für Antenna and RF Engineering (100%)\n\nSie sind im Departement Technik der OST direkt dem Institutsleiter des Instituts ICOM in Rapperswil unterstellt und führen ein Team von wissenschaftlichen Mitarbeitenden. Fachlich vertreten Sie Ihr Themengebiet in angewandter Forschung und Entwicklung sowie in der Hochschullehre und entwickeln es weiter.\nIhre Aufgaben:\n\n\tLehre auf Bachelorstufe im Studiengang Elektrotechnik sowie auf Masterstufe auf dem Gebiet der Hochfrequenztechnik\n\tBetreuung von Studien-, Bachelor- und Masterarbeiten\n\tLeitung und Bearbeitung fremdfinanzierter Forschungs- und Entwicklungsprojekte sowie Fähigkeit und Bereitschaft für die Akquisition von Drittmitteln\n\nIhre Qualifikation:\n\n\tMasterabschluss in Elektrotechnik, idealerweise mit Promotion\n\tFundierte Kenntnisse und einen praxisorientierten Leistungsausweis (Zusammenarbeit mit der Industrie) im Bereich der Hochfrequenz- und Antennentechnik\n\tBreites Netzwerk im industriellen Umfeld in der Schweiz\n\tFührungserfahrung und -kompetenz\n\tFähigkeit und Bereitschaft Wissen und Praxiserfahrung an Studierende weiterzugeben\n\tExzellente Deutsch- und Englischkenntnisse sowie Bereitschaft in beiden Sprachen zu unterrichten\n\nWir bieten:\n\n\tAbwechslungsreiche und verantwortungsvolle Funktion am Puls der Wissenschaft und in enger Zusammenarbeit mit der Industrie\n\tFreiraum für persönliche Initiative\n\tZentrale Lage direkt am Zürichsee beim Bahnhof Rapperswil\n\nHaben wir Ihr Interesse geweckt und verfügen Sie über die gewünschte Qualifikation? Dann freuen wir uns auf Ihre Bewerbung bis spätestens 4. Juni 2021 über unser Online-Tool (jobs-ost.ch). Weitere Auskünfte erteilen Ihnen Prof. Dr. Heinz Mathis, Institutsleiter ICOM, unter +41 58 257 45 95, [email] oder Prof. Reto Bonderer, Studiengangleiter Elektrotechnik, unter +41 58 257 45 16, [email]."
6,sjmm_qua-2-02-2021-06-02854-1-000018492,2021,2021-06-01,"\n\t<SoftSkill>Begeisterung für das Tätigkeitsfeld zwischen Antriebstechnik, Echtzeitkommunikation</SoftSkill> und Robotik\n\tBreites Netzwerk im industriellen Umfeld in der Schweiz oder dem nahen Ausland\n\tFührungserfahrung und <SoftSkill>-kompetenz</SoftSkill>\n\t<SoftSkill_C>Fähigkeit</SoftSkill_C> und <SoftSkill>Bereitschaft Wissen und Praxiserfahrung an Studierende weiterzugeben</SoftSkill>\n\n","\n\tBegeisterung für das Tätigkeitsfeld zwischen Antriebstechnik, Echtzeitkommunikation und Robotik\n\tBreites Netzwerk im industriellen Umfeld in der Schweiz oder dem nahen Ausland\n\tFührungserfahrung und -kompetenz\n\tFähigkeit und Bereitschaft Wissen und Praxiserfahrung an Studierende weiterzugeben\n\n",33,1,2794,de,f5db770,"Professor/in für Embedded Drives and Actuators (100%)\n\nAus Drei wird Eins. Die OST – Ostschweizer Fachhochschule ist die gemeinsame Weiterführung der FHS St.Gallen, HSR Rapperswil und NTB Buchs. Wir sind an den Standorten St.Gallen, Buchs und Rapperswil zu Hause, lehren auf Bachelor- und Masterstufe, bieten Weiterbildungen und Dienstleistungen an und forschen anwendungsorientiert und praxisnah. Wir sind am Puls des Lebens, in der Mitte der Gesellschaft und im Dialog mit Lehre, Forschung und Wirtschaft.\n\nDas IMES Institut für Mikroelektronik und Embedded Systems ist in der Hochschullehre wie in angewandter Forschung und Entwicklung erfolgreich. Wir suchen nach Vereinbarung für den Campus Rapperswil Sie als\n\nProfessor/in für Embedded Drives and Actuators (100%)\n\nSie sind im Departement Technik der OST direkt dem Institutsleiter des Instituts IMES in Rapperswil unterstellt und führen ein Team von wissenschaftlichen Mitarbeitenden. Fachlich vertreten Sie Ihr Themengebiet in angewandter Forschung und Entwicklung sowie in der Hochschullehre und entwickeln es weiter.\nIhre Aufgaben:\n\n\tLehre auf Bachelorstufe im Studiengang Elektrotechnik sowie auf Masterstufe im Bereich Electrical Engineering\n\tBetreuung von Studien-, Bachelor- und Masterarbeiten\n\tLeitung und Bearbeitung fremdfinanzierter Forschungs- und Entwicklungsprojekte sowie Fähigkeit und Bereitschaft für die Akquisition von Drittmitteln\n\tAufbau und Führung einer eigenen Forschungsgruppe\n\nIhre Qualifikation:\n\n\tMasterabschluss in Elektrotechnik, vorzugsweise mit Promotion\n\tFundierte Kenntnisse mit mehrjährigem, praxisorientiertem Leistungsausweis im Bereich der elektrischen Antriebstechnik und der Aktorik\n\tFachwissen im Bereich EC-Motoren, sowie in der Umsetzung von Aktorik und verbraucherseitiger Leistungselektronik. Erfahrung mit modernen embedded Programmiersprachen und Echtzeitsystemen.\n\tBegeisterung für das Tätigkeitsfeld zwischen Antriebstechnik, Echtzeitkommunikation und Robotik\n\tBreites Netzwerk im industriellen Umfeld in der Schweiz oder dem nahen Ausland\n\tFührungserfahrung und -kompetenz\n\tFähigkeit und Bereitschaft Wissen und Praxiserfahrung an Studierende weiterzugeben\n\nWir bieten:\n\n\tAbwechslungsreiche und verantwortungsvolle Funktion am Puls der Wissenschaft und in enger Zusammenarbeit mit der Industrie\n\tFreiraum für persönliche Initiative\n\tZentrale Lage direkt am Zürichsee beim Bahnhof Rapperswil\n\nHaben wir Ihr Interesse geweckt und verfügen Sie über die gewünschte Qualifikation? Dann freuen wir uns auf Ihre Bewerbung bis spätestens 12. August 2021 über unser Online-Tool (jobs-ost.ch). Weitere Auskünfte erteilen Ihnen Prof. Dr. Paul Zbinden, Institutsleiter IMES, unter +41 58 257 45 84, [email] oder Prof. Reto Bonderer, Studiengangleiter Elektrotechnik, unter +41 58 257 45 16, [email]."
7,sjmm_qua-2-02-2021-06-02854-1-000018494,2021,2021-06-01,"\n\tSie können den <SoftSkill>Studierenden berufsrelevante Handlungskompetenzen</SoftSkill> mit <SoftSkill>Begeisterung</SoftSkill> und <SoftSkill>didaktischem Geschick</SoftSkill> vermitteln, z.B. in <SoftSkill_C>Rede-</SoftSkill_C> und <SoftSkill_C>Gesprächsrhetorik</SoftSkill_C>, in beruflichen Schreibprozessen, in Teamkommunikation, Führungskommunikation und der interkulturellen Zusammenarbeit.","\n\tSie können den Studierenden berufsrelevante Handlungskompetenzen mit Begeisterung und didaktischem Geschick vermitteln, z.B. in Rede- und Gesprächsrhetorik, in beruflichen Schreibprozessen, in Teamkommunikation, Führungskommunikation und der interkulturellen Zusammenarbeit.",27,1,3639,de,f5db770,"Professor/in für Kommunikation und Interkulturelle Kompetenz (100%)\n\nAus Drei wird Eins. Die OST – Ostschweizer Fachhochschule ist die gemeinsame Weiterführung der FHS St.Gallen, HSR Rapperswil und NTB Buchs. Wir sind an den Standorten St.Gallen, Buchs und Rapperswil zu Hause, lehren auf Bachelor- und Masterstufe, bieten Weiterbildungen und Dienstleistungen an und forschen anwendungsorientiert und praxisnah. Wir sind am Puls des Lebens, in der Mitte der Gesellschaft und im Dialog mit Lehre, Forschung und Wirtschaft.\n\nIm ikik- Institut für Kommunikation und Interkulturelle Kompetenz betreiben wir angewandte\nForschung und Entwicklung, Lehre und Weiterbildung zur berufsbezogenen mündlichen, schriftlichen und interkulturellen Kommunikation. Für den Campus Rapperswil-Jona suchen wir per 01. Februar 2022 Sie als\n\nProfessor/in für Kommunikation und Interkulturelle Kompetenz (100%)\n\nDas ikik- Institut für Kommunikation und Interkulturelle Kompetenz ist Teil der Fachabteilung Interdisziplinäre Querschnittsthemen. Als Professor/in für Kommunikation und Interkulturelle Kompetenz sind Sie in verantwortungsvoller Position in Lehre und Weiterbildung, in angewandter Forschung und Entwicklung sowie Dienstleistungen tätig und tragen zur inhaltlich-strategischen Entwicklung Ihres Fachgebiets, des Instituts und der Fachabteilung bei.\nIhre Aufgaben:\n\n\tSie lehren auf Bachelorstufe, vornehmlich in technischen, planerischen und wirtschaftsbezogenen Studiengängen, zu Themen der berufsbezogenen mündlichen, schriftlichen und/oder interkulturellen Kommunikation.\n\tSie engagieren sich in der anwendungsorientierten Forschung und Entwicklung im ikik.\n\tSie akquirieren und bearbeiten drittmittelfinanzierte Forschungs- und Entwicklungsprojekte.\n\tSie unterrichten in Weiterbildungsprogrammen der Hochschule und entwerfen attraktive, am Markt orientierte Weiterbildungsangebote.\n\nIhre Qualifikation:\n\n\tSie verfügen über einen Hochschulabschluss in (angewandter) Psychologie oder einer verwandten Disziplin, nachweisbare Praxiserfahrung sowie idealerweise eine Promotion/PhD bzw. damit äquivalente Leistungen.\n\tSie können den Studierenden berufsrelevante Handlungskompetenzen mit Begeisterung und didaktischem Geschick vermitteln, z.B. in Rede- und Gesprächsrhetorik, in beruflichen Schreibprozessen, in Teamkommunikation, Führungskommunikation und der interkulturellen Zusammenarbeit.\n\tSie verfügen über einen erfolgreichen Leistungsausweis auf Weiterbildungsstufe.\n\tSie haben bereits erfolgreich Drittmittel für angewandte Forschungsprojekte akquiriert,\n\tdiese durchgeführt und wissenschaftlich anerkannte Publikationen veröffentlicht.\n\tSie sind bereit und in der Lage, Lehrveranstaltungen in englischer Sprache professionell durchzuführen und sich in einem internationalen Umfeld zu bewegen.\n\tSie zeigen Bereitschaft zum Engagement in der Instituts-, Fachabteilungs- und Hochschulentwicklung und zur interdisziplinären Zusammenarbeit.\n\nWir bieten:\n\n\teinen Wirkungsbereich in einem dynamischen Umfeld mit modernster Infrastruktur.\n\teine abwechslungsreiche und anspruchsvolle Tätigkeit mit hoher Eigenverantwortung.\n\tFreiraum für persönliche Initiative.\n\tein engagiertes, interdisziplinäres Team mit ca. 20 Dozierenden.\n\tZentrale Lage beim Bahnhof Rapperswil und idyllisch gelegen direkt am Zürichsee.\n\nHaben wir Ihr Interesse geweckt und verfügen Sie über die gewünschte Qualifikation? Dann freuen wir uns auf Ihre Bewerbung bis spätestens 15. Mai 2021 über unser Online-Tool (jobs-ost.ch). Für weitere Auskünfte wenden Sie sich bitte per Mail an Stefan Kammhuber, Leiter ikik- Institut für Kommunikation und Interkulturelle Kompetenz, [email]."
8,sjmm_qua-2-02-2021-06-02854-1-000018494,2021,2021-06-01,"\n\tSie sind <SoftSkill_C>bereit</SoftSkill_C> und <SoftSkill>in der Lage, Lehrveranstaltungen in englischer Sprache professionell durchzuführen</SoftSkill> und <SoftSkill>sich in einem internationalen Umfeld zu bewegen</SoftSkill>.","\n\tSie sind bereit und in der Lage, Lehrveranstaltungen in englischer Sprache professionell durchzuführen und sich in einem internationalen Umfeld zu bewegen.",21,1,3639,de,f5db770,"Professor/in für Kommunikation und Interkulturelle Kompetenz (100%)\n\nAus Drei wird Eins. Die OST – Ostschweizer Fachhochschule ist die gemeinsame Weiterführung der FHS St.Gallen, HSR Rapperswil und NTB Buchs. Wir sind an den Standorten St.Gallen, Buchs und Rapperswil zu Hause, lehren auf Bachelor- und Masterstufe, bieten Weiterbildungen und Dienstleistungen an und forschen anwendungsorientiert und praxisnah. Wir sind am Puls des Lebens, in der Mitte der Gesellschaft und im Dialog mit Lehre, Forschung und Wirtschaft.\n\nIm ikik- Institut für Kommunikation und Interkulturelle Kompetenz betreiben wir angewandte\nForschung und Entwicklung, Lehre und Weiterbildung zur berufsbezogenen mündlichen, schriftlichen und interkulturellen Kommunikation. Für den Campus Rapperswil-Jona suchen wir per 01. Februar 2022 Sie als\n\nProfessor/in für Kommunikation und Interkulturelle Kompetenz (100%)\n\nDas ikik- Institut für Kommunikation und Interkulturelle Kompetenz ist Teil der Fachabteilung Interdisziplinäre Querschnittsthemen. Als Professor/in für Kommunikation und Interkulturelle Kompetenz sind Sie in verantwortungsvoller Position in Lehre und Weiterbildung, in angewandter Forschung und Entwicklung sowie Dienstleistungen tätig und tragen zur inhaltlich-strategischen Entwicklung Ihres Fachgebiets, des Instituts und der Fachabteilung bei.\nIhre Aufgaben:\n\n\tSie lehren auf Bachelorstufe, vornehmlich in technischen, planerischen und wirtschaftsbezogenen Studiengängen, zu Themen der berufsbezogenen mündlichen, schriftlichen und/oder interkulturellen Kommunikation.\n\tSie engagieren sich in der anwendungsorientierten Forschung und Entwicklung im ikik.\n\tSie akquirieren und bearbeiten drittmittelfinanzierte Forschungs- und Entwicklungsprojekte.\n\tSie unterrichten in Weiterbildungsprogrammen der Hochschule und entwerfen attraktive, am Markt orientierte Weiterbildungsangebote.\n\nIhre Qualifikation:\n\n\tSie verfügen über einen Hochschulabschluss in (angewandter) Psychologie oder einer verwandten Disziplin, nachweisbare Praxiserfahrung sowie idealerweise eine Promotion/PhD bzw. damit äquivalente Leistungen.\n\tSie können den Studierenden berufsrelevante Handlungskompetenzen mit Begeisterung und didaktischem Geschick vermitteln, z.B. in Rede- und Gesprächsrhetorik, in beruflichen Schreibprozessen, in Teamkommunikation, Führungskommunikation und der interkulturellen Zusammenarbeit.\n\tSie verfügen über einen erfolgreichen Leistungsausweis auf Weiterbildungsstufe.\n\tSie haben bereits erfolgreich Drittmittel für angewandte Forschungsprojekte akquiriert,\n\tdiese durchgeführt und wissenschaftlich anerkannte Publikationen veröffentlicht.\n\tSie sind bereit und in der Lage, Lehrveranstaltungen in englischer Sprache professionell durchzuführen und sich in einem internationalen Umfeld zu bewegen.\n\tSie zeigen Bereitschaft zum Engagement in der Instituts-, Fachabteilungs- und Hochschulentwicklung und zur interdisziplinären Zusammenarbeit.\n\nWir bieten:\n\n\teinen Wirkungsbereich in einem dynamischen Umfeld mit modernster Infrastruktur.\n\teine abwechslungsreiche und anspruchsvolle Tätigkeit mit hoher Eigenverantwortung.\n\tFreiraum für persönliche Initiative.\n\tein engagiertes, interdisziplinäres Team mit ca. 20 Dozierenden.\n\tZentrale Lage beim Bahnhof Rapperswil und idyllisch gelegen direkt am Zürichsee.\n\nHaben wir Ihr Interesse geweckt und verfügen Sie über die gewünschte Qualifikation? Dann freuen wir uns auf Ihre Bewerbung bis spätestens 15. Mai 2021 über unser Online-Tool (jobs-ost.ch). Für weitere Auskünfte wenden Sie sich bitte per Mail an Stefan Kammhuber, Leiter ikik- Institut für Kommunikation und Interkulturelle Kompetenz, [email]."
9,sjmm_qua-2-02-2021-06-02854-1-000018496,2021,2021-06-01,\n\t<SoftSkill_C>Interdisziplinäre Denk-</SoftSkill_C> und <SoftSkill_C>Arbeitsweise</SoftSkill_C> mit <SoftSkill>Freude an Forschungsarbeit</SoftSkill>.,\n\tInterdisziplinäre Denk- und Arbeitsweise mit Freude an Forschungsarbeit.,8,1,2509,de,f5db770,"Senior Scientist (w/m) im Kompetenzzentrum Produktionsmesstechnik mit Schwerpunkt Mikro- und Nanomesstechnik (100%)\nscheme image\nAus Drei wird Eins. Die OST – Ostschweizer Fachhochschule ist die gemeinsame Weiterführung der FHS St.Gallen, HSR Rapperswil und NTB Buchs. Wir sind an den Standorten St.Gallen, Buchs und Rapperswil zu Hause, lehren auf Bachelor- und Masterstufe, bieten Weiterbildungen und Dienstleistungen an und forschen anwendungsorientiert und praxisnah. Wir sind am Puls des Lebens, in der Mitte der Gesellschaft und im Dialog mit Lehre, Forschung und Wirtschaft.\n\nIm Rahmen des Ausbaus des Instituts Mikrotechnik und Photonik (IMP) suchen wir per sofort oder nach Vereinbarung einen\n\nSenior Scientist (w/m) im Kompetenzzentrum Produktionsmesstechnik mit Schwerpunkt Mikro- und Nanomesstechnik (100%)\n\nals dynamische Forschungspersönlichkeit zur Umsetzung unserer Strategie.\nIhre Aufgaben:\n\n\tSie verantworten die Akquisition und die Bearbeitung von Forschungs- und Entwicklungsprojekten in Kooperation mit der Industrie und mit Hochschulen.\n\tSie unterstützen in der Lehre und betreuen Studierende innerhalb von Übungen und Praktika sowie in Projekt- und Abschlussarbeiten.\n\tSie sind aktiv auf dem Gebiet Dienstleistungen und Weiterbildungen.\n\tSie verantworten zentrale Aufgaben im Zug des Auf- und Ausbaus der dimensionellen Mikro- und Nanomesstechnik.\n\nIhre Qualifikation:\n\n\tAbgeschlossenes Hochschulstudium idealerweise in Systemtechnik oder Maschinenbau vorzugsweise mit Promotion.\n\tSehr gute Kenntnisse auf dem Gebiet der Koordinatenmesstechnik und Rauheitsmesstechnik idealerweise mit Schwerpunkt Mikro- und Nanomesstechnik.\n\tErfahrung im Bereich Forschung und Entwicklung an einer Hochschule und/oder in der Industrie.\n\tGute Kenntnisse der Geometrischen Produktspezifikation und Verifikation.\n\tGute Vernetzung mit Industrie und Forschungsinstitutionen.\n\tInterdisziplinäre Denk- und Arbeitsweise mit Freude an Forschungsarbeit.\n\tSehr gute Deutschkenntnisse, gute Englischkenntnisse.\n\nWir bieten:\n\n\tWirkungsbereich in einem dynamischen Umfeld mit modernster Infrastruktur.\n\tAbwechslungsreiche und anspruchsvolle Tätigkeit mit hoher Eigenverantwortung an einer attraktiven Hochschule.\n\nHaben wir Ihr Interesse geweckt und verfügen Sie über die gewünschte Qualifikation? Dann freuen wir uns auf Ihre Bewerbung bis spätestens 15. Mai 2021 über unser Online-Tool (jobs-ost.ch). Für weitere Auskünfte wenden Sie sich bitte telefonisch an Prof. Dr.-Ing. Michael Marxer, unter +41 58 257 33 39."


In [29]:
# # with open('/mnt/home/kartikeysharma/sentence_extraction/new_quarterly_datasets/ads_raw-2022-03.jsonl.bz2') as infile:
# #     json_lines = infile.readlines()
# #     # random.seed(11)
# #     # random.shuffle(json_lines)
# #     num = 1
# #     for i,l in enumerate(tqdm(json_lines)):
# #         # print(i)
# #         if i > num-1:
# #             break
# #         data = json.loads(l)
# #         if data['language'] != 'de' or data["text_valid"] != 1 or "adve_text_copy" not in data:
# #             continue
        
# #         doc = nlp(data["adve_text_copy"])

# import spacy
# import json
# import pandas as pd
# from tqdm import tqdm


# # Sample DataFrame to store the results
# results = []

# # Path to your JSONL file
# jsonl_file_path = '/mnt/home/kartikeysharma/sentence_extraction/new_quarterly_datasets/ads_raw-2021-06.jsonl.bz2'

# # Number of documents to process (set to None to process all documents)
# num_documents = 14

# # Read JSON lines from the file and process each document
# with open(jsonl_file_path) as infile:
#     json_lines = infile.readlines()
#     for i, l in enumerate(tqdm(json_lines)):
#         if num_documents is not None and i >= num_documents:
#             break

#         data = json.loads(l)
#         if data['language'] != 'de' or data["text_valid"] != 1 or "adve_text_copy" not in data:
#             continue

#         # Process the document
#         doc = nlp(data["adve_text_copy"])

#         # Extract entities and labels from the processed document
#         entities = [(ent.text, ent.label_) for ent in doc.ents]

#         # Add the information to the results list
#         results.append({
#             "Document ID": i + 1,
#             "Text": data["adve_text_copy"],
#             "Entities": entities
#         })

# # Create a DataFrame from the results list
# df2 = pd.DataFrame(results)
# df2


In [28]:
df2[df2['Document ID'] == 12]

Unnamed: 0,Document ID,Text,Entities
11,12,"Für unsere Abteilung Handwerk & Kunst, an unserem Standort Baar-Inwil, suchen wir per\n1. August 2021 für 6 Monate zwei engagierte Personen für ein\nPraktikum 100%\nUntere Rainstrasse 31, 6340 Baar\nAufgaben\n\n\tUnterstützen und Begleiten einer Gruppe von erwachsenen Menschen mit einer psychischen, geistigen und/oder körperlichen Beeinträchtigung\n\tMithelfen beim Herstellen von marktfähigen Produkten mit verschiedensten Materialien wie Papier, Holz, Ton, Textil\n\tMithelfen beim Bearbeiten von Kundenaufträgen mit und durch die Klientinnen und Klienten\n\nProfil\n\n\tAbgeschlossene Berufsausbildung oder Matura\n\tKreatives und handwerkliches Geschick\n\tFlair im Umgang mit Menschen mit einer Beeinträchtigung\n\tGute PC-Anwenderkenntnisse (MS Office)\n\nKontakt\nCéline Cudré\nSachbearbeiterin HR\n041 781 64 99","[(engagierte, SoftSkill), (Kreatives, SoftSkill_C), (handwerkliches Geschick, SoftSkill), (Flair im Umgang mit Menschen mit einer Beeinträchtigung, SoftSkill)]"


In [None]:
data = '/mnt/home/kartikeysharma/sentence_extraction/new_quarterly_datasets/ads_raw-2023-03.jsonl.bz2'
num = 2
language = 'de'
entity_sent = []
job_ids_list = []
year_list = []
quarter_list = []
creation_date_list = []
text_valid_list = [] 
length_list = []
language_list = []
text_list = []
tokens_in_sent_list = []
pipeline_version_list = []
actual_sentence_list = []

with open(data) as infile:
    json_lines = infile.readlines()
    # random.seed(11)
    # random.shuffle(json_lines)

    for i,l in enumerate(tqdm(json_lines)):
        # print(i)
        if i > num-1:
            break
        data = json.loads(l)
        if data['language'] != language or data["text_valid"] != 1 or "adve_text_copy" not in data:
            continue
        
        doc = nlp(data["adve_text_copy"])
        # print(f'the value of doc is {doc}')

        job_ids = data["adve_iden_adve"]
        year = data["adve_time_year"]
        quarter = data["adve_time_quar"]
        # creation_date = data["creation_date"]
        text_valid = data["text_valid"]
        length = data["length"]
        language = data["language"]
        text = data["adve_text_copy"]
        pipeline_version = data["pipeline_version"]
        # print(f'entities are {doc.ents}')
        # print('************************  NEW JOB AD ***************************  NEW JOB AD *****************************')
        # print(f'value of doc.ents is : {doc.ents}')
        # print(f'value of doc.sents is : {doc.sents}')

        if doc.ents:
            for j, sent in enumerate(doc.sents):
                # print(f'sentence nummer{j} is here --> {sent.text}')
                if not has_softskill_C(sent):
                    continue
                # print(f"-------------SENT {j}")
                # print(f'The value of the {j}th sentence is *****  {sent.text}')

                flag_softskill = 0
                flag_softskill_C = 0
                for token  in sent:
                    # print(f'the token is {token.text}, and its label is {token.ent_type_}')
                    if token.ent_type_ == "SoftSkill":
                        flag_softskill = 1
                    if token.ent_type_ == "SoftSkill_C":
                        flag_softskill_C = 1
                if flag_softskill == 1 and flag_softskill_C == 1:
                    prompt_sent, num_tokens = prepare_prompt(sent)
                    actual_sentence = sent.text
                    # print(f'The value of the produced prompt is @@@@@@  {prompt_sent}')
                    actual_sentence_list.append(actual_sentence)
                    tokens_in_sent_list.append(num_tokens)
                    entity_sent.append(prompt_sent)
                    job_ids_list.append(job_ids)
                    year_list.append(year)
                    quarter_list.append(quarter)
                    # creation_date_list.append(creation_date)
                    text_valid_list.append(text_valid)
                    length_list.append(length)
                    language_list.append(language)
                    text_list.append(text)
                    pipeline_version_list.append(pipeline_version)

                    continue

zipped_list = list(zip( job_ids_list, year_list, quarter_list,entity_sent,actual_sentence_list,tokens_in_sent_list, text_valid_list, length_list, language_list, pipeline_version_list, text_list))
df = pd.DataFrame(zipped_list, columns =['job_ids_list', 'year_list', 'quarter_list','entity_sent', 'actual_sentence_list','tokens_in_sent_list', 'text_valid_list', 'length_list', 'language_list', 'pipeline_version_list', 'text_list']) 

In [22]:
import pandas as pd
# df.style.set_properties(max_colwidth=100)
pd.set_option('display.max_colwidth', 1800)



# Your pandas code goes here...
# Instead of just calling the dataframe, use the display() function
df


Unnamed: 0,job_ids_list,year_list,quarter_list,entity_sent,actual_sentence_list,tokens_in_sent_list,text_valid_list,length_list,language_list,pipeline_version_list,text_list
0,sjmm_qua-2-04-2023-03-05023-1-000188850,2023,1,"optimalerweise mehrjährige Berufserfahrung in Montagetätigkeit\n• <SoftSkill>Affinität zu Mechanik</SoftSkill>, <SoftSkill>gutes Gespür für Prozessabläufe</SoftSkill>\n• Lesen von technischen Zeichnungen und Stücklisten\n• Gute Deutschkenntnisse in Wort und Schrift, weitere Fremdsprachen von Vorteil\n• <SoftSkill_C>Freundliches</SoftSkill_C> und <SoftSkill>gepflegtes Auftreten</SoftSkill>\n• <SoftSkill>Freude an der Arbeit mit innovativen Technologien</SoftSkill>\n• <SoftSkill>Teamfähigkeit</SoftSkill>, <SoftSkill>Zuverlässigkeit</SoftSkill>, <SoftSkill>Ehrlichkeit</SoftSkill> und <SoftSkill>Effizienz</SoftSkill>, <SoftSkill>genaue Arbeitsweise</SoftSkill> sowie <SoftSkill>Hands-onMentalität</SoftSkill>\nWIR BIETEN DIR:\n• Einen topmodernen und zukunftsorientierten Arbeitsplatz in einem expandierenden Unternehmen\nin der Herstellung von Produktionslinien für Etikettiersysteme\n• Möglichkeit, dich kreativ einzubringen und attraktive Entwicklungsmöglichkeiten in einem\nvielseitigen Aufgabengebiet\n• Faire Bezahlung, 25 Tage Ferien, gratis Parkplatz und weitere Mitarbeiter-Benefits\n• Ein gut eingespieltes, motiviertes und kompetentes Team, in dem man sich gegenseitig unterstützt\n• Eigentümer, die selbst Hand anlegen und einen Firmenstandort mitten im Grünen, aber nur 20\nMinuten von Winterthur entfernt\nWenn du dich in der Beschreibung wiederfindest und neugierig bist auf mehr von unserem BLUMER-Team\nund der Erfolgsgeschichte, schick uns doch deinen Lebenslauf mit Foto und deine Zeugnisse oder den Link\nzu deinem LinkedIn- oder Xing-Account via Email an Barbara Wucsits auf [email].","optimalerweise mehrjährige Berufserfahrung in Montagetätigkeit\n• Affinität zu Mechanik, gutes Gespür für Prozessabläufe\n• Lesen von technischen Zeichnungen und Stücklisten\n• Gute Deutschkenntnisse in Wort und Schrift, weitere Fremdsprachen von Vorteil\n• Freundliches und gepflegtes Auftreten\n• Freude an der Arbeit mit innovativen Technologien\n• Teamfähigkeit, Zuverlässigkeit, Ehrlichkeit und Effizienz, genaue Arbeitsweise sowie Hands-onMentalität\nWIR BIETEN DIR:\n• Einen topmodernen und zukunftsorientierten Arbeitsplatz in einem expandierenden Unternehmen\nin der Herstellung von Produktionslinien für Etikettiersysteme\n• Möglichkeit, dich kreativ einzubringen und attraktive Entwicklungsmöglichkeiten in einem\nvielseitigen Aufgabengebiet\n• Faire Bezahlung, 25 Tage Ferien, gratis Parkplatz und weitere Mitarbeiter-Benefits\n• Ein gut eingespieltes, motiviertes und kompetentes Team, in dem man sich gegenseitig unterstützt\n• Eigentümer, die selbst Hand anlegen und einen Firmenstandort mitten im Grünen, aber nur 20\nMinuten von Winterthur entfernt\nWenn du dich in der Beschreibung wiederfindest und neugierig bist auf mehr von unserem BLUMER-Team\nund der Erfolgsgeschichte, schick uns doch deinen Lebenslauf mit Foto und deine Zeugnisse oder den Link\nzu deinem LinkedIn- oder Xing-Account via Email an Barbara Wucsits auf [email].",173,1,2249,de,bb0e34e,"Wir sind ein internationales Unternehmen, tätig in Entwicklung, Fabrikation, Vertrieb und Unterhalt von\nMaschinen und Produktionsanlagen für die Weiterverarbeitung nach dem Druck, sowie im Handel von\nVerbrauchsmaterialien für die grafische Branche und die Verpackungsindustrie.\nZur Verstärkung am Standort Oberneunforn suchen wir per sofort\noder nach Vereinbarung eine/n engagierte/n, selbstständige/n\nMASCHINEN-/ POLYMECHANIKER/IN\n FACHRICHTUNG MONTAGE\n 80-100%\nDEINE AUFGABEN:\n• Selbstständige mechanische Montage von unseren Maschinenmodulen und Etikettiermaschinen\n• Funktionskontrolle und Erstinbetriebnahme im Werk\n• Sporadische Service-Einsätze für Wartungs- und Reparaturarbeiten\nDU BRINGST MIT:\n• Abgeschlossene Berufslehre als Maschinen- oder Polymechaniker mit Fachrichtung Montage oder\ngleichwertige Ausbildung. optimalerweise mehrjährige Berufserfahrung in Montagetätigkeit\n• Affinität zu Mechanik, gutes Gespür für Prozessabläufe\n• Lesen von technischen Zeichnungen und Stücklisten\n• Gute Deutschkenntnisse in Wort und Schrift, weitere Fremdsprachen von Vorteil\n• Freundliches und gepflegtes Auftreten\n• Freude an der Arbeit mit innovativen Technologien\n• Teamfähigkeit, Zuverlässigkeit, Ehrlichkeit und Effizienz, genaue Arbeitsweise sowie Hands-onMentalität\nWIR BIETEN DIR:\n• Einen topmodernen und zukunftsorientierten Arbeitsplatz in einem expandierenden Unternehmen\nin der Herstellung von Produktionslinien für Etikettiersysteme\n• Möglichkeit, dich kreativ einzubringen und attraktive Entwicklungsmöglichkeiten in einem\nvielseitigen Aufgabengebiet\n• Faire Bezahlung, 25 Tage Ferien, gratis Parkplatz und weitere Mitarbeiter-Benefits\n• Ein gut eingespieltes, motiviertes und kompetentes Team, in dem man sich gegenseitig unterstützt\n• Eigentümer, die ..."


## create complete dataset across all years

In [38]:
import pandas as pd
import os

def get_complete_df(folder_path, num, lang, batch_size=5):
    list_file_names = get_all_jsonl_job_ad_files(folder_path)
    batches = [list_file_names[i:i+batch_size] for i in range(0, len(list_file_names), batch_size)]
    
    for i, batch in enumerate(batches):
        master_GS = []
        for jsonl_file in batch:
            # print(jsonl_file)
            child_GS_df = get_softskill(jsonl_file, num, lang)
            
            master_GS.append(child_GS_df)

        master_df = pd.concat(master_GS)
        # Save dataframe as a CSV file
        csv_file_name = f"batch_{i+1}.csv"
        master_df.to_csv(os.path.join(folder_path, csv_file_name), index=False)



In [37]:
get_complete_df(folder_path, 1, 'de', batch_size=10)

/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2017-03.jsonl.bz2


  0%|          | 1/6455 [00:00<1:35:57,  1.12it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2018-06.jsonl.bz2


  0%|          | 1/5353 [00:00<59:31,  1.50it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2016-06.jsonl.bz2


  0%|          | 1/5051 [00:00<34:49,  2.42it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2014-09.jsonl.bz2


  0%|          | 1/5155 [00:00<35:40,  2.41it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2020-12.jsonl.bz2


  0%|          | 1/4886 [00:00<00:00, 8388.61it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2017-06.jsonl.bz2


  0%|          | 1/5610 [00:00<13:54,  6.73it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2017-09.jsonl.bz2


  0%|          | 1/5438 [00:00<41:56,  2.16it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2019-09.jsonl.bz2


  0%|          | 1/5316 [00:00<1:04:07,  1.38it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2021-09.jsonl.bz2


  0%|          | 1/58545 [00:00<4:50:14,  3.36it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2022-06.jsonl.bz2


  0%|          | 1/68029 [00:00<00:09, 7345.54it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2020-09.jsonl.bz2


  0%|          | 1/4882 [00:00<00:00, 6584.46it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2020-03.jsonl.bz2


  0%|          | 1/6069 [00:00<16:19,  6.20it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2019-12.jsonl.bz2


  0%|          | 1/5319 [00:00<54:49,  1.62it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2021-03.jsonl.bz2


  0%|          | 1/35520 [00:00<3:44:11,  2.64it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2021-06.jsonl.bz2


  0%|          | 1/39897 [00:00<2:56:34,  3.77it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2022-09.jsonl.bz2


  0%|          | 1/72164 [00:00<8:28:48,  2.36it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2016-03.jsonl.bz2


  0%|          | 1/6057 [00:00<28:11,  3.58it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2020-06.jsonl.bz2


  0%|          | 1/4626 [00:00<13:14,  5.82it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2018-12.jsonl.bz2


  0%|          | 1/5268 [00:00<26:06,  3.36it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2023-03.jsonl.bz2


  0%|          | 1/72347 [00:00<1:14:21, 16.22it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2015-03.jsonl.bz2


  0%|          | 1/5784 [00:00<58:35,  1.64it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2022-03.jsonl.bz2


  0%|          | 1/65548 [00:00<4:59:13,  3.65it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2014-12.jsonl.bz2


  0%|          | 1/4998 [00:00<47:34,  1.75it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2018-03.jsonl.bz2


  0%|          | 1/6520 [00:00<1:06:34,  1.63it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2015-09.jsonl.bz2


  0%|          | 1/4962 [00:00<45:28,  1.82it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2019-03.jsonl.bz2


  0%|          | 1/5774 [00:00<48:13,  2.00it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2017-12.jsonl.bz2


  0%|          | 1/5402 [00:00<44:14,  2.03it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2019-06.jsonl.bz2


  0%|          | 1/5424 [00:00<26:43,  3.38it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2021-12.jsonl.bz2


  0%|          | 1/60740 [00:00<9:06:25,  1.85it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2016-12.jsonl.bz2


  0%|          | 1/5113 [00:00<35:31,  2.40it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2022-12.jsonl.bz2


  0%|          | 1/72230 [00:00<5:50:09,  3.44it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2016-09.jsonl.bz2


  0%|          | 1/5091 [00:00<45:52,  1.85it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2018-09.jsonl.bz2


  0%|          | 1/5366 [00:00<39:15,  2.28it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2015-06.jsonl.bz2


  0%|          | 1/4939 [00:00<34:54,  2.36it/s]


/mnt/home/kartikeysharma/sentence_extraction/quarterly_datasets/ads_raw-2015-12.jsonl.bz2


  0%|          | 1/4889 [00:00<44:37,  1.83it/s]


In [None]:
# import os
# import pandas as pd

# def get_complete_df(folder_path, num, lang):

#     list_file_names = get_all_jsonl_job_ad_files(folder_path)
#     master_GS = []
#     for jsonl_file in list_file_names:
#         child_GS_df = get_softskill(jsonl_file, num, lang)
#         master_GS.append(child_GS_df)

#     master_df = pd.concat(master_GS)
#     return master_df