In [1]:
import json
from datetime import datetime

def convert_to_rag_format(crawled_jobs, output_file="rag_data.jsonl"):
    """
    Konvertiert gecrawlte Jobs in das JSONL-Format für ein RAG-System.

    Args:
        crawled_jobs (list): Liste der gecrawlten Stellenangebote.
        output_file (str): Dateiname für die JSONL-Ausgabe.
    """
    rag_data = []

    for job in crawled_jobs:
        # Titel und URL aus dem Job übernehmen
        title = job.get("title", "Unbekannter Titel")
        url = job.get("url", "Keine URL")
        description = job.get("description", "Keine Beschreibung")
        
        # Eintrag für RAG-System erstellen
        entry = {
            "prompt": f"Was enthält die Seite '{title}'?",
            "completion": description,
            "meta": {
                "title": title,
                "url": url,
                "timestamp": datetime.utcnow().isoformat()
            }
        }
        rag_data.append(entry)

    # Daten in JSONL-Datei speichern
    with open(output_file, "w", encoding="utf-8") as file:
        for entry in rag_data:
            file.write(json.dumps(entry, ensure_ascii=False) + "\n")

    print(f"Daten erfolgreich in {output_file} gespeichert.")


In [5]:
input_file = "jobs_data.json"
output_file = "fixed_jobs_data.json"

try:
    with open(input_file, "r", encoding="utf-8") as file:
        raw_data = file.read()

    # Ersetze einfache Anführungszeichen durch doppelte
    fixed_data = raw_data.replace("'", '"')

    # Reparierte Datei speichern
    with open(output_file, "w", encoding="utf-8") as file:
        file.write(fixed_data)

    print(f"Reparierte Datei wurde in {output_file} gespeichert.")
except Exception as e:
    print(f"Fehler bei der Reparatur: {e}")


Reparierte Datei wurde in fixed_jobs_data.json gespeichert.


In [7]:
input_file = "jobs_data.json"
output_file = "repaired_jobs_data.json"

try:
    repaired_data = []
    current_object = {}
    
    with open(input_file, "r", encoding="utf-8") as file:
        for line in file:
            line = line.strip()
            if line.startswith("{"):
                # Start eines neuen Objekts
                current_object = {}
            elif line.startswith("}"):
                # Ende eines Objekts -> Objekt speichern
                repaired_data.append(current_object)
            else:
                # Versuche Schlüssel-Wert-Paare zu erkennen
                if ":" in line:
                    key, value = line.split(":", 1)
                    key = key.strip().strip('"')  # Entfernt unnötige Leerzeichen/Anführungszeichen
                    value = value.strip().strip(',').strip('"')  # Entfernt Komma/Anführungszeichen
                    current_object[key] = value
    
    # Reparierte Daten als gültige JSON-Liste speichern
    with open(output_file, "w", encoding="utf-8") as file:
        json.dump(repaired_data, file, ensure_ascii=False, indent=4)

    print(f"Reparierte Datei erfolgreich gespeichert unter: {output_file}")
except Exception as e:
    print(f"Fehler bei der Reparatur: {e}")


Reparierte Datei erfolgreich gespeichert unter: repaired_jobs_data.json


In [8]:
import json

repaired_file = "repaired_jobs_data.json"

with open(repaired_file, "r", encoding="utf-8") as file:
    crawled_jobs = json.load(file)

print(f"{len(crawled_jobs)} Jobs erfolgreich geladen.")


72 Jobs erfolgreich geladen.


In [9]:
output_file = "rag_data.jsonl"
convert_to_rag_format(crawled_jobs, output_file=output_file)
print(f"Daten erfolgreich in {output_file} konvertiert.")


Daten erfolgreich in rag_data.jsonl gespeichert.
Daten erfolgreich in rag_data.jsonl konvertiert.


In [10]:
import pandas as pd

df = pd.DataFrame(crawled_jobs)
print(df.head())


                                               title  \
0                          Technical Trainer (m/w/d)   
1                        Cloud Engineer (AWS) Senior   
2                      Senior Cloud Engineer (Azure)   
3                           Cloud Engineer (AWS) Mid   
4  Werkstudent (m/w/d) Sustainability / Corporate...   

                         company  \
0   Körber Pharma Packaging GmbH   
1  Körber Porto, Unipessoal Lda.   
2  Körber Porto, Unipessoal Lda.   
3  Körber Porto, Unipessoal Lda.   
4                      Körber AG   

                                            location  \
0  Schloß Holte-Stukenbrock, Nordrhein-Westfalen, DE   
1                                          Porto, PT   
2                                          Porto, PT   
3                                          Porto, PT   
4                                    Hamburg, HH, DE   

                                                 url  \
0  https://jobs.koerber.com/pharma/job/Schlo%C3%9... 