In [1]:
import pandas as pd 

In [2]:
df_cleaned = pd.read_csv("df_cleaned_salary.csv")

In [3]:
df_cleaned.columns

Index(['Job Title', 'Company', 'Location', 'Salary Min', 'Salary Max',
       'Description', 'Extracted Skills', 'Longitude', 'Latitude', 'URL',
       'Created', 'Experience_years', 'Experience_Level'],
      dtype='object')

In [4]:
from sklearn.preprocessing import MultiLabelBinarizer

In [5]:
df = pd.read_csv('df_cleaned_salary.csv')  # Passe den Dateipfad an

In [6]:
# Beispiel: Annahme, dass die Fähigkeiten durch Kommas getrennt sind
df['Extracted Skills'] = df['Extracted Skills'].apply(lambda x: x.split(',') if isinstance(x, str) else [])

In [7]:
mlb = MultiLabelBinarizer()
skills_transformed = mlb.fit_transform(df['Extracted Skills'])

# Die Spaltennamen basierend auf den Fähigkeiten setzen
skills_df = pd.DataFrame(skills_transformed, columns=mlb.classes_)

# Die originalen DataFrame mit den neuen Spalten zusammenführen
df = pd.concat([df, skills_df], axis=1)


In [8]:
df.to_csv('datei_mit_uberarbeiteten_faehigkeiten.csv', index=False)

In [9]:
# Konvertiere alle Fähigkeiten-Spalten in den Boolean-Typ (True/False oder 1/0)
df[mlb.classes_] = df[mlb.classes_].astype(bool)

# Alternativ, um sie als 0 und 1 explizit zu haben:
df[mlb.classes_] = df[mlb.classes_].astype(int)


In [10]:
# Die 'Extracted Skills' in Listen umwandeln, falls noch nicht geschehen
df['Extracted Skills'] = df['Extracted Skills'].apply(lambda x: x.split(',') if isinstance(x, str) else [])

# MultiLabelBinarizer anwenden, um die Fähigkeiten in separate Spalten umzuwandeln
mlb = MultiLabelBinarizer()
skills_transformed = mlb.fit_transform(df['Extracted Skills'])

# Erstelle DataFrame mit den neuen Spalten (Fähigkeiten)
skills_df = pd.DataFrame(skills_transformed, columns=mlb.classes_)

# Füge die neuen Spalten zum ursprünglichen DataFrame hinzu
df = pd.concat([df, skills_df], axis=1)

# Stelle sicher, dass alle Spalten im richtigen numerischen Datentyp sind (0/1 als integer)
df[mlb.classes_] = df[mlb.classes_].astype(int)

# Überprüfen, ob alles korrekt ist
print(df.head())

# Optional: Wenn du die Datei mit den neuen Daten speichern möchtest
df.to_csv('datei_mit_uberarbeiteten_faehigkeiten.csv', index=False)


                           Job Title        Company  \
0          Machine Learning Engineer    InfoCentric   
1             Federal Sales Director         h2o.ai   
2  Data Scientist, Associate/Analyst      BlackRock   
3   Senior Machine Learning Engineer         Motork   
4                        AI Engineer  Catch Recruit   

                         Location  Salary Min  Salary Max  \
0       Dunnstown, Moorabool Area     99000.0    132000.0   
1          Barton, South Canberra     99000.0    132000.0   
2             Edinburgh, Scotland     68720.6     68720.6   
3  Provincia di Milano, Lombardia     54500.0     76300.0   
4     Sandton, North Johannesburg     12960.0     22680.0   

                                         Description Extracted Skills  \
0  InfoCentric is one of the largest Australian-o...               []   
1  About This Opportunity We are looking for a hi...               []   
2  The AI Labs was formed to act as a central hub...               []   
3  MotorK 

In [11]:
# Zähle die einzigartigen Jobtitel
unique_job_titles = df['Job Title'].nunique()

# Gib die Anzahl der einzigartigen Jobtitel aus
print(f'Anzahl der einzigartigen Jobtitel: {unique_job_titles}')


Anzahl der einzigartigen Jobtitel: 526


In [12]:
# Definiere die Jobtitel und Levels, die du filtern möchtest
job_titles = ["Data Scientist", "Data Analyst", "Data Engineer", "Machine Learning Engineer", "Analytics Consultant"]
experience_levels = ["junior", "mid-level", "senior", "expert"]


In [13]:
import pandas as pd

# Filtern der Jobtitel, die in der Liste enthalten sind, und der Experience Level
filtered_df = df[df['Job Title'].str.contains('|'.join(job_titles), case=False, na=False) &
                 df['Experience_Level'].str.contains('|'.join(experience_levels), case=False, na=False)]

# Überprüfen der gefilterten Ergebnisse
print(filtered_df.head())


                           Job Title  \
0          Machine Learning Engineer   
2  Data Scientist, Associate/Analyst   
3   Senior Machine Learning Engineer   
5         Business Data Analysts F/H   
6         Business Data Analysts F/H   

                                       Company  \
0                                  InfoCentric   
2                                    BlackRock   
3                                       Motork   
5             Robert Half International France   
6  Robert Half Finance et Comptabilité Interim   

                         Location  Salary Min  Salary Max  \
0       Dunnstown, Moorabool Area     99000.0    132000.0   
2             Edinburgh, Scotland     68720.6     68720.6   
3  Provincia di Milano, Lombardia     54500.0     76300.0   
5           Élancourt, Versailles     43600.0     54500.0   
6           Élancourt, Versailles     43600.0     54500.0   

                                         Description Extracted Skills  \
0  InfoCentric is 

In [14]:
# Ausgabe der Anzahl der gefilterten Zeilen
print(f"Anzahl der gefilterten Jobs: {filtered_df.shape[0]}")


Anzahl der gefilterten Jobs: 2053


In [15]:
# Sortieren der gefilterten Daten nach Job Title und Experience Level
sorted_filtered_df = filtered_df.sort_values(by=['Job Title', 'Experience_Level'])

# Überprüfen des sortierten DataFrames
print(sorted_filtered_df.head())


                                       Job Title           Company  \
50    Lead Senior GCP Data Engineer with Airflow  Xebia sp. z o.o.   
51    Lead Senior GCP Data Engineer with Airflow  Xebia sp. z o.o.   
52    Lead Senior GCP Data Engineer with Airflow  Xebia sp. z o.o.   
935   Lead Senior GCP Data Engineer with Airflow  Xebia sp. z o.o.   
936   Lead Senior GCP Data Engineer with Airflow  Xebia sp. z o.o.   

                  Location  Salary Min  Salary Max  \
50   Rzeszów, podkarpackie     64500.0     99000.0   
51      Gdańsk, Trójmiasto     64500.0     99000.0   
52   Wrocław, dolnośląskie     64500.0     99000.0   
935  Rzeszów, podkarpackie     64500.0     99000.0   
936     Gdańsk, Trójmiasto     64500.0     99000.0   

                                           Description Extracted Skills  \
50    You will be: developing and maintaining data ...               []   
51    You will be: developing and maintaining data ...               []   
52    You will be: developing

In [16]:
filtered_df.to_csv("df_filtered.csv", index=False)

In [17]:
# Filtern der Zeilen, die NICHT die gewünschten Jobtitel und Erfahrungslevel haben
rest_df = df[~df['Job Title'].str.contains('|'.join(job_titles), case=False, na=False) |
             ~df['Experience_Level'].str.contains('|'.join(experience_levels), case=False, na=False)]

# Überprüfen der ersten paar Zeilen des "Rest"-DataFrames
print(rest_df.head())


                                            Job Title        Company  \
1                              Federal Sales Director         h2o.ai   
4                                         AI Engineer  Catch Recruit   
22                              Informatica Developer        NXT GIG   
47  Machine Learning/Data-Science Software Enginee...       TN Italy   
53                                 Data & AI Engineer          Unit8   

                           Location  Salary Min  Salary Max  \
1            Barton, South Canberra     99000.0    132000.0   
4       Sandton, North Johannesburg     12960.0     22680.0   
22                The Rocks, Sydney     42900.0    132000.0   
47  Provincia di Brescia, Lombardia     54500.0     76300.0   
53            Warszawa, mazowieckie     66000.0     84000.0   

                                          Description Extracted Skills  \
1   About This Opportunity We are looking for a hi...               []   
4   Key Responsibilities - Develop and m

In [18]:
# Ausgabe der Anzahl der nicht übereinstimmenden Datensätze
print(f"Anzahl der nicht gefilterten Jobs: {rest_df.shape[0]}")


Anzahl der nicht gefilterten Jobs: 202


In [19]:
# Zeige die einzigartigen Jobtitel und Levels der restlichen Datensätze
unique_job_titles_rest = rest_df['Job Title'].nunique()
unique_experience_levels_rest = rest_df['Experience_Level'].nunique()

print("Einzigartige Jobtitel in den restlichen Datensätzen:", unique_job_titles_rest)
print("Einzigartige Erfahrungslevels in den restlichen Datensätzen:", unique_experience_levels_rest)


Einzigartige Jobtitel in den restlichen Datensätzen: 114
Einzigartige Erfahrungslevels in den restlichen Datensätzen: 4


In [20]:
# Mapping der ähnlich klingenden Jobtitel zu den gewünschten Jobtiteln
jobtitle_mapping = {
    "AI Engineer": "Data Engineer",
    "Data & AI Engineer": "Data Engineer",
    "Data Science Lead": "Data Scientist",
    "Data Science Consultant": "Data Scientist",
    "Data Core Engineer": "Data Engineer",
    "Machine Learning/Data-Science Software Engineer": "Machine Learning Engineer",
    "Senior Data Management Analyst": "Data Scientist",
    "Lead AI/ML Engineer": "Machine Learning Engineer",
    "Software Engineer, Machine Learning": "Machine Learning Engineer",
    "Senior Software Engineer - Python & Investments": "Data Scientist",
    "ML Engineer": "Machine Learning Engineer",
    "Senior ML Engineer": "Machine Learning Engineer",
    "Data Platform Engineer": "Data Engineer",
    "Data Architect": "Data Engineer",
    "Big Data Solution Engineer": "Data Engineer",
    "Principal Consultant - Data & AI": "Data Scientist",
    "Data Manager": "Data Scientist",
    "Machine Learning Specialist": "Machine Learning Engineer",
    "Senior Research Engineer – Machine Learning": "Data Scientist",
    "Software Engineer Machine Learning - Compilers": "Machine Learning Engineer",
    "Senior Big Data Software Engineer": "Data Engineer",
    "AWS Databricks Architect": "Data Engineer",
    "Data Acquisition and System Engineer": "Data Engineer",
    "Cloud Data Engineer": "Data Engineer",
    "Senior Software Engineer, Data": "Data Scientist",
    "Senior Digital FPGA Engineer - IP / Machine Learning": "Machine Learning Engineer",
    "Full-Stack Software Engineer": "Data Engineer",
    "Principal Data Science & ML Engineering Consultant": "Analytics Consultant"
}

# Wende das Mapping auf den DataFrame an
rest_df['Job Title'] = rest_df['Job Title'].replace(jobtitle_mapping, regex=True)

# Zeige die ersten paar Zeilen des modifizierten DataFrames an
print(rest_df.head())


                                         Job Title        Company  \
1                           Federal Sales Director         h2o.ai   
4                                    Data Engineer  Catch Recruit   
22                           Informatica Developer        NXT GIG   
47  Machine Learning Engineer, Province of Brescia       TN Italy   
53                            Data & Data Engineer          Unit8   

                           Location  Salary Min  Salary Max  \
1            Barton, South Canberra     99000.0    132000.0   
4       Sandton, North Johannesburg     12960.0     22680.0   
22                The Rocks, Sydney     42900.0    132000.0   
47  Provincia di Brescia, Lombardia     54500.0     76300.0   
53            Warszawa, mazowieckie     66000.0     84000.0   

                                          Description Extracted Skills  \
1   About This Opportunity We are looking for a hi...               []   
4   Key Responsibilities - Develop and maintain sc...     

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rest_df['Job Title'] = rest_df['Job Title'].replace(jobtitle_mapping, regex=True)


In [21]:
# Mapping der Erfahrungslevel (optional, falls benötigt)
experience_level_mapping = {
    "Junior": "junior",
    "Mid-Level": "mid-level",
    "Senior": "senior",
    "Expert": "expert"
}

# Ersetze das Erfahrungslevel
rest_df['Experience_Level'] = rest_df['Experience_Level'].replace(experience_level_mapping, regex=True)

# Zeige die ersten paar Zeilen des modifizierten DataFrames an
print(rest_df.head())


                                         Job Title        Company  \
1                           Federal Sales Director         h2o.ai   
4                                    Data Engineer  Catch Recruit   
22                           Informatica Developer        NXT GIG   
47  Machine Learning Engineer, Province of Brescia       TN Italy   
53                            Data & Data Engineer          Unit8   

                           Location  Salary Min  Salary Max  \
1            Barton, South Canberra     99000.0    132000.0   
4       Sandton, North Johannesburg     12960.0     22680.0   
22                The Rocks, Sydney     42900.0    132000.0   
47  Provincia di Brescia, Lombardia     54500.0     76300.0   
53            Warszawa, mazowieckie     66000.0     84000.0   

                                          Description Extracted Skills  \
1   About This Opportunity We are looking for a hi...               []   
4   Key Responsibilities - Develop and maintain sc...     

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rest_df['Experience_Level'] = rest_df['Experience_Level'].replace(experience_level_mapping, regex=True)


In [22]:
# Speichern des finalen DataFrames als CSV-Datei
rest_df.to_csv('prepared_job_titles.csv', index=False)

# Ausgabe zur Bestätigung
print("Die Datei wurde erfolgreich als 'prepared_job_titles.csv' gespeichert.")


Die Datei wurde erfolgreich als 'prepared_job_titles.csv' gespeichert.


In [23]:
import pandas as pd

# Einlesen der beiden CSV-Dateien in separate DataFrames
first_df = pd.read_csv('prepared_job_titles.csv')  # Erste Datei
rest_df = pd.read_csv('df_filtered.csv')  # Restliche Datei

# Bestätigung der Größe der DataFrames
print(f"Erste Datei hat {first_df.shape[0]} Zeilen und {first_df.shape[1]} Spalten.")
print(f"Restliche Datei hat {rest_df.shape[0]} Zeilen und {rest_df.shape[1]} Spalten.")


Erste Datei hat 202 Zeilen und 63 Spalten.
Restliche Datei hat 2053 Zeilen und 63 Spalten.


In [24]:
# Zusammenführen der beiden DataFrames (untereinander)
combined_df = pd.concat([first_df, rest_df], ignore_index=True)

# Überprüfen der kombinierten Datei
print(f"Die kombinierte Datei hat nun {combined_df.shape[0]} Zeilen und {combined_df.shape[1]} Spalten.")


Die kombinierte Datei hat nun 2255 Zeilen und 63 Spalten.


In [25]:
# Speichern der kombinierten Datei als CSV
combined_df.to_csv('df_letzte.csv', index=False)

# Bestätigung
print("Die kombinierte Datei wurde erfolgreich als 'combined_job_titles.csv' gespeichert.")


Die kombinierte Datei wurde erfolgreich als 'combined_job_titles.csv' gespeichert.


In [26]:
df_letzte = pd.read_csv("df_letzte.csv")

In [27]:
df_letzte['Job Title'].nunique()

511

In [28]:
target_titles = [
    "Data Scientist",
    "Data Analyst",
    "Data Engineer",
    "Machine Learning Engineer",
    "Analytics Consultant"
]


In [29]:
from fuzzywuzzy import process

def map_job_title(job_title, target_titles):
    """ Findet den ähnlichsten Jobtitel aus der Liste der gewünschten Titel """
    match, score = process.extractOne(job_title, target_titles)
    
    # Setze eine minimale Ähnlichkeitsbewertung (z. B. 80%)
    if score > 80:
        return match
    else:
        return job_title  # Falls kein passendes Ergebnis gefunden wurde

# Wende die Mapping-Funktion auf die Jobtitel-Spalte an
df_letzte["Job Title"] = df_letzte["Job Title"].apply(lambda x: map_job_title(x, target_titles))




In [30]:
print("Anzahl der eindeutigen Jobtitel nach der Normalisierung:", combined_df["Job Title"].nunique())

Anzahl der eindeutigen Jobtitel nach der Normalisierung: 511


In [31]:
job_mapping = {
    "AI Engineer": "Machine Learning Engineer",
    "Data & AI Engineer": "Data Engineer",
    "Lead AI/ML Engineer": "Machine Learning Engineer",
    "ML Engineer Remote UK company": "Machine Learning Engineer",
    "Databricks Engineer": "Data Engineer",
    "Hadoop Engineer": "Data Engineer",
    "Senior BI Specialist": "Data Analyst",
    "Big Data Solution Engineer": "Data Engineer",
    "Senior Data Management Analyst": "Data Analyst",
    "Power BI Developer": "Data Analyst",
    "Data Science Consultant": "Data Scientist",
    "Data Science Lead": "Data Scientist",
    "Data Science Manager": "Data Scientist",
    "Head of Data Science": "Data Scientist",
    "Machine Learning Ops Engineer": "Machine Learning Engineer",
    "Principal Data Science & ML Engineering Consultant": "Analytics Consultant",
}


In [32]:
from fuzzywuzzy import process

def normalize_job_title(job_title, mapping, target_titles):
    # 1️⃣ Falls der Jobtitel in der Mapping-Tabelle ist, direkt zuordnen
    if job_title in mapping:
        return mapping[job_title]

    # 2️⃣ Falls nicht, mit Fuzzy Matching den nächsten passenden Titel suchen
    match, score = process.extractOne(job_title, target_titles)

    # 3️⃣ Wenn die Ähnlichkeit über 85% liegt, ersetze den Jobtitel
    if score >= 85:
        return match
    else:
        return job_title  # Falls kein gutes Matching, bleibt der Titel unverändert

# Wende die erweiterte Normalisierung auf die Jobtitel-Spalte an
combined_df["Job Title"] = combined_df["Job Title"].apply(lambda x: normalize_job_title(x, job_mapping, target_titles))


In [33]:
print("Anzahl der eindeutigen Jobtitel nach der erweiterten Normalisierung:", combined_df["Job Title"].nunique())
print("Einzigartige Jobtitel nach der erweiterten Normalisierung:", combined_df["Job Title"].unique())


Anzahl der eindeutigen Jobtitel nach der erweiterten Normalisierung: 25
Einzigartige Jobtitel nach der erweiterten Normalisierung: ['Federal Sales Director' 'Data Engineer' 'Informatica Developer'
 'Machine Learning Engineer' 'Analytics Consultant' 'Data Scientist'
 'Quantitative Python Developer | Sydney, AU' 'Data Analyst'
 'R/SQL Developer in Clinical Trials, Metropolitan City of Milan'
 'Data consultants' 'Medior Backend Developer (Python)' 'LLM Developer'
 'Machine Learning Developer Kloof' 'Senior Manager, Machine Learning'
 'Ingénieur Machine Learning H/F' 'Senior AI Consultant'
 'MLOps SRE - Senior Associate' 'Engineering Manager'
 'Director of Machine Learning' 'Remote Sensing Specialist (SAR)'
 'Machine Learning Lead' 'Consulting Manager Fraud Practice'
 'IBM Cloud Pak Consultant' 'Senior Analytic Consultant'
 'Machine Learning Engineering Manager']


In [34]:
# Liste der zu löschenden Jobtitel
to_remove = [
    "Federal Sales Director",
    "Informatica Developer",
    "Quantitative Python Developer | Sydney, AU",
    "R/SQL Developer in Clinical Trials, Metropolitan City of Milan",
    "Medior Backend Developer (Python)",
    "Remote Sensing Specialist (SAR)",
    "New Business Development Role",
    "Software Engineer",
    "INGENIERO/A INFORMÁTICO CON CERTIFICACIÓN POWER BI",
    "Senior Pa Johannesburg",
    "Senior Manager",
    "MLOps SRE - Senior Associate",
    "Consulting Manager Fraud Practice",
    "Resident Solutions Architect - Databricks",
    "Engineering Manager"
]

# Entfernen der unerwünschten Jobtitel
filtered_df = combined_df[~combined_df["Job Title"].isin(to_remove)]

# Speichern der bereinigten Datei
#filtered_df.to_csv("final_cleaned_job_titles.csv", index=False)


In [35]:
print("Anzahl der eindeutigen Jobtitel nach der erweiterten Normalisierung:", filtered_df["Job Title"].nunique())
print("Einzigartige Jobtitel nach der erweiterten Normalisierung:", filtered_df["Job Title"].unique())

Anzahl der eindeutigen Jobtitel nach der erweiterten Normalisierung: 16
Einzigartige Jobtitel nach der erweiterten Normalisierung: ['Data Engineer' 'Machine Learning Engineer' 'Analytics Consultant'
 'Data Scientist' 'Data Analyst' 'Data consultants' 'LLM Developer'
 'Machine Learning Developer Kloof' 'Senior Manager, Machine Learning'
 'Ingénieur Machine Learning H/F' 'Senior AI Consultant'
 'Director of Machine Learning' 'Machine Learning Lead'
 'IBM Cloud Pak Consultant' 'Senior Analytic Consultant'
 'Machine Learning Engineering Manager']


In [36]:
# Mapping für die Standardisierung der Jobtitel
job_title_mapping = {
    "AI Quant Scientist": "Machine Learning Engineer",
    "Data consultants": "Analytics Consultant",
    "LLM Developer": "Machine Learning Engineer",
    "Machine Learning Developer Kloof": "Machine Learning Engineer",
    "Test Analyst": "Data Analyst",
    "Senior Manager, Machine Learning": "Machine Learning Engineer",
    "Ingénieur Machine Learning H/F": "Machine Learning Engineer",
    "Senior AI Consultant": "Analytics Consultant",
    "Director of Machine Learning": "Machine Learning Engineer",
    "Machine Learning Lead": "Machine Learning Engineer",
    "IBM Cloud Pak Consultant": "Analytics Consultant",
    "Senior Analytic Consultant": "Analytics Consultant",
    "Machine Learning Engineering Manager": "Machine Learning Engineer",
    "BI Analyst": "Data Analyst"
}

# Anwenden der Ersetzung
filtered_df["Job Title"] = filtered_df["Job Title"].replace(job_title_mapping)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df["Job Title"] = filtered_df["Job Title"].replace(job_title_mapping)


In [37]:
print("Anzahl der eindeutigen Jobtitel nach der erweiterten Normalisierung:", filtered_df["Job Title"].nunique())
print("Einzigartige Jobtitel nach der erweiterten Normalisierung:", filtered_df["Job Title"].unique())

Anzahl der eindeutigen Jobtitel nach der erweiterten Normalisierung: 5
Einzigartige Jobtitel nach der erweiterten Normalisierung: ['Data Engineer' 'Machine Learning Engineer' 'Analytics Consultant'
 'Data Scientist' 'Data Analyst']


In [38]:
# Speichern der finalen Datei
filtered_df.to_csv("df_Cleaned_Salary_Skills_JobTitle.csv", index=False)
print("Die final sortierte Datei wurde erfolgreich gespeichert!")

Die final sortierte Datei wurde erfolgreich gespeichert!
