# Predictive Maintenance mit SCANIA-Daten – Common Functions to load

**Projekt:** Bachelorarbeit Data Science  
**Thema:** 
**Datengrundlage:** SCANIA Component X Dataset  
**Autor:** Justin Stange-Heiduk  
**Betreuung:** Dr. Martin Prause  
**Ziel:** Erstellen und testen der Daten Vorbereitung Funktionen  

---

**Erstellt:** 2025-08-19   
**Letzte Änderung:** 2025-07-25


---

In [9]:
import pandas as pd

In [11]:
def save_df(df: pd.DataFrame, ordner: str, name: str) -> None:
    """
    Speichert ein DataFrame als Parquet-Datei im angegebenen Ordner.

    Args:
        df (pd.DataFrame): Das zu speichernde DataFrame.
        ordner (str): Der Ordner, in dem die Parquet-Datei gespeichert werden soll.
        name (str): Der Name der Parquet-Datei (ohne .parquet)
    """

    df.to_parquet(f"../data/{ordner}/{name}.parquet", index=False)

In [13]:
def load_df(ordner: str, name: str) -> pd.DataFrame:
    """
    Lädt ein DataFrame aus einer Parquet-Datei im angegebenen Ordner.

    Args:
        ordner (str): Der Ordner, in dem die Parquet-Datei gespeichert ist. (../data/{ordner})
        name (str): Der Name der Parquet-Datei (ohne .parquet)

    Returns:
        pd.DataFrame: Das geladene DataFrame.
    """

    return pd.read_parquet(f"../data/{ordner}/{name}.parquet")

In [5]:
def load_raw_data() -> dict:
    """
    Load raw data from a CSV file.

    Returns:
        dict: The loaded raw data.
    """
    test_labels = pd.read_csv("../data/01_raw/test_labels.csv")
    test_operational = pd.read_csv("../data/01_raw/test_operational_readouts.csv")
    test_specifications = pd.read_csv("../data/01_raw/test_specifications.csv")

    train_tte = pd.read_csv("../data/01_raw/train_tte.csv")
    train_operational = pd.read_csv("../data/01_raw/train_operational_readouts.csv")
    train_specifications = pd.read_csv("../data/01_raw/train_specifications.csv")

    validation_tte = pd.read_csv("../data/01_raw/validation_labels.csv")
    validation_operational = pd.read_csv("../data/01_raw/validation_operational_readouts.csv")
    validation_specifications = pd.read_csv("../data/01_raw/validation_specifications.csv")

    return dict({"test": {"labels": test_labels, "readouts": test_operational, "spec": test_specifications},
           "train": {"tte": train_tte, "readouts": train_operational, "spec": train_specifications},
           "validation": {"labels": validation_tte, "readouts": validation_operational, "spec": validation_specifications}})