# 3) Unifying & Transformation

## 3.1 Importieren der Bibliotheken

In [1]:
# Importieren der notwendigen Bibliotheken
import pandas as pd
import numpy as np


## 3.2 Datensatz laden

In [2]:
# Funktion zum Laden der Daten
def load_data(file_path):
    try:
        data = pd.read_csv(file_path)
        print(f"Datensatz erfolgreich geladen! Form: {data.shape}")
        return data
    except FileNotFoundError:
        print("Fehler: Datei wurde nicht gefunden. Bitte prüfen Sie den Dateipfad.")
    except pd.errors.ParserError:
        print("Fehler: Problem beim Parsen der Datei. Bitte prüfen Sie das Dateiformat.")
    except Exception as e:
        print(f"Unerwarteter Fehler: {e}")
        return None

# Eingabedatei definieren
file_path = "raw/wine_quality.csv"

# Datensatz laden
data = load_data(file_path)

# Überblick anzeigen
if data is not None:
    display(data.head())

Datensatz erfolgreich geladen! Form: (6497, 13)


Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,white,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,white,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,white,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,white,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,white,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


## 3.3 Kodieren der type-Spalte

In [3]:
# Umwandlung der 'type'-Spalte in numerische Werte (nur einmal) und Ausgabe von Beispielen
def encode_type_and_display_samples(data):
    try:
        if 'type' in data.columns:
            # Überprüfen, ob die Spalte bereits numerisch kodiert wurde
            if data['type'].dtype in ['int64', 'float64'] and data['type'].isin([0, 1]).all():
                print("Die 'type'-Spalte ist bereits kodiert. Keine weiteren Änderungen erforderlich.")
            else:
                # Überprüfung der einzigartigen Werte vor der Kodierung
                unique_values = data['type'].unique()
                print(f"Eindeutige Werte in der 'type'-Spalte vor der Kodierung: {unique_values}")

                # Kodierung der 'type'-Spalte
                data['type'] = data['type'].map({'white': 1, 'red': 0})

                # Überprüfen, ob die Kodierung erfolgreich war
                if data['type'].isnull().sum() > 0:
                    print("Warnung: Einige Werte konnten nicht kodiert werden:")
                    display(data[data['type'].isnull()])

                print("\nKodierung der 'type'-Spalte abgeschlossen! (1: Weisswein, 0: Rotwein)")
            
            # Anzeigen von Beispielen für Weisswein (type = 1)
            white_wine_samples = data[data['type'] == 1].head()
            print("\nBeispiele für Weisswein:")
            display(white_wine_samples)

            # Anzeigen von Beispielen für Rotwein (type = 0)
            red_wine_samples = data[data['type'] == 0].head()
            print("\nBeispiele für Rotwein:")
            display(red_wine_samples)

            return data
        else:
            print("Die Spalte 'type' ist nicht im Datensatz enthalten.")
            return data
    except Exception as e:
        print(f"Fehler bei der Kodierung der 'type'-Spalte: {e}")
        return data

# Kodieren der 'type'-Spalte und Anzeige von Beispielen
if data is not None:
    data = encode_type_and_display_samples(data)

Eindeutige Werte in der 'type'-Spalte vor der Kodierung: ['white' 'red']

Kodierung der 'type'-Spalte abgeschlossen! (1: Weisswein, 0: Rotwein)

Beispiele für Weisswein:


Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,1,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,1,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,1,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,1,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6



Beispiele für Rotwein:


Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
4898,0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
4899,0,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
4900,0,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
4901,0,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4902,0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


## 3.4 Einteilung der Qualität in Kategorien

In [4]:
# Einteilung der Qualität in Kategorien
def categorize_quality(data):
    try:
        # Kategorien und Labels definieren
        bins = [0, 3, 5, 7, 9, 10]  # Grenzen für die Kategorien
        labels = ['Sehr schlecht', 'Schlecht', 'Okay', 'Gut', 'Sehr gut']
        
        # Neue Spalte erstellen
        data['quality_category'] = pd.cut(data['quality'], bins=bins, labels=labels, right=False)
        print("\nKategorie-Einteilung der Qualität abgeschlossen!")
        print(data['quality_category'].value_counts())
        
        return data
    except Exception as e:
        print(f"Fehler bei der Kategorisierung der Qualität: {e}")
        return data

# Kategorisieren der Qualität
if data is not None:
    data = categorize_quality(data)
    display(data[['quality', 'quality_category']].head())


Kategorie-Einteilung der Qualität abgeschlossen!
quality_category
Okay             4974
Gut              1272
Schlecht          246
Sehr gut            5
Sehr schlecht       0
Name: count, dtype: int64


Unnamed: 0,quality,quality_category
0,6,Okay
1,6,Okay
2,6,Okay
3,6,Okay
4,6,Okay


## 3.5 Speichern des transformierten Datensatzes

In [6]:
# Speichern des transformierten Datensatzes
def save_transformed_data(data, output_path):
    try:
        # Sicherstellen, dass der Index nicht mitgespeichert wird
        data.to_csv(output_path, index=False)
        print(f"\nDer transformierte Datensatz wurde erfolgreich gespeichert unter: {output_path}")
    except Exception as e:
        print(f"Fehler beim Speichern des Datensatzes: {e}")

# Ausgabedatei definieren
output_file_path = "wine_quality_processed.csv"

# Datensatz speichern
if data is not None:
    save_transformed_data(data, output_file_path)


Der transformierte Datensatz wurde erfolgreich gespeichert unter: wine_quality_processed.csv
