# 4) Data Cleansing
Beurteilung der Datenqualität und erforderliche Bereinigung der Daten

## 4.1 Importieren der Bibliotheken

In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler

## 4.1 Laden des Datensatzes

In [2]:
file_path = "../data/wine_quality_processed.csv"

# Prüfen, ob die Datei existiert
if os.path.exists(file_path):
    print("File found! Loading...")
    data = pd.read_csv(file_path)
    print("Dataset loaded successfully.")
    print(f"Shape of the dataset: {data.shape}")
    display(data.head())
else:
    print(f"File not found at: {file_path}")


File found! Loading...
Dataset loaded successfully.
Shape of the dataset: (6497, 14)


Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,quality_category
0,1,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6,Okay
1,1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6,Okay
2,1,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6,Okay
3,1,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,Okay
4,1,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,Okay


## 4.2 Analyse fehlender Werte

In [3]:
# Analyse der fehlenden Werte
print("\n--- Analyse fehlender Werte ---")
missing_values = data.isnull().sum()
missing_summary = missing_values[missing_values > 0]
if missing_summary.empty:
    print("Es wurden keine fehlenden Werte gefunden.")
else:
    print(missing_summary.to_string(index=True))

    print("\n--- Positionen der fehlenden Werte ---")
    # Liste von Zeilen- und Spaltenindizes der fehlenden Werte
    missing_positions = data.isnull().stack().reset_index()
    missing_positions.columns = ['Zeile', 'Spalte', 'Fehlt']
    missing_positions = missing_positions[missing_positions['Fehlt'] == True].drop(columns=['Fehlt'])

    # tabellarische Ausgabe
    print(missing_positions.to_string(index=False))


--- Analyse fehlender Werte ---
Es wurden keine fehlenden Werte gefunden.


# 5) Analysis & Validation
Analyse der Verteilungen, Abweichungen & Kennzahlen 

## 5.1 Statistische Kennzahlen

In [4]:
# Statistische Kennzahlen für numerische Spalten
print("\n--- Statistische Kennzahlen ---")
print(data.describe())


--- Statistische Kennzahlen ---
              type  fixed acidity  volatile acidity  citric acid  \
count  6497.000000    6497.000000       6497.000000  6497.000000   
mean      0.753886       7.215307          0.339666     0.318633   
std       0.430779       1.296434          0.164636     0.145318   
min       0.000000       3.800000          0.080000     0.000000   
25%       1.000000       6.400000          0.230000     0.250000   
50%       1.000000       7.000000          0.290000     0.310000   
75%       1.000000       7.700000          0.400000     0.390000   
max       1.000000      15.900000          1.580000     1.660000   

       residual sugar    chlorides  free sulfur dioxide  total sulfur dioxide  \
count     6497.000000  6497.000000          6497.000000           6497.000000   
mean         5.443235     0.056034            30.525319            115.744574   
std          4.757804     0.035034            17.749400             56.521855   
min          0.600000     0.00

In [8]:
# Häufigkeiten der Kategorien
print("\n--- Häufigkeiten der Qualitätskategorien ---")

# Definierte Kategorien
categories = ['Sehr schlecht', 'Schlecht', 'Okay', 'Gut', 'Sehr gut']

# Häufigkeiten anzeigen
category_counts = data['quality_category'].value_counts().reindex(categories, fill_value=0)
print(category_counts)



--- Häufigkeiten der Qualitätskategorien ---
quality_category
Sehr schlecht       0
Schlecht          246
Okay             4974
Gut              1272
Sehr gut            5
Name: count, dtype: int64


## 5.2 Verteilungen der numerischen Spalten

## 5.3 Boxplots zur Ausreißeranalyse