In [1]:
import pandas as pd
import numpy as np

### Daten durch Beobachtung sammeln

In [2]:
# Annahme : Beobachtung von Kundenverhalten in einem G e s c h f t
customer_behavior = {
    'customer_id': [1, 2, 3, 4, 5],
    'purchase_amount': [50.0 , 30.0 , 25.0 , 60.0 , 40.0] ,
    'visit_duration_minutes': [20 , 15, 10, 25, 18]
}

In [3]:
df = pd.DataFrame(customer_behavior)
df.head()

Unnamed: 0,customer_id,purchase_amount,visit_duration_minutes
0,1,50.0,20
1,2,30.0,15
2,3,25.0,10
3,4,60.0,25
4,5,40.0,18


## Datenbereinigung 
Ungenaue oder unvollständige Daten können zu fehlerhaften Analysen führen und die
Effektivität von Machine Learning Modellen beeinträchtigen.
1) Enfernen von Duplikaten
2) Behandeln von fehlenden Werten
3) Entfernen von Ausreißern
4) Überprüfen von Daten auf Konsistenz und Genauigkeit
5) Formatieren von Daten in das richtige Format.

In [4]:
# Annahme : Ein DataFrame mit u n v o l l s t n d i g e n Daten
data = pd. DataFrame ({ 'A': [1, 2, None , 4, 5], 'B': [None , 2, 3, 4, 5]})

In [5]:
# Entfernen von Zeilen mit fehlenden Werten
cleaned_data = data.dropna()

In [6]:
cleaned_data.head()

Unnamed: 0,A,B
1,2.0,2.0
3,4.0,4.0
4,5.0,5.0


### Duplikate finden und entfernen
Manchmal enthalten Daten Duplikate oder redundante Informationen, die die
Analyse beeintrachtigen konnen.

In [7]:
# Annahme : Ein DataFrame mit Duplikaten
data = pd. DataFrame ({ 'A': [1, 2, 2, 4, 5], 'B': ['a', 'b', 'b', 'c', 'd']})

In [10]:
# Finden von Duplikaten basierend auf den Spalten 'A' und 'B'
duplicate_rows = data[data.duplicated(['A', 'B'])]
duplicate_rows

Unnamed: 0,A,B
2,2,b


In [12]:
# Entfernen von Duplikaten
cleaned_data = data.drop_duplicates(subset=['A', 'B'])
cleaned_data

Unnamed: 0,A,B
0,1,a
1,2,b
3,4,c
4,5,d


### Fehlende Werte behandeln
Fehlende Werte in Daten konnen dazu fuhren, dass Analysen fehlerhaft oder
inkonsistent werden.

In [13]:
# Annahme : Ein DataFrame mit fehlenden Werten
data = pd. DataFrame ({ 'A': [1, 2, None , 4, 5], 'B': [None , 2, 3, None , 5]})

In [14]:
# Ersetzen der fehlenden Werte durch einen Standardwert von Null
cleaned_data = data.fillna(0)

In [15]:
cleaned_data

Unnamed: 0,A,B
0,1.0,0.0
1,2.0,2.0
2,0.0,3.0
3,4.0,0.0
4,5.0,5.0


### Feature Engineering: Verbesserung der Daten
Feature Engineering bezieht sich auf den Prozess der Schaung neuer, relevanter
Features aus den vorhandenen Daten.

In [19]:
from sklearn.preprocessing import MinMaxScaler

data = pd.DataFrame({'value1': [2, 4, 6, 8],
                     'value2': [10 , 20, 30, 40]})

In [17]:
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

In [20]:
normalized_data

array([[0.        , 0.        ],
       [0.33333333, 0.33333333],
       [0.66666667, 0.66666667],
       [1.        , 1.        ]])

### Datenintegration: Zusammenführen von Daten
Datenintegration bezieht sich auf den Prozess des Zusammenführens von Daten aus
verschiedenen Quellen.

In [23]:
# Annahme : Zwei DataFrames 'df1 ' und 'df2 ' mit gemeinsamer Spalte 'ID '
df1 = pd. DataFrame ({ 'ID': [1, 2, 3], 'Value1 ': ['A', 'B', 'C']})
df2 = pd. DataFrame ({ 'ID': [2, 3, 4], 'Value2 ': ['X', 'Y', 'Z']})

In [24]:
# Zusammenführens der Dataframes basierend auf 'ID'
merged_data = pd.merge(df1, df2, on='ID', how='inner')

In [25]:
merged_data

Unnamed: 0,ID,Value1,Value2
0,2,B,X
1,3,C,Y


### Hausaufgabe 2

In [26]:
def load_dataset(file_path):
    df = pd.read_csv(file_path)
    return df
    
def remove_duplicates(df):
    cleaned_df = df.drop_duplicates()
    return cleaned_df
    
def handle_missing_values(df):
    # Für numerische Werte
    numerical_columns = df.select_dtypes(include=['number'])
    df.loc[:, numerical_columns.columns] = numerical_columns.fillna(numerical_columns.mean())
    
    # Für kategorische Werte
    categorical_columns = df.select_dtypes(exclude=['number'])
    for col in categorical_columns:
        df[col].fillna(df[col].mode())
    
    return df
    
def save_cleaned_dataset(df, output_file):
    df.to_csv(output_file, index=False)
    
def main():
    df = load_dataset("daten.csv")
    cleaned_data = remove_duplicates(df)
    cleaned_data = handle_missing_values(cleaned_data)
    save_cleaned_dataset(cleaned_data, "bereinigte_daten.csv")

In [27]:
data = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frieda', 'Gina'],
                     'Alter': [25, np.nan, 30, 28, np.nan, 30, 24]})

print("Originaler Datensatz:")
print(data)

# Deine Aufgaben:

# 1. Imputiere die fehlenden Werte in der Spalte "Alter" mit der Mittelwert-Imputation und erstelle einen neuen DataFrame (df_mean).
df_mean = data.copy()
df_mean["Alter"] = df_mean["Alter"].fillna(df_mean["Alter"].mean())
print("\nDataFrame mit Mittelwert-Imputation:")
print(df_mean)

# 2. Imputiere die fehlenden Werte in der Spalte "Alter" mit der Median-Imputation und erstelle einen neuen DataFrame (df_median).
df_median = data.copy()
df_median["Alter"] = df_median["Alter"].fillna(df_median["Alter"].median())
print("\nDataFrame mit Median-Imputation:")
print(df_median)

# 3. Imputiere die fehlenden Werte in der Spalte "Alter" mit der Modus-Imputation und erstelle einen neuen DataFrame (df_mode).
df_mode = data.copy()
df_mode["Alter"] = df_mode["Alter"].fillna(df_mode["Alter"].mode()[0])
print("\nDataFrame mit Modus-Imputation:")
print(df_mode)

# Tipp: Verwende die Pandas-Funktionen zur Imputation.

Originaler Datensatz:
      Name  Alter
0    Alice   25.0
1      Bob    NaN
2  Charlie   30.0
3    David   28.0
4      Eva    NaN
5   Frieda   30.0
6     Gina   24.0

DataFrame mit Mittelwert-Imputation:
      Name  Alter
0    Alice   25.0
1      Bob   27.4
2  Charlie   30.0
3    David   28.0
4      Eva   27.4
5   Frieda   30.0
6     Gina   24.0

DataFrame mit Median-Imputation:
      Name  Alter
0    Alice   25.0
1      Bob   28.0
2  Charlie   30.0
3    David   28.0
4      Eva   28.0
5   Frieda   30.0
6     Gina   24.0

DataFrame mit Modus-Imputation:
      Name  Alter
0    Alice   25.0
1      Bob   30.0
2  Charlie   30.0
3    David   28.0
4      Eva   30.0
5   Frieda   30.0
6     Gina   24.0
