In [1]:
import pandas as pd

# Daten laden
df = pd.read_csv("../data/online_retail.csv")

# Erste 5 Zeilen anschauen
print("Erste 5 Zeilen:")
df.head()

Erste 5 Zeilen:


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [2]:
# Überblick über den DataFrame
print("DataFrame Info:")
print(f"Zeilen: {len(df)}")
print(f"Spalten: {len(df.columns)}")
print(f"\nSpaltennamen: {df.columns.tolist()}")
print(f"\nDatentypen:")
print(df.dtypes)

DataFrame Info:
Zeilen: 541909
Spalten: 8

Spaltennamen: ['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'UnitPrice', 'CustomerID', 'Country']

Datentypen:
InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object


In [3]:
# Statistische Zusammenfassung
print("Statistische Zusammenfassung:")
df.describe()

Statistische Zusammenfassung:


Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


In [4]:
# Beispiel: Zeige nur Zeilen wo Quantity > 10
# (passe die Spaltennamen an dein Dataset an)
print("Filtern - Beispiel:")
# Zeige die Spaltennamen zuerst
print(f"Verfügbare Spalten: {df.columns.tolist()}")

# Wähle eine numerische Spalte zum Filtern
# Beispiel mit der ersten numerischen Spalte
numeric_cols = df.select_dtypes(include=['number']).columns
if len(numeric_cols) > 0:
    col = numeric_cols[0]
    filtered_df = df[df[col] > df[col].median()]
    print(f"\nZeilen wo {col} > Median: {len(filtered_df)}")
    filtered_df.head()

Filtern - Beispiel:
Verfügbare Spalten: ['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'UnitPrice', 'CustomerID', 'Country']

Zeilen wo Quantity > Median: 264108


In [6]:
# Nach einer Spalte sortieren
numeric_cols = df.select_dtypes(include=['number']).columns
if len(numeric_cols) > 0:
    col = numeric_cols[0]
    sorted_df = df.sort_values(by=col, ascending=False)
    print(f"Sortiert nach {col} (absteigend):")
    sorted_df.head()

Sortiert nach Quantity (absteigend):


In [7]:
# Gruppieren nach einer Spalte und aggregieren
# Finde kategorische Spalten
categorical_cols = df.select_dtypes(include=['object']).columns
numeric_cols = df.select_dtypes(include=['number']).columns

if len(categorical_cols) > 0 and len(numeric_cols) > 0:
    cat_col = categorical_cols[0]
    num_col = numeric_cols[0]
    
    grouped = df.groupby(cat_col)[num_col].agg(['sum', 'mean', 'count'])
    print(f"Gruppiert nach {cat_col}:")
    grouped.head(10)

Gruppiert nach InvoiceNo:


In [8]:
# Fehlende Werte pro Spalte
print("Fehlende Werte:")
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100

missing_df = pd.DataFrame({
    'Fehlende Werte': missing,
    'Prozent': missing_percent
})
print(missing_df[missing_df['Fehlende Werte'] > 0])

Fehlende Werte:
             Fehlende Werte    Prozent
Description            1454   0.268311
CustomerID           135080  24.926694


In [9]:
# Nur bestimmte Spalten auswählen
# Wähle die ersten 3 Spalten
selected_cols = df.columns[:3]
df_subset = df[selected_cols]
print(f"Ausgewählte Spalten: {selected_cols.tolist()}")
df_subset.head()

Ausgewählte Spalten: ['InvoiceNo', 'StockCode', 'Description']


Unnamed: 0,InvoiceNo,StockCode,Description
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER
1,536365,71053,WHITE METAL LANTERN
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.


In [10]:
# Neue Spalte basierend auf Berechnungen
numeric_cols = df.select_dtypes(include=['number']).columns
if len(numeric_cols) >= 2:
    col1 = numeric_cols[0]
    col2 = numeric_cols[1]
    
    df['neue_spalte'] = df[col1] * df[col2]
    print(f"Neue Spalte erstellt: {col1} * {col2}")
    df[['neue_spalte', col1, col2]].head()

Neue Spalte erstellt: Quantity * UnitPrice


In [11]:
# Duplikate identifizieren
print(f"Anzahl Duplikate: {df.duplicated().sum()}")
print(f"Zeilen vor Entfernung: {len(df)}")

df_no_duplicates = df.drop_duplicates()
print(f"Zeilen nach Entfernung: {len(df_no_duplicates)}")

Anzahl Duplikate: 5268
Zeilen vor Entfernung: 541909
Zeilen nach Entfernung: 536641
