In [None]:
# 1. Import der benötigten Bibliotheken
import pandas as pd  
import matplotlib.pyplot as plt  
import seaborn as sns  
from ipywidgets import interact, FileUpload  
import io  

# 2. Erstellen eines Datei-Upload Widgets
# Das Widget erlaubt dem Nutzer, eine CSV-Datei hochzuladen, die später analysiert wird.
upload = FileUpload(accept=".csv")  # Nur CSV-Dateien sind erlaubt
display(upload)  # Zeigt das Upload-Widget im Notebook an

# 3. Funktion zum Laden der hochgeladenen CSV-Datei
def load_csv(upload):
    """
    Lädt eine hochgeladene CSV-Datei und gibt sie als Pandas DataFrame zurück.
    
    Parameter:
    upload: Das hochgeladene Datei-Objekt aus dem FileUpload-Widget.

    Rückgabe:
    df (DataFrame): Der geladene DataFrame oder None, falls keine Datei vorhanden ist.
    """
    if not upload.value:  # Falls keine Datei hochgeladen wurde, wird eine Warnung ausgegeben
        print("Fehler: Bitte eine CSV-Datei hochladen.")
        return None
    
    uploaded_file = next(iter(upload.value.values()))  # Nimmt die erste hochgeladene Datei aus der Liste
    df = pd.read_csv(io.BytesIO(uploaded_file['content']))  # Konvertiert die Datei in einen Pandas DataFrame
    print(f"Erfolgreich geladen: '{uploaded_file['metadata']['name']}'")  
    return df

# 4. Einlesen der hochgeladenen CSV-Datei
df = load_csv(upload)

# 5. Erste Analyse der geladenen Daten
if df is not None:
    print("\nErste fünf Zeilen des Datensatzes:")
    display(df.head())  # Zeigt die ersten fünf Zeilen, um einen ersten Eindruck zu bekommen

    print("\nAllgemeine Informationen über die Datenstruktur:")
    print(df.info())  # Zeigt Anzahl der Zeilen/Spalten, Datentypen und Speicherverbrauch

    print("\nStatistische Analyse der numerischen Spalten:")
    display(df.describe())  # Berechnet Standardstatistiken wie Mittelwert, Min/Max, Perzentile

# 6. Automatische Erkennung der Spaltentypen
if df is not None:
    # Unterscheidung zwischen numerischen und kategorischen Spalten
    numerical_columns = df.select_dtypes(include=['number']).columns.tolist()  # Alle numerischen Spalten extrahieren
    categorical_columns = df.select_dtypes(exclude=['number']).columns.tolist()  # Alle nicht-numerischen Spalten extrahieren
    
    print(f"\nErkannte numerische Spalten: {numerical_columns}")
    print(f"Erkannte kategorische Spalten: {categorical_columns}")

# 7. Visualisierung der Verteilung numerischer Spalten mit Histogrammen
if df is not None and numerical_columns:
    print("\nErstellung von Histogrammen für alle numerischen Spalten...")
    for col in numerical_columns:
        plt.figure(figsize=(7,4))  # Definiert die Größe des Diagramms
        sns.histplot(df[col], bins=30, kde=True, color="blue")  # Erstellt ein Histogramm mit Dichtekurve
        plt.title(f"Verteilung von {col}")  # Titel des Diagramms
        plt.xlabel(col)  # Beschriftung der X-Achse
        plt.ylabel("Häufigkeit")  # Beschriftung der Y-Achse
        plt.show()  # Zeigt das Diagramm an

# 8. Erstellung eines Scatterplots für die ersten zwei numerischen Spalten
if df is not None and len(numerical_columns) >= 2:
    print(f"\nErstellung eines Scatterplots für {numerical_columns[0]} vs. {numerical_columns[1]}...")
    plt.figure(figsize=(8,5))  # Definiert die Größe des Diagramms
    sns.scatterplot(x=df[numerical_columns[0]], y=df[numerical_columns[1]], alpha=0.7)  # Erstellt den Scatterplot
    plt.title(f"{numerical_columns[0]} vs. {numerical_columns[1]}")  # Setzt den Titel
    plt.xlabel(numerical_columns[0])  # Beschriftung der X-Achse
    plt.ylabel(numerical_columns[1])  # Beschriftung der Y-Achse
    plt.show()  # Zeigt das Diagramm an


FileUpload(value=(), accept='.csv', description='Upload')

⚠️ Bitte eine CSV-Datei hochladen.


: 