# Generators Data Pipeline

Eine Datenpipeline ist ein Verfahren zur stufenweisen Verarbeitung von Daten, bei dem die Ausgabe einer Stufe die Eingabe der nächsten Stufe ist. Generatoren sind für die Erstellung von Datenpipelines nützlich, da sie Daten nach und nach erzeugen können, ohne alle Daten auf einmal im Speicher zu speichern.

In diesem Beispiel verwenden wir eine Liste von Listen, um die Daten zu repräsentieren, anstatt sie aus einer Datei zu lesen. Wir verwenden zwei Generatorfunktionen, um die Daten zu filtern und Statistiken zu berechnen.

In [1]:
# Define a list of lists to store the data (these are startup funds for various, now huge, companies)
data = [
    ["Facebook", "social", "USA", 15000000],
    ["Twitter", "social", "USA", 5000000],
    ["Airbnb", "travel", "USA", 20000000],
    ["Uber", "transportation", "USA", 40000000],
    ["Spotify", "music", "Sweden", 10000000],
    ["Netflix", "entertainment", "USA", 30000000],
    ["Zalando", "e-commerce", "Germany", 5000000],
    ["Delivery Hero", "food delivery", "Germany", 10000000],
    ["N26", "fintech", "Germany", 30000000],
    ["BlaBlaCar", "carpooling", "France", 10000000]
]

# Define a generator function to filter out unwanted rows
def filter_data(data, min_amount):
    # Loop over the data
    for row in data:
        # Convert the funding amount to a float
        amount = float(row[3])
        # Check if the amount is greater than or equal to the minimum
        if amount >= min_amount:
            # Yield the row
            yield row

# Define a generator function to calculate some statistics on the data
def calculate_stats(data):
    # Initialize some variables
    total = 0
    count = 0
    average = 0
    # Loop over the data
    for row in data:
        # Convert the funding amount to a float
        amount = float(row[3])
        # Update the total and count
        total += amount
        count += 1
        # Calculate the average
        average = total / count
        # Yield the current statistics as a tuple
        yield (total, count, average)

# Create a generator object by calling the filter_data function with the data and a minimum amount of 10 million
data = filter_data(data, 10_000_000)
# Create another generator object by calling the calculate_stats function with the data
data = calculate_stats(data)
# Iterate over the final generator object and print the statistics
for total, count, average in data:
    print(f"Total: {total:.2f}, Count: {count}, Average: {average:.2f}")


Total: 15000000.00, Count: 1, Average: 15000000.00
Total: 35000000.00, Count: 2, Average: 17500000.00
Total: 75000000.00, Count: 3, Average: 25000000.00
Total: 85000000.00, Count: 4, Average: 21250000.00
Total: 115000000.00, Count: 5, Average: 23000000.00
Total: 125000000.00, Count: 6, Average: 20833333.33
Total: 155000000.00, Count: 7, Average: 22142857.14
Total: 165000000.00, Count: 8, Average: 20625000.00


Die Funktion ```calculate_stats``` muss ein Generator und keine reguläre Funktion sein, weil sie die Statistiken für jede Datenzeile erstellen muss, während sie vom ```filter_data```-Generator verarbeitet wird. Wäre sie eine reguläre Funktion, müsste sie warten, bis alle Daten gefiltert sind, und dann die endgültige Statistik als einen einzigen Wert zurückgeben. Dies würde den Zweck der Verwendung von Generatoren vereiteln, der darin besteht, Daten langsam zu verarbeiten und zu vermeiden, dass alle Daten auf einmal im Speicher abgelegt werden. Durch die Verwendung eines Generators können wir die Statistiken für jede Datenzeile abrufen, sobald sie gefiltert wurde, und wir können die Iteration auch jederzeit stoppen, wenn wir wollen. Wenn wir z. B. nur die Statistiken für die ersten fünf Datenzeilen benötigen, können wir die Schleife mit der break-Anweisung nach fünf Iterationen verlassen. Auf diese Weise können wir Zeit und Speicherplatz sparen, indem wir den Rest der Daten nicht verarbeiten. Generatoren sind effizienter und flexibler als reguläre Funktionen zur Erstellung von Datenpipelines in Python.