# Interaktive Analyse von Geburtsnamen
Dieses Notebook enthält das Python-Skript mit ausführlichen Kommentaren, um es auch für absolute Anfänger verständlich zu machen.

In [None]:
# --------------------------------------------------------------------------------------------------
# Projektaufgabe: Interaktive Analyse von Geburtsnamen (Einfach, robust, ohne Libraries)
# Dies ist ein kommentiertes Skript, damit auch Einsteiger jeden Schritt verstehen.
# --------------------------------------------------------------------------------------------------

# 1. WICHTIGE KONSTANTEN
# Dateiname für Zwischenergebnisse (Cache)
cache_file = "cache.csv"

# 2. CSV-DATEI EINLESEN
def get_content(file):
    """
    Öffnet eine CSV-Datei und liest alle Zeilen ein.
    Gibt zurück:
      - header: Liste der Spaltenüberschriften (erste Zeile)
      - lines: Liste aller Zeilen inklusive Header
    """
    # Öffne Datei im Lesemodus ("r")
    with open(file, "r") as data:
        # Lese alle Zeilen als Liste von Strings
        lines = data.readlines()
        # header ist die erste Zeile ohne Zeilenumbruch, aufgeteilt nach Komma
        header = lines[0].strip().split(",")
    # Gib Header und alle Zeilen zurück
    return header, lines

# 3. DATEN IN CACHE-SCHREIBEN
def generate_cache_file(header, lines, file=cache_file):
    """
    Schreibt den Header und die Datenzeilen in die angegebene Datei.
    Standard: cache_file (= "cache.csv")
    """
    # Öffne Datei im Schreibmodus ("w"): Bestehender Inhalt wird überschrieben
    with open(file, "w") as new_file:
        # Schreibe die Header-Zeile
        new_file.write(",".join(header) + "\n")
        # Schreibe jede Datenzeile
        for line in lines:
            new_file.write(",".join(line) + "\n")

# 4. TABELLE FORMATIERT AUSGEBEN
def print_formatted_table(file=cache_file):
    """
    Liest die Datei ein und gibt sie als schön formatiertes ASCII-Tabelle aus.
    """
    header, lines = get_content(file)
    # Info: Dateiname und Anzahl der Datenzeilen
    print("\nFormatted Table, from file:", file)
    print("With a total of " + str(len(lines)-1) + " entrys.")
    # Trennlinie passend zur Spaltenanzahl
    print("-" * round(23.2 * len(header)))
    # Kopfzeile mit fester Breite je Spalte (20 Zeichen)
    print(("| {:<20} " * len(header) + "|").format(*header))
    print("-" * round(23.2 * len(header)))
    # Datenzeilen
    for line in lines[1:]:
        values = line.strip().split(",")
        print(("| {:<20} " * len(header) + "|").format(*values))

# 5. FILTER-FUNKTION
def get_rows_by_value(column, value, file=cache_file, return_table=False):
    """
    Filtert Zeilen nach Werten in einer bestimmten Spalte.
    - column: Spaltenname
    - value: Liste erlaubter Werte (z.B. ["DE"])
    - return_table: True → zeigt die Tabelle nach Filterung an
    """
    header, lines = get_content(file)
    # Prüfe, ob Spalte existiert
    if column not in header:
        print("Spalte '" + column + "' nicht gefunden.")
        return
    col_index = header.index(column)
    rows = []
    # Gehe jede Datenzeile durch
    for line in lines[1:]:
        row = line.strip().split(",")
        if row[col_index] in value:
            rows.append(row)
    # Schreibe gefilterte Daten in Cache
    generate_cache_file(header, rows)
    print("\nOnly returned rows with value in column:", column)
    print("For Values:", value)
    if return_table:
        print_formatted_table()

# 6. SORTIER-FUNKTION (Bubble Sort)
def sort_by(column, area, reverse=False, file=cache_file, return_table=False):
    """
    Sortiert die Daten in Spalte 'column' mittels Bubble Sort.
    - area: [start, end] des Zeilenbereichs
    - reverse: False=aufsteigend, True=absteigend
    """
    header, lines = get_content(file)
    if column not in header:
        print("Spalte '" + column + "' nicht gefunden.")
        return
    # Wenn kein Bereich übergeben: gesamter Datensatz
    if area == []:
        area = [1, len(lines)]
    rows = [line.strip().split(",") for line in lines[area[0]:area[1]]]
    col_index = header.index(column)
    # Bubble Sort
    for i in range(len(rows)):
        for j in range(0, len(rows)-i-1):
            a = int(rows[j][col_index])
            b = int(rows[j+1][col_index])
            if (a > b and not reverse) or (a < b and reverse):
                rows[j], rows[j+1] = rows[j+1], rows[j]
    generate_cache_file(header, rows)
    print("\nSorted by column:", column)
    print("Range:", area[0], "to", area[1])
    if return_table:
        print_formatted_table()

# 7. GESAMTANZAHL BERECHNEN
def count_humans(file=cache_file):
    """
    Summiert alle integer-Werte in der Spalte 'Number'.
    """
    header, lines = get_content(file)
    col_index = header.index("Number")
    total = 0
    for line in lines[1:]:
        row = line.strip().split(",")
        total += int(row[col_index])
    return total

# 8. DURCHSCHNITTSALTER BERECHNEN
def average_age(file=cache_file):
    """
    Berechnet Durchschnittsalter = current_year - YearOfBirth.
    """
    header, lines = get_content(file)
    col_index = header.index("YearOfBirth")
    current_year = 2025
    total_age = 0
    count = 0
    for line in lines[1:]:
        row = line.strip().split(",")
        age = current_year - int(row[col_index])
        total_age += age
        count += 1
    if count == 0:
        print("No data available to calculate average age.")
        return None
    return total_age / count

# 9. BEISPIELAUSFÜHRUNG
get_rows_by_value("StateCode", ["DE"], "names.csv")
get_rows_by_value("YearOfBirth", ["1990"])
get_rows_by_value("Sex", ["M"], "cache.csv", True)

print("\nTotal humans:", count_humans())
print("\nAverage age:", average_age())
