In [10]:
import pandas as pd
import os
import glob

# Ordnerpfad mit den CSV-Dateien
ordner_pfad = "/Users/remofankhauser/Verkehrsdaten_2024"

# Alle CSV-Dateien im Ordner finden
csv_dateien = glob.glob(os.path.join(ordner_pfad, "*.csv"))

# Liste zum Speichern der DataFrames
df_list = []

# Alle CSV-Dateien einlesen und filtern
for datei in csv_dateien:
    df = pd.read_csv(datei, sep=";", encoding="utf-8", low_memory=False)

    df = df.drop(columns=["BETRIEBSTAG","FAHRT_BEZEICHNER",
                          "BETREIBER_ID", "BETREIBER_NAME",
                          "UMLAUF_ID", "LINIEN_ID",
                          "VERKEHRSMITTEL_TEXT","BPUIC","ANKUNFTSZEIT",
                          "AN_PROGNOSE", "AN_PROGNOSE_STATUS"])

    filter_betreiber = df["BETREIBER_ABK"].astype(str).str.contains("VBZ", na=False)
    filter_prognose_status = df["AB_PROGNOSE_STATUS"].astype(str).str.contains("REAL|GESCHAETZT", na=False)
    filter_produkt_id = df["PRODUKT_ID"].astype(str).str.contains("Tram", na=False)
    filter_zusatzfahrt = df["ZUSATZFAHRT_TF"] == False
    filter_faellt_aus = df["FAELLT_AUS_TF"] == False
    filter_durchfahrt = df["DURCHFAHRT_TF"] == False

    df = df[filter_betreiber & filter_prognose_status & filter_produkt_id & filter_zusatzfahrt & filter_faellt_aus & filter_durchfahrt]

    df = df.drop(columns=["BETREIBER_ABK", "PRODUKT_ID", "ZUSATZFAHRT_TF", "FAELLT_AUS_TF", "DURCHFAHRT_TF"])

    # Betriebstag in Datumsformat konvertieren
    df["ABFAHRTSZEIT"] = pd.to_datetime(df["ABFAHRTSZEIT"], dayfirst=True)
    df["AB_PROGNOSE"] = pd.to_datetime(df["AB_PROGNOSE"], dayfirst=True)


    df_list.append(df)


if df_list:
    df_gesamt = pd.concat(df_list, ignore_index=True)
    
    # Sortierung nach Abfahtszeit
    df_gesamt = df_gesamt.sort_values(by="ABFAHRTSZEIT").reset_index(drop=True)

    
    # Neue Datei speichern
    speicherpfad = os.path.join(ordner_pfad, "Verkehrs_Daten_2024.csv")
    df_gesamt.to_csv(speicherpfad, index=False)

KeyboardInterrupt: 

In [None]:
import pandas as pd
import os
import glob

# Ordnerpfad mit den CSV-Dateien
ordner_pfad = "/Users/remofankhauser/Verkehrsdaten_2024"

# Alle CSV-Dateien im Ordner finden
csv_dateien = glob.glob(os.path.join(ordner_pfad, "*.csv"))

# Nur benötigte Spalten einlesen
spalten_lesen = [
    "BETREIBER_ABK",
    "PRODUKT_ID",
    "LINIEN_TEXT",
    "ZUSATZFAHRT_TF",
    "FAELLT_AUS_TF",
    "DURCHFAHRT_TF",
    "HALTESTELLEN_NAME",
    "ABFAHRTSZEIT",
    "AB_PROGNOSE",
    "AB_PROGNOSE_STATUS"
]

# Liste zum Speichern der DataFrames
df_list = []

# Alle CSV-Dateien einlesen und filtern
for datei in csv_dateien:
    df = pd.read_csv(datei, sep=";", encoding="utf-8", low_memory=False, usecols=spalten_lesen)

    # Filter anwenden
    filter_betreiber = df["BETREIBER_ABK"].astype(str).str.contains("VBZ", na=False)
    filter_prognose_status = df["AB_PROGNOSE_STATUS"].astype(str).str.contains("REAL|GESCHAETZT", na=False)
    filter_produkt_id = df["PRODUKT_ID"].astype(str).str.contains("Tram", na=False)
    filter_zusatzfahrt = df["ZUSATZFAHRT_TF"] == False
    filter_faellt_aus = df["FAELLT_AUS_TF"] == False
    filter_durchfahrt = df["DURCHFAHRT_TF"] == False

    df = df[filter_betreiber & filter_prognose_status & filter_produkt_id & filter_zusatzfahrt & filter_faellt_aus & filter_durchfahrt]

    # Nicht mehr benötigte Spalten entfernen
    df = df.drop(columns=["BETREIBER_ABK", "PRODUKT_ID", "ZUSATZFAHRT_TF", "FAELLT_AUS_TF", "DURCHFAHRT_TF"])

    # Zeitstempel konvertieren
    df["ABFAHRTSZEIT"] = pd.to_datetime(df["ABFAHRTSZEIT"], dayfirst=True, errors="coerce")
    df["AB_PROGNOSE"] = pd.to_datetime(df["AB_PROGNOSE"], dayfirst=True, errors="coerce")

    df_list.append(df)

# Alle gefilterten DataFrames zusammenführen
if df_list:
    df_gesamt = pd.concat(df_list, ignore_index=True)
    df_gesamt = df_gesamt.sort_values(by="ABFAHRTSZEIT").reset_index(drop=True)

    # Neue Datei speichern
    speicherpfad = os.path.join(ordner_pfad, "Verkehrs_Daten_2024.csv")
    df_gesamt.to_csv(speicherpfad, index=False)

  df["ABFAHRTSZEIT"] = pd.to_datetime(df["ABFAHRTSZEIT"], dayfirst=True, errors="coerce")
  df["AB_PROGNOSE"] = pd.to_datetime(df["AB_PROGNOSE"], dayfirst=True, errors="coerce")


In [None]:
df = pd.read_csv("/Users/remofankhauser/Verkehrsdaten_Dez_2024/kombinierte_daten.csv", sep=None, engine="python")  # Automatische Erkennung des Trennzeichens
Datum_unique = df["BETRIEBSTAG"].unique()
print(Datum_unique)

Prognose_count = df["AN_PROGNOSE_STATUS"].value_counts()
print(Prognose_count)

display(df.info())

In [None]:
df_2024 = pd.read_csv("/Users/remofankhauser/Verkehrsdaten_2024/Verkehrs_Daten_2024_red.csv", sep=None, engine="python")
print(df_2024["LINIEN_TEXT"].value_counts())

# filter_linie_10 = df_2024["LINIEN_TEXT"] != "10"
# filter_linie_E = df_2024["LINIEN_TEXT"] != "E"

# df_2024_red = df_2024[filter_linie_10 & filter_linie_E]

# ordner_pfad = "/Users/remofankhauser/Verkehrsdaten_2024"
# # Neue Datei speichern
# speicherpfad = os.path.join(ordner_pfad, "Verkehrs_Daten_2024_red.csv")
# df_2024_red.to_csv(speicherpfad, index=False)

In [None]:
filter_linie_10 = df_2024["LINIEN_TEXT"] != "10"
filter_linie_E = df_2024["LINIEN_TEXT"] != "E"

df_2024_red = df_2024[filter_linie_10 & filter_linie_E]

ordner_pfad = "/Users/remofankhauser/Verkehrsdaten_2024"
# Neue Datei speichern
speicherpfad = os.path.join(ordner_pfad, "Verkehrs_Daten_2024_red.csv")
df_gesamt.to_csv(speicherpfad, index=False)

In [None]:
print(df_2024_red["LINIEN_TEXT"].value_counts())
display(df_2024_red[df_2024_red["LINIEN_TEXT"] == "E"])

In [None]:
display(df_2024_red.head())
print(df_2024_red["AB_PROGNOSE_STATUS"].value_counts()/len(df_2024_red))

In [5]:
import gdown
import pandas as pd

# Google Drive File-ID
file_id = "1PgCk9saOaAo5B_m_BvAJQsCs3Lilk7zO"
url = f"https://drive.google.com/uc?id={file_id}"

# Datei herunterladen
gdown.download(url, "verkehrsdaten.csv", quiet=False)

# CSV laden
df = pd.read_csv("verkehrsdaten.csv", sep=None, engine="python") 
display(df.head())

Downloading...
From (original): https://drive.google.com/uc?id=1PgCk9saOaAo5B_m_BvAJQsCs3Lilk7zO
From (redirected): https://drive.google.com/uc?id=1PgCk9saOaAo5B_m_BvAJQsCs3Lilk7zO&confirm=t&uuid=560e715b-6489-4e16-ad73-e4f5d103ce1a
To: /Users/remofankhauser/Github/MSC_WI_BINA/Semesterarbeit/Spielwiese/Remo/verkehrsdaten.csv
100%|██████████| 328M/328M [00:05<00:00, 60.8MB/s] 


Unnamed: 0,BETRIEBSTAG,FAHRT_BEZEICHNER,BETREIBER_ID,BETREIBER_ABK,BETREIBER_NAME,PRODUKT_ID,LINIEN_ID,LINIEN_TEXT,UMLAUF_ID,VERKEHRSMITTEL_TEXT,...,FAELLT_AUS_TF,BPUIC,HALTESTELLEN_NAME,ANKUNFTSZEIT,AN_PROGNOSE,AN_PROGNOSE_STATUS,ABFAHRTSZEIT,AB_PROGNOSE,AB_PROGNOSE_STATUS,DURCHFAHRT_TF
0,01.01.2024,80:06____:17291:000,80:06____,DB,DB Regio AG Baden-Württemberg,Zug,17291,RB,,RB,...,True,8500090,Basel Bad Bf,,,UNBEKANNT,01.01.2024 01:05,,UNBEKANNT,False
1,01.01.2024,80:06____:70665:000,80:06____,DB,DB Regio AG Baden-Württemberg,Zug,70665,RB,,RB,...,False,8500090,Basel Bad Bf,,,,01.01.2024 01:05,01.01.2024 01:06:00,PROGNOSE,False
2,01.01.2024,80:800631:17238:000,80:800631,DB,DB Regio AG Baden-Württemberg,Zug,17238,RB,,RB,...,False,8500090,Basel Bad Bf,01.01.2024 07:05,01.01.2024 07:05:00,PROGNOSE,,,,False
3,01.01.2024,80:800631:17239:000,80:800631,DB,DB Regio AG Baden-Württemberg,Zug,17239,RB,,RB,...,False,8500090,Basel Bad Bf,,,,01.01.2024 07:53,01.01.2024 07:53:00,PROGNOSE,False
4,01.01.2024,80:800631:17241:000,80:800631,DB,DB Regio AG Baden-Württemberg,Zug,17241,RB,,RB,...,False,8500090,Basel Bad Bf,,,,01.01.2024 08:53,01.01.2024 08:54:00,PROGNOSE,False


In [None]:
import pandas as pd

# Nur die Spalten, die du NICHT löschen willst
relevante_spalten = [
    "BETREIBER_ABK",
    "PRODUKT_ID",
    "LINIEN_TEXT",
    "ZUSATZFAHRT_TF",
    "FAELLT_AUS_TF",
    "HALTESTELLEN_NAME",
    "ABFAHRTSZEIT",
    "AB_PROGNOSE",
    "AB_PROGNOSE_STATUS",
    "DURCHFAHRT_TF"
]

# Einlesen nur der benötigten Spalten
df_verkehr_daily = pd.read_csv(
    "Verkehrsdaten_daily.csv",
    sep=";",
    encoding="utf-8",
    usecols=relevante_spalten,
    low_memory=False
)

display(df_verkehr_daily.head())
display(df_verkehr_daily.info())