In [2]:
from pyspark.sql import SparkSession
import requests
from io import BytesIO
import zipfile
from concurrent.futures import ThreadPoolExecutor
import tempfile
import os

# Schritt 1: Spark-Session erstellen
spark = SparkSession.builder \
    .appName("AIS Data Processing") \
    .getOrCreate()

# Schritt 2: Funktion zum Herunterladen, Entpacken und Speichern von CSV-Dateien
def download_and_unzip_to_temp_csv(url):
    response = requests.get(url)
    response.raise_for_status()
    zipfile_bytes = BytesIO(response.content)
    with zipfile.ZipFile(zipfile_bytes, 'r') as z:
        csv_filename = z.namelist()[0]  # Der Name der CSV-Datei im ZIP-Archiv
        with z.open(csv_filename) as csv_file:
            temp_file_path = os.path.join(tempfile.gettempdir(), csv_filename)
            with open(temp_file_path, "wb") as temp_file:
                temp_file.write(csv_file.read())
            return temp_file_path

# Schritt 3: Liste der ZIP-URLs
csv_urls = [
    "https://web.ais.dk/aisdata/aisdk-2024-03-01.zip",
    "https://web.ais.dk/aisdata/aisdk-2024-03-02.zip",
    "https://web.ais.dk/aisdata/aisdk-2024-03-03.zip",
    "https://web.ais.dk/aisdata/aisdk-2024-03-04.zip",
    "https://web.ais.dk/aisdata/aisdk-2024-03-05.zip"
]

# Schritt 4: Paralleles Herunterladen und Speichern der CSV-Dateien in temporären Pfaden
with ThreadPoolExecutor(max_workers=10) as executor:
    csv_file_paths = list(executor.map(download_and_unzip_to_temp_csv, csv_urls))

# Schritt 5: CSV-Dateien mit Spark einlesen und kombinieren
# Erstelle eine Liste von DataFrames für jede CSV-Datei
dataframes = [spark.read.csv(path, header=True, inferSchema=True) for path in csv_file_paths]

# Kombiniere alle DataFrames zu einem großen DataFrame
combined_df = dataframes[0]
for df in dataframes[1:]:
    combined_df = combined_df.union(df)

# Schritt 6: Einige Beispielzeilen ausgeben, um mögliche MMSI-Nummern anzuzeigen
combined_df.show(10)

                                                                                

+-------------------+--------------+---------+---------+---------+--------------------+----+----+-----+-------+-------+--------+----+---------+----------+-----+------+------------------------------+-------+-----------+----+----------------+----+----+----+----+
|        # Timestamp|Type of mobile|     MMSI| Latitude|Longitude| Navigational status| ROT| SOG|  COG|Heading|    IMO|Callsign|Name|Ship type|Cargo type|Width|Length|Type of position fixing device|Draught|Destination| ETA|Data source type|   A|   B|   C|   D|
+-------------------+--------------+---------+---------+---------+--------------------+----+----+-----+-------+-------+--------+----+---------+----------+-----+------+------------------------------+-------+-----------+----+----------------+----+----+----+----+
|01/03/2024 00:00:00|       Class A|219000873| 56.99091|10.304543|Under way using e...|NULL| 0.0| 30.2|   NULL|Unknown| Unknown|NULL|Undefined|      NULL| NULL|  NULL|                     Undefined|   NULL|    Unknown

In [None]:
# 1.Versuch: Download und entpacken der drei ZIP-Files dauert 08:41,45 min
# 2.Versuch: Download und entpacken der fünf ZIP-Files dauert 10:20,32min

In [6]:
from pyspark.sql.functions import col, to_timestamp, count

# Originale Anzahl der Einträge ausgeben
print(f"Der Originale Datensatz hat {combined_df.count()} Einträge.")

########################################################
# 2. Basisstationen herausfiltern ("Type of mobile" != "Base Station")
########################################################

# Prüfen, ob die Spalte "Type of mobile" existiert und filtern
if "Type of mobile" in combined_df.columns:
    combined_df = combined_df.filter(col("Type of mobile") != "Base Station")
else:
    print("Warnung: 'Type of mobile' Spalte nicht vorhanden, Überspringe diesen Schritt.")

print(f"Der angepasste Datensatz hat {combined_df.count()} Einträge.")

########################################################
# 3. Nur relevante Spalten behalten, um Datenmenge zu reduzieren
########################################################

relevant_columns = ["MMSI", "Latitude", "Longitude", "# Timestamp"]
combined_df = combined_df.select(*relevant_columns)

########################################################
# 4. Timestamp in datetime konvertieren
########################################################

combined_df = combined_df.withColumn("# Timestamp", to_timestamp(col("# Timestamp"), "dd/MM/yyyy HH:mm:ss"))

########################################################
# 5. Filtern von MMSI-Nummern, die genug Datenpunkte haben
########################################################

# Anzahl Datenpunkte pro MMSI bestimmen
mmsi_counts = combined_df.groupBy("MMSI").agg(count("*").alias("count"))

# Schwelle definieren (z.B. mindestens 50 Punkte)
threshold = 50
valid_mmsi = mmsi_counts.filter(col("count") >= threshold).select("MMSI").rdd.flatMap(lambda x: x).collect()

# Gefilterter DataFrame nur mit MMSI, die genügend Datenpunkte haben
filtered_by_count_df = combined_df.filter(col("MMSI").isin(valid_mmsi))


                                                                                

Der Originale Datensatz hat 72413518 Einträge.
Warnung: 'Type of mobile' Spalte nicht vorhanden, Überspringe diesen Schritt.


                                                                                

Der angepasste Datensatz hat 72413518 Einträge.


                                                                                

In [9]:
import folium  # Import für Kartenvisualisierung hinzugefügt
from pyspark.sql.functions import lit
########################################################
# 6. Nach bestimmter MMSI und Zeitspanne filtern + Route plotten
########################################################

mmsi_number = 219016832  # Ersetze mit deiner MMSI

# Definiere Start- und Endzeitpunkt (im Format "dd/MM/yyyy HH:MM:SS")
start_str = "03/03/2024 00:00:00"  # 1. März 2024, 00:00 Uhr
end_str = "03/03/2024 06:59:59"    # 3. März 2024, 23:59:59

# Konvertiere Start- und Endzeit in datetime-Objekte
start_dt = to_timestamp(lit(start_str), "dd/MM/yyyy HH:mm:ss")
end_dt = to_timestamp(lit(end_str), "dd/MM/yyyy HH:mm:ss")

# Prüfen, ob MMSI genug Daten hat
if mmsi_number not in valid_mmsi:
    print(f"MMSI {mmsi_number} hat nicht genügend Datenpunkte, um eine aussagekräftige Route anzuzeigen.")
else:
    # Nach MMSI und Zeitspanne filtern
    route_df = filtered_by_count_df.filter(
        (col("MMSI") == mmsi_number) &
        (col("# Timestamp") >= start_dt) &
        (col("# Timestamp") <= end_dt)
    ).orderBy("# Timestamp")

    # Überprüfen, ob gefilterte Daten vorhanden sind
    if route_df.count() == 0:
        print(f"Keine Daten für MMSI {mmsi_number} zwischen {start_str} und {end_str}")
    else:
        # Daten in Pandas konvertieren, um Karte zu erstellen
        pandas_df = route_df.toPandas()

        # Karte erstellen und Route plotten
        mean_lat = pandas_df["Latitude"].mean()
        mean_lon = pandas_df["Longitude"].mean()
        
        route_map = folium.Map(location=[mean_lat, mean_lon], zoom_start=8)
        
        # Koordinatenliste für PolyLine
        coords = pandas_df[["Latitude", "Longitude"]].values.tolist()
        
        # PolyLine hinzufügen
        folium.PolyLine(coords, color="blue", weight=2.5, opacity=1).add_to(route_map)
        
        # Optional: Punkte markieren (auskommentiert lassen, falls nicht benötigt)
        # for _, row in pandas_df.iterrows():
        #     folium.CircleMarker(
        #         location=[row['Latitude'], row['Longitude']],
        #         radius=2,
        #         color='red',
        #         fill=True,
        #         fill_color='red',
        #         fill_opacity=0.7,
        #         popup=f"Timestamp: {row['# Timestamp']}"
        #     ).add_to(route_map)
        
        # Karte anzeigen oder speichern
        route_map.save("ship_route.html")
        route_map

                                                                                