## Installere pakker


In [60]:
#pip install -r requirements.txt



## Importering av pakker

In [61]:
import pyarrow as pa
import pyarrow.parquet as pq
import geopandas as gpd
from IPython.display import display
import os
import duckdb
import folium

# Konstante variabler

# Partisjonering

## Partisjonering etter ship type

In [62]:


# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Les inn data fra en Parquet-fil
query = """
    SELECT *
    FROM read_parquet('/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet')
"""
data = con.execute(query).fetchdf()

# Lukk tilkoblingen
con.close()

# Konverter Pandas DataFrame til PyArrow Table
table = pa.Table.from_pandas(data)

# Definer output path
output_path = '/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataShipType'

# Skriv til partisjonerte Parquet-filer
pq.write_to_dataset(
    table,
    root_path=output_path,
    partition_cols=['ship_type']  # Partisjonering
)

print(f"Data er skrevet til {output_path} i partisjonerte Parquet-filer.")


Data er skrevet til /Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataShipType i partisjonerte Parquet-filer.


## Partisjonering etter timer

In [63]:
# Koble til DuckDB
conn = duckdb.connect()

# Angi filbanen til geoparquet-filen
file_path = '/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet'

# Les geoparquet-filen med DuckDB
query = f"""
SELECT *, EXTRACT(HOUR FROM date_time_utc) AS hour
FROM read_parquet('{file_path}')
"""

# Kjør spørringen og hent resultatene
df = conn.execute(query).fetchdf()

# Lagre partisjonerte filer (f.eks., én fil per time)
for hour in df['hour'].unique():
    partition_df = df[df['hour'] == hour]
    partition_df.to_parquet(f'partitioned_{hour}.parquet')

# Lukk tilkoblingen
conn.close()

In [64]:

# Koble til DuckDB
conn = duckdb.connect()

# Angi filbanen til geoparquet-filen
file_path = '/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet'

# Angi katalogen der de partisjonerte filene skal lagres
output_dir = '/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer'

# Opprett katalogen hvis den ikke eksisterer
os.makedirs(output_dir, exist_ok=True)

# SQL-spørring for å hente dataene og partisjonere etter timer
query = f"""
SELECT *, EXTRACT(HOUR FROM date_time_utc) AS hour
FROM read_parquet('{file_path}')
"""

# Kjør spørringen og hent resultatene
df = conn.execute(query).fetchdf()

# Lagre partisjonerte filer (f.eks., én fil per time) i den angitte katalogen
for hour in df['hour'].unique():
    partition_df = df[df['hour'] == hour]

    # Bygg stien til den partisjonerte filen
    output_file = os.path.join(output_dir, f'partitioned_{hour}.parquet')

    # Lagre filen
    partition_df.to_parquet(output_file)

# Lukk tilkoblingen
conn.close()


# Leser filen

In [65]:
import pandas as pd

df = pd.read_parquet("/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer/partitioned_1.parquet")
print(df.head())


         date_time_utc       mmsi  longitude   latitude  status  \
47 2024-12-01 01:54:37  257565700   7.476913  58.020353       5   
48 2024-12-01 01:48:42  257565700   7.476913  58.020353       5   
49 2024-12-01 01:40:51  257565700   7.476915  58.020353       5   
50 2024-12-01 01:36:34  257565700   7.476915  58.020353       5   
51 2024-12-01 01:34:37  257565700   7.476917  58.020353       5   

    course_over_ground  speed_over_ground  rate_of_turn  maneuvre  imo  ...  \
47               195.5                0.0         -15.0       0.0    0  ...   
48               277.8                0.0           6.0       0.0    0  ...   
49                85.0                0.0          -9.0       0.0    0  ...   
50                88.6                0.0         -12.0       0.0    0  ...   
51               124.8                0.0          -7.0       0.0    0  ...   

          ship_name ship_type  length  draught  data_source ais_class  \
47  RESCUE 157 BILL        51      14      0.0   

# Filtrering av rader - Setter en limit til kun 5 rader, den henter dermet kun de første 5 radene i filen og setter det i et kart


In [66]:

# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Leser fra parquet-filen
query = """
    SELECT *
    FROM read_parquet('/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet')
"""

# Definer batch-størrelse til 100 rader
batch_size = 5
offset = 0

# Bygg spørring for å hente 5 rader
batch_query = f"{query} LIMIT {batch_size} OFFSET {offset}"
batch = con.execute(batch_query).fetchdf()

# Sjekk om vi har fått noen data
if len(batch) == 0:
    print("Ingen data funnet.")
else:
    print("Streamer 5 rader:")
    display(batch.head())  # Viser de første radene i en tabell

    # Hvis filen inneholder geodata, for eksempel med 'latitude' og 'longitude'-kolonner,
    # kan vi lage et enkelt Folium-kart:
    if "latitude" in batch.columns and "longitude" in batch.columns:
        avg_lat = batch["latitude"].mean()
        avg_lon = batch["longitude"].mean()
        m = folium.Map(location=[avg_lat, avg_lon], zoom_start=7)

        for _, row in batch.iterrows():
            lat = row["latitude"]
            lon = row["longitude"]
            if not pd.isna(lat) and not pd.isna(lon):
                folium.Marker(
                    location=[lat, lon],
                    popup=str(row.iloc[:5].to_dict())
                ).add_to(m)

        display(m)
    else:
        print("Ingen 'latitude'/'longitude'-kolonner funnet.")

# Lukk tilkoblingen
con.close()


Streamer 5 rader:


Unnamed: 0,date_time_utc,mmsi,longitude,latitude,status,course_over_ground,speed_over_ground,rate_of_turn,maneuvre,imo,callsign,ship_name,ship_type,length,draught,data_source,ais_class,hex_7,hex_14,geometry
0,2024-12-01 05:58:44,257565700,7.476903,58.02034,5,215.0,0.0,-9.0,0.0,0,LF5484,RESCUE 157 BILL,51,14,0.0,G,A,608154275335372799,639679472713910703,"[1, 1, 0, 0, 0, 97, 208, 182, 88, 89, 232, 29,..."
1,2024-12-01 05:30:48,257565700,7.476915,58.020353,5,3.2,0.0,16.0,0.0,0,LF5484,RESCUE 157 BILL,51,14,0.0,G,A,608154275335372799,639679472713910327,"[1, 1, 0, 0, 0, 42, 227, 223, 103, 92, 232, 29..."
2,2024-12-01 05:16:51,257565700,7.476912,58.020327,5,55.2,0.1,15.0,0.0,0,LF5484,RESCUE 157 BILL,51,14,0.0,G,A,608154275335372799,639679472713910663,"[1, 1, 0, 0, 0, 209, 31, 187, 135, 91, 232, 29..."
3,2024-12-01 05:12:51,257565700,7.476917,58.02034,5,134.2,0.0,16.0,0.0,0,LF5484,RESCUE 157 BILL,51,14,0.0,G,A,608154275335372799,639679472713910671,"[1, 1, 0, 0, 0, 95, 120, 70, 215, 92, 232, 29,..."
4,2024-12-01 05:06:46,257565700,7.476915,58.020327,5,26.6,0.0,10.0,0.0,0,LF5484,RESCUE 157 BILL,51,14,0.0,G,A,608154275335372799,639679472713910663,"[1, 1, 0, 0, 0, 42, 227, 223, 103, 92, 232, 29..."


# Filtrering av kolonner


In [67]:
# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Velg spesifikke kolonner
query = """
    SELECT date_time_utc, geometry, ship_name
    FROM read_parquet('/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet')
"""

# Utfør spørringen
filtered_data = con.execute(query).fetchdf()

# Vis de første radene
display(filtered_data.head())

# Lukk tilkoblingen
con.close()


Unnamed: 0,date_time_utc,geometry,ship_name
0,2024-12-01 05:58:44,"[1, 1, 0, 0, 0, 97, 208, 182, 88, 89, 232, 29,...",RESCUE 157 BILL
1,2024-12-01 05:30:48,"[1, 1, 0, 0, 0, 42, 227, 223, 103, 92, 232, 29...",RESCUE 157 BILL
2,2024-12-01 05:16:51,"[1, 1, 0, 0, 0, 209, 31, 187, 135, 91, 232, 29...",RESCUE 157 BILL
3,2024-12-01 05:12:51,"[1, 1, 0, 0, 0, 95, 120, 70, 215, 92, 232, 29,...",RESCUE 157 BILL
4,2024-12-01 05:06:46,"[1, 1, 0, 0, 0, 42, 227, 223, 103, 92, 232, 29...",RESCUE 157 BILL


# Filtrering av tidsstempler (og visualisering i kart)

In [68]:


# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Definer tidsintervallet
start_time = "2024-12-01 05:12:51"
end_time = "2024-12-01 05:14:00"

# SQL-spørring for å filtrere data basert på tidspunkt
query = f"""
    SELECT *
    FROM read_parquet('/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet')
    WHERE CAST(date_time_utc AS TIMESTAMP)
    BETWEEN TIMESTAMP '{start_time}' AND TIMESTAMP '{end_time}'
"""

# Utfør spørringen og hent dataen
filtered_data = con.execute(query).fetchdf()

# Lukk tilkoblingen
con.close()


# Sjekk om vi fikk noen rader
if filtered_data.empty:
    print("Ingen data funnet i det spesifiserte tidsintervallet.")
else:
    print(f"Fant {len(filtered_data)} rader i tidsintervallet:")
    display(filtered_data)  # Viser hele den filtrerte tabellen

    # Sjekk om datasettet inneholder 'latitude' og 'longitude'
    if "latitude" in filtered_data.columns and "longitude" in filtered_data.columns:
        avg_lat = filtered_data["latitude"].mean()
        avg_lon = filtered_data["longitude"].mean()

        # Lag et Folium-kart med gjennomsnittlig senterpunkt
        m = folium.Map(location=[avg_lat, avg_lon], zoom_start=10)

        # Legg til punktene i kartet
        for _, row in filtered_data.iterrows():
            lat, lon = row["latitude"], row["longitude"]
            if not pd.isna(lat) and not pd.isna(lon):  # Sjekk at verdiene ikke er NaN
                ship_name = row.get("ship_name", "Ukjent skip")  # Erstatt med riktig kolonnenavn for skipets navn
                popup_text = f"Timestamp: {row['date_time_utc']}<br>Ship: {ship_name}"

                folium.Marker(
                    location=[lat, lon],
                    popup=popup_text,
                ).add_to(m)

        # Vis kartet
        display(m)
    else:
        print("Ingen 'latitude'/'longitude'-kolonner funnet i datasettet.")


Fant 15 rader i tidsintervallet:


Unnamed: 0,date_time_utc,mmsi,longitude,latitude,status,course_over_ground,speed_over_ground,rate_of_turn,maneuvre,imo,callsign,ship_name,ship_type,length,draught,data_source,ais_class,hex_7,hex_14,geometry
0,2024-12-01 05:12:51,257565700,7.476917,58.02034,5,134.2,0.0,16.0,0.0,0,LF5484,RESCUE 157 BILL,51,14,0.0,G,A,608154275335372799,639679472713910671,"[1, 1, 0, 0, 0, 95, 120, 70, 215, 92, 232, 29,..."
1,2024-12-01 05:13:58,258012180,8.034652,58.146895,15,360.0,0.0,-128.0,0.0,0,LF7245,SAR NICOLAI JARLSBY,51,9,0.6,G,A,608155171775578111,639680369155664551,"[1, 1, 0, 0, 0, 123, 231, 196, 220, 189, 17, 3..."
2,2024-12-01 05:13:47,258012180,8.034647,58.146887,15,360.0,0.0,-128.0,0.0,0,LF7245,SAR NICOLAI JARLSBY,51,9,0.6,G,A,608155171775578111,639680369155664783,"[1, 1, 0, 0, 0, 52, 59, 255, 52, 189, 17, 32, ..."
3,2024-12-01 05:13:38,258012180,8.034633,58.14686,15,360.0,0.0,-128.0,0.0,0,LF7245,SAR NICOLAI JARLSBY,51,9,0.6,G,A,608155171775578111,639680369155664791,"[1, 1, 0, 0, 0, 53, 103, 183, 117, 187, 17, 32..."
4,2024-12-01 05:13:28,258012180,8.03462,58.14684,15,360.0,0.0,-128.0,0.0,0,LF7245,SAR NICOLAI JARLSBY,51,9,0.6,G,A,608155171775578111,639680369155662183,"[1, 1, 0, 0, 0, 54, 147, 111, 182, 185, 17, 32..."
5,2024-12-01 05:13:18,258012180,8.034605,58.146835,15,360.0,0.0,-128.0,0.0,0,LF7245,SAR NICOLAI JARLSBY,51,9,0.6,G,A,608155171775578111,639680369155662183,"[1, 1, 0, 0, 0, 97, 142, 30, 191, 183, 17, 32,..."
6,2024-12-01 05:13:08,258012180,8.034602,58.146838,15,360.0,0.0,-128.0,0.0,0,LF7245,SAR NICOLAI JARLSBY,51,9,0.6,G,A,608155171775578111,639680369155662183,"[1, 1, 0, 0, 0, 180, 44, 12, 79, 183, 17, 32, ..."
7,2024-12-01 05:12:58,258012180,8.034608,58.146845,15,360.0,0.0,-128.0,0.0,0,LF7245,SAR NICOLAI JARLSBY,51,9,0.6,G,A,608155171775578111,639680369155662183,"[1, 1, 0, 0, 0, 209, 9, 219, 46, 184, 17, 32, ..."
8,2024-12-01 05:14:00,258258500,8.778695,58.461892,0,221.7,0.0,0.0,0.0,0,LDLN,RESCUE STORMBULL,51,17,1.0,G,A,608155183335079935,639680380713776863,"[1, 1, 0, 0, 0, 17, 30, 109, 28, 177, 142, 33,..."
9,2024-12-01 05:13:50,258258500,8.778688,58.461893,0,221.4,0.0,0.0,0.0,0,LDLN,RESCUE STORMBULL,51,17,1.0,G,A,608155183335079935,639680380713776863,"[1, 1, 0, 0, 0, 243, 64, 158, 60, 176, 142, 33..."


Display av ytelse (hastighet og filstørrelse)

# Henter størrelse i Byte

In [69]:
os.path.getsize("/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet")

522358

# Konverterer til MB

In [70]:
import os

# Filsti
filsti = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet"

# Hent filstørrelse i bytes
filstørrelse_bytes = os.path.getsize(filsti)

# Konverter til megabytes (MB)
filstørrelse_mb = filstørrelse_bytes / (1024 * 1024)

# Presenter resultatet
print(f"Filstørrelse: {filstørrelse_mb:.2f} MB")


Filstørrelse: 0.50 MB


# under 1000 000 konverterer til KB, over 1000 000 konverterer til MB

In [71]:
import os

def sjekk_filstørrelse(filsti):
    """
    Sjekker størrelsen på en fil og konverterer den til enten megabytes (MB)
    hvis større enn 100 000 bytes, eller kilobytes (KB) hvis mindre.
    """
    # Hent filstørrelse i bytes
    filstørrelse_bytes = os.path.getsize(filsti)

    if filstørrelse_bytes > 1000_000:
        filstørrelse_mb = filstørrelse_bytes / (1024 * 1024)
        return f"Filstørrelse: {filstørrelse_mb:.2f} MB"
    else:
        filstørrelse_kb = filstørrelse_bytes / 1024
        return f"Filstørrelse: {filstørrelse_kb:.2f} KB"




In [72]:
import os

def sjekk_filstørrelse(filsti):
    """
    Returnerer størrelsen på en fil i MB eller KB.
    """
    if not os.path.exists(filsti):
        return "Filen finnes ikke."

    filstørrelse_bytes = os.path.getsize(filsti)

    if filstørrelse_bytes > 100_000:
        filstørrelse_mb = filstørrelse_bytes / (1024 * 1024)
        return f"{filstørrelse_mb:.2f} MB"
    else:
        filstørrelse_kb = filstørrelse_bytes / 1024
        return f"{filstørrelse_kb:.2f} KB"

def sammenlign_filstørrelse(original_fil, filtrert_fil):
    """
    Sammenligner filstørrelsen før og etter filtrering/partisjonering.
    """
    original_størrelse = sjekk_filstørrelse(original_fil)
    filtrert_størrelse = sjekk_filstørrelse(filtrert_fil)

    print(f"Original filstørrelse: {original_størrelse}")
    print(f"Filtrert/partisjonert filstørrelse: {filtrert_størrelse}")

# Eksempel på bruk:
original_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet"
filtrert_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer/partitioned_1.parquet"

sammenlign_filstørrelse(original_fil, filtrert_fil)


Original filstørrelse: 0.50 MB
Filtrert/partisjonert filstørrelse: 86.09 KB


# Filtrering av de partisjonerte filene etter tid


In [73]:
# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Definer tidsintervallet
start_time = "2024-12-01 11:12:51"
end_time = "2024-12-01 11:14:00"

# SQL-spørring for å filtrere data basert på tidspunkt
query = f"""
    SELECT *
    FROM read_parquet('/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer/partitioned_11.parquet')
    WHERE CAST(date_time_utc AS TIMESTAMP)
    BETWEEN TIMESTAMP '{start_time}' AND TIMESTAMP '{end_time}'
"""

# Utfør spørringen og hent dataen
filtered_data = con.execute(query).fetchdf()

# Lukk tilkoblingen
con.close()


# Sjekk om vi fikk noen rader
if filtered_data.empty:
    print("Ingen data funnet i det spesifiserte tidsintervallet.")
else:
    print(f"Fant {len(filtered_data)} rader i tidsintervallet:")
    display(filtered_data)  # Viser hele den filtrerte tabellen

    # Sjekk om datasettet inneholder 'latitude' og 'longitude'
    if "latitude" in filtered_data.columns and "longitude" in filtered_data.columns:
        avg_lat = filtered_data["latitude"].mean()
        avg_lon = filtered_data["longitude"].mean()

        # Lag et Folium-kart med gjennomsnittlig senterpunkt
        m = folium.Map(location=[avg_lat, avg_lon], zoom_start=10)

        # Legg til punktene i kartet
        for _, row in filtered_data.iterrows():
            lat, lon = row["latitude"], row["longitude"]
            if not pd.isna(lat) and not pd.isna(lon):  # Sjekk at verdiene ikke er NaN
                ship_name = row.get("ship_name", "Ukjent skip")  # Erstatt med riktig kolonnenavn for skipets navn
                popup_text = f"Timestamp: {row['date_time_utc']}<br>Ship: {ship_name}"

                folium.Marker(
                    location=[lat, lon],
                    popup=popup_text,
                ).add_to(m)

        # Vis kartet
        display(m)
    else:
        print("Ingen 'latitude'/'longitude'-kolonner funnet i datasettet.")

Fant 13 rader i tidsintervallet:


Unnamed: 0,date_time_utc,mmsi,longitude,latitude,status,course_over_ground,speed_over_ground,rate_of_turn,maneuvre,imo,...,ship_type,length,draught,data_source,ais_class,hex_7,hex_14,geometry,hour,__index_level_0__
0,2024-12-01 11:13:58,258012180,8.034695,58.146992,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664495,"[1, 1, 0, 0, 0, 96, 171, 4, 139, 195, 17, 32, ...",11,3969
1,2024-12-01 11:13:48,258012180,8.034695,58.146987,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664455,"[1, 1, 0, 0, 0, 96, 171, 4, 139, 195, 17, 32, ...",11,3970
2,2024-12-01 11:13:39,258012180,8.034697,58.146982,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664455,"[1, 1, 0, 0, 0, 251, 245, 183, 194, 195, 17, 3...",11,3971
3,2024-12-01 11:13:27,258012180,8.034702,58.146982,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664455,"[1, 1, 0, 0, 0, 66, 162, 125, 106, 196, 17, 32...",11,3972
4,2024-12-01 11:13:19,258012180,8.034703,58.14698,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664455,"[1, 1, 0, 0, 0, 24, 211, 134, 162, 196, 17, 32...",11,3973
5,2024-12-01 11:13:08,258012180,8.034703,58.146978,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664455,"[1, 1, 0, 0, 0, 24, 211, 134, 162, 196, 17, 32...",11,3974
6,2024-12-01 11:12:58,258012180,8.034702,58.146975,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664455,"[1, 1, 0, 0, 0, 66, 162, 125, 106, 196, 17, 32...",11,3975
7,2024-12-01 11:13:50,258258500,8.778725,58.461933,0,231.7,0.0,0.0,0.0,0,...,51,17,1.0,G,A,608155183335079935,639680380713654687,"[1, 1, 0, 0, 0, 187, 39, 15, 11, 181, 142, 33,...",11,15462
8,2024-12-01 11:13:41,258258500,8.778723,58.46193,0,233.9,0.0,0.0,0.0,0,...,51,17,1.0,G,A,608155183335079935,639680380713654679,"[1, 1, 0, 0, 0, 229, 246, 5, 211, 180, 142, 33...",11,15463
9,2024-12-01 11:13:30,258258500,8.778703,58.461888,0,232.4,0.1,0.0,0.0,0,...,51,17,1.0,G,A,608155183335079935,639680380713776863,"[1, 1, 0, 0, 0, 201, 69, 239, 51, 178, 142, 33...",11,15464


# Nedlasting av filtrert fil


In [74]:


def sjekk_filstørrelse(filsti):
    """ Returnerer størrelsen på en fil i MB eller KB """
    if not os.path.exists(filsti):
        return "Fil ikke funnet"

    filstørrelse_bytes = os.path.getsize(filsti)
    if filstørrelse_bytes > 100_000:
        return f"{filstørrelse_bytes / (1024 * 1024):.2f} MB"
    else:
        return f"{filstørrelse_bytes / 1024:.2f} KB"

def sammenlign_filstørrelser(original_fil, partisjonert_fil, filtrert_fil):
    """ Sammenligner filstørrelsene før og etter filtrering/partisjonering """
    print(f"Original filstørrelse: {sjekk_filstørrelse(original_fil)}")
    print(f"Partisjonert filstørrelse: {sjekk_filstørrelse(partisjonert_fil)}")
    print(f"Filstørrelse etter filtrering: {sjekk_filstørrelse(filtrert_fil)}")

# Definer filstier
original_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet"
partisjonert_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer/partitioned_11.parquet"
filtrert_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/FiltrertData/filtered2.parquet"  # NY FIL

# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Definer tidsintervallet
start_time = "2024-12-01 11:13:51"
end_time = "2024-12-01 11:14:00"

# SQL-spørring for å filtrere data basert på tidspunkt
query = f"""
    SELECT *
    FROM read_parquet('{partisjonert_fil}')
    WHERE CAST(date_time_utc AS TIMESTAMP)
    BETWEEN TIMESTAMP '{start_time}' AND TIMESTAMP '{end_time}'
"""

# Utfør spørringen og hent dataen
filtered_data = con.execute(query).fetchdf()

# Lagre det filtrerte datasettet som en ny Parquet-fil
if not filtered_data.empty:
    filtered_data.to_parquet(filtrert_fil)
    print(f"Filtrert data lagret som: {filtrert_fil}")

# Lukk tilkoblingen
con.close()

# Sammenlign filstørrelser
sammenlign_filstørrelser(original_fil, partisjonert_fil, filtrert_fil)

# Visualisering hvis datasettet har latitude/longitude
if not filtered_data.empty:
    print(f"Fant {len(filtered_data)} rader i tidsintervallet:")
    display(filtered_data)

    if "latitude" in filtered_data.columns and "longitude" in filtered_data.columns:
        avg_lat = filtered_data["latitude"].mean()
        avg_lon = filtered_data["longitude"].mean()
        m = folium.Map(location=[avg_lat, avg_lon], zoom_start=10)

        for _, row in filtered_data.iterrows():
            lat, lon = row["latitude"], row["longitude"]
            if not pd.isna(lat) and not pd.isna(lon):
                ship_name = row.get("ship_name", "Ukjent skip")
                popup_text = f"Timestamp: {row['date_time_utc']}<br>Ship: {ship_name}"

                folium.Marker(
                    location=[lat, lon],
                    popup=popup_text,
                ).add_to(m)

        display(m)
    else:
        print("Ingen 'latitude'/'longitude'-kolonner funnet i datasettet.")
else:
    print("Ingen data funnet i det spesifiserte tidsintervallet.")


Filtrert data lagret som: /Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/FiltrertData/filtered2.parquet
Original filstørrelse: 0.50 MB
Partisjonert filstørrelse: 49.40 KB
Filstørrelse etter filtrering: 12.78 KB
Fant 1 rader i tidsintervallet:


Unnamed: 0,date_time_utc,mmsi,longitude,latitude,status,course_over_ground,speed_over_ground,rate_of_turn,maneuvre,imo,...,ship_type,length,draught,data_source,ais_class,hex_7,hex_14,geometry,hour,__index_level_0__
0,2024-12-01 11:13:58,258012180,8.034695,58.146992,15,360.0,0.0,-128.0,0.0,0,...,51,9,0.6,G,A,608155171775578111,639680369155664495,"[1, 1, 0, 0, 0, 96, 171, 4, 139, 195, 17, 32, ...",11,3969


# Filtrering etter både skipsnavn og tid


In [75]:

def sjekk_filstørrelse(filsti):
    """ Returnerer størrelsen på en fil i MB eller KB """
    if not os.path.exists(filsti):
        return "Fil ikke funnet"

    filstørrelse_bytes = os.path.getsize(filsti)
    if filstørrelse_bytes > 100_000:
        return f"{filstørrelse_bytes / (1024 * 1024):.2f} MB"
    else:
        return f"{filstørrelse_bytes / 1024:.2f} KB"

def sammenlign_filstørrelser(original_fil, partisjonert_fil, filtrert_fil):
    """ Sammenligner filstørrelsene før og etter filtrering/partisjonering """
    print(f"Original filstørrelse: {sjekk_filstørrelse(original_fil)}")
    print(f"Partisjonert filstørrelse: {sjekk_filstørrelse(partisjonert_fil)}")
    print(f"Filstørrelse etter filtrering: {sjekk_filstørrelse(filtrert_fil)}")

# Definer filstier
original_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet"
partisjonert_katalog = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer/"
filtrert_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/FiltrertData/filtered_ship.parquet"  # NY FIL

# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Definer tidsintervall og skipsnavn for filtrering
start_time = "2024-12-01 11:49:51"
end_time = "2024-12-01 11:59:00"
ship_name_filter = "RESCUE 157 BILL"  # Endre dette til ønsket skipsnavn

# SQL-spørring for å filtrere data basert på tidspunkt og skipsnavn
query = f"""
    SELECT *
    FROM read_parquet('{partisjonert_fil}')
    WHERE CAST(date_time_utc AS TIMESTAMP) BETWEEN TIMESTAMP '{start_time}' AND TIMESTAMP '{end_time}'
    AND ship_name = '{ship_name_filter}'
"""

# Utfør spørringen og hent dataen
filtered_data = con.execute(query).fetchdf()

# Lagre det filtrerte datasettet som en ny Parquet-fil
if not filtered_data.empty:
    filtered_data.to_parquet(filtrert_fil)
    print(f"Filtrert data lagret som: {filtrert_fil}")

# Lukk tilkoblingen
con.close()

# Sammenlign filstørrelser
sammenlign_filstørrelser(original_fil, partisjonert_fil, filtrert_fil)

# Visualisering hvis datasettet har latitude/longitude
if not filtered_data.empty:
    print(f"Fant {len(filtered_data)} rader i tidsintervallet for skipet {ship_name_filter}:")
    display(filtered_data)

    if "latitude" in filtered_data.columns and "longitude" in filtered_data.columns:
        avg_lat = filtered_data["latitude"].mean()
        avg_lon = filtered_data["longitude"].mean()
        m = folium.Map(location=[avg_lat, avg_lon], zoom_start=10)

        for _, row in filtered_data.iterrows():
            lat, lon = row["latitude"], row["longitude"]
            if not pd.isna(lat) and not pd.isna(lon):
                ship_name = row.get("ship_name", "Ukjent skip")
                popup_text = f"Timestamp: {row['date_time_utc']}<br>Ship: {ship_name}"

                folium.Marker(
                    location=[lat, lon],
                    popup=popup_text,
                ).add_to(m)

        display(m)
    else:
        print("Ingen 'latitude'/'longitude'-kolonner funnet i datasettet.")
else:
    print(f"Ingen data funnet for skipet {ship_name_filter} i det spesifiserte tidsintervallet.")


Filtrert data lagret som: /Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/FiltrertData/filtered_ship.parquet
Original filstørrelse: 0.50 MB
Partisjonert filstørrelse: 49.40 KB
Filstørrelse etter filtrering: 17.42 KB
Fant 69 rader i tidsintervallet for skipet RESCUE 157 BILL:


Unnamed: 0,date_time_utc,mmsi,longitude,latitude,status,course_over_ground,speed_over_ground,rate_of_turn,maneuvre,imo,...,ship_type,length,draught,data_source,ais_class,hex_7,hex_14,geometry,hour,__index_level_0__
0,2024-12-01 11:58:58,257565700,7.444183,58.000800,0,278.5,23.4,-7.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702610471,"[1, 1, 0, 0, 0, 15, 29, 175, 254, 215, 198, 29...",11,103
1,2024-12-01 11:58:57,257565700,7.444385,58.000787,0,278.5,23.4,-48.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702608687,"[1, 1, 0, 0, 0, 243, 84, 135, 220, 12, 199, 29...",11,104
2,2024-12-01 11:58:54,257565700,7.444775,58.000740,0,282.1,23.0,-40.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702589839,"[1, 1, 0, 0, 0, 72, 80, 252, 24, 115, 199, 29,...",11,105
3,2024-12-01 11:58:51,257565700,7.445557,58.000633,0,289.6,23.8,46.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702602447,"[1, 1, 0, 0, 0, 39, 220, 76, 1, 64, 200, 29, 6...",11,106
4,2024-12-01 11:58:45,257565700,7.446935,58.000420,0,288.1,22.8,-16.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702686223,"[1, 1, 0, 0, 0, 68, 192, 33, 84, 169, 201, 29,...",11,107
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64,2024-12-01 11:51:00,257565700,7.489688,58.012880,0,230.2,7.5,10.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637102735,"[1, 1, 0, 0, 0, 216, 84, 138, 219, 112, 245, 2...",11,167
65,2024-12-01 11:50:38,257565700,7.490077,58.012980,0,315.3,0.7,27.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637105175,"[1, 1, 0, 0, 0, 128, 238, 236, 167, 214, 245, ...",11,168
66,2024-12-01 11:50:30,257565700,7.490108,58.012973,0,296.0,0.8,-16.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637105327,"[1, 1, 0, 0, 0, 130, 99, 67, 245, 222, 245, 29...",11,169
67,2024-12-01 11:50:20,257565700,7.490153,58.012953,0,331.6,0.1,-7.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637105311,"[1, 1, 0, 0, 0, 130, 128, 41, 193, 234, 245, 2...",11,170


In [76]:

import pandas as pd

df = pd.read_parquet("/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer/partitioned_11.parquet")
print(df)

            date_time_utc       mmsi  longitude   latitude  status  \
70    2024-12-01 11:59:58  257565700   7.430227  58.001920       0   
71    2024-12-01 11:59:57  257565700   7.430720  58.001893       0   
72    2024-12-01 11:59:54  257565700   7.430968  58.001893       0   
73    2024-12-01 11:59:53  257565700   7.431710  58.001887       0   
74    2024-12-01 11:59:50  257565700   7.432200  58.001867       0   
...                   ...        ...        ...        ...     ...   
15541 2024-12-01 11:00:40  258258500   8.778638  58.461863       0   
15542 2024-12-01 11:00:31  258258500   8.778657  58.461860       0   
15543 2024-12-01 11:00:20  258258500   8.778672  58.461868       0   
15544 2024-12-01 11:00:11  258258500   8.778693  58.461865       0   
15545 2024-12-01 11:00:01  258258500   8.778698  58.461865       0   

       course_over_ground  speed_over_ground  rate_of_turn  maneuvre  imo  \
70                  274.2               29.1         -46.0       0.0    0   
71   

In [77]:
import os
import duckdb
import pandas as pd
import folium
import time  # Importer time for tidtaking av hastighet

def sjekk_filstørrelse(filsti):
    """ Returnerer størrelsen på en fil i MB eller KB """
    if not os.path.exists(filsti):
        return "Fil ikke funnet"

    filstørrelse_bytes = os.path.getsize(filsti)
    if filstørrelse_bytes > 100_000:
        return f"{filstørrelse_bytes / (1024 * 1024):.2f} MB"
    else:
        return f"{filstørrelse_bytes / 1024:.2f} KB"

def sammenlign_filstørrelser(original_fil, partisjonert_fil, filtrert_fil):
    """ Sammenligner filstørrelsene før og etter filtrering/partisjonering """
    print(f"Original filstørrelse: {sjekk_filstørrelse(original_fil)}")
    print(f"Partisjonert filstørrelse: {sjekk_filstørrelse(partisjonert_fil)}")
    print(f"Filstørrelse etter filtrering: {sjekk_filstørrelse(filtrert_fil)}")

# Definer filstier
original_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/hais_2024-12-01.snappy.parquet.geo.parquet"
partisjonert_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/PartisjonertDataTimer/partitioned_11.parquet"
filtrert_fil = "/Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/FiltrertData/filtered_ship.parquet"

# Opprett DuckDB-tilkobling
con = duckdb.connect()

# Definer tidsintervall og skipsnavn for filtrering
start_time = "2024-12-01 11:49:51"
end_time = "2024-12-01 11:59:00"
ship_name_filter = "RESCUE 157 BILL"

### Mål tid for å hente data fra originalfilen ###
start_original = time.time()
query_original = f"""
    SELECT *
    FROM read_parquet('{original_fil}')
    WHERE CAST(date_time_utc AS TIMESTAMP) BETWEEN TIMESTAMP '{start_time}' AND TIMESTAMP '{end_time}'
    AND ship_name = '{ship_name_filter}'
"""
filtered_data_original = con.execute(query_original).fetchdf()
end_original = time.time()
elapsed_original = end_original - start_original
print(f"Tid brukt på å hente data fra ORIGINALFILEN: {elapsed_original:.2f} sekunder")

###Mål tid for å hente data fra partisjonert fil ###
start_partisjonert = time.time()
query_partisjonert = f"""
    SELECT *
    FROM read_parquet('{partisjonert_fil}')
    WHERE CAST(date_time_utc AS TIMESTAMP) BETWEEN TIMESTAMP '{start_time}' AND TIMESTAMP '{end_time}'
    AND ship_name = '{ship_name_filter}'
"""
filtered_data_partisjonert = con.execute(query_partisjonert).fetchdf()
end_partisjonert = time.time()
elapsed_partisjonert = end_partisjonert - start_partisjonert
print(f"Tid brukt på å hente data fra PARTISJONERT FIL: {elapsed_partisjonert:.2f} sekunder")

# Lagre det filtrerte datasettet som en ny Parquet-fil
if not filtered_data_partisjonert.empty:
    filtered_data_partisjonert.to_parquet(filtrert_fil)
    print(f"Filtrert data lagret som: {filtrert_fil}")

# Lukk tilkoblingen
con.close()

# Sammenlign filstørrelser
sammenlign_filstørrelser(original_fil, partisjonert_fil, filtrert_fil)

# Visualisering hvis datasettet har latitude/longitude
if not filtered_data_partisjonert.empty:
    print(f"Fant {len(filtered_data_partisjonert)} rader i tidsintervallet for skipet {ship_name_filter}:")
    display(filtered_data_partisjonert)

    if "latitude" in filtered_data_partisjonert.columns and "longitude" in filtered_data_partisjonert.columns:
        avg_lat = filtered_data_partisjonert["latitude"].mean()
        avg_lon = filtered_data_partisjonert["longitude"].mean()
        m = folium.Map(location=[avg_lat, avg_lon], zoom_start=10)

        for _, row in filtered_data_partisjonert.iterrows():
            lat, lon = row["latitude"], row["longitude"]
            if not pd.isna(lat) and not pd.isna(lon):
                ship_name = row.get("ship_name", "Ukjent skip")
                popup_text = f"Timestamp: {row['date_time_utc']}<br>Ship: {ship_name}"

                folium.Marker(
                    location=[lat, lon],
                    popup=popup_text,
                ).add_to(m)

        display(m)
    else:
        print("Ingen 'latitude'/'longitude'-kolonner funnet i datasettet.")
else:
    print(f"Ingen data funnet for skipet {ship_name_filter} i det spesifiserte tidsintervallet.")


Tid brukt på å hente data fra ORIGINALFILEN: 0.00 sekunder
Tid brukt på å hente data fra PARTISJONERT FIL: 0.00 sekunder
Filtrert data lagret som: /Users/johannehaakenstad/Bachelor-Filer/Github-KartAI/Johanne/data/FiltrertData/filtered_ship.parquet
Original filstørrelse: 0.50 MB
Partisjonert filstørrelse: 49.40 KB
Filstørrelse etter filtrering: 17.42 KB
Fant 69 rader i tidsintervallet for skipet RESCUE 157 BILL:


Unnamed: 0,date_time_utc,mmsi,longitude,latitude,status,course_over_ground,speed_over_ground,rate_of_turn,maneuvre,imo,...,ship_type,length,draught,data_source,ais_class,hex_7,hex_14,geometry,hour,__index_level_0__
0,2024-12-01 11:58:58,257565700,7.444183,58.000800,0,278.5,23.4,-7.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702610471,"[1, 1, 0, 0, 0, 15, 29, 175, 254, 215, 198, 29...",11,103
1,2024-12-01 11:58:57,257565700,7.444385,58.000787,0,278.5,23.4,-48.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702608687,"[1, 1, 0, 0, 0, 243, 84, 135, 220, 12, 199, 29...",11,104
2,2024-12-01 11:58:54,257565700,7.444775,58.000740,0,282.1,23.0,-40.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702589839,"[1, 1, 0, 0, 0, 72, 80, 252, 24, 115, 199, 29,...",11,105
3,2024-12-01 11:58:51,257565700,7.445557,58.000633,0,289.6,23.8,46.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702602447,"[1, 1, 0, 0, 0, 39, 220, 76, 1, 64, 200, 29, 6...",11,106
4,2024-12-01 11:58:45,257565700,7.446935,58.000420,0,288.1,22.8,-16.0,0.0,0,...,51,14,0.0,G,A,608154275318595583,639679472702686223,"[1, 1, 0, 0, 0, 68, 192, 33, 84, 169, 201, 29,...",11,107
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64,2024-12-01 11:51:00,257565700,7.489688,58.012880,0,230.2,7.5,10.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637102735,"[1, 1, 0, 0, 0, 216, 84, 138, 219, 112, 245, 2...",11,167
65,2024-12-01 11:50:38,257565700,7.490077,58.012980,0,315.3,0.7,27.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637105175,"[1, 1, 0, 0, 0, 128, 238, 236, 167, 214, 245, ...",11,168
66,2024-12-01 11:50:30,257565700,7.490108,58.012973,0,296.0,0.8,-16.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637105327,"[1, 1, 0, 0, 0, 130, 99, 67, 245, 222, 245, 29...",11,169
67,2024-12-01 11:50:20,257565700,7.490153,58.012953,0,331.6,0.1,-7.0,0.0,0,...,51,14,0.0,G,A,608154275251486719,639679472637105311,"[1, 1, 0, 0, 0, 130, 128, 41, 193, 234, 245, 2...",11,170
