In [3]:
import duckdb

import geopandas as gpd
import numpy as np
import pandas as pd

from src import Config

In [4]:
flat_geobuf_files = [path for path in Config.FKB_DIR.iterdir() if path.suffix == ".fgb"]
dataframes: list[gpd.GeoDataFrame] = []
for fgb_file in flat_geobuf_files:
    if Config.FKB_BUILDINGS_PARQUET_PATH.is_file():
        print(f"'{Config.FKB_BUILDINGS_PARQUET_PATH.name}' already exists")
        break

    gdf = gpd.read_file(fgb_file)
    gdf["dataset"] = fgb_file.stem
    gdf["geom_wkb"] = gdf["geometry"].apply(lambda geom: geom.wkb)

    columns = gdf.columns
    if "versjon" in columns:
        gdf["versjon"] = gdf["versjon"].astype(str)

    if "informasjon" in columns:
        gdf["informasjon"] = gdf["informasjon"].astype(str)

    dataframes.append(gdf)
    print(f"{fgb_file.name}:\n\t- {gdf.shape}\n\t- {gdf.crs}")

AnnenBygning.fgb:
	- (62, 11)
	- EPSG:25832
Bygning.fgb:
	- (1578, 17)
	- EPSG:25832
BygningBru.fgb:
	- (30, 17)
	- EPSG:25832
Bygningsdelelinje.fgb:
	- (2053, 18)
	- EPSG:25832
Bygningslinje.fgb:
	- (13262, 18)
	- EPSG:25832
Fasadeliv.fgb:
	- (1598, 20)
	- EPSG:25832
FiktivBygningsavgrensning.fgb:
	- (62, 15)
	- EPSG:25832
Hjelpelinje3D.fgb:
	- (536, 18)
	- EPSG:25832
Hjelpepunkt3D.fgb:
	- (15, 18)
	- EPSG:25832
Låvebru.fgb:
	- (1, 16)
	- EPSG:25832
Mønelinje.fgb:
	- (4729, 18)
	- EPSG:25832
Portrom.fgb:
	- (172, 20)
	- EPSG:25832
Takkant.fgb:
	- (10290, 19)
	- EPSG:25832
Takoverbygg.fgb:
	- (557, 11)
	- EPSG:25832
TakoverbyggKant.fgb:
	- (560, 17)
	- EPSG:25832
Takplatå.fgb:
	- (154, 18)
	- EPSG:25832
TakplatåTopp.fgb:
	- (9, 17)
	- EPSG:25832
Taksprang.fgb:
	- (8250, 18)
	- EPSG:25832
TaksprangBunn.fgb:
	- (8794, 18)
	- EPSG:25832
TrappBygg.fgb:
	- (433, 17)
	- EPSG:25832
Veranda.fgb:
	- (2966, 19)
	- EPSG:25832


In [5]:
if not Config.FKB_BUILDINGS_PARQUET_PATH.is_file():
    combined_gdf = pd.concat(dataframes, ignore_index=True, join="outer")
    print(f"Shape of combined dataset: {combined_gdf.shape}")
    combined_gdf.head()

Shape of combined dataset: (56111, 29)


In [6]:
if not Config.FKB_BUILDINGS_PARQUET_PATH.is_file():
    combined_gdf.to_parquet(Config.FKB_BUILDINGS_PARQUET_PATH)
else:
    combined_gdf = gpd.read_parquet(Config.FKB_BUILDINGS_PARQUET_PATH)

if not Config.FKB_WGS84_BUILDINGS_PARQUET_PATH.is_file():
    wgs84_gdf = combined_gdf.to_crs(epsg=4326)
    wgs84_gdf.to_parquet(Config.FKB_WGS84_BUILDINGS_PARQUET_PATH)

In [8]:
combined_gdf.dtypes

gml_id                        object
lokalId                       object
navnerom                      object
versjonId                     object
produkt                       object
versjon                       object
oppdateringsdato              object
datafangstdato                object
geometry                    geometry
dataset                       object
geom_wkb                      object
bygningsnummer               float64
bygningstype                 float64
kommunenummer                float64
BYGGSTAT                      object
informasjon                   object
KOMM                          object
REGISTRERINGSKRETSNUMMER      object
HUSLØPENUMMER                 object
målemetode                   float64
nøyaktighet                  float64
synbarhet                    float64
nøyaktighetHøyde             float64
H-MÅLEMETODE                 float64
verifiseringsdato             object
TRE_D_NIVÅ                   float64
treDNivå                     float64
h

In [9]:
combined_gdf[["geometry", "geom_wkb"]]

Unnamed: 0,geometry,geom_wkb
0,POINT Z (297905.91 6699525.89 0),b'\x01\x01\x00\x00\x80=\n\xd7\xa3\xc7.\x12A\x8...
1,POINT Z (297894.08 6699533.44 0),b'\x01\x01\x00\x00\x80\x1f\x85\xebQ\x98.\x12A\...
2,POINT Z (297604.21 6699983.54 0),b'\x01\x01\x00\x00\x80q=\n\xd7\x10*\x12A)\\\x8...
3,POINT Z (297653.97 6699547.38 0),b'\x01\x01\x00\x00\x80\x14\xaeG\xe1\xd7*\x12A\...
4,POINT Z (297505.73 6699787.97 0),b'\x01\x01\x00\x00\x80\xb8\x1e\x85\xeb\x86(\x1...
...,...,...
56106,"LINESTRING Z (297144.01 6699892.36 12.28, 2971...",b'\x01\x02\x00\x00\x80\x08\x00\x00\x00\xa4p=\n...
56107,"LINESTRING Z (297161.77 6699869.73 12.13, 2971...","b""\x01\x02\x00\x00\x80\x03\x00\x00\x00H\xe1z\x..."
56108,"LINESTRING Z (297161.77 6699869.73 17.33, 2971...","b""\x01\x02\x00\x00\x80\x03\x00\x00\x00H\xe1z\x..."
56109,"LINESTRING Z (297161.77 6699869.73 19.93, 2971...","b""\x01\x02\x00\x00\x80\x03\x00\x00\x00H\xe1z\x..."


In [7]:
datasets = np.unique(combined_gdf["dataset"])
datasets

array(['AnnenBygning', 'Bygning', 'BygningBru', 'Bygningsdelelinje',
       'Bygningslinje', 'Fasadeliv', 'FiktivBygningsavgrensning',
       'Hjelpelinje3D', 'Hjelpepunkt3D', 'Låvebru', 'Mønelinje',
       'Portrom', 'Takkant', 'Takoverbygg', 'TakoverbyggKant', 'Takplatå',
       'TakplatåTopp', 'Taksprang', 'TaksprangBunn', 'TrappBygg',
       'Veranda'], dtype=object)