In [1]:
from sqlalchemy import create_engine, Column, String, Integer, func, event, text
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.dialects.postgresql import ARRAY
from sqlalchemy.orm import sessionmaker
from geoalchemy2 import Geometry 
from tqdm import tqdm
from shapely.wkt import dumps

import orjson

In [2]:
%%time
with open('13_266069_040_003 L02 PAS.json', 'r') as file:
    data = orjson.loads(file.read())

import shapely
from shapely.geometry import shape

CPU times: user 9.54 s, sys: 1.8 s, total: 11.3 s
Wall time: 13.3 s


In [3]:
data[0]

{'type': 'Feature',
 'geometry': {'type': 'Polygon',
  'coordinates': [[[45837, 20092],
    [45836, 20093],
    [45835, 20094],
    [45834, 20095],
    [45833, 20096],
    [45832, 20096],
    [45831, 20096],
    [45830, 20096],
    [45829, 20096],
    [45828, 20096],
    [45827, 20096],
    [45826, 20096],
    [45825, 20096],
    [45824, 20096],
    [45823, 20096],
    [45822, 20096],
    [45821, 20096],
    [45820, 20097],
    [45819, 20098],
    [45818, 20099],
    [45817, 20100],
    [45816, 20100],
    [45815, 20100],
    [45814, 20100],
    [45813, 20100],
    [45812, 20101],
    [45811, 20102],
    [45810, 20103],
    [45809, 20104],
    [45808, 20104],
    [45807, 20104],
    [45806, 20104],
    [45805, 20104],
    [45804, 20105],
    [45803, 20106],
    [45802, 20107],
    [45801, 20108],
    [45800, 20109],
    [45799, 20110],
    [45798, 20111],
    [45797, 20112],
    [45796, 20113],
    [45795, 20114],
    [45794, 20115],
    [45793, 20116],
    [45792, 20117],
    [45791, 

In [4]:
# Create a base class for our declarative mapping
Base = declarative_base()

# Define your SQLAlchemy model
class GeometryModel(Base):
    __tablename__ = 'geometries'
    id = Column(Integer, primary_key=True)
    name = Column(String)
    geom = Column(Geometry('POLYGON'))

  Base = declarative_base()


In [8]:
# Connect to the Spatialite database
db_path = 'sqlite:////tmp/blog/spatialite_core.db'
engine = create_engine(db_path, echo=False)  # Set echo=True to see SQL commands being executed

In [9]:
# Initialize Spatialite extension
@event.listens_for(engine, "connect")
def connect(dbapi_connection, connection_record):
    dbapi_connection.enable_load_extension(True)
    dbapi_connection.execute('SELECT load_extension("mod_spatialite")')
    dbapi_connection.execute('SELECT InitSpatialMetaData(1);')

In [10]:
# Create the table
Base.metadata.create_all(engine)

In [11]:
from tqdm import tqdm

In [12]:
%%time
for _ in range(12):
    with  engine.connect() as conn:
        for geojson in tqdm(data):
            name = geojson["properties"]["classification"]["name"]
            geometry = orjson.dumps(geojson["geometry"]).decode('ascii')
            res=conn.execute(
                    text("SELECT SetSRID(GeomFromGeoJSON(:geom),-1);"),{"geom":geometry})

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 88605/88605 [00:25<00:00, 3506.81it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 88605/88605 [00:25<00:00, 3497.14it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 88605/88605 [00:24<00:00, 3674.34it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

CPU times: user 4min 48s, sys: 1.14 s, total: 4min 49s
Wall time: 4min 49s





In [15]:
%%time
for _ in range(12):
    batch_size=5_000
    polygons=[]
    with  engine.connect() as conn:
        tran = conn.begin()
    
        for geojson in tqdm(data):
            name = geojson["properties"]["classification"]["name"]
            geometry = orjson.dumps(geojson["geometry"]).decode('ascii')
        
            polygons.append({'name':name,'geom':geometry})
    
            if len(polygons) == batch_size:
                res=conn.execute(
                    text("INSERT INTO geometries (name,geom) VALUES (:name,SetSRID(GeomFromGeoJSON(:geom),-1));"),polygons)
    
                polygons = []
                tran.commit()
                tran = conn.begin()
    
        if polygons:
            res=conn.execute(
                text("INSERT INTO geometries (name,geom) VALUES (:name,SetSRID(GeomFromGeoJSON(:geom),-1));"),polygons)
        
            polygons = []
            tran.commit()

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 88605/88605 [00:25<00:00, 3523.29it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 88605/88605 [00:23<00:00, 3722.46it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 88605/88605 [00:22<00:00, 4012.00it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

CPU times: user 4min 35s, sys: 10.8 s, total: 4min 46s
Wall time: 4min 57s


In [16]:
%%time
#lets make sure insert worked as expected
with  engine.connect() as conn:
    res=conn.execute(text("select count(geom) from geometries"))
    nresults=res.fetchall()
    print(nresults)

[(1063260,)]
CPU times: user 474 ms, sys: 1.77 s, total: 2.24 s
Wall time: 2.24 s


In [17]:
%%time
with  engine.connect() as conn:
    res=conn.execute(text("select AsGeoJSON(ST_Centroid(geom)) as centroid from geometries limit 1000"))
    centroids=res.fetchall()

CPU times: user 26.9 ms, sys: 9.92 ms, total: 36.8 ms
Wall time: 35 ms


In [18]:
len(centroids)

1000

In [19]:
centroids

[('{"type":"Point","coordinates":[45862.13292750414,20242.07223759453]}',),
 ('{"type":"Point","coordinates":[45812.26248864668,20306.06145927944]}',),
 ('{"type":"Point","coordinates":[45854.85213032581,20261.92932330827]}',),
 ('{"type":"Point","coordinates":[45901.874369386,20236.45970222714]}',),
 ('{"type":"Point","coordinates":[46006.16937669376,20198.66260162601]}',),
 ('{"type":"Point","coordinates":[45858.96278317151,20359.42055016181]}',),
 ('{"type":"Point","coordinates":[45792.37442014578,20346.95361166335]}',),
 ('{"type":"Point","coordinates":[45750.40160878947,20334.95173631548]}',),
 ('{"type":"Point","coordinates":[45954.05971937029,20293.65349075975]}',),
 ('{"type":"Point","coordinates":[45759.33590138675,20285.43374422187]}',),
 ('{"type":"Point","coordinates":[45982.3797250859,20206.2147766323]}',),
 ('{"type":"Point","coordinates":[45981.7408456021,20166.57002642506]}',),
 ('{"type":"Point","coordinates":[45803.70650616221,20158.2388936658]}',),
 ('{"type":"Point"