#### 1. 环境初始化和安装包

In [None]:
%pip install duckdb leafmap lonboard

In [None]:
import duckdb
import leafmap
import pandas as pd

#### 2. 读文件

database的zip

In [None]:
# url = "https://storage.googleapis.com/qm2/CASA0025/nyc_data.db.zip"
# leafmap.download_file(url, unzip=True)

文件的zip

In [None]:
# url = "https://storage.googleapis.com/qm2/CASA0025/nyc_data.zip"
# leafmap.download_file(url, unzip=True)

#### 3. 连接duckdb

database: 直接连接当前的database

In [None]:
# Connect to the database file
con = duckdb.connect("nyc_data.db")

文件：连接空的database

In [None]:
con = duckdb.connect()

#### 4. 加载extension（通用）

In [None]:
# Setup spatial extension
con.execute("INSTALL spatial;")
con.execute("LOAD spatial;")

In [None]:
# con.execute("INSTALL httpfs; LOAD httpfs;")

#### 5. 创建table

database: 直接call tables

In [None]:
con.sql("SHOW TABLES;")

文件：需要用for loop读入并且创建table

In [None]:
# List of datasets to import
datasets = [
    "nyc_census_blocks",
    "nyc_homicides",
    "nyc_neighborhoods",
    "nyc_streets",
    "nyc_subway_stations"
]

# Import each shapefile into its own table
for table in datasets:
    # ST_Read automatically pulls data from the associated .dbf and .prj files
    con.execute(f"CREATE OR REPLACE TABLE {table} AS SELECT * FROM ST_Read('{table}.shp');")
    print(f"Finished importing: {table}")

# 5. Verify the tables exist in the database
print("\nDatabase Tables Created:")
print(con.execute("SHOW TABLES;").df())

#### 6.开始使用sql

In [None]:
# 检查table里每一列的名字
# 这里检查nyc_neighborhoods这个table
con.execute("DESCRIBE nyc_neighborhoods;").df()

##### 基础几何函数

ST_Area(geom)：仅用于多边形（Polygon），如计算社区、行政区的面积。

ST_Length(geom)：仅用于线（LineString），如计算街道长度、河流长度。

单位识别：结果的单位。

##### 空间谓词（判断“谁在谁里面”）

ST_Intersects(geom1, geom2)：只要两个物体有任何重叠（哪怕只是边碰边）就返回 True。
- 面与面重叠：“人口普查块与社区边界”的匹配。
- 线与面重叠：“街道穿过社区”

ST_Contains(A, B)：判断 A 是否完全包含 B。常用于“车站（点）是否在社区（面）内部”。

ST_DWithin(geom1, geom2, distance)：判断两个物体是否在指定距离之内。比如：“找出距离地铁站 500 米以内的街道”。

In [None]:
# 查找某个社区包含的地铁站
query = """
SELECT s.name, s.routes
FROM nyc_subway_stations AS s
JOIN nyc_neighborhoods AS n
ON ST_Contains(n.geom, s.geom)
WHERE n.name = 'Little Italy';
"""
con.sql(query)

In [None]:
# 判断公园是否包含某个雕塑
SELECT ST_Contains(p.geom, s.geom) AS is_contained
FROM parks AS p, sculptures AS s
WHERE p.name = 'Central Park' 
  AND s.name = 'Alice in Wonderland';

In [None]:
# 某社区内，在某个特定地铁线路上的地铁站名称
SELECT s.name
FROM nyc_subway_stations AS s
JOIN nyc_neighborhoods AS n ON ST_Contains(n.geom, s.geom)
WHERE n.name = 'Upper West Side' AND s.routes LIKE '%1%';

##### 空间连接 (Spatial Join)

- 找出在某个特定社区里的地铁站。
- 找出经过某个特定公园的街道。

>SELECT 表A.信息, 表B.信息
>
>FROM 表A
>
>JOIN 表B
>
>ON ST_Intersects(表A.geom, 表B.geom) -- 空间胶水
>
>WHERE 过滤条件;

##### 空间聚合 (Spatial Aggregation)

GROUP BY + 空间函数：
- 计算总量：比如“按社区类型汇总街道总长度”。
- 人口汇总：使用 Sum(population) 配合 ST_Intersects 算出某个区域的总人口。
> 聚合函数：Sum, Count, Avg, Max, Min

> SELECT name, Count(*)
> 
>FROM nyc_subway_stations
> 
>GROUP BY name;

> SELECT __borough, type__, Sum(length)
>
> FROM nyc_subway_stations
>
> GROUP BY __borough, type__;



ORDER BY + LIMIT：
- 找出“面积最大”或“人口最多”的前 5 个区域。
> 最西的地铁站：
> 
> SELECT ST_X(geom), name
> 
> FROM nyc_subway_stations
>
> ORDER BY ST_X(geom)
>
> LIMIT 1;
>
> 最西 & 最南 ST_X(geom) & ST_Y(geom) - 默认 (ASC) - 找最小值
> 
> 最东 & 最北 ST_X(geom) & ST_Y(geom) - DESC - 找最大值

>面积前5的社区：
>
> SELECT name, ST_Area(geom) AS area
>
>FROM nyc_neighborhoods
>
>ORDER BY area DESC
>
>LIMIT 5;

__-- 情况 A：使用 WHERE__

SELECT type, Sum(ST_Length(geom)) AS length

FROM nyc_streets

__WHERE__ type != 'unclassified'  -- 1. 先排除掉类型不明的原始街道

__GROUP BY type__;

__-- 情况 B：使用 HAVING__

SELECT type, Sum(ST_Length(geom)) AS length

FROM nyc_streets

__GROUP BY type__

__HAVING__ Sum(ST_Length(geom)) > 100000; -- 2. 算完总长后，只显示总长大于100公里的分类