<a href="https://colab.research.google.com/github/xyt556/Data/blob/main/geoparquet_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GeoParquet 数据分析

本笔记本用于使用 GeoParquet 文件格式进行基本的地理空间分析。输入数据可以从 [nz-building-outlines.parquet](https://storage.googleapis.com/open-geodata/linz-examples/nz-building-outlines.parquet) 下载。

GeoParquet 是一种基于 Parquet 文件格式的开源地理数据存储格式。它将地理空间数据扩展到 Parquet 文件，使其能够高效地存储和查询大规模的地理空间数据集。

### 主要特性
1. **基于 Parquet 格式**：GeoParquet 建立在 Apache Parquet 格式之上，Parquet 是一种列式存储格式，适合大规模数据分析。它能有效压缩和存储数据，同时支持高效的读写操作。

2. **地理空间支持**：GeoParquet 在 Parquet 的基础上，增加了对几何对象（如点、线、多边形等）的支持。它通过在文件中添加适当的元数据来处理几何列，从而允许处理复杂的地理空间数据。

3. **多种几何格式支持**：GeoParquet 支持常见的几何格式如 WKT (Well-Known Text) 和 WKB (Well-Known Binary)，使得它能够灵活地与各种 GIS 软件和库集成。

4. **与现代数据生态系统兼容**：由于 GeoParquet 是基于 Parquet 的，所以它可以无缝集成到 Apache Arrow、Spark、Flink 等数据处理框架中。这意味着可以利用分布式计算工具对大规模地理空间数据集进行分析。

5. **高效的数据压缩**：Parquet 的列式存储和压缩特性意味着在处理大规模地理数据时，GeoParquet 可以显著降低存储空间和加快数据读取速度。

### 适用场景
GeoParquet 特别适合以下场景：
- **大规模地理空间数据分析**：例如城市规划、环境监测、灾害预防等领域的高频率大数据计算。
- **与大数据处理框架集成**：GeoParquet 可以用于分布式数据处理平台中的地理空间数据分析，比如使用 Apache Spark 处理地理空间数据。
- **高效存储和传输**：适合处理需要低存储占用和高效传输的大规模地理数据集。

### 使用示例
使用 GeoParquet 可以与 Python 中的 GeoPandas 库配合，用于加载和存储地理空间数据。例如：

```python
import geopandas as gpd
df = gpd.read_file("your_geo_data.shp")  # 读取Shapefile
df.to_parquet("your_data.parquet")  # 保存为GeoParquet格式
```

总的来说，GeoParquet 是一种高效、灵活的存储格式，适用于大规模的地理空间数据分析，并且可以无缝地融入现代数据分析和处理生态系统中。

In [1]:
# 从github上下载所需要的文件
!wget https://github.com/xyt556/Data/raw/main/mytools.py

'wget' 不是内部或外部命令，也不是可运行的程序
或批处理文件。


In [2]:
# 自定义的函数，用与下载数据
from mytools import *

文件 URLs:
https://github.com/xyt556/Data/raw/main/font_colab.ipynb
文件 font_colab.ipynb 已下载并保存到 .
https://github.com/xyt556/Data/raw/main/set_font.ipynb
文件 set_font.ipynb 已下载并保存到 .


In [3]:
# 从Google网盘的共享文件
download_file_from_google_drive("https://drive.google.com/file/d/1zQaJ8WTWxCNb3D0ZrC5bo5KvaT0cNC6u/view?usp=sharing")

Downloading...
From: https://drive.google.com/uc?id=1zQaJ8WTWxCNb3D0ZrC5bo5KvaT0cNC6u
To: C:\Data\nz-building-outlines.parquet
  9%|████████████▍                                                                                                                                   | 37.2M/430M [00:04<00:46, 8.51MB/s]('Connection broken: IncompleteRead(37224448 bytes read, 392922440 more expected)', IncompleteRead(37224448 bytes read, 392922440 more expected))
  9%|████████████▍                                                                                                                                   | 37.2M/430M [00:04<00:43, 8.95MB/s]


In [4]:
! pip install -q pyarrow
# ! pip install geopandas==1.0.0


[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


`pyarrow` 是一个高效的 Python 库，用于在 Python 应用程序和 Apache Arrow 之间进行交互。Apache Arrow 是一种跨语言的内存格式，可以快速高效地转移大型数据集。以下是对 `pyarrow` 的详细介绍：

### 功能
1. **数据传输和存储**：`pyarrow` 提供了跨平台、高性能的数据传输和存储解决方案，支持序列化和分布式读取等功能。
2. **与其他库的集成**：`pyarrow` 与 NumPy、pandas 等 Python 生态系统中的其他软件具有一流的集成能力。
3. **内存分析**：`pyarrow` 是一个用于内存分析的平台，包含一组技术，使大数据系统能够快速存储、处理和移动数据。

### 安装
可以使用 `pip` 安装：
```bash
pip install pyarrow
```
也可以使用 `conda` 安装：
```bash
conda install pyarrow -c conda-forge
```

### 使用示例
1. **创建数组和表**：
```python
import pyarrow as pa

# 创建一个 Arrow 数组
array = pa.array([1, 2, 3, 4, 5])

# 创建一个 Arrow 表
table = pa.table({'column1': array})
print(table)
```

2. **读取和写入 Parquet 文件**：
```python
import pyarrow.parquet as pq

# 写入 Parquet 文件
pq.write_table(table, 'example.parquet')

# 读取 Parquet 文件
table = pq.read_table('example.parquet')
print(table)
```

### 适用场景
- **大规模数据分析**：适用于需要高效处理和传输大规模数据集的场景，如数据分析、机器学习和大数据处理。
- **与现代数据生态系统兼容**：由于 `pyarrow` 基于 Apache Arrow，因此它可以无缝集成到 Apache Arrow、Spark、Flink 等数据处理框架中。



## 读写

In [5]:
import geopandas as gpd

gpd.__version__

'0.14.3'

In [6]:
# fold = '/content/drive/MyDrive/Colab Notebooks/geospatial-data-analysis-python'

In [7]:
# 加载 geoparquet 文件
gdf = gpd.read_parquet('nz-building-outlines.parquet')
gdf.head()

FileNotFoundError: nz-building-outlines.parquet

In [None]:
len(gdf)

In [None]:
gdf.plot()

In [None]:
gdf.crs

In [None]:
gdf.to_file('nz-building-outlines.geojson', driver='GeoJSON')

In [None]:
gdf.to_file('nz-building-outlines.shp')

In [None]:
gdf = gpd.read_file('nz-building-outlines.geojson')
gdf.head()

In [None]:
gdf = gpd.read_file('nz-building-outlines.shp')
gdf.head()

In [None]:
gdf.crs

In [None]:
gdf.to_parquet('nz-building-outlines1.parquet')

In [None]:
from datetime import datetime

print('-'*50)
start_p = datetime.now()
gdf = gpd.read_parquet('nz-building-outlines.parquet')
end_p = datetime.now()
print('Parquet data read time: ', end_p - start_p)

start_s = datetime.now()
gdf = gpd.read_file('shp/nz-building-outlines.shp')
end_s = datetime.now()
print('Shapefile data read time: ', end_s - start_s)

start_g = datetime.now()
gdf = gpd.read_file('nz-building-outlines.geojson')
end_g = datetime.now()
print('GeoJSON data read time: ', end_g - start_g)

print('-'*50)


## 空间分析

In [None]:
# 加载 geoparquet 文件
gdf = gpd.read_parquet('nz-building-outlines.parquet')
gdf.head()

In [None]:
# 根据属性过滤数据
gdf_filtered = gdf[gdf['town_city'] == 'Marton']

# 10M的缓冲区
gdf_filtered['geometry'] = gdf_filtered.buffer(10)

# 读取前10000个数据
gdf_filtered = gdf_filtered.head(10000)

## 可视化

In [None]:
# 绘图
gdf_filtered.plot()

In [None]:
# 保存
gdf_filtered.to_file('marton-buildings-buffered.geojson', driver='GeoJSON')