## xrkit库函数介绍

### 导入xrkit库

In [1]:
# 推荐使用以下方式导入xrkit库
import xrkit as xrk
xrk.show_functions()

1. get_files_in_directory：获取目录中的文件名称或路径
2. print_file_save_time：打印文件保存时间
3. csv_to_shp：csv文件转shp文件
4. zonal_statistics：分区统计
5. reproject_to_wgs84：投影到WGS84坐标系（对齐格网）
6. aggregate：聚合
7. parafun：并行计算


### 一、文件管理类

##### 1. 获取目录中的文件名称或路径

```python
  get_files_in_directory(
    folder_path: str= os.getcwd(),    # 文件夹路径（默认为当前路径）
    extension: str='',                # （可选）按文件扩展名筛选，如'.tif'或'jpg'
    rootpath: bool=False              # （可选）是否返回文件的完整路径
  ) -> (list| list[str])              # 返回一个list列表
```

In [None]:
import xrkit as xrk

target_directory = r"C:\Windows\Fonts"

file_list = xrk.get_files_in_directory(target_directory, "ttc")
print(file_list[0:5])

The number of files:  14
['cambria.ttc', 'mingliub.ttc', 'msgothic.ttc', 'msjh.ttc', 'msjhbd.ttc']


##### 2. 打印文件保存时间


```python
  print_file_save_time(
    filename: str='File'     # 文件名
  ) -> None                  # 无返回值
```

In [None]:
import xrkit as xrk

file_name = 'file.csv'

xrk.print_file_save_time(file_name)

file.csv saved (2025-02-23 19:21:35)


### 二、数据处理类

##### 1. csv文件转shp文件

```python
  csv_to_shp(
    csv_path: str,                    # csv文件路径
    shp_path: str,                    # shp文件路径
    lon: str = 'lon',                 # （可选）csv文件经度列名，默认为'lon'
    lat: str = 'lat',                 # （可选）csv文件纬度列名，默认为'lat'
    input_crs: str = 'epsg:4326',     # （可选）经纬度坐标系，默认为'epsg:4326'
    output_crs: Any | None = None     # （可选）输出坐标系，默认为与输入坐标系相同
    encoding: str = 'auto',           # （可选）csv文件编码，默认为'auto'
  ) -> None                           # 无返回值
```

In [None]:
import xrkit as xrk

csv_name = r'D:\WorkSpace\Test\全国医院列表_R.csv'
shp_name = r'D:\WorkSpace\Test\全国医院列表_R.shp'

xrk.csv_to_shp(csv_name, shp_name, '经度', '纬度')

全国医院列表_R.shp saved (2025-02-23 18:20:00)


##### 2. 分区统计

```python
  zonal_statistics(
    value_file,                       # 值的文件路径（或xr.DataArray对象）
    zone_file,                        # 分区的文件路径（或DataArray对象与GeoDataFrame对象）
    zone_field: Any | None = None,    # （可选）分区文件的字段名
    statistical_type: str = 'mean',     # （可选）统计类型，如'mean'、'sum'、'max'等，默认为'mean'
    bins: Any | None = None,          # （可选）分区的分级，依据值进行分区时使用，如[0, 10, 20, 30]
    write_raster: Any | None = None   # （可选）输出栅格文件路径，输出不同分区的统计值栅格
) -> DataFrame                        # 返回一个DataFrame，包含统计结果
```

In [None]:
import xrkit as xrk

value_file = r'D:\WorkSpace\耕地复垦潜力\data\Factors\tif_1km\dem.tif'
zone_file = r'D:\WorkSpace\耕地复垦潜力\data\AdministrativeDivision\province.shp'

table = xrk.zonal_statistics(value_file, zone_file, '省')
print(table.head())

          mean classes
0     4.574573     上海市
1  1881.828425     云南省
2  1014.215883  内蒙古自治区
3   365.434573     北京市
4   787.025546     台湾省


##### 3. 投影到WGS84坐标系（对齐格网）

```python
  reproject_to_wgs84(
    input_raster: Any,                # 输入栅格文件路径（或DataArray对象）
    output_raster: Any,               # 输出栅格文件路径
    resolution: Any,                  # 输出栅格分辨率
    resample_method: str = 'n'        # （可选）重采样方法，默认为'n'
) -> None
```

In [None]:
import xrkit as xrk

input = r'D:\WorkSpace\耕地复垦潜力\data\Factors\tif_1km\connectivity.tif'
output = r'D:\connectivity_reproject.tif'

xrk.reproject_to_wgs84(input, output, 1)

connectivity_reproject.tif saved (2025-03-11 15:50:21)


##### 4. 空间聚合

```python
  aggregate(
    input_raster: Any,              # 输入栅格文件路径（或DataArray对象）
    output_raster: Any,             # 输出栅格文件路径
    resolution: Any,                # 聚合的分辨率
    output_crs: str = 'EPSG:4326',  # （可选）输出坐标系（也可以是tif路径），默认为'EPSG:4326'
    statistical_type: str = 'mean', # （可选）聚合的统计类型，默认为'mean'
    resample_method: str = 'n'      # （可选）重采样方法，默认为'n'
    align: bool = True              # （可选）当output_crs为tif路径时结果是否对齐该栅格，默认对齐
) -> None
```

In [None]:
import xrkit as xrk

input = r'D:\WorkSpace\耕地复垦潜力\data\AbandonedCropland\AC_1991_2018_1000_mask.tif'
output = r'D:\AC_1991_2018_1000_mask_mean.tif'

xrk.aggregate(input, output, 0.1)

AC_1991_2018_1000_mask_mean.tif saved (2025-03-11 18:06:05)


##### 5. 并行计算

```python
  parafun(
    fun: Any,                                 # 需要并行的函数
    params: Any,                              # 函数的参数
    ncore: int = multiprocessing.cpu_count()  # （可选）并行的核数，默认为CPU所有核数（不推荐启用全部）
) -> list                                     # 返回一个list列表，包含函数的返回值
```

In [None]:
# ！！！
# 以下代码需要在py文件中运行，jupyter notebook中无法运行
# ！！！

import xrkit as xrk

def run(x):
    for i in range(10000000):
        x = x + 1
    return x

if __name__ == "__main__":
    params = list(range(100))
    results = xrk.parafun(run, params)

100%|███████████████████████████| 100/100 [00:04<00:00, 24.77it/s]

All tasks are done.