The purpose of this notebook is to add Thailand admin boundaries to an already existing dataset (CSV file). This logic is already integrated into the main data generation script though, so if you generated data using that, there should be no need to run this notebook.

# Imports

In [93]:
import sys
sys.path.append("../../")

import geopandas as gpd
import pandas as pd

from src.config import settings

# Inputs

In [94]:
# Path to the TH Admin Bounds shapefile.
# The file has to be placed in the data folder in the project root.
TH_ADM3_SHP = settings.DATA_DIR / "th_boundaries/adm3/tha_admbnda_adm3_rtsd_20220121.shp"

# Path to the CSV file you want to add admin boundaries to.
STATIONS_CSV = settings.DATA_DIR/"2022-04-29-base-table-air4thai.csv"

# Where to save the final augmented CSV.
OUTPUT_CSV = settings.DATA_DIR/"2022-04-29-base-table-air4thai-with-adm3.csv"

# TH Admin Bounds

The admin bounds file is taken from the [Humanitarian Data Exchange](https://data.humdata.org/dataset/cod-ab-tha) website.

Here we're using the most granular data available, which are the admin level 3 boundaries. But the Shapefile also contains info all the way from admin level 0 to 3.

In [95]:
th_adm3_gdf = gpd.read_file(TH_ADM3_SHP)
th_adm3_gdf.head()

Unnamed: 0,Shape_Leng,Shape_Area,ADM3_EN,ADM3_TH,ADM3_PCODE,ADM3_REF,ADM3ALT1EN,ADM3ALT2EN,ADM3ALT1TH,ADM3ALT2TH,...,ADM1_EN,ADM1_TH,ADM1_PCODE,ADM0_EN,ADM0_TH,ADM0_PCODE,date,validOn,validTo,geometry
0,0.047699,0.000128,Phraborom Maharatchawang,พระบรมมหาราชวัง,TH100101,,,,,,...,Bangkok,กรุงเทพมหานคร,TH10,Thailand,ประเทศไทย,TH,2019-02-18,2022-01-22,,"POLYGON ((100.49453 13.75759, 100.49486 13.757..."
1,0.03355,6.1e-05,Wang Burapha Phirom,วังบูรพาภิรมย์,TH100102,,,,,,...,Bangkok,กรุงเทพมหานคร,TH10,Thailand,ประเทศไทย,TH,2019-02-18,2022-01-22,,"POLYGON ((100.50131 13.74800, 100.50170 13.747..."
2,0.017289,1.8e-05,Wat Ratchabophit,วัดราชบพิธ,TH100103,,,,,,...,Bangkok,กรุงเทพมหานคร,TH10,Thailand,ประเทศไทย,TH,2019-02-18,2022-01-22,,"POLYGON ((100.50140 13.74817, 100.50131 13.748..."
3,0.019046,1.9e-05,Samran Rat,สำราญราษฎร์,TH100104,,,,,,...,Bangkok,กรุงเทพมหานคร,TH10,Thailand,ประเทศไทย,TH,2019-02-18,2022-01-22,,"POLYGON ((100.50554 13.75378, 100.50516 13.752..."
4,0.015232,1.3e-05,San Chaopho Suea,ศาลเจ้าพ่อเสือ,TH100105,,,,,,...,Bangkok,กรุงเทพมหานคร,TH10,Thailand,ประเทศไทย,TH,2019-02-18,2022-01-22,,"POLYGON ((100.49875 13.75560, 100.49873 13.755..."


# Identify the admin bounds for stations

In this notebook, we're identifying the admin bounds for an already existing dataset we're using for ML modelling.

In [96]:

stations_df = pd.read_csv(STATIONS_CSV)
stations_df.head()

Unnamed: 0,date,number,station_code,station_location,station_description,station_address,latitude,longitude,en_station_location,en_station_description,...,v_component_of_wind_10m_min,v_component_of_wind_10m_median,v_component_of_wind_10m_max,surface_pressure_mean,surface_pressure_min,surface_pressure_median,surface_pressure_max,total_precipitation_daily,mean_precipitation_hourly,pm2.5
0,2021-01-01,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-3.282547,-2.556892,-1.635864,101386.687174,101167.296875,101366.146484,101646.625,0.0,0.0,27.0
1,2021-01-02,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-2.775949,-2.416763,-1.823283,101275.681641,101084.816406,101245.742188,101564.90625,0.0,0.0,32.0
2,2021-01-03,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-3.097609,-2.379429,-1.59938,101148.800944,100933.792969,101133.964844,101385.933594,8.583069e-07,3.576279e-08,46.0
3,2021-01-04,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-2.963577,-2.505539,-2.12315,101150.715658,100932.554688,101143.691406,101400.675781,8.523463e-07,3.551443e-08,39.0
4,2021-01-05,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-2.359756,-1.022918,1.458656,101086.567546,100909.34375,101066.410156,101330.4375,8.523463e-07,3.551443e-08,50.0


Before doing a spatial join with the admin bounds, we have to convert the stations DataFrame into a GeoDataFrame.

In [97]:
stations_gdf = gpd.GeoDataFrame(
    stations_df,
    geometry = gpd.points_from_xy(stations_df["longitude"], stations_df["latitude"]),
    crs="EPSG:4326"
)

stations_gdf.head()

Unnamed: 0,date,number,station_code,station_location,station_description,station_address,latitude,longitude,en_station_location,en_station_description,...,v_component_of_wind_10m_median,v_component_of_wind_10m_max,surface_pressure_mean,surface_pressure_min,surface_pressure_median,surface_pressure_max,total_precipitation_daily,mean_precipitation_hourly,pm2.5,geometry
0,2021-01-01,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-2.556892,-1.635864,101386.687174,101167.296875,101366.146484,101646.625,0.0,0.0,27.0,POINT (100.49030 13.73222)
1,2021-01-02,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-2.416763,-1.823283,101275.681641,101084.816406,101245.742188,101564.90625,0.0,0.0,32.0,POINT (100.49030 13.73222)
2,2021-01-03,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-2.379429,-1.59938,101148.800944,100933.792969,101133.964844,101385.933594,8.583069e-07,3.576279e-08,46.0,POINT (100.49030 13.73222)
3,2021-01-04,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-2.505539,-2.12315,101150.715658,100932.554688,101143.691406,101400.675781,8.523463e-07,3.551443e-08,39.0,POINT (100.49030 13.73222)
4,2021-01-05,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,-1.022918,1.458656,101086.567546,100909.34375,101066.410156,101330.4375,8.523463e-07,3.551443e-08,50.0,POINT (100.49030 13.73222)


We then perform the spatial join. For each station, we're interested in finding which admin bounds they fall under. This line of code finds where the station's coordinates are "within" which admin boundary.

In [98]:
# First, we want to retain only the unique columns in the right GDF to avoid duplicate columns (and consequent column renames).
cols_unique_to_th_adm3 = th_adm3_gdf.columns.difference(stations_gdf.columns).tolist() + ["geometry"]
th_adm3_gdf = th_adm3_gdf[cols_unique_to_th_adm3]

# Perform the actual spatial join
joined_gdf = gpd.sjoin(stations_gdf, th_adm3_gdf, predicate="within", how="left")

# Drop unnecessary columns generated by the sjoin
joined_gdf.drop(["index_right"], axis=1, inplace=True)

# Sanity check the output
print(joined_gdf.columns)
joined_gdf.head()

Index(['date', 'number', 'station_code', 'station_location',
       'station_description', 'station_address', 'latitude', 'longitude',
       'en_station_location', 'en_station_description', 'en_station_address',
       'total_population', 'AAI_mean', 'AAI_min', 'AAI_max', 'AAI_median',
       'CAMS_AOD_055_mean', 'CAMS_AOD_055_min', 'CAMS_AOD_055_max',
       'CAMS_AOD_055_median', 'AOD_047_mean', 'AOD_047_min', 'AOD_047_max',
       'AOD_047_median', 'AOD_055_mean', 'AOD_055_min', 'AOD_055_max',
       'AOD_055_median', 'NDVI_mean', 'NDVI_min', 'NDVI_max', 'NDVI_median',
       'EVI_mean', 'EVI_min', 'EVI_max', 'EVI_median',
       'dewpoint_temperature_2m_mean', 'dewpoint_temperature_2m_min',
       'dewpoint_temperature_2m_median', 'dewpoint_temperature_2m_max',
       'temperature_2m_mean', 'temperature_2m_min', 'temperature_2m_median',
       'temperature_2m_max', 'u_component_of_wind_10m_mean',
       'u_component_of_wind_10m_min', 'u_component_of_wind_10m_median',
       'u_com

Unnamed: 0,date,number,station_code,station_location,station_description,station_address,latitude,longitude,en_station_location,en_station_description,...,ADM3ALT2EN,ADM3ALT2TH,ADM3_EN,ADM3_PCODE,ADM3_REF,ADM3_TH,Shape_Area,Shape_Leng,validOn,validTo
0,2021-01-01,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,,,Hiranruchi,TH101502,,หิรัญรูจี,5.4e-05,0.029718,2022-01-22,
1,2021-01-02,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,,,Hiranruchi,TH101502,,หิรัญรูจี,5.4e-05,0.029718,2022-01-22,
2,2021-01-03,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,,,Hiranruchi,TH101502,,หิรัญรูจี,5.4e-05,0.029718,2022-01-22,
3,2021-01-04,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,,,Hiranruchi,TH101502,,หิรัญรูจี,5.4e-05,0.029718,2022-01-22,
4,2021-01-05,1.0,02T,แขวงหิรัญรูจี เขตธนบุรี กทม.,มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา,"มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา, แขวงหิรั...",13.732218,100.490298,"Hiran Ruchi Subdistrict, Thon Buri District, B...",Ban Somdej Chao Phraya Rajabhat University,...,,,Hiranruchi,TH101502,,หิรัญรูจี,5.4e-05,0.029718,2022-01-22,


Finally, we save the output to a CSV file.

In [99]:
joined_gdf.to_csv(OUTPUT_CSV, index=False)