In [1]:
import pandas as pd

def clean_data(df):
    # Split text using string '#' in column: 'สถานที่เลือกตั้ง'
    df_split = df['สถานที่เลือกตั้ง'].str.split(pat='#', expand=True).add_prefix('สถานที่เลือกตั้ง_')
    df = pd.concat([df.iloc[:, :9], df_split, df.iloc[:, 9:]], axis=1)
    df = df.drop(columns=['สถานที่เลือกตั้ง'])
    # Rename column 'สถานที่เลือกตั้ง_0' to 'สถานที่เลือกตั้ง'
    df = df.rename(columns={'สถานที่เลือกตั้ง_0': 'สถานที่เลือกตั้ง'})
    # Rename column 'สถานที่เลือกตั้ง_1' to 'อธิบายเพิ่มเติมสถานที่เลือกตั้ง'
    df = df.rename(columns={'สถานที่เลือกตั้ง_1': 'อธิบายเพิ่มเติมสถานที่เลือกตั้ง'})
    return df

# Loaded variable 'df' from URI: /home/din/UnixDevs/ballot-location/data/ballot_complete.csv
df = pd.read_csv(r"/home/din/UnixDevs/ballot-location/data/ballot_complete.csv", engine='pyarrow')

df_clean = clean_data(df.copy())
df_clean.head()

Unnamed: 0,รหัสจังหวัด,จังหวัด,รหัสสำนักทะเบียน,สำนักทะเบียน,รหัสตำบล,ตำบล,เขตเลือกตั้ง,หน่วยเลือกตั้ง,สถานที่เลือกตั้ง,อธิบายเพิ่มเติมสถานที่เลือกตั้ง
0,10,กรุงเทพมหานคร,1001,ท้องถิ่นเขตพระนคร,100101,พระบรมมหาราชวัง,1,1,หอประชุม มหาวิทยาลัยศิลปากร ถนนมหาราช,
1,10,กรุงเทพมหานคร,1001,ท้องถิ่นเขตพระนคร,100101,พระบรมมหาราชวัง,1,2,โรงเรียนวัดมหาธาตุ ถนนพระจันทร์,
2,10,กรุงเทพมหานคร,1001,ท้องถิ่นเขตพระนคร,100101,พระบรมมหาราชวัง,1,3,ศาลาหน้าอาคารวาสนะประทานวิทยาสิทธิ์ 1 โรงเรียน...,ถนนสนามไชย
3,10,กรุงเทพมหานคร,1001,ท้องถิ่นเขตพระนคร,100101,พระบรมมหาราชวัง,1,4,โรงเรียนวัดพระเชตุพน ถนนมหาราช,
4,10,กรุงเทพมหานคร,1001,ท้องถิ่นเขตพระนคร,100102,วังบูรพาภิรมย์,1,1,ตึกสามัคยาจารย์ โรงเรียนสวนกุหลาบวิทยาลัย ถนนต...,


In [5]:
# create mapping

# test continuous number
# จังหวัด -> max เขตเลือกตั้ง
province2region = {}
for province in df_clean['จังหวัด'].unique():
    max_ = df_clean[df_clean['จังหวัด'] == province]['เขตเลือกตั้ง'].max()
    assert max_ == df_clean[df_clean['จังหวัด'] == province]['เขตเลือกตั้ง'].nunique()
    # print(province, df_clean[df_clean['จังหวัด'] == province]['เขตเลือกตั้ง'].max())

    province2region[province.removeprefix('จังหวัด')] = list(range(1, max_ + 1))
province2region


{'กรุงเทพมหานคร': [1,
  2,
  3,
  4,
  5,
  6,
  7,
  8,
  9,
  10,
  11,
  12,
  13,
  14,
  15,
  16,
  17,
  18,
  19,
  20,
  21,
  22,
  23,
  24,
  25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33],
 'สมุทรปราการ': [1, 2, 3, 4, 5, 6, 7, 8],
 'นนทบุรี': [1, 2, 3, 4, 5, 6, 7, 8],
 'ปทุมธานี': [1, 2, 3, 4, 5, 6, 7],
 'พระนครศรีอยุธยา': [1, 2, 3, 4, 5],
 'อ่างทอง': [1, 2],
 'ลพบุรี': [1, 2, 3, 4, 5],
 'สิงห์บุรี': [1],
 'ชัยนาท': [1, 2],
 'สระบุรี': [1, 2, 3, 4],
 'ชลบุรี': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
 'ระยอง': [1, 2, 3, 4, 5],
 'จันทบุรี': [1, 2, 3],
 'ตราด': [1],
 'ฉะเชิงเทรา': [1, 2, 3, 4],
 'ปราจีนบุรี': [1, 2, 3],
 'นครนายก': [1, 2],
 'สระแก้ว': [1, 2, 3],
 'นครราชสีมา': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16],
 'บุรีรัมย์': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
 'สุรินทร์': [1, 2, 3, 4, 5, 6, 7, 8],
 'ศรีสะเกษ': [1, 2, 3, 4, 5, 6, 7, 8, 9],
 'อุบลราชธานี': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
 'ยโสธร': [1, 2, 3],
 'ชัยภูมิ': [1, 2, 3, 4, 5, 6, 7],
 'อำนาจเจริญ

In [8]:
# จังหวัด + เขตเลือกตั้ง -> max หน่วยเลือกตั้ง
provinceRegion2unit = {}
for province, region in province2region.items():
    for r in region:


        naming = f'จังหวัด{province}' if province != 'กรุงเทพมหานคร' else province
        max_ = df_clean[(df_clean['จังหวัด'] == naming) & (df_clean['เขตเลือกตั้ง'] == r)]['หน่วยเลือกตั้ง'].max()
        assert max_ == df_clean[(df_clean['จังหวัด'] == naming) & (df_clean['เขตเลือกตั้ง'] == r)]['หน่วยเลือกตั้ง'].nunique(), f'{province}-{r} has {max_} units, but {df_clean[(df_clean["จังหวัด"] == f"จังหวัด{province}") & (df_clean["เขตเลือกตั้ง"] == r)]["หน่วยเลือกตั้ง"].nunique()} unique units'
        # print(province, r, max_)

        provinceRegion2unit[f'{naming}-{r}'] = list(range(1, max_ + 1))

provinceRegion2unit

{'กรุงเทพมหานคร-1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16],
 'กรุงเทพมหานคร-2': [1,
  2,
  3,
  4,
  5,
  6,
  7,
  8,
  9,
  10,
  11,
  12,
  13,
  14,
  15,
  16,
  17,
  18,
  19,
  20,
  21,
  22,
  23,
  24,
  25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33,
  34,
  35,
  36,
  37,
  38,
  39,
  40,
  41,
  42,
  43,
  44,
  45,
  46,
  47,
  48],
 'กรุงเทพมหานคร-3': [1,
  2,
  3,
  4,
  5,
  6,
  7,
  8,
  9,
  10,
  11,
  12,
  13,
  14,
  15,
  16,
  17,
  18,
  19,
  20,
  21,
  22,
  23,
  24,
  25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33,
  34,
  35,
  36,
  37,
  38,
  39,
  40,
  41,
  42,
  43,
  44,
  45,
  46,
  47,
  48,
  49,
  50,
  51,
  52,
  53,
  54,
  55,
  56,
  57,
  58,
  59,
  60,
  61,
  62,
  63,
  64,
  65,
  66,
  67],
 'กรุงเทพมหานคร-4': [1,
  2,
  3,
  4,
  5,
  6,
  7,
  8,
  9,
  10,
  11,
  12,
  13,
  14,
  15,
  16,
  17,
  18,
  19,
  20,
  21,
  22,
  23,
  24,
  25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33,
  3

In [11]:
# save mapping to json 
import json

with open('province2region.json', 'w') as f:
    json.dump(province2region, f, ensure_ascii=False, indent=4)

with open('provinceRegion2unit.json', 'w') as f:
    json.dump(provinceRegion2unit, f, ensure_ascii=False, indent=4)