In [1]:
import pandas as pd
import numpy as np
import json
import re

from pathlib import Path
import sys
BASE_DIR = Path().resolve().parent.parent
sys.path.append((BASE_DIR / 'vietnamadminunits/parser').as_posix())

from utils import key_normalize

import warnings
warnings.filterwarnings('ignore')

In [2]:
def create_sort(text, level=1):
    if isinstance(text, str):
        if level == 1:
            text = re.sub(r'^Tỉnh\s|Thành phố\s|Thủ đô\s', '', text, flags=re.IGNORECASE)
        else:
            text = re.sub(r'^Phường\s|Đặc khu\s|Xã\s', '', text, flags=re.IGNORECASE)

        return text.strip()
    return text

district_type_acronym = {
    'Quận': 'q',
    'Thị xã': 'tx',
    'Thành phố': 'tp',
    'Huyện': 'h',
}
ward_type_acronym = {
    'Phường': 'p',
    'Đặc khu': 'dk',
    'Xã': 'x'
}
def create_keywords(row, level=1):
    keywords = []
    if level == 1:
        keywords.append(row['provinceKey'])
        keywords.append(row['provinceShortKey'])
        if pd.notnull(row['provinceAlias']):
            aliases = json.loads(row['provinceAlias'])
            for a in aliases:
                keywords.append(key_normalize(a))

    else:
        keywords.append(row['wardKey'])
        if not row['wardShortKeyDuplicated']:
            keywords.append(row['wardShortKey'])
        else:
            keywords.append(key_normalize(f"{row['wardShortKey']} {row['wardType']}"))
            keywords.append(key_normalize(f"{ward_type_acronym[row['wardType']]} {row['wardShortKey']}"))

        if pd.notnull(row['wardAlias']):
            aliases = json.loads(row['wardAlias'])
            for a in aliases:
                keywords.append(key_normalize(a))

    keywords = list(set(keywords))
    keywords = sorted(keywords, key=len, reverse=True)
    return json.dumps(keywords)


def zill_code(value, level=1):
    if not pd.isnull(value):
        if level == 1:
            return str(int(value)).zfill(2)
        elif level == 2:
            return str(int(value)).zfill(5)

    return value

In [3]:
df = pd.read_csv(BASE_DIR / 'data/processed/2025_34-province-3221-ward_with_location.csv')

In [4]:
df

Unnamed: 0,province,ward,provinceShort,wardShort,wardType,provinceCode,provinceLat,provinceLon,wardCode,wardLat,wardLon,wardAreaKm2
0,Thành phố Hà Nội,Phường Hồng Hà,Hà Nội,Hồng Hà,Phường,1,21.0001,105.698,97,21.05670,105.845,15.09
1,Thành phố Hà Nội,Phường Ba Đình,Hà Nội,Ba Đình,Phường,1,21.0001,105.698,4,21.03860,105.838,2.97
2,Thành phố Hà Nội,Phường Ngọc Hà,Hà Nội,Ngọc Hà,Phường,1,21.0001,105.698,8,21.03810,105.816,2.68
3,Thành phố Hà Nội,Phường Giảng Võ,Hà Nội,Giảng Võ,Phường,1,21.0001,105.698,25,21.02750,105.814,2.60
4,Thành phố Hà Nội,Phường Hoàn Kiếm,Hà Nội,Hoàn Kiếm,Phường,1,21.0001,105.698,70,21.03200,105.850,1.91
...,...,...,...,...,...,...,...,...,...,...,...,...
3316,Tỉnh Cà Mau,Xã Phú Tân,Cà Mau,Phú Tân,Xã,96,9.1362,105.182,32218,8.92852,104.846,101.70
3317,Tỉnh Cà Mau,Xã Nguyễn Việt Khái,Cà Mau,Nguyễn Việt Khái,Xã,96,9.1362,105.182,32227,8.86914,104.930,129.90
3318,Tỉnh Cà Mau,Xã Tân Ân,Cà Mau,Tân Ân,Xã,96,9.1362,105.182,32236,8.72769,105.078,218.30
3319,Tỉnh Cà Mau,Xã Phan Ngọc Hiển,Cà Mau,Phan Ngọc Hiển,Xã,96,9.1362,105.182,32244,8.64616,104.943,237.70


In [5]:
# ENRICH DATA
unit_cols = ['province', 'ward']
level_map = {
    'province': 1,
    'ward': 2
}

for col in unit_cols:
    # Create short version
    level = level_map[col]
    # df[f"{col}Short"] = df[col].apply(create_sort, args=(level,))

    df[f"{col}Code"] = df[f"{col}Code"].apply(zill_code, args=(level,))

    # Create key
    df[f"{col}Key"] = df[f"{col}"].apply(key_normalize)

    # Create short key
    df[f"{col}ShortKey"] = df[f"{col}Short"].apply(key_normalize)

In [6]:
# -- CREATE ALIAS
# Khởi tạo cột alias rỗng
for col in ['province', 'ward']:
    df[f"{col}Alias"] = np.nan

# Province alias data
province_alias_data = {
    'thudohanoi': ['hn'],
    'thanhphohochiminh': ['hcm'],
}

# Ward alias data (theo từng province)
ward_alias_data = {
    # 'thanhphohochiminh': {
    #     'wardkey': ['quan9', 'quan2']
    # }
}


# Gán provinceAlias
for key, value in province_alias_data.items():
    df.loc[df['provinceKey'] == key, 'provinceAlias'] = json.dumps(value)

# Gán wardAlias
for province_key, ward_data in ward_alias_data.items():
    for ward_key, value in ward_data.items():
        df.loc[
            (df['provinceKey'] == province_key) & (df['wardKey'] == ward_key), 'wardAlias'] = json.dumps(value)

In [7]:
# Check ward key
count_ward_key = df.groupby(['province', 'wardKey']).size().reset_index(name='count').sort_values(by=['count'], ascending=False)
duplicated_ward_key = count_ward_key[count_ward_key['count']>1].copy()
duplicated_ward_key['wardKeyDuplicated'] = True
duplicated_ward_key.drop(columns=['count'], inplace=True)
duplicated_ward_key

Unnamed: 0,province,wardKey,wardKeyDuplicated
3299,Tỉnh Đồng Tháp,xatanthanh,True
2084,Tỉnh Quảng Ngãi,xabato,True
542,Thành phố Hồ Chí Minh,xathanhan,True
2140,Tỉnh Quảng Ngãi,xasonha,True
2829,Tỉnh Tây Ninh,xatanthanh,True
325,Thành phố Hải Phòng,xacamgiang,True
3168,Tỉnh Đồng Nai,xalocthanh,True
2618,Tỉnh Thái Nguyên,xavanlang,True


In [8]:
# Add data to df
df = pd.merge(df, duplicated_ward_key, on=['province', 'wardKey'], how='left')
df['wardKeyDuplicated'].fillna(False, inplace=True)

# Change key and short key to accented if wardKeyDuplicated = True
df['wardKey'] = np.where(df['wardKeyDuplicated']==True, df['ward'].apply(key_normalize, args=([], False)), df['wardKey'])
df['wardShortKey'] = np.where(df['wardKeyDuplicated']==True, df['wardShort'].apply(key_normalize, args=([], False)), df['wardShortKey'])
df[df['wardKeyDuplicated']==True]

Unnamed: 0,province,ward,provinceShort,wardShort,wardType,provinceCode,provinceLat,provinceLon,wardCode,wardLat,wardLon,wardAreaKm2,provinceKey,provinceShortKey,wardKey,wardShortKey,provinceAlias,wardAlias,wardKeyDuplicated
287,Tỉnh Thái Nguyên,Xã Văn Lang,Thái Nguyên,Văn Lang,Xã,19,22.0239,105.824,2143,22.2586,106.061,54.06,tinhthainguyen,thainguyen,xãvănlang,vănlang,,,True
671,Tỉnh Thái Nguyên,Xã Văn Lăng,Thái Nguyên,Văn Lăng,Xã,19,22.0239,105.824,5665,21.7857,105.829,75.27,tinhthainguyen,thainguyen,xãvănlăng,vănlăng,,,True
1059,Thành phố Hải Phòng,Xã Cẩm Giang,Hải Phòng,Cẩm Giang,Xã,31,20.8759,106.47,10888,20.9687,106.21,26.64,thanhphohaiphong,haiphong,xãcẩmgiang,cẩmgiang,,,True
1060,Thành phố Hải Phòng,Xã Cẩm Giàng,Hải Phòng,Cẩm Giàng,Xã,31,20.8759,106.47,10903,20.9631,106.157,23.43,thanhphohaiphong,haiphong,xãcẩmgiàng,cẩmgiàng,,,True
1969,Tỉnh Quảng Ngãi,Xã Sơn Hà,Quảng Ngãi,Sơn Hà,Xã,51,14.7688,108.143,21289,15.0449,108.434,163.44,tinhquangngai,quangngai,xãsơnhà,sơnhà,,,True
1970,Tỉnh Quảng Ngãi,Xã Sơn Hạ,Quảng Ngãi,Sơn Hạ,Xã,51,14.7688,108.143,21292,15.0928,108.538,154.29,tinhquangngai,quangngai,xãsơnhạ,sơnhạ,,,True
1992,Tỉnh Quảng Ngãi,Xã Ba Tơ,Quảng Ngãi,Ba Tơ,Xã,51,14.7688,108.143,21484,14.7378,108.738,120.91,tinhquangngai,quangngai,xãbatơ,batơ,,,True
1998,Tỉnh Quảng Ngãi,Xã Ba Tô,Quảng Ngãi,Ba Tô,Xã,51,14.7688,108.143,21523,14.647,108.66,274.4,tinhquangngai,quangngai,xãbatô,batô,,,True
2478,Tỉnh Đồng Nai,Xã Lộc Thạnh,Đồng Nai,Lộc Thạnh,Xã,75,11.4369,107.034,25280,11.9365,106.576,125.5,tinhdongnai,dongnai,xãlộcthạnh,lộcthạnh,,,True
2482,Tỉnh Đồng Nai,Xã Lộc Thành,Đồng Nai,Lộc Thành,Xã,75,11.4369,107.034,25294,11.7661,106.494,206.1,tinhdongnai,dongnai,xãlộcthành,lộcthành,,,True


In [9]:
# Check ward short key
count_ward_short_key = df.groupby(['province', 'wardShortKey']).size().reset_index(name='count').sort_values(by=['count'], ascending=False)
duplicated_ward_short_key = count_ward_short_key[count_ward_short_key['count']>1].copy()
duplicated_ward_short_key['wardShortKeyDuplicated'] = True
duplicated_ward_short_key.drop(columns=['count'], inplace=True)
duplicated_ward_short_key

Unnamed: 0,province,wardShortKey,wardShortKeyDuplicated
2398,Tỉnh Thanh Hóa,dongtien,True
3269,Tỉnh Đồng Tháp,mytho,True


In [10]:
# Add data to df
df = pd.merge(df, duplicated_ward_short_key, on=['province', 'wardShortKey'], how='left')
df['wardShortKeyDuplicated'].fillna(False, inplace=True)
df[df['wardShortKeyDuplicated']==True]
# Cần bổ sung dạng DICT mà wardKey là no accented mà shortKey là accented

Unnamed: 0,province,ward,provinceShort,wardShort,wardType,provinceCode,provinceLat,provinceLon,wardCode,wardLat,wardLon,wardAreaKm2,provinceKey,provinceShortKey,wardKey,wardShortKey,provinceAlias,wardAlias,wardKeyDuplicated,wardShortKeyDuplicated
1372,Tỉnh Thanh Hóa,Phường Đông Tiến,Thanh Hóa,Đông Tiến,Phường,38,20.0468,105.317,15853,19.8511,105.727,41.97,tinhthanhhoa,thanhhoa,phuongdongtien,dongtien,,,False,True
1472,Tỉnh Thanh Hóa,Xã Đồng Tiến,Thanh Hóa,Đồng Tiến,Xã,38,20.0468,105.317,15724,19.768,105.679,19.96,tinhthanhhoa,thanhhoa,xadongtien,dongtien,,,False,True
2828,Tỉnh Đồng Tháp,Phường Mỹ Tho,Đồng Tháp,Mỹ Tho,Phường,82,10.4293,105.999,28261,10.3501,106.375,6.4,tinhdongthap,dongthap,phuongmytho,mytho,,,False,True
3035,Tỉnh Đồng Tháp,Xã Mỹ Thọ,Đồng Tháp,Mỹ Thọ,Xã,82,10.4293,105.999,30076,10.4458,105.718,61.5,tinhdongthap,dongthap,xamytho,mytho,,,False,True


In [11]:
# Create keywords
for col in unit_cols:
    level = level_map[col]
    df[f"{col}Keywords"] = df.apply(lambda row: create_keywords(row, level=level), axis=1)

In [12]:
# Province map
df_province = df[['provinceKey', 'provinceKeywords', 'province', 'provinceShort', 'provinceLat', 'provinceLon', 'provinceCode']].drop_duplicates().reset_index(drop=True)
DICT_PROVINCE = {}
for _, row in df_province.iterrows():
    DICT_PROVINCE[row['provinceKey']] = {
        'provinceKeywords': json.loads(row['provinceKeywords']),
        'province': row['province'],
        'provinceShort': row['provinceShort'],
        'provinceLat': row['provinceLat'],
        'provinceLon': row['provinceLon'],
        'provinceCode': row['provinceCode'],
    }

In [13]:
def build_province_ward_dict(df, short_name_key=False):
    result = {}

    # Nhóm theo provinceKey
    grouped = df.groupby('provinceKey')

    for province_key, group in grouped:
        ward_dict = {}

        for _, row in group.iterrows():
            ward_key = row['wardKey']
            if short_name_key:
                ward_keywords = [key_normalize(row['wardShort'], decode=False)]
            else:
                ward_keywords = json.loads(row['wardKeywords']) if pd.notnull(row['wardKeywords']) else []
            ward_dict[ward_key] = {
                'wardKeywords': ward_keywords,
                'ward': row['ward'],
                'wardType': row['wardType'],
                'wardShort': row['wardShort'],
                'wardLat': row['wardLat'],
                'wardLon': row['wardLon'],
                'wardCode': row['wardCode'],
            }

        result[province_key] = ward_dict

    return result

df_ward_no_accented = df[df['wardKeyDuplicated'] == False]
df_ward_accented = df[df['wardKeyDuplicated'] == True]

DICT_PROVINCE_WARD_NO_ACCENTED = build_province_ward_dict(df_ward_no_accented)
DICT_PROVINCE_WARD_ACCENTED = build_province_ward_dict(df_ward_accented)

df_ward_short_accented = df[df['wardShortKeyDuplicated']]
DICT_PROVINCE_WARD_SHORT_ACCENTED = build_province_ward_dict(df_ward_short_accented, short_name_key=True)

In [14]:
DICT_PROVINCE_WARD_SHORT_ACCENTED

{'tinhdongthap': {'phuongmytho': {'wardKeywords': ['mỹtho'],
   'ward': 'Phường Mỹ Tho',
   'wardType': 'Phường',
   'wardShort': 'Mỹ Tho',
   'wardLat': 10.3501,
   'wardLon': 106.375,
   'wardCode': '28261'},
  'xamytho': {'wardKeywords': ['mỹthọ'],
   'ward': 'Xã Mỹ Thọ',
   'wardType': 'Xã',
   'wardShort': 'Mỹ Thọ',
   'wardLat': 10.4458,
   'wardLon': 105.718,
   'wardCode': '30076'}},
 'tinhthanhhoa': {'phuongdongtien': {'wardKeywords': ['đôngtiến'],
   'ward': 'Phường Đông Tiến',
   'wardType': 'Phường',
   'wardShort': 'Đông Tiến',
   'wardLat': 19.8511,
   'wardLon': 105.727,
   'wardCode': '15853'},
  'xadongtien': {'wardKeywords': ['đồngtiến'],
   'ward': 'Xã Đồng Tiến',
   'wardType': 'Xã',
   'wardShort': 'Đồng Tiến',
   'wardLat': 19.768,
   'wardLon': 105.679,
   'wardCode': '15724'}}}

In [15]:
# Lấy danh sách các wardShortKey không trùng với bất kỳ hàng nào khác (trừ chính nó) và không trùng provinceShortKey
province_short_keys = set(df['provinceShortKey'].unique())
ward_short_key_counts = df['wardShortKey'].value_counts()

# Điều kiện wardUnique: xuất hiện đúng 1 lần và không nằm trong province_short_keys
df['wardUnique'] = df['wardShortKey'].map(ward_short_key_counts) == 1
df['wardUnique'] &= ~df['wardShortKey'].isin(province_short_keys)

# Chia nhỏ theo wardKeyDuplicated
df_ward_unique = df[df['wardUnique']]
df_ward_unique_accented = df_ward_unique[df_ward_unique['wardKeyDuplicated']]
df_ward_unique_no_accented = df_ward_unique[~df_ward_unique['wardKeyDuplicated']]

# Tạo dict bằng dictionary comprehension
DICT_UNIQUE_WARD_PROVINCE_NO_ACCENTED = {
    row['wardKey']: {
        'wardKeywords': json.loads(row['wardKeywords']),
        'provinceKey': row['provinceKey']
    }
    for _, row in df_ward_unique_no_accented.iterrows()
}

DICT_UNIQUE_WARD_PROVINCE_ACCENTED = {
    row['wardKey']: {
        'wardKeywords': json.loads(row['wardKeywords']),
        'provinceKey': row['provinceKey']
    }
    for _, row in df_ward_unique_accented.iterrows()
}

In [16]:
pickle_data = {
    'DICT_PROVINCE': DICT_PROVINCE,
    'DICT_PROVINCE_WARD_NO_ACCENTED': DICT_PROVINCE_WARD_NO_ACCENTED,
    'DICT_PROVINCE_WARD_ACCENTED': DICT_PROVINCE_WARD_ACCENTED,
    'DICT_UNIQUE_WARD_PROVINCE_NO_ACCENTED': DICT_UNIQUE_WARD_PROVINCE_NO_ACCENTED,
    'DICT_UNIQUE_WARD_PROVINCE_ACCENTED': DICT_UNIQUE_WARD_PROVINCE_ACCENTED,
    'DICT_PROVINCE_WARD_SHORT_ACCENTED': DICT_PROVINCE_WARD_SHORT_ACCENTED
}

In [17]:
with open(BASE_DIR / 'vietnamadminunits/data/parser_from_2025.json', 'w') as f:
    json.dump(pickle_data, f)

In [18]:
import sqlite3
with sqlite3.connect(BASE_DIR / 'vietnamadminunits/data/dataset.db') as conn:
    df.to_sql('admin_units', conn, if_exists='replace', index=False)