In [1]:
from vietnamadminunits.database import get_data
from vietnamadminunits.pandas import standardize_admin_unit_columns, convert_address_column
from vietnamadminunits import parse_address, ParseMode, convert_address, ConvertMode
import pandas as pd

## Testing core functions

In [2]:
# Parse a new administrative unit address
address = '70 Nguyễn Sỹ Sách, Tan Son, tp.HCM'

admin_unit = parse_address(address)

print(admin_unit)

Admin Unit: 70 Nguyễn Sỹ Sách, Phường Tân Sơn, Thành phố Hồ Chí Minh
Attribute       | Value                    
----------------------------------------
province        | Thành phố Hồ Chí Minh    
ward            | Phường Tân Sơn           
street          | 70 Nguyễn Sỹ Sách        
short_province  | Hồ Chí Minh              
short_ward      | Tân Sơn                  
ward_type       | Phường                   
province_code   | 79                       
ward_code       | 27007                    
latitude        | 10.8224                  
longitude       | 106.65                   


In [3]:
# Parse an old administrative unit address
address = '70 nguyễn sỹ sách, p.15, Tân Bình, Tp.HCM' # Old administrative unit address structure

admin_unit = parse_address(address, mode='LEGACY', level=3) # Use 'LEGACY' or ParseMode.LEGACY for mode

print(admin_unit)

Admin Unit: 70 Nguyễn Sỹ Sách, Phường 15, Quận Tân Bình, Thành phố Hồ Chí Minh
Attribute       | Value                    
----------------------------------------
province        | Thành phố Hồ Chí Minh    
district        | Quận Tân Bình            
ward            | Phường 15                
street          | 70 Nguyễn Sỹ Sách        
short_province  | Hồ Chí Minh              
short_district  | Tân Bình                 
short_ward      | Phường 15                
district_type   | Quận                     
ward_type       | Phường                   
province_code   | 79                       
district_code   | 766                      
ward_code       | 27007                    
latitude        | 10.823333                
longitude       | 106.63616                


In [4]:
# Convert address
address = '70 nguyễn sỹ sách, p.15, Tân Bình, Tp.HCM' # Old administrative unit address structure

admin_unit = convert_address(address)

print(admin_unit)

Admin Unit: 70 Nguyễn Sỹ Sách, Phường Tân Sơn, Thành phố Hồ Chí Minh
Attribute       | Value                    
----------------------------------------
province        | Thành phố Hồ Chí Minh    
ward            | Phường Tân Sơn           
street          | 70 Nguyễn Sỹ Sách        
short_province  | Hồ Chí Minh              
short_ward      | Tân Sơn                  
ward_type       | Phường                   
province_code   | 79                       
ward_code       | 27007                    
latitude        | 10.8224                  
longitude       | 106.65                   


In [5]:
# Get data
print(get_data(limit=2))
print('-'*50)
print(get_data(table='admin_units_legacy', limit=2))

[{'province': 'Thành phố Hà Nội', 'ward': 'Phường Hồng Hà', 'provinceShort': 'Hà Nội', 'wardShort': 'Hồng Hà', 'wardType': 'Phường', 'provinceCode': '01', 'provinceLat': 21.0001, 'provinceLon': 105.698, 'wardCode': '00097', 'wardLat': 21.0567, 'wardLon': 105.845, 'wardAreaKm2': 15.09, 'provinceKey': 'thanhphohanoi', 'provinceShortKey': 'hanoi', 'wardKey': 'phuonghongha', 'wardShortKey': 'hongha', 'provinceAlias': None, 'wardAlias': None, 'wardKeyDuplicated': 0, 'wardShortKeyDuplicated': 0, 'provinceKeywords': '["thanhphohanoi", "hanoi"]', 'wardKeywords': '["phuonghongha", "hongha"]', 'wardUnique': 1}, {'province': 'Thành phố Hà Nội', 'ward': 'Phường Ba Đình', 'provinceShort': 'Hà Nội', 'wardShort': 'Ba Đình', 'wardType': 'Phường', 'provinceCode': '01', 'provinceLat': 21.0001, 'provinceLon': 105.698, 'wardCode': '00004', 'wardLat': 21.0386, 'wardLon': 105.838, 'wardAreaKm2': 2.97, 'provinceKey': 'thanhphohanoi', 'provinceShortKey': 'hanoi', 'wardKey': 'phuongbadinh', 'wardShortKey': 'ba

## Testing multiple functions with DataFrame

In [6]:
# Standardize new administrative unit columns
df = pd.DataFrame(get_data(fields=['province', 'ward']))
df = standardize_admin_unit_columns(df, province='province', ward='ward', short_name=False)
df

Standardizing unique administrative units: 100%|██████████| 3321/3321 [00:00<00:00, 14389.65it/s]


Unnamed: 0,province,ward,standardized_province,standardized_ward
0,Thành phố Hà Nội,Phường Hồng Hà,Thành phố Hà Nội,Phường Hồng Hà
1,Thành phố Hà Nội,Phường Ba Đình,Thành phố Hà Nội,Phường Ba Đình
2,Thành phố Hà Nội,Phường Ngọc Hà,Thành phố Hà Nội,Phường Ngọc Hà
3,Thành phố Hà Nội,Phường Giảng Võ,Thành phố Hà Nội,Phường Giảng Võ
4,Thành phố Hà Nội,Phường Hoàn Kiếm,Thành phố Hà Nội,Phường Hoàn Kiếm
...,...,...,...,...
3316,Tỉnh Cà Mau,Xã Phú Tân,Tỉnh Cà Mau,Xã Phú Tân
3317,Tỉnh Cà Mau,Xã Nguyễn Việt Khái,Tỉnh Cà Mau,Xã Nguyễn Việt Khái
3318,Tỉnh Cà Mau,Xã Tân Ân,Tỉnh Cà Mau,Xã Tân Ân
3319,Tỉnh Cà Mau,Xã Phan Ngọc Hiển,Tỉnh Cà Mau,Xã Phan Ngọc Hiển


In [7]:
df.describe()

Unnamed: 0,province,ward,standardized_province,standardized_ward
count,3321,3321,3321,3321
unique,34,2991,34,2991
top,Thành phố Hồ Chí Minh,Xã Tân Thành,Thành phố Hồ Chí Minh,Xã Tân Thành
freq,168,7,168,7


In [8]:
# Standardize new administrative unit columns
df = pd.DataFrame(get_data(fields=['provinceShort', 'wardShort']))
df = standardize_admin_unit_columns(df, province='provinceShort', ward='wardShort', short_name=True)
df

Standardizing unique administrative units: 100%|██████████| 3321/3321 [00:00<00:00, 20639.37it/s]


Unnamed: 0,provinceShort,wardShort,standardized_provinceShort,standardized_wardShort
0,Hà Nội,Hồng Hà,Hà Nội,Hồng Hà
1,Hà Nội,Ba Đình,Hà Nội,Ba Đình
2,Hà Nội,Ngọc Hà,Hà Nội,Ngọc Hà
3,Hà Nội,Giảng Võ,Hà Nội,Giảng Võ
4,Hà Nội,Hoàn Kiếm,Hà Nội,Hoàn Kiếm
...,...,...,...,...
3316,Cà Mau,Phú Tân,Cà Mau,Phú Tân
3317,Cà Mau,Nguyễn Việt Khái,Cà Mau,Nguyễn Việt Khái
3318,Cà Mau,Tân Ân,Cà Mau,Tân Ân
3319,Cà Mau,Phan Ngọc Hiển,Cà Mau,Phan Ngọc Hiển


In [9]:
df.describe()

Unnamed: 0,provinceShort,wardShort,standardized_provinceShort,standardized_wardShort
count,3321,3321,3321,3321
unique,34,2848,34,2848
top,Hồ Chí Minh,Tân An,Hồ Chí Minh,Tân An
freq,168,10,168,10


In [10]:
# Standardize old administrative unit columns
df = pd.DataFrame(get_data(fields=['province', 'district', 'ward'], table='admin_units_legacy'))
df = standardize_admin_unit_columns(df, province='province', district='district', ward='ward', parse_mode='LEGACY', short_name=False)
df

Standardizing unique administrative units: 100%|██████████| 10040/10040 [00:00<00:00, 14040.74it/s]


Unnamed: 0,province,district,ward,standardized_province,standardized_district,standardized_ward
0,Thành phố Hà Nội,Quận Ba Đình,Phường Phúc Xá,Thành phố Hà Nội,Quận Ba Đình,Phường Phúc Xá
1,Thành phố Hà Nội,Quận Ba Đình,Phường Trúc Bạch,Thành phố Hà Nội,Quận Ba Đình,Phường Trúc Bạch
2,Thành phố Hà Nội,Quận Ba Đình,Phường Vĩnh Phúc,Thành phố Hà Nội,Quận Ba Đình,Phường Vĩnh Phúc
3,Thành phố Hà Nội,Quận Ba Đình,Phường Cống Vị,Thành phố Hà Nội,Quận Ba Đình,Phường Cống Vị
4,Thành phố Hà Nội,Quận Ba Đình,Phường Liễu Giai,Thành phố Hà Nội,Quận Ba Đình,Phường Liễu Giai
...,...,...,...,...,...,...
10035,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An Đông,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An Đông
10036,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An
10037,Tỉnh Cà Mau,Huyện Ngọc Hiển,Thị trấn Rạch Gốc,Tỉnh Cà Mau,Huyện Ngọc Hiển,Thị trấn Rạch Gốc
10038,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Tân Ân,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Tân Ân


In [11]:
df.describe()

Unnamed: 0,province,district,ward,standardized_province,standardized_district,standardized_ward
count,10040,10040,10035,10040,10040,10035
unique,63,681,7572,63,681,7572
top,Tỉnh Thanh Hóa,Huyện Châu Thành,Phường 1,Tỉnh Thanh Hóa,Huyện Châu Thành,Phường 1
freq,547,129,33,547,129,33


In [19]:
# Standardize old administrative unit columns
df = pd.DataFrame(get_data(fields=['provinceShort', 'districtShort', 'wardShort'], table='admin_units_legacy'))
df = standardize_admin_unit_columns(df, province='provinceShort', district='districtShort', ward='wardShort', parse_mode='LEGACY', short_name=True)
df


Standardizing unique administrative units: 100%|██████████| 10040/10040 [00:00<00:00, 16001.28it/s]


Unnamed: 0,provinceShort,districtShort,wardShort,standardized_provinceShort,standardized_districtShort,standardized_wardShort
0,Hà Nội,Ba Đình,Phúc Xá,Hà Nội,Ba Đình,Phúc Xá
1,Hà Nội,Ba Đình,Trúc Bạch,Hà Nội,Ba Đình,Trúc Bạch
2,Hà Nội,Ba Đình,Vĩnh Phúc,Hà Nội,Ba Đình,Vĩnh Phúc
3,Hà Nội,Ba Đình,Cống Vị,Hà Nội,Ba Đình,Cống Vị
4,Hà Nội,Ba Đình,Liễu Giai,Hà Nội,Ba Đình,Liễu Giai
...,...,...,...,...,...,...
10035,Cà Mau,Ngọc Hiển,Viên An Đông,Cà Mau,Ngọc Hiển,Viên An Đông
10036,Cà Mau,Ngọc Hiển,Viên An,Cà Mau,Ngọc Hiển,Viên An
10037,Cà Mau,Ngọc Hiển,Rạch Gốc,Cà Mau,Ngọc Hiển,Rạch Gốc
10038,Cà Mau,Ngọc Hiển,Tân Ân,Cà Mau,Ngọc Hiển,Tân Ân


In [13]:
df.describe()

Unnamed: 0,provinceShort,districtShort,wardShort,standardized_provinceShort,standardized_districtShort,standardized_wardShort
count,10040,10040,10035,10040,10040,10035
unique,63,672,6972,63,672,6972
top,Thanh Hóa,Châu Thành,Phường 1,Thanh Hóa,Châu Thành,Phường 1
freq,547,129,33,547,129,33


In [14]:
# Convert old administrative unit columns to new administrative unit columns
df = pd.DataFrame(get_data(fields=['province', 'district', 'ward'], table='admin_units_legacy'))
df = standardize_admin_unit_columns(df, province='province', district='district', ward='ward', convert_mode='CONVERT_2025', short_name=False)
df

Standardizing unique administrative units: 100%|██████████| 10040/10040 [00:01<00:00, 7471.31it/s]


Unnamed: 0,province,district,ward,standardized_province,standardized_ward
0,Thành phố Hà Nội,Quận Ba Đình,Phường Phúc Xá,Thành phố Hà Nội,Phường Hồng Hà
1,Thành phố Hà Nội,Quận Ba Đình,Phường Trúc Bạch,Thành phố Hà Nội,Phường Ba Đình
2,Thành phố Hà Nội,Quận Ba Đình,Phường Vĩnh Phúc,Thành phố Hà Nội,Phường Ngọc Hà
3,Thành phố Hà Nội,Quận Ba Đình,Phường Cống Vị,Thành phố Hà Nội,Phường Ngọc Hà
4,Thành phố Hà Nội,Quận Ba Đình,Phường Liễu Giai,Thành phố Hà Nội,Phường Ngọc Hà
...,...,...,...,...,...
10035,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An Đông,Tỉnh Cà Mau,Xã Phan Ngọc Hiển
10036,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An,Tỉnh Cà Mau,Xã Đất Mũi
10037,Tỉnh Cà Mau,Huyện Ngọc Hiển,Thị trấn Rạch Gốc,Tỉnh Cà Mau,Xã Phan Ngọc Hiển
10038,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Tân Ân,Tỉnh Cà Mau,Xã Phan Ngọc Hiển


In [15]:
df[df['standardized_ward'].isna()]

Unnamed: 0,province,district,ward,standardized_province,standardized_ward


In [16]:
df.describe()

Unnamed: 0,province,district,ward,standardized_province,standardized_ward
count,10040,10040,10035,10040,10040
unique,63,681,7572,34,2990
top,Tỉnh Thanh Hóa,Huyện Châu Thành,Phường 1,Tỉnh Thanh Hóa,Xã Tân Tiến
freq,547,129,33,547,20


In [17]:
data = {
    'address': [
        'Ngã 4 xóm ao dài, thôn Tự Khoát, Xã Ngũ Hiệp, Huyện Thanh Trì, Hà Nội',
        '50 ngõ 133 thái hà, hà nội, Phường Trung Liệt, Quận Đống Đa, Hà Nội',
        'P402 CT9A KĐT VIỆT HƯNG, Phường Đức Giang, Quận Long Biên, Hà Nội',
        '169/8A, Thoại Ngọc Hầu, Phường Phú Thạnh, Quận Tân Phú, TP. Hồ Chí Minh',
        '02 lê đại hành, phường 15, quận 11, tp.hcm, Phường 15, Quận 11, TP. Hồ Chí Minh'
    ]
}

df = pd.DataFrame(data)

converted_df = convert_address_column(df, address='address', short_name=False)
print(converted_df.to_markdown(index=False))

Converting unique addresses: 100%|██████████| 5/5 [00:00<00:00,  5.60it/s]

| address                                                                         | converted_address                                           |
|:--------------------------------------------------------------------------------|:------------------------------------------------------------|
| Ngã 4 xóm ao dài, thôn Tự Khoát, Xã Ngũ Hiệp, Huyện Thanh Trì, Hà Nội           | Ngã 4 Xóm Ao Dài, Xã Thanh Trì, Thành phố Hà Nội            |
| 50 ngõ 133 thái hà, hà nội, Phường Trung Liệt, Quận Đống Đa, Hà Nội             | 50 Ngõ 133 Thái Hà, Phường Đống Đa, Thành phố Hà Nội        |
| P402 CT9A KĐT VIỆT HƯNG, Phường Đức Giang, Quận Long Biên, Hà Nội               | P402 Ct9A Kđt Việt Hưng, Phường Việt Hưng, Thành phố Hà Nội |
| 169/8A, Thoại Ngọc Hầu, Phường Phú Thạnh, Quận Tân Phú, TP. Hồ Chí Minh         | 169/8A, Phường Phú Thạnh, Thành phố Hồ Chí Minh             |
| 02 lê đại hành, phường 15, quận 11, tp.hcm, Phường 15, Quận 11, TP. Hồ Chí Minh | 02 Lê Đại Hành, Phường Phú Thọ, Thành ph




In [18]:
data = [
    {'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Tân Định'},
    {'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Đa Kao'},
    {'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Bến Nghé'},
    {'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Bến Thành'},
    {'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Nguyễn Thái Bình'}
]

df = pd.DataFrame(data)

standardized_df = standardize_admin_unit_columns(df, province='province', district='district', ward='ward', convert_mode='CONVERT_2025')

print(standardized_df.to_markdown(index=False))

Standardizing unique administrative units: 100%|██████████| 5/5 [00:00<00:00, 3750.94it/s]

| province              | district   | ward                    | standardized_province   | standardized_ward   |
|:----------------------|:-----------|:------------------------|:------------------------|:--------------------|
| Thành phố Hồ Chí Minh | Quận 1     | Phường Tân Định         | Hồ Chí Minh             | Tân Định            |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Đa Kao           | Hồ Chí Minh             | Sài Gòn             |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Bến Nghé         | Hồ Chí Minh             | Sài Gòn             |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Bến Thành        | Hồ Chí Minh             | Bến Thành           |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Nguyễn Thái Bình | Hồ Chí Minh             | Bến Thành           |



