In [1]:
from vietnamadminunits.database import get_data
from vietnamadminunits.pandas import standardize_admin_unit_columns
from vietnamadminunits import parse_address, ParseMode, convert_address, ConvertMode
import pandas as pd

## Testing core functions

In [11]:
# Parse a new administrative unit address
address = '70 Nguyễn Sỹ Sách, Tan Son, tp.HCM'

admin_unit = parse_address(address)

print(admin_unit)

Admin Unit: 70 Nguyễn Sỹ Sách, Phường Tân Sơn, Thành phố Hồ Chí Minh
Attribute       | Value                    
----------------------------------------
province        | Thành phố Hồ Chí Minh    
ward            | Phường Tân Sơn           
street          | 70 Nguyễn Sỹ Sách        
short_province  | Hồ Chí Minh              
short_ward      | Tân Sơn                  
ward_type       | Phường                   
latitude        | 10.8224                  
longitude       | 106.65                   


In [12]:
# Parse an old administrative unit address
address = '70 nguyễn sỹ sách, p.15, Tân Bình, Tp.HCM' # Old administrative unit address structure

admin_unit = parse_address(address, mode='LEGACY', level=3) # Use 'LEGACY' or ParseMode.LEGACY for mode

print(admin_unit)

Admin Unit: 70 Nguyễn Sỹ Sách, Phường 15, Quận Tân Bình, Thành phố Hồ Chí Minh
Attribute       | Value                    
----------------------------------------
province        | Thành phố Hồ Chí Minh    
district        | Quận Tân Bình            
ward            | Phường 15                
street          | 70 Nguyễn Sỹ Sách        
short_province  | Hồ Chí Minh              
short_district  | Tân Bình                 
short_ward      | Phường 15                
district_type   | Quận                     
ward_type       | Phường                   
latitude        | 10.823333                
longitude       | 106.63616                


In [13]:
# Convert address
address = '70 nguyễn sỹ sách, p.15, Tân Bình, Tp.HCM' # Old administrative unit address structure

admin_unit = convert_address(address)

print(admin_unit)

Admin Unit: 70 Nguyễn Sỹ Sách, Phường Tân Sơn, Thành phố Hồ Chí Minh
Attribute       | Value                    
----------------------------------------
province        | Thành phố Hồ Chí Minh    
ward            | Phường Tân Sơn           
street          | 70 Nguyễn Sỹ Sách        
short_province  | Hồ Chí Minh              
short_ward      | Tân Sơn                  
ward_type       | Phường                   
latitude        | 10.8224                  
longitude       | 106.65                   


In [18]:
# Get data
print(get_data(limit=2))
print('-'*50)
print(get_data(table='admin_units_legacy', limit=2))

[{'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hồng Hà', 'provinceShort': 'Hà Nội', 'wardShort': 'Hồng Hà', 'wardType': 'Phường', 'provinceCode': 1, 'provinceLat': 21.0001, 'provinceLon': 105.698, 'wardCode': 42.0, 'wardLat': 21.0567, 'wardLon': 105.845, 'wardAreaKm2': 15.09, 'provinceKey': 'thudohanoi', 'provinceShortKey': 'hanoi', 'wardKey': 'phuonghongha', 'wardShortKey': 'hongha', 'provinceAlias': '["hn"]', 'wardAlias': None, 'wardKeyDuplicated': 0, 'wardShortKeyDuplicated': 0, 'provinceKeywords': '["thudohanoi", "hanoi", "hn"]', 'wardKeywords': '["phuonghongha", "hongha"]', 'wardUnique': 1}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ba Đình', 'provinceShort': 'Hà Nội', 'wardShort': 'Ba Đình', 'wardType': 'Phường', 'provinceCode': 1, 'provinceLat': 21.0001, 'provinceLon': 105.698, 'wardCode': 3.0, 'wardLat': 21.0386, 'wardLon': 105.838, 'wardAreaKm2': 2.97, 'provinceKey': 'thudohanoi', 'provinceShortKey': 'hanoi', 'wardKey': 'phuongbadinh', 'wardShortKey': 'badinh', 'provinceAl

## Testing multiple functions with DataFrame

In [21]:
# Standardize new administrative unit columns
df = pd.DataFrame(get_data(fields=['province', 'ward']))
df = standardize_admin_unit_columns(df, province='province', ward='ward', short_name=False)
df

Unnamed: 0,province,ward,standardized_province,standardized_ward
0,Thủ đô Hà Nội,Phường Hồng Hà,Thủ đô Hà Nội,Phường Hồng Hà
1,Thủ đô Hà Nội,Phường Ba Đình,Thủ đô Hà Nội,Phường Ba Đình
2,Thủ đô Hà Nội,Phường Ngọc Hà,Thủ đô Hà Nội,Phường Ngọc Hà
3,Thủ đô Hà Nội,Phường Giảng Võ,Thủ đô Hà Nội,Phường Giảng Võ
4,Thủ đô Hà Nội,Phường Hoàn Kiếm,Thủ đô Hà Nội,Phường Hoàn Kiếm
...,...,...,...,...
3316,Tỉnh Cà Mau,Xã Phú Tân,Tỉnh Cà Mau,Xã Phú Tân
3317,Tỉnh Cà Mau,Xã Nguyễn Việt Khái,Tỉnh Cà Mau,Xã Nguyễn Việt Khái
3318,Tỉnh Cà Mau,Xã Tân Ân,Tỉnh Cà Mau,Xã Tân Ân
3319,Tỉnh Cà Mau,Xã Phan Ngọc Hiển,Tỉnh Cà Mau,Xã Phan Ngọc Hiển


In [29]:
df.describe()

Unnamed: 0,provinceShort,districtShort,wardShort,standardized_provinceShort,standardized_districtShort,standardized_wardShort
count,10040,10040,10035,10040,10040,10035
unique,63,672,6972,63,672,6972
top,Thanh Hóa,Châu Thành,Phường 1,Thanh Hóa,Châu Thành,Phường 1
freq,547,129,33,547,129,33


In [23]:
# Standardize new administrative unit columns
df = pd.DataFrame(get_data(fields=['provinceShort', 'wardShort']))
df = standardize_admin_unit_columns(df, province='provinceShort', ward='wardShort', short_name=True)
df

Unnamed: 0,provinceShort,wardShort,standardized_provinceShort,standardized_wardShort
0,Hà Nội,Hồng Hà,Hà Nội,Hồng Hà
1,Hà Nội,Ba Đình,Hà Nội,Ba Đình
2,Hà Nội,Ngọc Hà,Hà Nội,Ngọc Hà
3,Hà Nội,Giảng Võ,Hà Nội,Giảng Võ
4,Hà Nội,Hoàn Kiếm,Hà Nội,Hoàn Kiếm
...,...,...,...,...
3316,Cà Mau,Phú Tân,Cà Mau,Phú Tân
3317,Cà Mau,Nguyễn Việt Khái,Cà Mau,Nguyễn Việt Khái
3318,Cà Mau,Tân Ân,Cà Mau,Tân Ân
3319,Cà Mau,Phan Ngọc Hiển,Cà Mau,Phan Ngọc Hiển


In [30]:
df.describe()

Unnamed: 0,provinceShort,districtShort,wardShort,standardized_provinceShort,standardized_districtShort,standardized_wardShort
count,10040,10040,10035,10040,10040,10035
unique,63,672,6972,63,672,6972
top,Thanh Hóa,Châu Thành,Phường 1,Thanh Hóa,Châu Thành,Phường 1
freq,547,129,33,547,129,33


In [24]:
# Standardize old administrative unit columns
df = pd.DataFrame(get_data(fields=['province', 'district', 'ward'], table='admin_units_legacy'))
df = standardize_admin_unit_columns(df, province='province', district='district', ward='ward', parse_mode='LEGACY', short_name=False)
df

Unnamed: 0,province,district,ward,standardized_province,standardized_district,standardized_ward
0,Thành phố Hà Nội,Quận Ba Đình,Phường Phúc Xá,Thành phố Hà Nội,Quận Ba Đình,Phường Phúc Xá
1,Thành phố Hà Nội,Quận Ba Đình,Phường Trúc Bạch,Thành phố Hà Nội,Quận Ba Đình,Phường Trúc Bạch
2,Thành phố Hà Nội,Quận Ba Đình,Phường Vĩnh Phúc,Thành phố Hà Nội,Quận Ba Đình,Phường Vĩnh Phúc
3,Thành phố Hà Nội,Quận Ba Đình,Phường Cống Vị,Thành phố Hà Nội,Quận Ba Đình,Phường Cống Vị
4,Thành phố Hà Nội,Quận Ba Đình,Phường Liễu Giai,Thành phố Hà Nội,Quận Ba Đình,Phường Liễu Giai
...,...,...,...,...,...,...
10035,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An Đông,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An Đông
10036,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An
10037,Tỉnh Cà Mau,Huyện Ngọc Hiển,Thị trấn Rạch Gốc,Tỉnh Cà Mau,Huyện Ngọc Hiển,Thị trấn Rạch Gốc
10038,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Tân Ân,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Tân Ân


In [28]:
df.describe()

Unnamed: 0,provinceShort,districtShort,wardShort,standardized_provinceShort,standardized_districtShort,standardized_wardShort
count,10040,10040,10035,10040,10040,10035
unique,63,672,6972,63,672,6972
top,Thanh Hóa,Châu Thành,Phường 1,Thanh Hóa,Châu Thành,Phường 1
freq,547,129,33,547,129,33


In [26]:
# Standardize old administrative unit columns
df = pd.DataFrame(get_data(fields=['provinceShort', 'districtShort', 'wardShort'], table='admin_units_legacy'))
df = standardize_admin_unit_columns(df, province='provinceShort', district='districtShort', ward='wardShort', parse_mode='LEGACY', short_name=True)
df

Unnamed: 0,provinceShort,districtShort,wardShort,standardized_provinceShort,standardized_districtShort,standardized_wardShort
0,Hà Nội,Ba Đình,Phúc Xá,Hà Nội,Ba Đình,Phúc Xá
1,Hà Nội,Ba Đình,Trúc Bạch,Hà Nội,Ba Đình,Trúc Bạch
2,Hà Nội,Ba Đình,Vĩnh Phúc,Hà Nội,Ba Đình,Vĩnh Phúc
3,Hà Nội,Ba Đình,Cống Vị,Hà Nội,Ba Đình,Cống Vị
4,Hà Nội,Ba Đình,Liễu Giai,Hà Nội,Ba Đình,Liễu Giai
...,...,...,...,...,...,...
10035,Cà Mau,Ngọc Hiển,Viên An Đông,Cà Mau,Ngọc Hiển,Viên An Đông
10036,Cà Mau,Ngọc Hiển,Viên An,Cà Mau,Ngọc Hiển,Viên An
10037,Cà Mau,Ngọc Hiển,Rạch Gốc,Cà Mau,Ngọc Hiển,Rạch Gốc
10038,Cà Mau,Ngọc Hiển,Tân Ân,Cà Mau,Ngọc Hiển,Tân Ân


In [27]:
df.describe()

Unnamed: 0,provinceShort,districtShort,wardShort,standardized_provinceShort,standardized_districtShort,standardized_wardShort
count,10040,10040,10035,10040,10040,10035
unique,63,672,6972,63,672,6972
top,Thanh Hóa,Châu Thành,Phường 1,Thanh Hóa,Châu Thành,Phường 1
freq,547,129,33,547,129,33


In [31]:
# Convert old administrative unit columns to new administrative unit columns
df = pd.DataFrame(get_data(fields=['province', 'district', 'ward'], table='admin_units_legacy'))
df = standardize_admin_unit_columns(df, province='province', district='district', ward='ward', convert_mode='CONVERT_2025', short_name=False)
df

Unnamed: 0,province,district,ward,standardized_province,standardized_ward
0,Thành phố Hà Nội,Quận Ba Đình,Phường Phúc Xá,Thủ đô Hà Nội,Phường Hồng Hà
1,Thành phố Hà Nội,Quận Ba Đình,Phường Trúc Bạch,Thủ đô Hà Nội,Phường Ba Đình
2,Thành phố Hà Nội,Quận Ba Đình,Phường Vĩnh Phúc,Thủ đô Hà Nội,Phường Ngọc Hà
3,Thành phố Hà Nội,Quận Ba Đình,Phường Cống Vị,Thủ đô Hà Nội,Phường Ngọc Hà
4,Thành phố Hà Nội,Quận Ba Đình,Phường Liễu Giai,Thủ đô Hà Nội,Phường Ngọc Hà
...,...,...,...,...,...
10035,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An Đông,Tỉnh Cà Mau,Xã Phan Ngọc Hiển
10036,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Viên An,Tỉnh Cà Mau,Xã Đất Mũi
10037,Tỉnh Cà Mau,Huyện Ngọc Hiển,Thị trấn Rạch Gốc,Tỉnh Cà Mau,Xã Phan Ngọc Hiển
10038,Tỉnh Cà Mau,Huyện Ngọc Hiển,Xã Tân Ân,Tỉnh Cà Mau,Xã Phan Ngọc Hiển


In [32]:
df.describe()

Unnamed: 0,province,district,ward,standardized_province,standardized_ward
count,10040,10040,10035,10040,10035
unique,63,681,7572,34,3009
top,Tỉnh Thanh Hóa,Huyện Châu Thành,Phường 1,Tỉnh Thanh Hóa,Xã Tân Tiến
freq,547,129,33,547,18
