In [None]:
from vietnamadminunits.database import get_data
from vietnamadminunits.pandas import standardize_admin_unit_columns
import pandas as pd

In [None]:
df = pd.DataFrame(get_data(fields=['province', 'ward']))
df = standardize_admin_unit_columns(df=df, province='province', ward='ward', inplace=False, short_name=False)
df

In [None]:
df_2 = pd.DataFrame(get_data(fields=['province', 'district', 'ward'], table='admin_units_63'))
df_2 = standardize_admin_unit_columns(df=df_2, province='province', district='district', ward='ward', mode=63, inplace=False, short_name=False)
df_2

In [None]:
df_2 = pd.DataFrame(get_data(fields=['province', 'provinceShort', 'district', 'districtShort', 'ward', 'wardShort'], table='admin_units_63'))
df_2 = standardize_admin_unit_columns(df=df_2, province='provinceShort', district='districtShort', ward='wardShort', mode=63, inplace=False, short_name=False)
df_2

In [None]:
df_3 = pd.DataFrame(get_data(fields=['province', 'district', 'ward'], table='admin_units_63')).head()
df_3

In [None]:
standardize_admin_unit_columns(df=df_3, province='province', mode=34, inplace=False, short_name=False, convert_to_latest=True)

In [None]:
import re

DICT_PROVINCE = {
    'thanhphohochiminh': {'provinceKeywords': ['thanhphohochiminh', 'hochiminh', 'hcm']},
    'hanoi': {'provinceKeywords': ['hanoi', 'hn']},
}

# Step 1: Create keywords list, sorted by length desc
province_keywords = sorted(sum([DICT_PROVINCE[k]['provinceKeywords'] for k in DICT_PROVINCE], []), key=len, reverse=True)

# Step 2: Create regex pattern
PATTERN_PROVINCE = re.compile('|'.join(province_keywords), flags=re.IGNORECASE)

# Step 3: Find keyword in address
address_key = 'quan5,hcm'

province_keyword = next((m.group() for m in reversed(list(PATTERN_PROVINCE.finditer(address_key)))), None)

# Step 4: Translate keyword to key
province_key = next((k for k, v in DICT_PROVINCE.items() if province_keyword and province_keyword in [kw for kw in v['provinceKeywords']]), None)

print(province_key) # thanhphohochiminh

In [None]:
from vietnamadminunits import parse_address

address = '70 Nguyễn Sỹ Sách, Tan Son, tp.HCM'

admin_unit = parse_address(address=address, mode=34, keep_street=True, level=2)

print(admin_unit)

In [None]:
print(admin_unit.get_address())

In [None]:
print(admin_unit.province)

In [None]:
from vietnamadminunits import convert_address

In [None]:
address = '70 nguyễn sỹ sách, p.15, Tân Bình, Tp.HCM' # Old admin unit address structure

admin_unit = convert_address(address)

print(admin_unit)

In [30]:
from vietnamadminunits.database import get_data, query
from vietnamadminunits.pandas import standardize_admin_unit_columns
import pandas as pd

In [38]:
data = get_data(fields=['province', 'ward'], limit=5)
print(data)

[{'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hồng Hà'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ba Đình'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ngọc Hà'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Giảng Võ'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hoàn Kiếm'}]


In [40]:
same_date = query("SELECT province, ward FROM admin_units LIMIT 5")
print(same_date)

[{'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hồng Hà'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ba Đình'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ngọc Hà'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Giảng Võ'}, {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hoàn Kiếm'}]


In [35]:
df.to_dict("records")

[{'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hồng Hà'},
 {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ba Đình'},
 {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ngọc Hà'},
 {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Giảng Võ'},
 {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hoàn Kiếm'}]

In [9]:
data = [
    {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hồng Hà'},
    {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ba Đình'},
    {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Ngọc Hà'},
    {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Giảng Võ'},
    {'province': 'Thủ đô Hà Nội', 'ward': 'Phường Hoàn Kiếm'},
]

In [10]:
df = pd.DataFrame(data)

In [17]:
print(df.to_markdown(index=False))

| province      | ward             |
|:--------------|:-----------------|
| Thủ đô Hà Nội | Phường Hồng Hà   |
| Thủ đô Hà Nội | Phường Ba Đình   |
| Thủ đô Hà Nội | Phường Ngọc Hà   |
| Thủ đô Hà Nội | Phường Giảng Võ  |
| Thủ đô Hà Nội | Phường Hoàn Kiếm |


In [14]:
standardized_df = standardize_admin_unit_columns(df=df, province='province', ward='ward', inplace=False, short_name=True)

In [18]:
print(standardized_df.to_markdown(index=False))

| province      | ward             | standardized_province   | standardized_ward   |
|:--------------|:-----------------|:------------------------|:--------------------|
| Thủ đô Hà Nội | Phường Hồng Hà   | Hà Nội                  | Hồng Hà             |
| Thủ đô Hà Nội | Phường Ba Đình   | Hà Nội                  | Ba Đình             |
| Thủ đô Hà Nội | Phường Ngọc Hà   | Hà Nội                  | Ngọc Hà             |
| Thủ đô Hà Nội | Phường Giảng Võ  | Hà Nội                  | Giảng Võ            |
| Thủ đô Hà Nội | Phường Hoàn Kiếm | Hà Nội                  | Hoàn Kiếm           |


In [31]:
query('''SELECT province, district, ward FROM admin_units_63 WHERE province = 'Thành phố Hồ Chí Minh' LIMIT 5 ''')

[{'province': 'Thành phố Hồ Chí Minh',
  'district': 'Quận 1',
  'ward': 'Phường Tân Định'},
 {'province': 'Thành phố Hồ Chí Minh',
  'district': 'Quận 1',
  'ward': 'Phường Đa Kao'},
 {'province': 'Thành phố Hồ Chí Minh',
  'district': 'Quận 1',
  'ward': 'Phường Bến Nghé'},
 {'province': 'Thành phố Hồ Chí Minh',
  'district': 'Quận 1',
  'ward': 'Phường Bến Thành'},
 {'province': 'Thành phố Hồ Chí Minh',
  'district': 'Quận 1',
  'ward': 'Phường Nguyễn Thái Bình'}]

In [21]:
df = pd.DataFrame(get_data(fields=['province', 'district', 'ward'], table='admin_units_63', limit=5))

In [23]:
df.to_dict('records')

[{'province': 'Thành phố Hà Nội',
  'district': 'Quận Ba Đình',
  'ward': 'Phường Phúc Xá'},
 {'province': 'Thành phố Hà Nội',
  'district': 'Quận Ba Đình',
  'ward': 'Phường Trúc Bạch'},
 {'province': 'Thành phố Hà Nội',
  'district': 'Quận Ba Đình',
  'ward': 'Phường Vĩnh Phúc'},
 {'province': 'Thành phố Hà Nội',
  'district': 'Quận Ba Đình',
  'ward': 'Phường Cống Vị'},
 {'province': 'Thành phố Hà Nội',
  'district': 'Quận Ba Đình',
  'ward': 'Phường Liễu Giai'}]

In [32]:
data = [
{'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Tân Định'},
{'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Đa Kao'},
{'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Bến Nghé'},
{'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Bến Thành'},
{'province': 'Thành phố Hồ Chí Minh', 'district': 'Quận 1', 'ward': 'Phường Nguyễn Thái Bình'}
]

df = pd.DataFrame(data)

print(df.to_markdown(index=False))

| province              | district   | ward                    |
|:----------------------|:-----------|:------------------------|
| Thành phố Hồ Chí Minh | Quận 1     | Phường Tân Định         |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Đa Kao           |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Bến Nghé         |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Bến Thành        |
| Thành phố Hồ Chí Minh | Quận 1     | Phường Nguyễn Thái Bình |


In [33]:
standardized_df = standardize_admin_unit_columns(df=df, province='province', district='district', ward='ward', mode=63, inplace=True, short_name=True, convert_to_latest=True)
print(standardized_df.to_markdown(index=False))

| province    | ward      |
|:------------|:----------|
| Hồ Chí Minh | Tân Định  |
| Hồ Chí Minh | Sài Gòn   |
| Hồ Chí Minh | Sài Gòn   |
| Hồ Chí Minh | Bến Thành |
| Hồ Chí Minh | Bến Thành |
