In [1]:
from vietadminunits import parse_address, get_data
import pandas as pd
import re

from unidecode import unidecode

# Demo

In [2]:
parse_address('p2 q5')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hồ Chí Minh                   
district                       | Quận 5                        
ward                           | Phường 2                      
--------------------------------------------------------------
long_province                  | Thành phố Hồ Chí Minh         
long_district                  | Quận 5                        
long_ward                      | Phường 2                      
--------------------------------------------------------------
short_district                 | Quận 5                        
short_ward                     | Phường 2                      
--------------------------------------------------------------
province_english               | Ho Chi Minh                   
district_english               | District 5                    
ward_english            

In [3]:
parse_address('duong p2 q5')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hồ Chí Minh                   
district                       | Quận 5                        
ward                           |                               
--------------------------------------------------------------
long_province                  | Thành phố Hồ Chí Minh         
long_district                  | Quận 5                        
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Quận 5                        
short_ward                     |                               
--------------------------------------------------------------
province_english               | Ho Chi Minh                   
district_english               | District 5                    
ward_english            

In [4]:
parse_address('thu duc')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hồ Chí Minh                   
district                       | Thủ Đức                       
ward                           |                               
--------------------------------------------------------------
long_province                  | Thành phố Hồ Chí Minh         
long_district                  | Thành phố Thủ Đức             
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Thủ Đức                       
short_ward                     |                               
--------------------------------------------------------------
province_english               | Ho Chi Minh                   
district_english               | Thu Duc                       
ward_english            

In [5]:
parse_address('phuong phu trinh, phan thiet, binh thuan')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Bình Thuận                    
district                       | Phan Thiết                    
ward                           | Phú Trinh                     
--------------------------------------------------------------
long_province                  | Tỉnh Bình Thuận               
long_district                  | Thành phố Phan Thiết          
long_ward                      | Phường Phú Trinh              
--------------------------------------------------------------
short_district                 | Phan Thiết                    
short_ward                     | Phú Trinh                     
--------------------------------------------------------------
province_english               | Binh Thuan                    
district_english               | Phan Thiet                    
ward_english            

In [6]:
parse_address('Hoa Loc Mo Cay Ben Tre')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Bến Tre                       
district                       | Mỏ Cày Bắc                    
ward                           | Hòa Lộc                       
--------------------------------------------------------------
long_province                  | Tỉnh Bến Tre                  
long_district                  | Huyện Mỏ Cày Bắc              
long_ward                      | Xã Hòa Lộc                    
--------------------------------------------------------------
short_district                 | Mỏ Cày Bắc                    
short_ward                     | Hòa Lộc                       
--------------------------------------------------------------
province_english               | Ben Tre                       
district_english               | Mo Cay Bac                    
ward_english            

In [7]:
parse_address('Mo Cay Ben Tre')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Bến Tre                       
district                       | Mỏ Cày Nam                    
ward                           | Mỏ Cày                        
--------------------------------------------------------------
long_province                  | Tỉnh Bến Tre                  
long_district                  | Huyện Mỏ Cày Nam              
long_ward                      | Thị trấn Mỏ Cày               
--------------------------------------------------------------
short_district                 | Mỏ Cày Nam                    
short_ward                     | Mỏ Cày                        
--------------------------------------------------------------
province_english               | Ben Tre                       
district_english               | Mo Cay Nam                    
ward_english            

In [8]:
parse_address('Lien Mac Tu Liem Ha Noi')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Bắc Từ Liêm                   
ward                           | Liên Mạc                      
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Bắc Từ Liêm              
long_ward                      | Phường Liên Mạc               
--------------------------------------------------------------
short_district                 | Bắc Từ Liêm                   
short_ward                     | Liên Mạc                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Bac Tu Liem                   
ward_english            

In [9]:
parse_address('Cai Lay Tien Giang')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Tiền Giang                    
district                       | Thị xã Cai Lậy                
ward                           |                               
--------------------------------------------------------------
long_province                  | Tỉnh Tiền Giang               
long_district                  | Thị xã Cai Lậy                
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Cai Lậy                       
short_ward                     |                               
--------------------------------------------------------------
province_english               | Tien Giang                    
district_english               | Cai Lay Town                  
ward_english            

In [10]:
parse_address('ky anh ha tinh')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Tĩnh                       
district                       | Thị xã Kỳ Anh                 
ward                           |                               
--------------------------------------------------------------
long_province                  | Tỉnh Hà Tĩnh                  
long_district                  | Thị xã Kỳ Anh                 
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Kỳ Anh                        
short_ward                     |                               
--------------------------------------------------------------
province_english               | Ha Tinh                       
district_english               | Ky Anh Town                   
ward_english            

In [11]:
parse_address('hat lot mai son son la')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Sơn La                        
district                       | Mai Sơn                       
ward                           | Xã Hát Lót                    
--------------------------------------------------------------
long_province                  | Tỉnh Sơn La                   
long_district                  | Huyện Mai Sơn                 
long_ward                      | Xã Hát Lót                    
--------------------------------------------------------------
short_district                 | Mai Sơn                       
short_ward                     | Hát Lót                       
--------------------------------------------------------------
province_english               | Son La                        
district_english               | Mai Son                       
ward_english            

In [12]:
parse_address('phuong Tan Thanh, Ca Mau, Ca Mau')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Cà Mau                        
district                       | Cà Mau                        
ward                           | Phường Tân Thành              
--------------------------------------------------------------
long_province                  | Tỉnh Cà Mau                   
long_district                  | Thành phố Cà Mau              
long_ward                      | Phường Tân Thành              
--------------------------------------------------------------
short_district                 | Cà Mau                        
short_ward                     | Tân Thành                     
--------------------------------------------------------------
province_english               | Ca Mau                        
district_english               | Ca Mau                        
ward_english            

In [13]:
parse_address('Ngã Tư Sở Market, Đường Nguyễn Trãi, Thượng Đình Số nhà 28A, Ngõ 72 Nguyễn Trãi , , Phường Thượng Đình, Quận Thanh Xuân , Hà Nội Quận Thanh Xuân')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Thanh Xuân                    
ward                           | Thượng Đình                   
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Thanh Xuân               
long_ward                      | Phường Thượng Đình            
--------------------------------------------------------------
short_district                 | Thanh Xuân                    
short_ward                     | Thượng Đình                   
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Thanh Xuan                    
ward_english            

In [14]:
parse_address('Cuối đường kiều mai, dự án bệnh viện hạnh phúc  phường phú diễn quận bắc từ liêm hà nội')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Bắc Từ Liêm                   
ward                           | Phú Diễn                      
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Bắc Từ Liêm              
long_ward                      | Phường Phú Diễn               
--------------------------------------------------------------
short_district                 | Bắc Từ Liêm                   
short_ward                     | Phú Diễn                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Bac Tu Liem                   
ward_english            

In [15]:
address = 'Cuối đường kiều mai, dự án bệnh viện hạnh phúc phường phú diễn quận bắc từ liêm HN'

admin_unit = parse_address(address=address, level=3)

print(admin_unit)

print(admin_unit.ward, admin_unit.district, admin_unit.province, sep=', ')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Bắc Từ Liêm                   
ward                           | Phú Diễn                      
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Bắc Từ Liêm              
long_ward                      | Phường Phú Diễn               
--------------------------------------------------------------
short_district                 | Bắc Từ Liêm                   
short_ward                     | Phú Diễn                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Bac Tu Liem                   
ward_english            

In [16]:
parse_address('03 Nguyễn Cao Luyện, An Hải Bắc, Sơn Trà, Đà Nẵng 550000, Việt Nam')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Đà Nẵng                       
district                       | Sơn Trà                       
ward                           | An Hải Bắc                    
--------------------------------------------------------------
long_province                  | Thành phố Đà Nẵng             
long_district                  | Quận Sơn Trà                  
long_ward                      | Phường An Hải Bắc             
--------------------------------------------------------------
short_district                 | Sơn Trà                       
short_ward                     | An Hải Bắc                    
--------------------------------------------------------------
province_english               | Da Nang                       
district_english               | Son Tra                       
ward_english            

In [17]:
parse_address('3c60/10 chợ cầu xấng, xã phạm văn hai, huyện bình chánh HCM')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hồ Chí Minh                   
district                       | Bình Chánh                    
ward                           | Phạm Văn Hai                  
--------------------------------------------------------------
long_province                  | Thành phố Hồ Chí Minh         
long_district                  | Huyện Bình Chánh              
long_ward                      | Xã Phạm Văn Hai               
--------------------------------------------------------------
short_district                 | Bình Chánh                    
short_ward                     | Phạm Văn Hai                  
--------------------------------------------------------------
province_english               | Ho Chi Minh                   
district_english               | Binh Chanh                    
ward_english            

In [18]:
parse_address('ngõ 154 Đình Thôn, phường Mỹ Đình 2, Quận Nam Từ Liêm, HN')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Nam Từ Liêm                   
ward                           | Mỹ Đình 2                     
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Nam Từ Liêm              
long_ward                      | Phường Mỹ Đình 2              
--------------------------------------------------------------
short_district                 | Nam Từ Liêm                   
short_ward                     | Mỹ Đình 2                     
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Nam Tu Liem                   
ward_english            

In [19]:
parse_address('Ha Noi, Gia Lam, Yen Vien')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Gia Lâm                       
ward                           | Xã Yên Viên                   
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Huyện Gia Lâm                 
long_ward                      | Xã Yên Viên                   
--------------------------------------------------------------
short_district                 | Gia Lâm                       
short_ward                     | Yên Viên                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Gia Lam                       
ward_english            

In [20]:
parse_address('Thị trấn N.T Phong Hải, Huyện Bảo Thắng, Tỉnh Lào Cai')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Lào Cai                       
district                       | Bảo Thắng                     
ward                           | N.T Phong Hải                 
--------------------------------------------------------------
long_province                  | Tỉnh Lào Cai                  
long_district                  | Huyện Bảo Thắng               
long_ward                      | Thị trấn N.T Phong Hải        
--------------------------------------------------------------
short_district                 | Bảo Thắng                     
short_ward                     | N.T Phong Hải                 
--------------------------------------------------------------
province_english               | Lao Cai                       
district_english               | Bao Thang                     
ward_english            

# Check wrong or missing in bulk

In [21]:
df = pd.read_csv('../../data/input/danhmuchanhchinhgso.gov.vn.csv')

In [22]:
df['district_address'] = df['long_district'] + ', ' + df['long_province']
district_addresses = df['district_address'].tolist()

for address in district_addresses:
    try:
        unit = parse_address(address, level=2)
    except:
        print(address)
    if unit.province == None:
        print(address)
    elif unit.district == None:
        print(address)

In [23]:
df['ward_address'] = df['long_ward'].fillna('') + ', ' + df['long_district'] + ', ' + df['long_province']
ward_addresses = df['ward_address'].dropna().tolist()
miss = []
for ward_address in ward_addresses:
    try:
        unit = parse_address(ward_address, level=3)
    except Exception as e:
        print(ward_address)
        raise e

    if unit.province == None:
        print(ward_address)
    elif unit.district == None:
        print(ward_address)
    elif unit.ward == None and unit.district_key not in ['bachlongvi', 'conco', 'hoangsa', 'lyson', 'condao']:
        print(ward_address)


In [24]:
df_test = pd.DataFrame(get_data())

In [25]:
df_test[df_test.ward_english.fillna('').str.contains('Hoa Binh')]

Unnamed: 0,province,district,ward,long_province,long_district,long_ward,short_district,short_ward,province_english,district_english,ward_english,long_province_english,long_district_english,long_ward_english,short_district_english,short_ward_english,district_level,ward_level,district_level_english,ward_level_english
477,Hà Nội,Thường Tín,Hòa Bình,Thành phố Hà Nội,Huyện Thường Tín,Xã Hòa Bình,Thường Tín,Hòa Bình,Ha Noi,Thuong Tin,Hoa Binh,Ha Noi City,Thuong Tin District,Hoa Binh Commune,Thuong Tin,Hoa Binh,Huyện,Xã,District,Commune
1952,Hòa Bình,Hòa Bình,Hòa Bình,Tỉnh Hòa Bình,Thành phố Hòa Bình,Xã Hòa Bình,Hòa Bình,Hòa Bình,Hoa Binh,Hoa Binh,Hoa Binh,Hoa Binh Province,Hoa Binh City,Hoa Binh Commune,Hoa Binh,Hoa Binh,Thành phố,Xã,City,Commune
2177,Thái Nguyên,Đồng Hỷ,Hòa Bình,Tỉnh Thái Nguyên,Huyện Đồng Hỷ,Xã Hòa Bình,Đồng Hỷ,Hòa Bình,Thai Nguyen,Dong Hy,Hoa Binh,Thai Nguyen Province,Dong Hy District,Hoa Binh Commune,Dong Hy,Hoa Binh,Huyện,Xã,District,Commune
2312,Lạng Sơn,Bình Gia,Hòa Bình,Tỉnh Lạng Sơn,Huyện Bình Gia,Xã Hòa Bình,Bình Gia,Hòa Bình,Lang Son,Binh Gia,Hoa Binh,Lang Son Province,Binh Gia District,Hoa Binh Commune,Binh Gia,Hoa Binh,Huyện,Xã,District,Commune
2361,Lạng Sơn,Văn Quan,Hòa Bình,Tỉnh Lạng Sơn,Huyện Văn Quan,Xã Hòa Bình,Văn Quan,Hòa Bình,Lang Son,Van Quan,Hoa Binh,Lang Son Province,Van Quan District,Hoa Binh Commune,Van Quan,Hoa Binh,Huyện,Xã,District,Commune
2397,Lạng Sơn,Hữu Lũng,Hòa Bình,Tỉnh Lạng Sơn,Huyện Hữu Lũng,Xã Hòa Bình,Hữu Lũng,Hòa Bình,Lang Son,Huu Lung,Hoa Binh,Lang Son Province,Huu Lung District,Hoa Binh Commune,Huu Lung,Hoa Binh,Huyện,Xã,District,Commune
2432,Lạng Sơn,Chi Lăng,Hòa Bình,Tỉnh Lạng Sơn,Huyện Chi Lăng,Xã Hòa Bình,Chi Lăng,Hòa Bình,Lang Son,Chi Lang,Hoa Binh,Lang Son Province,Chi Lang District,Hoa Binh Commune,Chi Lang,Hoa Binh,Huyện,Xã,District,Commune
2495,Quảng Ninh,Hạ Long,Hòa Bình,Tỉnh Quảng Ninh,Thành phố Hạ Long,Xã Hòa Bình,Hạ Long,Hòa Bình,Quang Ninh,Ha Long,Hoa Binh,Quang Ninh Province,Ha Long City,Hoa Binh Commune,Ha Long,Hoa Binh,Thành phố,Xã,City,Commune
3663,Hải Phòng,Thủy Nguyên,Hòa Bình,Thành phố Hải Phòng,Huyện Thủy Nguyên,Xã Hòa Bình,Thủy Nguyên,Hòa Bình,Hai Phong,Thuy Nguyen,Hoa Binh,Hai Phong City,Thuy Nguyen District,Hoa Binh Commune,Thuy Nguyen,Hoa Binh,Huyện,Xã,District,Commune
3775,Hải Phòng,Vĩnh Bảo,Hòa Bình,Thành phố Hải Phòng,Huyện Vĩnh Bảo,Xã Hòa Bình,Vĩnh Bảo,Hòa Bình,Hai Phong,Vinh Bao,Hoa Binh,Hai Phong City,Vinh Bao District,Hoa Binh Commune,Vinh Bao,Hoa Binh,Huyện,Xã,District,Commune


In [26]:
df_test = pd.DataFrame(get_data('province, district'))

In [27]:
df_test[df_test.district.str.contains('Quận 5')]

Unnamed: 0,province,district
560,Hồ Chí Minh,Quận 5


In [28]:
import re

In [29]:
c_address = 'p2q5'

In [30]:
c_address = 'p2q5'

# Correct 'p' and 'q' in one pass
def correct_abbreviation(c_address, abbr):
    pattern = rf'{abbr}\d{{1,2}}'
    match = re.search(pattern, c_address)
    if match:
        old_text = match.group()
        if not re.search(rf'duong\s?{abbr}\d{{1,2}}|d\.\s?{abbr}\d{{1,2}}', c_address):
            c_address = c_address.replace(old_text, old_text.replace(abbr, f'{abbr}.'))
    return c_address

# Correct both 'p' (phường) and 'q' (quận)
c_address = correct_abbreviation(c_address, 'p')
c_address = correct_abbreviation(c_address, 'q')

print(c_address)

p.2q.5


In [31]:
c_address = 'duong p2 ham tan'
c_address = correct_abbreviation(c_address, 'p')
c_address = correct_abbreviation(c_address, 'q')
print(c_address)

duong p2 ham tan
