In [1]:
from vietadminunits import parse_address, get_data
import pandas as pd
import re

from unidecode import unidecode

# Demo

In [2]:
parse_address('thu duc')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hồ Chí Minh                   
district                       | Thủ Đức                       
ward                           |                               
--------------------------------------------------------------
long_province                  | Thành phố Hồ Chí Minh         
long_district                  | Thành phố Thủ Đức             
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Thủ Đức                       
short_ward                     |                               
--------------------------------------------------------------
province_english               | Ho Chi Minh                   
district_english               | Thu Duc                       
ward_english            

In [3]:
parse_address('phuong phu trinh, phan thiet, binh thuan')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Bình Thuận                    
district                       | Phan Thiết                    
ward                           | Phú Trinh                     
--------------------------------------------------------------
long_province                  | Tỉnh Bình Thuận               
long_district                  | Thành phố Phan Thiết          
long_ward                      | Phường Phú Trinh              
--------------------------------------------------------------
short_district                 | Phan Thiết                    
short_ward                     | Phú Trinh                     
--------------------------------------------------------------
province_english               | Binh Thuan                    
district_english               | Phan Thiet                    
ward_english            

In [4]:
parse_address('Hoa Loc Mo Cay Ben Tre')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Bến Tre                       
district                       | Mỏ Cày Bắc                    
ward                           | Hòa Lộc                       
--------------------------------------------------------------
long_province                  | Tỉnh Bến Tre                  
long_district                  | Huyện Mỏ Cày Bắc              
long_ward                      | Xã Hòa Lộc                    
--------------------------------------------------------------
short_district                 | Mỏ Cày Bắc                    
short_ward                     | Hòa Lộc                       
--------------------------------------------------------------
province_english               | Ben Tre                       
district_english               | Mo Cay Bac                    
ward_english            

In [5]:
parse_address('Mo Cay Ben Tre')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Bến Tre                       
district                       | Mỏ Cày Nam                    
ward                           | Mỏ Cày                        
--------------------------------------------------------------
long_province                  | Tỉnh Bến Tre                  
long_district                  | Huyện Mỏ Cày Nam              
long_ward                      | Thị trấn Mỏ Cày               
--------------------------------------------------------------
short_district                 | Mỏ Cày Nam                    
short_ward                     | Mỏ Cày                        
--------------------------------------------------------------
province_english               | Ben Tre                       
district_english               | Mo Cay Nam                    
ward_english            

In [6]:
parse_address('Lien Mac Tu Liem Ha Noi')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Bắc Từ Liêm                   
ward                           | Liên Mạc                      
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Bắc Từ Liêm              
long_ward                      | Phường Liên Mạc               
--------------------------------------------------------------
short_district                 | Bắc Từ Liêm                   
short_ward                     | Liên Mạc                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Bac Tu Liem                   
ward_english            

In [7]:
parse_address('Cai Lay Tien Giang')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Tiền Giang                    
district                       | Thị xã Cai Lậy                
ward                           |                               
--------------------------------------------------------------
long_province                  | Tỉnh Tiền Giang               
long_district                  | Thị xã Cai Lậy                
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Cai Lậy                       
short_ward                     |                               
--------------------------------------------------------------
province_english               | Tien Giang                    
district_english               | Cai Lay Town                  
ward_english            

In [8]:
parse_address('ky anh ha tinh')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Tĩnh                       
district                       | Thị xã Kỳ Anh                 
ward                           |                               
--------------------------------------------------------------
long_province                  | Tỉnh Hà Tĩnh                  
long_district                  | Thị xã Kỳ Anh                 
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Kỳ Anh                        
short_ward                     |                               
--------------------------------------------------------------
province_english               | Ha Tinh                       
district_english               | Ky Anh Town                   
ward_english            

In [9]:
parse_address('hat lot mai son son la')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Sơn La                        
district                       | Mai Sơn                       
ward                           | Xã Hát Lót                    
--------------------------------------------------------------
long_province                  | Tỉnh Sơn La                   
long_district                  | Huyện Mai Sơn                 
long_ward                      | Xã Hát Lót                    
--------------------------------------------------------------
short_district                 | Mai Sơn                       
short_ward                     | Hát Lót                       
--------------------------------------------------------------
province_english               | Son La                        
district_english               | Mai Son                       
ward_english            

In [10]:
parse_address('phuong Tan Thanh, Ca Mau, Ca Mau')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Cà Mau                        
district                       | Cà Mau                        
ward                           | Phường Tân Thành              
--------------------------------------------------------------
long_province                  | Tỉnh Cà Mau                   
long_district                  | Thành phố Cà Mau              
long_ward                      | Phường Tân Thành              
--------------------------------------------------------------
short_district                 | Cà Mau                        
short_ward                     | Tân Thành                     
--------------------------------------------------------------
province_english               | Ca Mau                        
district_english               | Ca Mau                        
ward_english            

In [11]:
parse_address('Ngã Tư Sở Market, Đường Nguyễn Trãi, Thượng Đình Số nhà 28A, Ngõ 72 Nguyễn Trãi , , Phường Thượng Đình, Quận Thanh Xuân , Hà Nội Quận Thanh Xuân')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Thanh Xuân                    
ward                           | Thượng Đình                   
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Thanh Xuân               
long_ward                      | Phường Thượng Đình            
--------------------------------------------------------------
short_district                 | Thanh Xuân                    
short_ward                     | Thượng Đình                   
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Thanh Xuan                    
ward_english            

In [12]:
parse_address('Cuối đường kiều mai, dự án bệnh viện hạnh phúc  phường phú diễn quận bắc từ liêm hà nội')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Bắc Từ Liêm                   
ward                           | Phú Diễn                      
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Bắc Từ Liêm              
long_ward                      | Phường Phú Diễn               
--------------------------------------------------------------
short_district                 | Bắc Từ Liêm                   
short_ward                     | Phú Diễn                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Bac Tu Liem                   
ward_english            

In [13]:
address = 'Cuối đường kiều mai, dự án bệnh viện hạnh phúc phường phú diễn quận bắc từ liêm HN'

admin_unit = parse_address(address=address, level=3)

print(admin_unit)

print(admin_unit.ward, admin_unit.district, admin_unit.province, sep=', ')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Bắc Từ Liêm                   
ward                           | Phú Diễn                      
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Bắc Từ Liêm              
long_ward                      | Phường Phú Diễn               
--------------------------------------------------------------
short_district                 | Bắc Từ Liêm                   
short_ward                     | Phú Diễn                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Bac Tu Liem                   
ward_english            

In [14]:
parse_address('03 Nguyễn Cao Luyện, An Hải Bắc, Sơn Trà, Đà Nẵng 550000, Việt Nam')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Đà Nẵng                       
district                       | Sơn Trà                       
ward                           | An Hải Bắc                    
--------------------------------------------------------------
long_province                  | Thành phố Đà Nẵng             
long_district                  | Quận Sơn Trà                  
long_ward                      | Phường An Hải Bắc             
--------------------------------------------------------------
short_district                 | Sơn Trà                       
short_ward                     | An Hải Bắc                    
--------------------------------------------------------------
province_english               | Da Nang                       
district_english               | Son Tra                       
ward_english            

In [15]:
parse_address('3c60/10 chợ cầu xấng, xã phạm văn hai, huyện bình chánh HCM')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hồ Chí Minh                   
district                       | Bình Chánh                    
ward                           | Phạm Văn Hai                  
--------------------------------------------------------------
long_province                  | Thành phố Hồ Chí Minh         
long_district                  | Huyện Bình Chánh              
long_ward                      | Xã Phạm Văn Hai               
--------------------------------------------------------------
short_district                 | Bình Chánh                    
short_ward                     | Phạm Văn Hai                  
--------------------------------------------------------------
province_english               | Ho Chi Minh                   
district_english               | Binh Chanh                    
ward_english            

In [16]:
parse_address('ngõ 154 Đình Thôn, phường Mỹ Đình 2, Quận Nam Từ Liêm, HN')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Nam Từ Liêm                   
ward                           | Mỹ Đình 2                     
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Nam Từ Liêm              
long_ward                      | Phường Mỹ Đình 2              
--------------------------------------------------------------
short_district                 | Nam Từ Liêm                   
short_ward                     | Mỹ Đình 2                     
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Nam Tu Liem                   
ward_english            

In [17]:
parse_address('Ha Noi, Gia Lam, Yen Vien')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Gia Lâm                       
ward                           | Xã Yên Viên                   
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Huyện Gia Lâm                 
long_ward                      | Xã Yên Viên                   
--------------------------------------------------------------
short_district                 | Gia Lâm                       
short_ward                     | Yên Viên                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Gia Lam                       
ward_english            

In [18]:
parse_address('Thị trấn N.T Phong Hải, Huyện Bảo Thắng, Tỉnh Lào Cai')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Lào Cai                       
district                       | Bảo Thắng                     
ward                           | N.T Phong Hải                 
--------------------------------------------------------------
long_province                  | Tỉnh Lào Cai                  
long_district                  | Huyện Bảo Thắng               
long_ward                      | Thị trấn N.T Phong Hải        
--------------------------------------------------------------
short_district                 | Bảo Thắng                     
short_ward                     | N.T Phong Hải                 
--------------------------------------------------------------
province_english               | Lao Cai                       
district_english               | Bao Thang                     
ward_english            

# Check wrong or missing in bulk

In [19]:
df = pd.read_csv('../../data/input/danhmuchanhchinhgso.gov.vn.csv')

In [20]:
df['district_address'] = df['long_district'] + ', ' + df['long_province']
district_addresses = df['district_address'].tolist()

for address in district_addresses:
    try:
        unit = parse_address(address, level=2)
    except:
        print(address)
    if unit.province == None:
        print(address)
    elif unit.district == None:
        print(address)

In [21]:
df['ward_address'] = df['long_ward'].fillna('') + ', ' + df['long_district'] + ', ' + df['long_province']
ward_addresses = df['ward_address'].dropna().tolist()
miss = []
for ward_address in ward_addresses:
    try:
        unit = parse_address(ward_address, level=3)
    except Exception as e:
        print(ward_address)
        raise e

    if unit.province == None:
        print(ward_address)
    elif unit.district == None:
        print(ward_address)
    elif unit.ward == None and unit.district_key not in ['bachlongvi', 'conco', 'hoangsa', 'lyson', 'condao']:
        print(ward_address)


In [22]:
df_test = pd.DataFrame(get_data())

In [23]:
a = 2

In [24]:
if a == 1:
    pass
else:
    # for i in range(5):
    #     pass
    pass
    else:
        print(1)

SyntaxError: invalid syntax (146847858.py, line 7)