In [23]:
from vietadminunits import parse_address, get_data
import pandas as pd
import re

from unidecode import unidecode

# Demo

In [24]:
parse_address('ky anh ha tinh')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Tĩnh                       
district                       | Thị xã Kỳ Anh                 
ward                           |                               
--------------------------------------------------------------
long_province                  | Tỉnh Hà Tĩnh                  
long_district                  | Thị xã Kỳ Anh                 
long_ward                      |                               
--------------------------------------------------------------
short_district                 | Kỳ Anh                        
short_ward                     |                               
--------------------------------------------------------------
province_english               | Ha Tinh                       
district_english               | Ky Anh Town                   
ward_english            

In [25]:
parse_address('hat lot mai son son la')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Sơn La                        
district                       | Mai Sơn                       
ward                           | Xã Hát Lót                    
--------------------------------------------------------------
long_province                  | Tỉnh Sơn La                   
long_district                  | Huyện Mai Sơn                 
long_ward                      | Xã Hát Lót                    
--------------------------------------------------------------
short_district                 | Mai Sơn                       
short_ward                     | Hát Lót                       
--------------------------------------------------------------
province_english               | Son La                        
district_english               | Mai Son                       
ward_english            

In [26]:
parse_address('phuong Tan Thanh, Ca Mau, Ca Mau')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Cà Mau                        
district                       | Cà Mau                        
ward                           | Phường Tân Thành              
--------------------------------------------------------------
long_province                  | Tỉnh Cà Mau                   
long_district                  | Thành phố Cà Mau              
long_ward                      | Phường Tân Thành              
--------------------------------------------------------------
short_district                 | Cà Mau                        
short_ward                     | Tân Thành                     
--------------------------------------------------------------
province_english               | Ca Mau                        
district_english               | Ca Mau                        
ward_english            

In [27]:
parse_address('Ngã Tư Sở Market, Đường Nguyễn Trãi, Thượng Đình Số nhà 28A, Ngõ 72 Nguyễn Trãi , , Phường Thượng Đình, Quận Thanh Xuân , Hà Nội Quận Thanh Xuân')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Thanh Xuân                    
ward                           | Thượng Đình                   
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Thanh Xuân               
long_ward                      | Phường Thượng Đình            
--------------------------------------------------------------
short_district                 | Thanh Xuân                    
short_ward                     | Thượng Đình                   
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Thanh Xuan                    
ward_english            

In [28]:
parse_address('Cuối đường kiều mai, dự án bệnh viện hạnh phúc  phường phú diễn quận bắc từ liêm hà nội')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Bắc Từ Liêm                   
ward                           | Phú Diễn                      
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Bắc Từ Liêm              
long_ward                      | Phường Phú Diễn               
--------------------------------------------------------------
short_district                 | Bắc Từ Liêm                   
short_ward                     | Phú Diễn                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Bac Tu Liem                   
ward_english            

In [29]:
parse_address('03 Nguyễn Cao Luyện, An Hải Bắc, Sơn Trà, Đà Nẵng 550000, Việt Nam')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Đà Nẵng                       
district                       | Sơn Trà                       
ward                           | An Hải Bắc                    
--------------------------------------------------------------
long_province                  | Thành phố Đà Nẵng             
long_district                  | Quận Sơn Trà                  
long_ward                      | Phường An Hải Bắc             
--------------------------------------------------------------
short_district                 | Sơn Trà                       
short_ward                     | An Hải Bắc                    
--------------------------------------------------------------
province_english               | Da Nang                       
district_english               | Son Tra                       
ward_english            

In [30]:
parse_address('3c60/10 chợ cầu xấng, xã phạm văn hai, huyện bình chánh HCM')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hồ Chí Minh                   
district                       | Bình Chánh                    
ward                           | Phạm Văn Hai                  
--------------------------------------------------------------
long_province                  | Thành phố Hồ Chí Minh         
long_district                  | Huyện Bình Chánh              
long_ward                      | Xã Phạm Văn Hai               
--------------------------------------------------------------
short_district                 | Bình Chánh                    
short_ward                     | Phạm Văn Hai                  
--------------------------------------------------------------
province_english               | Ho Chi Minh                   
district_english               | Binh Chanh                    
ward_english            

In [31]:
parse_address('ngõ 154 Đình Thôn, phường Mỹ Đình 2, Quận Nam Từ Liêm, HN')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Nam Từ Liêm                   
ward                           | Mỹ Đình 2                     
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Quận Nam Từ Liêm              
long_ward                      | Phường Mỹ Đình 2              
--------------------------------------------------------------
short_district                 | Nam Từ Liêm                   
short_ward                     | Mỹ Đình 2                     
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Nam Tu Liem                   
ward_english            

In [32]:
parse_address('Ha Noi, Gia Lam, Yen Vien')

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Hà Nội                        
district                       | Gia Lâm                       
ward                           | Xã Yên Viên                   
--------------------------------------------------------------
long_province                  | Thành phố Hà Nội              
long_district                  | Huyện Gia Lâm                 
long_ward                      | Xã Yên Viên                   
--------------------------------------------------------------
short_district                 | Gia Lâm                       
short_ward                     | Yên Viên                      
--------------------------------------------------------------
province_english               | Ha Noi                        
district_english               | Gia Lam                       
ward_english            

# Check wrong or missing in bulk

In [33]:
df = pd.read_csv('../data/input/danhmuchanhchinhgso.gov.vn.csv')

In [34]:
df['district_address'] = df['long_district'] + ', ' + df['long_province']
district_addresses = df['district_address'].tolist()

for address in district_addresses:
    try:
        unit = parse_address(address, level=2)
    except:
        print(address)
    if unit.province == None:
        print(address)
    elif unit.district == None:
        print(address)

In [36]:
df['ward_address'] = df['long_ward'].fillna('') + ', ' + df['long_district'] + ', ' + df['long_province']
ward_addresses = df['ward_address'].dropna().tolist()
miss = []
for ward_address in ward_addresses:
    try:
        unit = parse_address(ward_address, level=3)
    except Exception as e:
        print(ward_address)
        raise e

    if unit.province == None:
        print(ward_address)
    elif unit.district == None:
        print(ward_address)
    elif unit.ward == None and unit.district_key not in ['bachlongvi', 'conco', 'hoangsa', 'lyson', 'condao']:
        print(ward_address)


In [37]:
parse_address('Phường Chi Lăng, Thành phố Lạng Sơn, Tỉnh Lạng Sơn', level=3)

AdministrativeUnit:
Attribute                      | Value                         
--------------------------------------------------------------
province                       | Lạng Sơn                      
district                       | Lạng Sơn                      
ward                           | Chi Lăng                      
--------------------------------------------------------------
long_province                  | Tỉnh Lạng Sơn                 
long_district                  | Thành phố Lạng Sơn            
long_ward                      | Phường Chi Lăng               
--------------------------------------------------------------
short_district                 | Lạng Sơn                      
short_ward                     | Chi Lăng                      
--------------------------------------------------------------
province_english               | Lang Son                      
district_english               | Lang Son                      
ward_english            

In [38]:
df_check = pd.DataFrame(get_data('province_english, long_district, long_ward'))

In [39]:
df_check

Unnamed: 0,province_english,long_district,long_ward
0,Ha Noi,Quận Ba Đình,Phường Phúc Xá
1,Ha Noi,Quận Ba Đình,Phường Trúc Bạch
2,Ha Noi,Quận Ba Đình,Phường Vĩnh Phúc
3,Ha Noi,Quận Ba Đình,Phường Cống Vị
4,Ha Noi,Quận Ba Đình,Phường Liễu Giai
...,...,...,...
10542,Ca Mau,Huyện Ngọc Hiển,Xã Viên An Đông
10543,Ca Mau,Huyện Ngọc Hiển,Xã Viên An
10544,Ca Mau,Huyện Ngọc Hiển,Thị trấn Rạch Gốc
10545,Ca Mau,Huyện Ngọc Hiển,Xã Tân Ân


In [40]:
df_check[(df_check.province_english=='Ha Noi') & (df_check.long_district.str.contains('Nam Từ Liêm'))]

Unnamed: 0,province_english,long_district,long_ward
198,Ha Noi,Quận Nam Từ Liêm,Phường Cầu Diễn
199,Ha Noi,Quận Nam Từ Liêm,Phường Xuân Phương
200,Ha Noi,Quận Nam Từ Liêm,Phường Phương Canh
201,Ha Noi,Quận Nam Từ Liêm,Phường Mỹ Đình 1
202,Ha Noi,Quận Nam Từ Liêm,Phường Mỹ Đình 2
203,Ha Noi,Quận Nam Từ Liêm,Phường Tây Mỗ
204,Ha Noi,Quận Nam Từ Liêm,Phường Mễ Trì
205,Ha Noi,Quận Nam Từ Liêm,Phường Phú Đô
206,Ha Noi,Quận Nam Từ Liêm,Phường Đại Mỗ
207,Ha Noi,Quận Nam Từ Liêm,Phường Trung Văn
