# Feature testing

In [1]:
from vietadminunits import parse_address, get_data
import pandas as pd

## get_data

In [2]:
df = pd.DataFrame(get_data('province, district, ward'))

In [3]:
df.head()

Unnamed: 0,province,district,ward
0,Hà Nội,Ba Đình,Phúc Xá
1,Hà Nội,Ba Đình,Trúc Bạch
2,Hà Nội,Ba Đình,Vĩnh Phúc
3,Hà Nội,Ba Đình,Cống Vị
4,Hà Nội,Ba Đình,Liễu Giai


In [4]:
df.shape

(10547, 3)

## parse_address

### Normal address

In [5]:
parse_address('03 Nguyễn Cao Luyện, An Hải Bắc, Sơn Trà, Đà Nẵng 550000, Việt Nam')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Đà Nẵng                  
district                  | Sơn Trà                  
ward                      | An Hải Bắc               
----------------------------------------------------
long_province             | Thành phố Đà Nẵng        
long_district             | Quận Sơn Trà             
long_ward                 | Phường An Hải Bắc        
----------------------------------------------------
short_district            | Sơn Trà                  
short_ward                | An Hải Bắc               
----------------------------------------------------
province_english          | Da Nang                  
district_english          | Son Tra                  
ward_english              | An Hai Bac               
----------------------------------------------------
long_province_english     | Da Nang City             
long_district

In [6]:
parse_address('An Hải Bắc, Sơn Trà')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Đà Nẵng                  
district                  | Sơn Trà                  
ward                      | An Hải Bắc               
----------------------------------------------------
long_province             | Thành phố Đà Nẵng        
long_district             | Quận Sơn Trà             
long_ward                 | Phường An Hải Bắc        
----------------------------------------------------
short_district            | Sơn Trà                  
short_ward                | An Hải Bắc               
----------------------------------------------------
province_english          | Da Nang                  
district_english          | Son Tra                  
ward_english              | An Hai Bac               
----------------------------------------------------
long_province_english     | Da Nang City             
long_district

### Missing province address

#### Unique long district alphanumeric

In [7]:
from vietadminunits.parse import DICT_unique_long_district_alphanumerics

In [8]:
district = next(iter(DICT_unique_long_district_alphanumerics))
print(district)
parse_address(district)

thanhphophanrangthapcham


AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Ninh Thuận               
district                  | Phan Rang - Tháp Chàm    
ward                      |                          
----------------------------------------------------
long_province             | Tỉnh Ninh Thuận          
long_district             | Thành phố Phan Rang - Tháp Chàm
long_ward                 |                          
----------------------------------------------------
short_district            | Phan Rang - Tháp Chàm    
short_ward                |                          
----------------------------------------------------
province_english          | Ninh Thuan               
district_english          | Phan Rang - Thap Cham    
ward_english              |                          
----------------------------------------------------
long_province_english     | Ninh Thuan Province      
long_di

#### Not-unique long district alphanumeric

In [9]:
from vietadminunits.parse import DICT_not_unique_long_district_alphanumerics

In [10]:
district = next(iter(DICT_not_unique_long_district_alphanumerics))
ward = DICT_not_unique_long_district_alphanumerics[district][next(iter(DICT_not_unique_long_district_alphanumerics[district]))][0]
address = f'{ward} {district}'
print(address)
parse_address(address)

dienhuong phongdiendistrict


AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Thừa Thiên Huế           
district                  | Phong Điền               
ward                      | Điền Hương               
----------------------------------------------------
long_province             | Tỉnh Thừa Thiên Huế      
long_district             | Huyện Phong Điền         
long_ward                 | Xã Điền Hương            
----------------------------------------------------
short_district            | Phong Điền               
short_ward                | Điền Hương               
----------------------------------------------------
province_english          | Thua Thien Hue           
district_english          | Phong Dien               
ward_english              | Dien Huong               
----------------------------------------------------
long_province_english     | Thua Thien Hue Province  
long_district

#### Unique district key

In [11]:
from vietadminunits.parse import DICT_unique_district_keys

In [12]:
district = next(iter(DICT_unique_district_keys))
print(district)
parse_address(district)

phanrangthapcham


AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Ninh Thuận               
district                  | Phan Rang - Tháp Chàm    
ward                      |                          
----------------------------------------------------
long_province             | Tỉnh Ninh Thuận          
long_district             | Thành phố Phan Rang - Tháp Chàm
long_ward                 |                          
----------------------------------------------------
short_district            | Phan Rang - Tháp Chàm    
short_ward                |                          
----------------------------------------------------
province_english          | Ninh Thuan               
district_english          | Phan Rang - Thap Cham    
ward_english              |                          
----------------------------------------------------
long_province_english     | Ninh Thuan Province      
long_di

#### Not-unique district key

In [13]:
from vietadminunits.parse import DICT_not_unique_district_keys

In [14]:
district = next(iter(DICT_not_unique_district_keys))
ward = DICT_not_unique_district_keys[district][next(iter(DICT_not_unique_district_keys[district]))][0]
address = f'{ward} {district}'
print(address)
parse_address(address)

duongminhchau duongminhchau


AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Tây Ninh                 
district                  | Dương Minh Châu          
ward                      | Dương Minh Châu          
----------------------------------------------------
long_province             | Tỉnh Tây Ninh            
long_district             | Huyện Dương Minh Châu    
long_ward                 | Thị trấn Dương Minh Châu 
----------------------------------------------------
short_district            | Dương Minh Châu          
short_ward                | Dương Minh Châu          
----------------------------------------------------
province_english          | Tay Ninh                 
district_english          | Duong Minh Chau          
ward_english              | Duong Minh Chau          
----------------------------------------------------
long_province_english     | Tay Ninh Province        
long_district

### Abbreviate address

In [15]:
parse_address('p2 q5')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Hồ Chí Minh              
district                  | Quận 5                   
ward                      | Phường 2                 
----------------------------------------------------
long_province             | Thành phố Hồ Chí Minh    
long_district             | Quận 5                   
long_ward                 | Phường 2                 
----------------------------------------------------
short_district            | Quận 5                   
short_ward                | Phường 2                 
----------------------------------------------------
province_english          | Ho Chi Minh              
district_english          | District 5               
ward_english              | Ward 2                   
----------------------------------------------------
long_province_english     | Ho Chi Minh City         
long_district

### Alias key in address

In [16]:
parse_address('quan 2, hcm')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Hồ Chí Minh              
district                  | Thủ Đức                  
ward                      |                          
----------------------------------------------------
long_province             | Thành phố Hồ Chí Minh    
long_district             | Thành phố Thủ Đức        
long_ward                 |                          
----------------------------------------------------
short_district            | Thủ Đức                  
short_ward                |                          
----------------------------------------------------
province_english          | Ho Chi Minh              
district_english          | Thu Duc                  
ward_english              |                          
----------------------------------------------------
long_province_english     | Ho Chi Minh City         
long_district

### Half district key in address

In [17]:
parse_address('Từ Liêm, Hà Nội')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Hà Nội                   
district                  | Nam Từ Liêm              
ward                      |                          
----------------------------------------------------
long_province             | Thành phố Hà Nội         
long_district             | Quận Nam Từ Liêm         
long_ward                 |                          
----------------------------------------------------
short_district            | Nam Từ Liêm              
short_ward                |                          
----------------------------------------------------
province_english          | Ha Noi                   
district_english          | Nam Tu Liem              
ward_english              |                          
----------------------------------------------------
long_province_english     | Ha Noi City              
long_district

In [18]:
parse_address('Thượng Cát, Từ Liêm, Hà Nội')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Hà Nội                   
district                  | Bắc Từ Liêm              
ward                      | Thượng Cát               
----------------------------------------------------
long_province             | Thành phố Hà Nội         
long_district             | Quận Bắc Từ Liêm         
long_ward                 | Phường Thượng Cát        
----------------------------------------------------
short_district            | Bắc Từ Liêm              
short_ward                | Thượng Cát               
----------------------------------------------------
province_english          | Ha Noi                   
district_english          | Bac Tu Liem              
ward_english              | Thuong Cat               
----------------------------------------------------
long_province_english     | Ha Noi City              
long_district

### Duplicated district key in address (One key has two level)

In [19]:
parse_address('Ky Anh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Hà Tĩnh                  
district                  | Thị xã Kỳ Anh            
ward                      |                          
----------------------------------------------------
long_province             | Tỉnh Hà Tĩnh             
long_district             | Thị xã Kỳ Anh            
long_ward                 |                          
----------------------------------------------------
short_district            | Kỳ Anh                   
short_ward                |                          
----------------------------------------------------
province_english          | Ha Tinh                  
district_english          | Ky Anh Town              
ward_english              |                          
----------------------------------------------------
long_province_english     | Ha Tinh Province         
long_district

In [20]:
parse_address('Hưng Trí, Kỳ Anh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Hà Tĩnh                  
district                  | Thị xã Kỳ Anh            
ward                      | Hưng Trí                 
----------------------------------------------------
long_province             | Tỉnh Hà Tĩnh             
long_district             | Thị xã Kỳ Anh            
long_ward                 | Phường Hưng Trí          
----------------------------------------------------
short_district            | Kỳ Anh                   
short_ward                | Hưng Trí                 
----------------------------------------------------
province_english          | Ha Tinh                  
district_english          | Ky Anh Town              
ward_english              | Hung Tri                 
----------------------------------------------------
long_province_english     | Ha Tinh Province         
long_district

In [21]:
parse_address('Kỳ Lạc, Kỳ Anh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Hà Tĩnh                  
district                  | Huyện Kỳ Anh             
ward                      | Kỳ Lạc                   
----------------------------------------------------
long_province             | Tỉnh Hà Tĩnh             
long_district             | Huyện Kỳ Anh             
long_ward                 | Xã Kỳ Lạc                
----------------------------------------------------
short_district            | Kỳ Anh                   
short_ward                | Kỳ Lạc                   
----------------------------------------------------
province_english          | Ha Tinh                  
district_english          | Ky Anh District          
ward_english              | Ky Lac                   
----------------------------------------------------
long_province_english     | Ha Tinh Province         
long_district

### Duplicated ward key in address

In [22]:
from vietadminunits.parse import DICT_duplicated_ward_keys

In [23]:
print(DICT_duplicated_ward_keys)

{'An Giang': {'Phu Tan': {'phuthanh': {'Phú Thạnh': {'default': 'Commune', 'all': ['Commune'], 'total': 1}, 'Phú Thành': {'default': 'Commune', 'all': ['Commune'], 'total': 1}}}}, 'Bac Lieu': {'Phuoc Long': {'phuoclong': {'Phước Long': {'default': 'Commune', 'all': ['Town', 'Commune'], 'total': 2}}}}, 'Binh Phuoc': {'Loc Ninh': {'locthanh': {'Lộc Thạnh': {'default': 'Commune', 'all': ['Commune'], 'total': 1}, 'Lộc Thành': {'default': 'Commune', 'all': ['Commune'], 'total': 1}}}}, 'Ca Mau': {'Ca Mau': {'tanthanh': {'Tân Thành': {'default': 'Ward', 'all': ['Ward', 'Commune'], 'total': 2}}}, 'Thoi Binh': {'thoibinh': {'Thới Bình': {'default': 'Commune', 'all': ['Town', 'Commune'], 'total': 2}}}}, 'Can Tho': {'Vinh Thanh': {'thanhan': {'Thanh An': {'default': 'Town', 'all': ['Town'], 'total': 1}, 'Thạnh An': {'default': 'Commune', 'all': ['Commune'], 'total': 1}}}}, 'Dong Thap': {'Cao Lanh District': {'binhthanh': {'Bình Thạnh': {'default': 'Commune', 'all': ['Commune'], 'total': 1}}, 'myt

#### One key has two name

In [24]:
parse_address('Phú Thạnh, Phú Tân')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | An Giang                 
district                  | Phú Tân                  
ward                      | Phú Thạnh                
----------------------------------------------------
long_province             | Tỉnh An Giang            
long_district             | Huyện Phú Tân            
long_ward                 | Xã Phú Thạnh             
----------------------------------------------------
short_district            | Phú Tân                  
short_ward                | Phú Thạnh                
----------------------------------------------------
province_english          | An Giang                 
district_english          | Phu Tan                  
ward_english              | Phu Thanh                
----------------------------------------------------
long_province_english     | An Giang Province        
long_district

In [25]:
parse_address('Phú Thành, Phú Tân')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | An Giang                 
district                  | Phú Tân                  
ward                      | Phú Thành                
----------------------------------------------------
long_province             | Tỉnh An Giang            
long_district             | Huyện Phú Tân            
long_ward                 | Xã Phú Thành             
----------------------------------------------------
short_district            | Phú Tân                  
short_ward                | Phú Thành                
----------------------------------------------------
province_english          | An Giang                 
district_english          | Phu Tan                  
ward_english              | Phu Thanh                
----------------------------------------------------
long_province_english     | An Giang Province        
long_district

#### One key has two level

In [26]:
parse_address('Định An, Trà Cú, Trà Vinh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Trà Vinh                 
district                  | Trà Cú                   
ward                      | Xã Định An               
----------------------------------------------------
long_province             | Tỉnh Trà Vinh            
long_district             | Huyện Trà Cú             
long_ward                 | Xã Định An               
----------------------------------------------------
short_district            | Trà Cú                   
short_ward                | Định An                  
----------------------------------------------------
province_english          | Tra Vinh                 
district_english          | Tra Cu                   
ward_english              | Dinh An Commune          
----------------------------------------------------
long_province_english     | Tra Vinh Province        
long_district

In [27]:
parse_address('Xã Định An, Trà Cú, Trà Vinh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Trà Vinh                 
district                  | Trà Cú                   
ward                      | Xã Định An               
----------------------------------------------------
long_province             | Tỉnh Trà Vinh            
long_district             | Huyện Trà Cú             
long_ward                 | Xã Định An               
----------------------------------------------------
short_district            | Trà Cú                   
short_ward                | Định An                  
----------------------------------------------------
province_english          | Tra Vinh                 
district_english          | Tra Cu                   
ward_english              | Dinh An Commune          
----------------------------------------------------
long_province_english     | Tra Vinh Province        
long_district

In [28]:
parse_address('tt.Định An, Trà Cú, Trà Vinh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Trà Vinh                 
district                  | Trà Cú                   
ward                      | Thị trấn Định An         
----------------------------------------------------
long_province             | Tỉnh Trà Vinh            
long_district             | Huyện Trà Cú             
long_ward                 | Thị trấn Định An         
----------------------------------------------------
short_district            | Trà Cú                   
short_ward                | Định An                  
----------------------------------------------------
province_english          | Tra Vinh                 
district_english          | Tra Cu                   
ward_english              | Dinh An Town             
----------------------------------------------------
long_province_english     | Tra Vinh Province        
long_district

### Double check province

In [29]:
from vietadminunits.parse import DICT_double_check_provinces, DICT_double_check_inverted_provinces

In [30]:
print(DICT_double_check_provinces)

{}


In [31]:
print(DICT_double_check_inverted_provinces)

{'hatinh': {'quangngai': [['tinhha', 'sontinh']], 'phuyen': [['sonha', 'sonhoa']]}, 'phuyen': {'dongthap': [['caitauha', 'chauthanh'], ['anhiep', 'chauthanh'], ['annhon', 'chauthanh'], ['tannhuandong', 'chauthanh'], ['tanbinh', 'chauthanh'], ['tanphutrung', 'chauthanh'], ['phulong', 'chauthanh'], ['anphuthuan', 'chauthanh'], ['phuhuu', 'chauthanh'], ['ankhanh', 'chauthanh'], ['tanphu', 'chauthanh'], ['hoatan', 'chauthanh']], 'sonla': [['phuyen', 'phuyen'], ['suoito', 'phuyen'], ['muongthai', 'phuyen'], ['muongcoi', 'phuyen'], ['quanghuy', 'phuyen'], ['huybac', 'phuyen'], ['huythuong', 'phuyen'], ['tanlang', 'phuyen'], ['giaphu', 'phuyen'], ['tuongphu', 'phuyen'], ['huyha', 'phuyen'], ['huytan', 'phuyen'], ['muonglang', 'phuyen'], ['suoibau', 'phuyen'], ['huytuong', 'phuyen'], ['muongdo', 'phuyen'], ['sapxa', 'phuyen'], ['tuongthuong', 'phuyen'], ['tuongtien', 'phuyen'], ['tuongphong', 'phuyen'], ['tuongha', 'phuyen'], ['kimbon', 'phuyen'], ['muongbang', 'phuyen'], ['dado', 'phuyen'], [

In [32]:
parse_address('Tịnh Hà Tỉnh Quảng Ngãi Sơn Tịnh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Quảng Ngãi               
district                  | Sơn Tịnh                 
ward                      | Tịnh Hà                  
----------------------------------------------------
long_province             | Tỉnh Quảng Ngãi          
long_district             | Huyện Sơn Tịnh           
long_ward                 | Xã Tịnh Hà               
----------------------------------------------------
short_district            | Sơn Tịnh                 
short_ward                | Tịnh Hà                  
----------------------------------------------------
province_english          | Quang Ngai               
district_english          | Son Tinh                 
ward_english              | Tinh Ha                  
----------------------------------------------------
long_province_english     | Quang Ngai Province      
long_district

### Double check district

In [33]:
from vietadminunits.parse import DICT_double_check_districts

In [34]:
print(DICT_double_check_districts)

{'Ha Tinh': {'hatinh': ['thachha', 'locha']}, 'Quang Ngai': {'sontinh': ['binhson', 'lyson']}, 'Binh Duong': {'tanuyen': ['bactanuyen']}, 'Ho Chi Minh': {'binhthanh': ['tanbinh']}}


In [35]:
parse_address('Binh Son tinh Quang Ngai')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Quảng Ngãi               
district                  | Bình Sơn                 
ward                      |                          
----------------------------------------------------
long_province             | Tỉnh Quảng Ngãi          
long_district             | Huyện Bình Sơn           
long_ward                 |                          
----------------------------------------------------
short_district            | Bình Sơn                 
short_ward                |                          
----------------------------------------------------
province_english          | Quang Ngai               
district_english          | Binh Son                 
ward_english              |                          
----------------------------------------------------
long_province_english     | Quang Ngai Province      
long_district

In [36]:
parse_address('Tinh Binh Son Tinh Quang Ngai')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Quảng Ngãi               
district                  | Sơn Tịnh                 
ward                      | Tịnh Bình                
----------------------------------------------------
long_province             | Tỉnh Quảng Ngãi          
long_district             | Huyện Sơn Tịnh           
long_ward                 | Xã Tịnh Bình             
----------------------------------------------------
short_district            | Sơn Tịnh                 
short_ward                | Tịnh Bình                
----------------------------------------------------
province_english          | Quang Ngai               
district_english          | Son Tinh                 
ward_english              | Tinh Binh                
----------------------------------------------------
long_province_english     | Quang Ngai Province      
long_district

### Double check ward

In [37]:
from vietadminunits.parse import DICT_double_check_wards

In [38]:
print(DICT_double_check_wards)

{'Nam Dinh': {'Hai Hau': {'haianh': ['haian']}}}


In [39]:
parse_address('Hai Anh Huyen Hai Hau Nam Dinh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Nam Định                 
district                  | Hải Hậu                  
ward                      | Hải Anh                  
----------------------------------------------------
long_province             | Tỉnh Nam Định            
long_district             | Huyện Hải Hậu            
long_ward                 | Xã Hải Anh               
----------------------------------------------------
short_district            | Hải Hậu                  
short_ward                | Hải Anh                  
----------------------------------------------------
province_english          | Nam Dinh                 
district_english          | Hai Hau                  
ward_english              | Hai Anh                  
----------------------------------------------------
long_province_english     | Nam Dinh Province        
long_district

In [40]:
parse_address('Hai An Huyen Hai Hau Nam Dinh')

AdministrativeUnit:
Attribute                 | Value                    
----------------------------------------------------
province                  | Nam Định                 
district                  | Hải Hậu                  
ward                      | Hải An                   
----------------------------------------------------
long_province             | Tỉnh Nam Định            
long_district             | Huyện Hải Hậu            
long_ward                 | Xã Hải An                
----------------------------------------------------
short_district            | Hải Hậu                  
short_ward                | Hải An                   
----------------------------------------------------
province_english          | Nam Dinh                 
district_english          | Hai Hau                  
ward_english              | Hai An                   
----------------------------------------------------
long_province_english     | Nam Dinh Province        
long_district