In [1]:
import pandas as pd
from vietadminunits import parse_address, get_data
from vietadminunits.utils import to_key, to_alphanumeric
import pickle

In [2]:
df = pd.DataFrame(get_data())

In [3]:
df['long_province_alphanumeric'] = df['long_province'].apply(to_alphanumeric)
df['long_district_alphanumeric'] = df['long_district'].apply(to_alphanumeric)
df['long_ward_alphanumeric'] = df['long_ward'].fillna('').apply(to_alphanumeric)

df['province_alphanumeric'] = df['province'].apply(to_alphanumeric)
df['short_district_alphanumeric'] = df['short_district'].apply(to_alphanumeric)
df['short_ward_alphanumeric'] = df['short_ward'].fillna('').apply(to_alphanumeric)

In [4]:
for ward in ['long_ward', 'ward']:
    for district in ['long_district', 'district']:
        for province in ['long_province', 'province']:
            df[f"address_{ward}_{district}_{province}"] = df[ward].fillna('') + df[district] + df[province]
            df[f"address_comma_{ward}_{district}_{province}"] = df[ward].fillna('') + ',' + df[district] + ',' + df[province]

In [5]:

df['province_key'] = df['province'].apply(to_key, args=(1,))
df['district_key'] = df['district'].apply(to_key, args=(2,))
df['ward_key'] = df['ward'].apply(to_key, args=(3,))

In [6]:
address_cols = [col for col in df.columns if 'address' in col]

## Find wards that are the same keyword with provinces

In [7]:
wrong_provinces = []



for address_col in address_cols:
    for row in df.itertuples():
        address = getattr(row, address_col)
        unit = parse_address(address, level=1)
        data = {
            'address': address,
            'province': row.province,
            'province_key': row.province_key,
            'wrong_province_key': unit.province_key,
        }
        
        if unit.province == None:
            print(address)
            wrong_provinces.append(data)
            
        elif unit.province != row.province:
            print(address)
            wrong_provinces.append(data)

In [8]:
df_wrong_provinces = pd.DataFrame(wrong_provinces)

In [9]:
df_wrong_provinces.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 0 entries
Empty DataFrame


In [10]:
df_wrong_provinces

In [11]:
# df_wrong_provinces[df_wrong_provinces.wrong_province_key.isna()]

In [12]:
DICT_double_check_provinces = {}
for row in df_wrong_provinces.itertuples():
    DICT_double_check_provinces[row.wrong_province_key] = df_wrong_provinces[df_wrong_provinces['wrong_province_key']==row.wrong_province_key]['province_key'].unique().tolist()

In [13]:
DICT_double_check_provinces

{}

## Find wards that are the same keyword with districts

We have to add `double_check_provinces` to module to solve province level before doing this step.

In [14]:
wrong_districts = []
for address_col in address_cols:
    for row in df.itertuples():
        address = getattr(row, address_col)

        unit = parse_address(address, level=3)
    
        data = {
            'address': address,
            'province_english': row.province_english,
            'province_key': row.province_key,
            'wrong_province_key': unit.province_key,
            'district_key': row.district_key,
            'wrong_district_key': unit.district_key,
        }
        
        if unit.province == None:
            print(address)
            wrong_districts.append(data)
        elif unit.district == None:
            print(address)
            wrong_districts.append(data)
                
        elif unit.district != row.district:
            print(address)
            wrong_districts.append(data)



Thị trấn Thạch HàThạch HàTỉnh Hà Tĩnh
Xã Ngọc SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch HảiThạch HàTỉnh Hà Tĩnh
Xã Thạch KênhThạch HàTỉnh Hà Tĩnh
Xã Thạch SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch LiênThạch HàTỉnh Hà Tĩnh
Xã Đỉnh BànThạch HàTỉnh Hà Tĩnh
Xã Việt TiếnThạch HàTỉnh Hà Tĩnh
Xã Thạch KhêThạch HàTỉnh Hà Tĩnh
Xã Thạch LongThạch HàTỉnh Hà Tĩnh
Xã Thạch TrịThạch HàTỉnh Hà Tĩnh
Xã Thạch LạcThạch HàTỉnh Hà Tĩnh
Xã Thạch NgọcThạch HàTỉnh Hà Tĩnh
Xã Tượng SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch VănThạch HàTỉnh Hà Tĩnh
Xã Lưu Vĩnh SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch ThắngThạch HàTỉnh Hà Tĩnh
Xã Thạch ĐàiThạch HàTỉnh Hà Tĩnh
Xã Thạch HộiThạch HàTỉnh Hà Tĩnh
Xã Tân Lâm HươngThạch HàTỉnh Hà Tĩnh
Xã Thạch XuânThạch HàTỉnh Hà Tĩnh
Xã Nam ĐiềnThạch HàTỉnh Hà Tĩnh
Xã Tân LộcLộc HàTỉnh Hà Tĩnh
Xã Hồng LộcLộc HàTỉnh Hà Tĩnh
Xã Thịnh LộcLộc HàTỉnh Hà Tĩnh
Xã Bình AnLộc HàTỉnh Hà Tĩnh
Xã Ích HậuLộc HàTỉnh Hà Tĩnh
Xã Phù LưuLộc HàTỉnh Hà Tĩnh
Thị trấn Lộc HàLộc HàTỉnh Hà Tĩnh
Xã Thạch MỹLộc HàTỉnh Hà Tĩnh
Xã Thạch KimLộc H

In [15]:
df_wrong_districts = pd.DataFrame(wrong_districts)

In [16]:
df_wrong_districts = df_wrong_districts[df_wrong_districts.province_key==df_wrong_districts.wrong_province_key]

In [17]:
df_wrong_districts

Unnamed: 0,address,province_english,province_key,wrong_province_key,district_key,wrong_district_key
0,Thị trấn Thạch HàThạch HàTỉnh Hà Tĩnh,Ha Tinh,hatinh,hatinh,thachha,hatinh
1,Xã Ngọc SơnThạch HàTỉnh Hà Tĩnh,Ha Tinh,hatinh,hatinh,thachha,hatinh
2,Xã Thạch HảiThạch HàTỉnh Hà Tĩnh,Ha Tinh,hatinh,hatinh,thachha,hatinh
3,Xã Thạch KênhThạch HàTỉnh Hà Tĩnh,Ha Tinh,hatinh,hatinh,thachha,hatinh
4,Xã Thạch SơnThạch HàTỉnh Hà Tĩnh,Ha Tinh,hatinh,hatinh,thachha,hatinh
...,...,...,...,...,...,...
219,"Đất Cuốc,Bắc Tân Uyên,Bình Dương",Binh Duong,binhduong,binhduong,bactanuyen,tanuyen
220,"Hiếu Liêm,Bắc Tân Uyên,Bình Dương",Binh Duong,binhduong,binhduong,bactanuyen,tanuyen
221,"Lạc An,Bắc Tân Uyên,Bình Dương",Binh Duong,binhduong,binhduong,bactanuyen,tanuyen
222,"Tân Mỹ,Bắc Tân Uyên,Bình Dương",Binh Duong,binhduong,binhduong,bactanuyen,tanuyen


In [18]:
df_wrong_districts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 224 entries, 0 to 223
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   address             224 non-null    object
 1   province_english    224 non-null    object
 2   province_key        224 non-null    object
 3   wrong_province_key  224 non-null    object
 4   district_key        224 non-null    object
 5   wrong_district_key  224 non-null    object
dtypes: object(6)
memory usage: 10.6+ KB


In [19]:
df_wrong_districts[df_wrong_districts.wrong_district_key.isna()]

Unnamed: 0,address,province_english,province_key,wrong_province_key,district_key,wrong_district_key


In [20]:
DICT_double_check_districts = {}

for province_english in df_wrong_districts['province_english'].unique():
    district_data = {}
    for wrong_district_key in df_wrong_districts[(df_wrong_districts['province_english']==province_english)]['wrong_district_key'].unique():
        tmp_district_keys = df_wrong_districts[(df_wrong_districts['province_english']==province_english) & (df_wrong_districts['wrong_district_key']==wrong_district_key)]['district_key'].unique().tolist()
        
        tmp_district_keys = sorted(tmp_district_keys, key=len, reverse=True)
        district_data[wrong_district_key] = tmp_district_keys
    
    district_data = dict(sorted(district_data.items(), key=lambda x: len(x[0]), reverse=True))
    DICT_double_check_districts[province_english] = district_data

In [21]:
DICT_double_check_districts

{'Ha Tinh': {'hatinh': ['thachha', 'locha']},
 'Quang Ngai': {'sontinh': ['binhson', 'lyson']},
 'Binh Duong': {'tanuyen': ['bactanuyen']},
 'Ho Chi Minh': {'binhthanh': ['tanbinh']}}

## Double check ward

In [22]:
wrong_wards = []
for address_col in address_cols:
    for row in df.itertuples():
        address = getattr(row, address_col)
        
        try:
        
            unit = parse_address(address, level=3)
        
            data = {
                'address': address,
                'province_english': row.province_english,
                'province_key': row.province_key,
                'wrong_province_key': unit.province_key,
                'district_english': row.district_english,
                'district_key': row.district_key,
                'wrong_district_key': unit.district_key,
                'ward_key': row.ward_key,
                'wrong_ward_key': unit.ward_key,
            }
            
            if unit.province == None:
                print(address)
                wrong_wards.append(data)
                
            elif unit.district == None:
                print(address)
                wrong_wards.append(data)
                
            elif (unit.ward == None) and (unit.district_key not in ['bachlongvi', 'conco', 'hoangsa', 'lyson', 'condao']):
                print(address)
                wrong_wards.append(data)
                    
            elif (unit.ward != row.ward) and (unit.district_key not in ['bachlongvi', 'conco', 'hoangsa', 'lyson', 'condao']):
                print(address)
                wrong_wards.append(data)
                
                
        except Exception as e:
            print('ERROR address:', address)
            print('ERROR info:', e)

Xã Hải AnHuyện Hải HậuTỉnh Nam Định
Xã Hải AnHuyện Hải HậuNam Định
Thị trấn Thạch HàThạch HàTỉnh Hà Tĩnh
Xã Ngọc SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch HảiThạch HàTỉnh Hà Tĩnh
Xã Thạch KênhThạch HàTỉnh Hà Tĩnh
Xã Thạch SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch LiênThạch HàTỉnh Hà Tĩnh
Xã Đỉnh BànThạch HàTỉnh Hà Tĩnh
Xã Việt TiếnThạch HàTỉnh Hà Tĩnh
Xã Thạch KhêThạch HàTỉnh Hà Tĩnh
Xã Thạch LongThạch HàTỉnh Hà Tĩnh
Xã Thạch TrịThạch HàTỉnh Hà Tĩnh
Xã Thạch LạcThạch HàTỉnh Hà Tĩnh
Xã Thạch NgọcThạch HàTỉnh Hà Tĩnh
Xã Tượng SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch VănThạch HàTỉnh Hà Tĩnh
Xã Lưu Vĩnh SơnThạch HàTỉnh Hà Tĩnh
Xã Thạch ThắngThạch HàTỉnh Hà Tĩnh
Xã Thạch ĐàiThạch HàTỉnh Hà Tĩnh
Xã Thạch HộiThạch HàTỉnh Hà Tĩnh
Xã Tân Lâm HươngThạch HàTỉnh Hà Tĩnh
Xã Thạch XuânThạch HàTỉnh Hà Tĩnh
Xã Nam ĐiềnThạch HàTỉnh Hà Tĩnh
Xã Tân LộcLộc HàTỉnh Hà Tĩnh
Xã Hồng LộcLộc HàTỉnh Hà Tĩnh
Xã Thịnh LộcLộc HàTỉnh Hà Tĩnh
Xã Bình AnLộc HàTỉnh Hà Tĩnh
Xã Ích HậuLộc HàTỉnh Hà Tĩnh
Xã Phù LưuLộc HàTỉnh Hà Tĩnh
Thị trấn Lộc H

In [23]:
df_wrong_wards = pd.DataFrame(wrong_wards)

In [24]:
df_wrong_wards = df_wrong_wards[(df_wrong_wards.province_key==df_wrong_wards.wrong_province_key) & (df_wrong_wards.district_key==df_wrong_wards.wrong_district_key)]

In [25]:
df_wrong_wards[df_wrong_wards.wrong_ward_key.isna()]

Unnamed: 0,address,province_english,province_key,wrong_province_key,district_english,district_key,wrong_district_key,ward_key,wrong_ward_key


In [26]:
df_wrong_wards

Unnamed: 0,address,province_english,province_key,wrong_province_key,district_english,district_key,wrong_district_key,ward_key,wrong_ward_key
0,Xã Hải AnHuyện Hải HậuTỉnh Nam Định,Nam Dinh,namdinh,namdinh,Hai Hau,haihau,haihau,haian,haianh
1,Xã Hải AnHuyện Hải HậuNam Định,Nam Dinh,namdinh,namdinh,Hai Hau,haihau,haihau,haian,haianh
103,Hải AnHuyện Hải HậuTỉnh Nam Định,Nam Dinh,namdinh,namdinh,Hai Hau,haihau,haihau,haian,haianh
104,Hải AnHuyện Hải HậuNam Định,Nam Dinh,namdinh,namdinh,Hai Hau,haihau,haihau,haian,haianh


In [27]:
df_wrong_wards.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 0 to 104
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   address             4 non-null      object
 1   province_english    4 non-null      object
 2   province_key        4 non-null      object
 3   wrong_province_key  4 non-null      object
 4   district_english    4 non-null      object
 5   district_key        4 non-null      object
 6   wrong_district_key  4 non-null      object
 7   ward_key            4 non-null      object
 8   wrong_ward_key      4 non-null      object
dtypes: object(9)
memory usage: 320.0+ bytes


In [None]:
from vietadminunits.parse import DICT_ward_map, DICT_duplicated_ward_keys

In [None]:
'yenvien' in DICT_ward_map['Ha Noi']['Gia Lam']

In [None]:
DICT_ward_map['Lao Cai']['Sa Pa']

In [None]:
DICT_duplicated_ward_keys['Ha Noi']['Gia Lam']

In [28]:
DICT_double_check_wards = {}

for province_english in df_wrong_wards.province_english.unique():
    district_data = {}
    tmp_df_province = df_wrong_wards[df_wrong_wards.province_english ==province_english]
    for district_english in tmp_df_province.district_english.unique():
        tmp_df_district = tmp_df_province[tmp_df_province.district_english == district_english]
        ward_data = {}
        for wrong_ward_key in tmp_df_district.wrong_ward_key.unique():
            ward_data[wrong_ward_key] = tmp_df_district[tmp_df_district.wrong_ward_key == wrong_ward_key]['ward_key'].unique().tolist()
        
        ward_data = dict(sorted(ward_data.items(), key=lambda x: len(x[0]), reverse=True))
        district_data[district_english] = ward_data
    
    DICT_double_check_wards[province_english] = district_data

In [29]:
DICT_double_check_wards

{'Nam Dinh': {'Hai Hau': {'haianh': ['haian']}}}

In [34]:
with open('../../vietadminunits/data/parse.pkl', 'rb') as f:
    data = pickle.load(f)

data['DICT_double_check_provinces'] = DICT_double_check_provinces
data['DICT_double_check_districts'] = DICT_double_check_districts
data['DICT_double_check_wards'] = DICT_double_check_wards

with open('../../vietadminunits/data/parse.pkl', 'wb') as f:
    pickle.dump(data, f)