## Extract Provinces

Purpose: Filter data from the full Vietnam dataset (VietnamWardBoundary2025.csv) to get the list of provinces:

- Read the original CSV file.
- Provide basic statistics and unique values for columns.
- Filter records where tentinh matches the target province.
- Extract the tentinh column and save to a new CSV file.

### 1. Setup


In [1]:
import pandas as pd 
from pathlib import Path
import re

### 2. Load data


In [2]:
project_root = Path.cwd()
input_csv_path = project_root / Path("..") / "resources" / "VietnamWardBoundary2025.csv"
output_csv_path = project_root / Path("..") / "resources" / "vietnam_provinces.csv"

print(f"Input file path: {input_csv_path.resolve()}")
print(f"Output file path: {output_csv_path.resolve()}")

Input file path: /home/tan/geo-weather-lake/resources/VietnamWardBoundary2025.csv
Output file path: /home/tan/geo-weather-lake/resources/vietnam_provinces.csv


In [3]:
df = pd.read_csv(input_csv_path)
df.head()

Unnamed: 0,ma,cay,ma1,khoa,loai,vido,tenhc,kinhdo,matinh,tentinh,matinhxa,dansonguoi,trungtamhc,dientichkm2,truocsapnhap,area
0,1054,1034.1054,1000,4Cát Hải,đặc khu,20.8087,Cát Hải,106.869,4,thành phố Hải Phòng,4.1,71211,"Trụ sở UBND huyện Cát Hải, đường Hà Sen, thị t...",286.98,"Thị trấn Cát Hải, Thị trấn Cát Bà, Xã Đồng Bài...",238196066.0
1,2789,2687.2789,1,29Phú Lợi,phường,10.9861,Phú Lợi,106.676,29,thành phố Hồ Chí Minh,29.1,107721,"438 đường Phú Lợi, khu phố 8, phường Phú Hòa, ...",17.96,"Phường Phú Hòa, Phường Phú Lợi, Phường Hiệp Th...",18071404.0
2,2839,2687.2839,2,29Thủ Dầu Một,phường,10.9701,Thủ Dầu Một,106.659,29,thành phố Hồ Chí Minh,29.2,88132,"1 đường Quang Trung, khu phố 6, phường Phú Cườ...",15.68,"Phường Phú Cường, Phường Phú Thọ, Phường Chánh...",15637769.0
3,2734,2687.2734,3,29Chánh Hiệp,phường,11.0147,Chánh Hiệp,106.64,29,thành phố Hồ Chí Minh,29.3,56387,"279 đường Hồ Văn Cống, khu phố 3, phường Tương...",19.66,"Phường Định Hòa, Phường Tương Bình Hiệp, Phườn...",20579900.0
4,2712,2687.2712,4,29Bình Dương,phường,11.0528,Bình Dương,106.687,29,thành phố Hồ Chí Minh,29.4,107576,"357 đường Võ Nguyên Giáp, khu phố 1, phường Hò...",58.16,"Phường Phú Mỹ (thành phố Thủ Dầu Một), Phường ...",58565275.0


In [4]:
df.nunique()

ma              3321
cay             3321
ma1             3321
khoa            3321
loai               3
vido            3273
tenhc           2879
kinhdo          2298
matinh            34
tentinh           34
matinhxa        3308
dansonguoi      3002
trungtamhc      2738
dientichkm2     2852
truocsapnhap    3194
area            3321
dtype: int64

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3321 entries, 0 to 3320
Data columns (total 16 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ma            3321 non-null   int64  
 1   cay           3321 non-null   float64
 2   ma1           3321 non-null   int64  
 3   khoa          3321 non-null   object 
 4   loai          3321 non-null   object 
 5   vido          3321 non-null   float64
 6   tenhc         3321 non-null   object 
 7   kinhdo        3321 non-null   float64
 8   matinh        3321 non-null   int64  
 9   tentinh       3321 non-null   object 
 10  matinhxa      3321 non-null   float64
 11  dansonguoi    3321 non-null   object 
 12  trungtamhc    3321 non-null   object 
 13  dientichkm2   3318 non-null   object 
 14  truocsapnhap  3321 non-null   object 
 15  area          3321 non-null   float64
dtypes: float64(5), int64(3), object(8)
memory usage: 415.3+ KB


### 3. Clean and Extract unique province names


In [6]:
province_series = df['tentinh'].unique()
province_series

array(['thành phố Hải Phòng', 'thành phố Hồ Chí Minh', 'tỉnh Cà Mau',
       'tỉnh Gia Lai', 'tỉnh Đồng Tháp', 'thành phố Cần Thơ',
       'tỉnh Lâm Đồng', 'tỉnh An Giang', 'tỉnh Quảng Ngãi',
       'tỉnh Quảng Trị', 'tỉnh Hưng Yên', 'tỉnh Cao Bằng', 'tỉnh Lào Cai',
       'tỉnh Ninh BÌnh', 'tỉnh Khánh Hòa', 'tỉnh Thái Nguyên',
       'tỉnh Tây Ninh', 'tỉnh Sơn La', 'tỉnh Nghệ An', 'tỉnh Phú Thọ',
       'thành phố Huế', 'tỉnh Lạng Sơn', 'tỉnh Quảng Ninh',
       'thành phố Đà Nẵng', 'tỉnh Hà Tĩnh', 'tỉnh Lai Châu',
       'tỉnh Bắc Ninh', 'tỉnh Điện Biên', 'tỉnh Đồng Nai',
       'tỉnh Tuyên Quang', 'tỉnh Vĩnh Long', 'tỉnh Thanh Hóa',
       'tỉnh Đắk Lắk', 'Thủ đô Hà Nội'], dtype=object)

In [7]:
df_provinces = pd.DataFrame(province_series, columns=['tentinh'])
df_provinces.rename(columns={'tentinh': 'name'}, inplace=True)
df_provinces

Unnamed: 0,name
0,thành phố Hải Phòng
1,thành phố Hồ Chí Minh
2,tỉnh Cà Mau
3,tỉnh Gia Lai
4,tỉnh Đồng Tháp
5,thành phố Cần Thơ
6,tỉnh Lâm Đồng
7,tỉnh An Giang
8,tỉnh Quảng Ngãi
9,tỉnh Quảng Trị


In [8]:
def clean_name(x):
    x = x.strip()
    x = re.sub(r'(?i)^tỉnh\s+', '', x)
    x = re.sub(r'(?i)^thành phố\s+', 'Thành phố ', x)
    return x

print("Cleaning province names...")
df_provinces['name'] = df_provinces['name'].apply(clean_name)
df_provinces

Cleaning province names...


Unnamed: 0,name
0,Thành phố Hải Phòng
1,Thành phố Hồ Chí Minh
2,Cà Mau
3,Gia Lai
4,Đồng Tháp
5,Thành phố Cần Thơ
6,Lâm Đồng
7,An Giang
8,Quảng Ngãi
9,Quảng Trị


### 4. Save output


In [9]:
df_provinces.to_csv(output_csv_path, index=False)