## Data Description

### 1. Overview
This dataset contains daily historical weather observations for **Vietnam’s 63 provinces and centrally governed cities** (based on the administrative structure before any provincial mergers).  
The data spans from **2021-01-01** to **2025-12-01**, and is designed primarily to support **tourism-related analytics**, providing detailed daily weather information across the country.

### 2. Source
Weather data is collected from the **Open-Meteo Historical Weather API**.  
Documentation: https://open-meteo.com/en/docs/historical-weather-api

### 3. Dataset Statistics
- **Rows:** 113,148
- **Columns:** 7  
- **Granularity:** 1 record = weather conditions of a province/city on a specific day

### 4. Column Description
| Column Name        | Type     | Description |
|--------------------|----------|-------------|
| `location`         | object   | Name of the province or centrally governed city |
| `date`             | object   | Observation date (YYYY-MM-DD) |
| `weather_code`     | int64    | WMO weather code (Table 4677), representing specific weather conditions |
| `temp`             | float64  | Average daily temperature (°C) |
| `temp_max`         | float64  | Maximum daily temperature (°C) |
| `temp_min`         | float64  | Minimum daily temperature (°C) |
| `wind_speed`       | float64  | Average wind speed (m/s) |
| `humidity`         | float64  | Relative humidity (%) |
| `weather_description` | object | Interpreted textual description derived from the weather code |

### 5. Data Quality
- **Missing values:** 0  
- **Duplicate rows:** 0  
- **Consistency:** Weather codes follow standard WMO 4677 definitions, and date ranges are continuous for all provinces.

### 6. Notes
- Weather description is inferred programmatically from WMO codes, ensuring consistent categorization.  
- The dataset can be used for tourism analytics, trend analysis, climate pattern detection, and recommendation systems.


In [61]:
import pandas as pd
import numpy as np

In [62]:
df = pd.read_csv("weather_vn_2125.csv")

In [None]:
df["location"] = df["location"].replace("Thừa Thiên Huế", "Thừa Thiên - Huế")
df["location"] = df["location"].replace("Bà Rịa - Vũng Tàu", "Thừa Thiên - Huế")

In [64]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 113148 entries, 0 to 113147
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   location             113148 non-null  object 
 1   date                 113148 non-null  object 
 2   weather_code         113148 non-null  int64  
 3   temp_max             113148 non-null  float64
 4   temp_min             113148 non-null  float64
 5   temp                 113148 non-null  float64
 6   wind_speed           113148 non-null  float64
 7   humidity             113148 non-null  float64
 8   weather_description  113148 non-null  object 
dtypes: float64(5), int64(1), object(3)
memory usage: 7.8+ MB


In [65]:
for i, l in enumerate(df.location.unique()):
    print(i, l)

0 An Giang
1 Bà Rịa - Vũng Tàu
2 Bạc Liêu
3 Bắc Giang
4 Bắc Kạn
5 Bắc Ninh
6 Bến Tre
7 Bình Định
8 Bình Dương
9 Bình Phước
10 Bình Thuận
11 Cà Mau
12 Cần Thơ
13 Cao Bằng
14 Đà Nẵng
15 Đắk Lắk
16 Đắk Nông
17 Điện Biên
18 Đồng Nai
19 Đồng Tháp
20 Gia Lai
21 Hà Giang
22 Hà Nam
23 Hà Nội
24 Hà Tĩnh
25 Hải Dương
26 Hải Phòng
27 Hậu Giang
28 Hòa Bình
29 Hưng Yên
30 Khánh Hòa
31 Kiên Giang
32 Kon Tum
33 Lai Châu
34 Lâm Đồng
35 Lạng Sơn
36 Lào Cai
37 Long An
38 Nam Định
39 Nghệ An
40 Ninh Bình
41 Ninh Thuận
42 Phú Thọ
43 Phú Yên
44 Quảng Bình
45 Quảng Nam
46 Quảng Ngãi
47 Quảng Ninh
48 Quảng Trị
49 Sóc Trăng
50 Sơn La
51 Tây Ninh
52 Thái Bình
53 Thái Nguyên
54 Thanh Hóa
55 Thừa Thiên - Huế
56 Tiền Giang
57 TP. Hồ Chí Minh
58 Trà Vinh
59 Tuyên Quang
60 Vĩnh Long
61 Vĩnh Phúc


In [66]:
len(df.location.unique())

62

In [67]:
data = df.to_numpy()

In [68]:
data.shape

(113148, 9)

In [69]:
temp = pd.read_csv("df_weather.csv")

In [70]:
temp.sample(1)

Unnamed: 0,location.name,location.region,location.terrain,location.country,location.lat,location.lon,date,date_epoch,day.maxtemp_c,day.maxtemp_f,...,day.condition.text,day.condition.icon,day.condition.code,day.uv,astro.sunrise,astro.sunset,astro.moonrise,astro.moonset,astro.moon_phase,astro.moon_illumination
9711,Bình Thuận,Bắc Trung Bộ và Duyên hải miền Trung,ven biển,Vietnam,10.9333,108.1,2024-09-22,1726963200,27.7,81.9,...,Moderate or heavy rain shower,//cdn.weatherapi.com/weather/64x64/day/356.png,1243,6.0,05:37 AM,05:44 PM,09:17 PM,09:28 AM,Waning Gibbous,82


In [None]:
temp = temp[["location.name", "location.terrain", "location.region", "location.lat", "location.lon"]]

In [72]:
len(temp)

26018

In [73]:
temp = temp.drop_duplicates()

In [74]:
temp = temp.rename(columns={"location.name":"location", "location.terrain":"terrain", "location.region":"region"})

In [75]:
temp

Unnamed: 0,location,terrain,region,location.lat,location.lon
0,An Giang,đồng bằng,Đồng Bằng Sông Cửu Long,10.7000,105.1167
1,Bà Rịa-Vũng Tàu,ven biển,Đông Nam Bộ,10.3500,107.0667
2,Bắc Giang,miền núi,Trung du và miền núi Bắc Bộ,21.2667,106.2000
3,Bắc Kạn,miền núi,Trung du và miền núi Bắc Bộ,22.1333,105.8333
4,Bạc Liêu,ven biển,Đồng Bằng Sông Cửu Long,9.2850,105.7244
...,...,...,...,...,...
58,Trà Vinh,ven biển,Đồng Bằng Sông Cửu Long,9.9347,106.3453
59,Tuyên Quang,miền núi,Trung du và miền núi Bắc Bộ,21.8233,105.2181
60,Vĩnh Long,đồng bằng,Đồng Bằng Sông Cửu Long,10.2500,105.9667
61,Vĩnh Phúc,đồng bằng,Đồng Bằng Sông Hồng,21.3100,105.5967


In [76]:
temp.sort_values(by="location.lat", ignore_index=True, ascending=False)

Unnamed: 0,location,terrain,region,location.lat,location.lon
0,Hà Giang,miền núi,Trung du và miền núi Bắc Bộ,22.8333,104.9833
1,Cao Bằng,miền núi,Tr [*]ung du và miền núi Bắc Bộ,22.6667,106.2500
2,Lào Cai,miền núi,Trung du và miền núi Bắc Bộ,22.4833,103.9500
3,Lai Châu,miền núi,Trung du và miền núi Bắc Bộ,22.3833,102.9500
4,Bắc Kạn,miền núi,Trung du và miền núi Bắc Bộ,22.1333,105.8333
...,...,...,...,...,...
58,Trà Vinh,ven biển,Đồng Bằng Sông Cửu Long,9.9347,106.3453
59,Hậu Giang,đồng bằng,Đồng Bằng Sông Cửu Long,9.8333,105.6333
60,Sóc Trăng,ven biển,Đồng Bằng Sông Cửu Long,9.6033,105.9800
61,Bạc Liêu,ven biển,Đồng Bằng Sông Cửu Long,9.2850,105.7244


In [77]:
temp = temp.drop(columns=["location.lat", "location.lon"])

In [78]:
prov = list(temp["location"].unique())

In [79]:
df.location.unique()

array(['An Giang', 'Bà Rịa - Vũng Tàu', 'Bạc Liêu', 'Bắc Giang',
       'Bắc Kạn', 'Bắc Ninh', 'Bến Tre', 'Bình Định', 'Bình Dương',
       'Bình Phước', 'Bình Thuận', 'Cà Mau', 'Cần Thơ', 'Cao Bằng',
       'Đà Nẵng', 'Đắk Lắk', 'Đắk Nông', 'Điện Biên', 'Đồng Nai',
       'Đồng Tháp', 'Gia Lai', 'Hà Giang', 'Hà Nam', 'Hà Nội', 'Hà Tĩnh',
       'Hải Dương', 'Hải Phòng', 'Hậu Giang', 'Hòa Bình', 'Hưng Yên',
       'Khánh Hòa', 'Kiên Giang', 'Kon Tum', 'Lai Châu', 'Lâm Đồng',
       'Lạng Sơn', 'Lào Cai', 'Long An', 'Nam Định', 'Nghệ An',
       'Ninh Bình', 'Ninh Thuận', 'Phú Thọ', 'Phú Yên', 'Quảng Bình',
       'Quảng Nam', 'Quảng Ngãi', 'Quảng Ninh', 'Quảng Trị', 'Sóc Trăng',
       'Sơn La', 'Tây Ninh', 'Thái Bình', 'Thái Nguyên', 'Thanh Hóa',
       'Thừa Thiên - Huế', 'Tiền Giang', 'TP. Hồ Chí Minh', 'Trà Vinh',
       'Tuyên Quang', 'Vĩnh Long', 'Vĩnh Phúc'], dtype=object)

In [84]:
for pro in prov:
    if list(df["location"].unique()).count(pro) == 0:
        print(pro)

Bà Rịa-Vũng Tàu
Yên Bái


In [81]:
new = df.merge(right=temp, on="location")

In [82]:
new

Unnamed: 0,location,date,weather_code,temp_max,temp_min,temp,wind_speed,humidity,weather_description,terrain,region
0,An Giang,2020-12-31 17:00:00+00:00,3,28.580500,21.6805,24.828417,13.091380,59.708576,Overcast,đồng bằng,Đồng Bằng Sông Cửu Long
1,An Giang,2021-01-01 17:00:00+00:00,3,27.130499,22.2305,24.390917,11.636025,62.203520,Overcast,đồng bằng,Đồng Bằng Sông Cửu Long
2,An Giang,2021-01-02 17:00:00+00:00,3,28.380499,22.1805,25.001330,7.376379,67.694520,Overcast,đồng bằng,Đồng Bằng Sông Cửu Long
3,An Giang,2021-01-03 17:00:00+00:00,51,31.480500,22.1805,26.593002,6.212236,73.568550,Light drizzle,đồng bằng,Đồng Bằng Sông Cửu Long
4,An Giang,2021-01-04 17:00:00+00:00,55,29.630499,23.7305,26.238832,6.620328,80.076690,Dense drizzle,đồng bằng,Đồng Bằng Sông Cửu Long
...,...,...,...,...,...,...,...,...,...,...,...
111347,Vĩnh Phúc,2025-11-26 17:00:00+00:00,3,24.247000,12.0470,17.101166,6.909923,68.090324,Overcast,đồng bằng,Đồng Bằng Sông Hồng
111348,Vĩnh Phúc,2025-11-27 17:00:00+00:00,3,23.997000,9.2470,15.715749,5.373971,67.561260,Overcast,đồng bằng,Đồng Bằng Sông Hồng
111349,Vĩnh Phúc,2025-11-28 17:00:00+00:00,0,22.796999,8.9970,15.474083,3.005121,71.542430,Clear sky,đồng bằng,Đồng Bằng Sông Hồng
111350,Vĩnh Phúc,2025-11-29 17:00:00+00:00,0,22.747000,8.9970,16.042833,3.557253,76.806050,Clear sky,đồng bằng,Đồng Bằng Sông Hồng
