In [2]:
import cdsapi

##### 1. `product_type`
- **Mô tả:** Loại sản phẩm dữ liệu.
- **Các giá trị khả dụng:**
  - `'reanalysis'`: Dữ liệu đã được phân tích lại, chất lượng cao (dữ liệu chuẩn).
  - `'reanalysis_era5t_preliminary_back_extension'`: Dữ liệu ERA5T gần thời gian thực, có thể thay đổi.
- **Mặc định:** Không có, phải chỉ định.

##### 2. `variable`
- **Mô tả:** Các biến khí tượng muốn tải.
- **Các giá trị khả dụng:** Rất nhiều. Đây là một vài ví dụ phổ biến:
  - `mean_sea_level_pressure` (áp suất mực nước biển trung bình)
  - `surface_pressure` (áp suất bề mặt)
  - `total_cloud_cover` (tổng lượng mây che phủ)
  - `soil_temperature_level_1` (nhiệt độ đất lớp 1)
  - `sea_surface_temperature` (nhiệt độ mặt nước biển)
  - ... và nhiều biến khác. Bạn có thể xem danh sách đầy đủ tại trang web của CDS cho dataset này.
- **Mặc định:** Không có, phải chọn ít nhất một biến.

##### 3. `year`
- **Mô tả:** Năm của dữ liệu.
- **Các giá trị khả dụng:**
  - Một chuỗi ký tự: `'2020'`
  - Một danh sách các chuỗi: `['2020', '2021', '2022']`
  - Dữ liệu có từ năm 1940 đến hiện tại.
- **Mặc định:** Không có, bắt buộc phải có.

##### 4. `month`
- **Mô tả:** Tháng trong năm.
- **Các giá trị khả dụng:**
  - Một chuỗi ký tự: `'01'`, `'02'`, ..., `'12'`
  - Một danh sách các chuỗi: `['01', '06', '12']`
- **Mặc định:** Không có, bắt buộc phải có.

##### 5. `day`
- **Mô tả:** Ngày trong tháng.
- **Các giá trị khả dụng:**
  - Một chuỗi ký tự: `'01'`, `'02'`, ..., `'31'`
  - Một danh sách các chuỗi: `['01', '15', '31']`
- **Mặc định:** Không có, bắt buộc phải có.

##### 6. `time`
- **Mô tả:** Thời gian trong ngày (theo giờ UTC).
- **Các giá trị khả dụng:**
  - Một chuỗi ký tự: `'00:00'`, `'01:00'`, ..., `'23:00'` (cách nhau 1 giờ).
  - Một danh sách các chuỗi: `['00:00', '06:00', '12:00', '18:00']`
- **Mặc định:** Không có, bắt buộc phải có.

##### 7. `date`
- **Mô tả:** Một cách khác để chọn khoảng thời gian. **Lưu ý:** Nếu dùng `date`, không nên dùng `year`, `month`, `day`.
- **Các giá trị khả dụng:**
  - Một chuỗi ký tự theo định dạng `YYYY-MM-DD/to/YYYY-MM-DD`. Ví dụ: `'2025-03-01/to/2025-03-10'`.
- **Mặc định:** Không được sử dụng nếu `year`, `month`, `day` đã được cung cấp.

##### 8. `area`
- **Mô tả:** Vùng địa lý muốn lấy dữ liệu, theo định dạng `[Bắc, Tây, Nam, Đông]`.
- **Các giá trị khả dụng:** Một danh sách 4 số (số nguyên hoặc số thực).
  - Vĩ độ (Bắc, Nam): từ -90 đến 90.
  - Kinh độ (Tây, Đông): từ -180 đến 180.
- **Mặc định:** Toàn cầu (nếu không được chỉ định).

##### 9. `format`
- **Mô tả:** Định dạng file đầu ra.
- **Các giá trị khả dụng:**
  - `'netcdf'`: Định dạng NetCDF (khuyến nghị cho xarray). File sẽ là `.nc`.
  - `'grib'`: Định dạng GRIB. File sẽ là `.grib`.
- **Mặc định:** `'grib'`

##### 10. `grid`
- **Mô tả:** Độ phân giải của lưới dữ liệu (tính bằng độ).
- **Các giá trị khả dụng:** Một danh sách 2 số `[vĩ độ, kinh độ]`. Ví dụ: `[0.25, 0.25]`.
- **Mặc định:** `[0.25, 0.25]` (độ phân giải gốc của ERA5).

In [None]:
c = cdsapi.Client()

dataset = 'reanalysis-era5-single-levels'
request = {
     'product_type': 'reanalysis',
     'variable': [
            '2m_temperature', # 2 meter temperature
            '2m_dewpoint_temperature', # 2 meter dewpoint temperature
            '10m_u_component_of_wind', # 10 meter U wind component
            '10m_v_component_of_wind', # 10 meter V wind component
            'total_precipitation' # 1 hour accumulated
        ],
     'year': '2025', # Year
     'month': '03', # Month
     'day': '01', # Day
     'time': '12:00', # UTC time - if you want multiple times, use a list of strings: ['00:00', '06:00', '12:00', '18:00']
     # 'date': '2025-03-01/to/2025-03-10', # Date range
     'area': [24, 102, 8, 110], # North, West, South, East
     'format': 'netcdf', 
     # 'grid': [0.25, 0.25], # Grid resolution
}
target = 'download.zip'

c.retrieve(dataset, request, target)

2025-09-18 15:46:01,866 INFO Request ID is d13158d7-d73a-4e63-a7c9-2bcf0fd82639
2025-09-18 15:46:02,209 INFO status has been updated to accepted
2025-09-18 15:46:11,665 INFO status has been updated to successful


171ca24e6e71c119bff3d7daf9be1a98.zip:   0%|          | 0.00/95.6k [00:00<?, ?B/s]

'download.zip'

In [2]:
import xarray as xr
import pandas as pd

In [25]:
# mở file instant
ds_instant = xr.open_dataset("data_stream-oper_stepType-instant.nc", engine='netcdf4')
print(ds_instant)

<xarray.Dataset>
Dimensions:     (valid_time: 1, latitude: 65, longitude: 33)
Coordinates:
    number      int64 ...
  * valid_time  (valid_time) datetime64[ns] 2025-03-01T12:00:00
  * latitude    (latitude) float64 24.0 23.75 23.5 23.25 ... 8.75 8.5 8.25 8.0
  * longitude   (longitude) float64 102.0 102.2 102.5 ... 109.5 109.8 110.0
    expver      object ...
Data variables:
    t2m         (valid_time, latitude, longitude) float32 ...
    d2m         (valid_time, latitude, longitude) float32 ...
    u10         (valid_time, latitude, longitude) float32 ...
    v10         (valid_time, latitude, longitude) float32 ...
Attributes:
    GRIB_centre:             ecmf
    GRIB_centreDescription:  European Centre for Medium-Range Weather Forecasts
    GRIB_subCentre:          0
    Conventions:             CF-1.7
    institution:             European Centre for Medium-Range Weather Forecasts
    history:                 2025-09-18T08:38 GRIB to CDM+CF via cfgrib-0.9.1...


In [None]:
# mở file accum
ds_accum = xr.open_dataset("data_stream-oper_stepType-accum.nc", engine='netcdf4')
print(ds_accum)

<xarray.Dataset>
Dimensions:     (valid_time: 1, latitude: 65, longitude: 33)
Coordinates:
    number      int64 ...
  * valid_time  (valid_time) datetime64[ns] 2025-03-01T12:00:00
  * latitude    (latitude) float64 24.0 23.75 23.5 23.25 ... 8.75 8.5 8.25 8.0
  * longitude   (longitude) float64 102.0 102.2 102.5 ... 109.5 109.8 110.0
    expver      object ...
Data variables:
    tp          (valid_time, latitude, longitude) float32 ...
Attributes:
    GRIB_centre:             ecmf
    GRIB_centreDescription:  European Centre for Medium-Range Weather Forecasts
    GRIB_subCentre:          0
    Conventions:             CF-1.7
    institution:             European Centre for Medium-Range Weather Forecasts
    history:                 2025-09-18T08:38 GRIB to CDM+CF via cfgrib-0.9.1...


In [None]:
# gộp 2 dataset
ds = xr.merge([ds_instant, ds_accum])
print(ds)

<xarray.Dataset>
Dimensions:     (valid_time: 1, latitude: 65, longitude: 33)
Coordinates:
    number      int64 0
  * valid_time  (valid_time) datetime64[ns] 2025-03-01T12:00:00
  * latitude    (latitude) float64 24.0 23.75 23.5 23.25 ... 8.75 8.5 8.25 8.0
  * longitude   (longitude) float64 102.0 102.2 102.5 ... 109.5 109.8 110.0
    expver      <U4 '0001'
Data variables:
    t2m         (valid_time, latitude, longitude) float32 ...
    d2m         (valid_time, latitude, longitude) float32 ...
    u10         (valid_time, latitude, longitude) float32 ...
    v10         (valid_time, latitude, longitude) float32 ...
    tp          (valid_time, latitude, longitude) float32 ...
Attributes:
    GRIB_centre:             ecmf
    GRIB_centreDescription:  European Centre for Medium-Range Weather Forecasts
    GRIB_subCentre:          0
    Conventions:             CF-1.7
    institution:             European Centre for Medium-Range Weather Forecasts
    history:                 2025-09-18T

In [31]:
# chuyển sang dataframe
df = ds.to_dataframe().reset_index()

# lưu csv
df.to_csv("era5_merged.csv", index=False)

df.head()

Unnamed: 0,valid_time,latitude,longitude,number,expver,t2m,d2m,u10,v10,tp
0,2025-03-01 12:00:00,24.0,102.0,0,1,295.443115,278.860352,1.968323,1.546448,0.0
1,2025-03-01 12:00:00,24.0,102.25,0,1,293.859131,277.825195,1.513245,1.536682,0.0
2,2025-03-01 12:00:00,24.0,102.5,0,1,294.734131,275.725586,2.104065,1.878479,0.0
3,2025-03-01 12:00:00,24.0,102.75,0,1,295.066162,275.834961,2.188049,1.862854,0.0
4,2025-03-01 12:00:00,24.0,103.0,0,1,295.425537,277.348633,1.754456,1.806213,0.0


In [4]:
df = pd.read_csv('era5_merged.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2145 entries, 0 to 2144
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   valid_time  2145 non-null   object 
 1   latitude    2145 non-null   float64
 2   longitude   2145 non-null   float64
 3   number      2145 non-null   int64  
 4   expver      2145 non-null   int64  
 5   t2m         2145 non-null   float64
 6   d2m         2145 non-null   float64
 7   u10         2145 non-null   float64
 8   v10         2145 non-null   float64
 9   tp          2145 non-null   float64
dtypes: float64(7), int64(2), object(1)
memory usage: 167.7+ KB
