# Chuyển oco2 nc4 thành csv


In [8]:
# thư viện cần thiết
import xarray as xr
import pandas as pd
import glob
import os
import geopandas as gpd
from shapely.geometry import Point

## Xác định file .nc4 và đọc dữ liệu bằng xarray


In [None]:
# Xác định file .nc4 và đọc dữ liệu bằng xarray
# Đường dẫn tới file .nc4
file_path = r"E:\DownloadData\co2_nasa\data\oco2_nc4_2020\oco2_LtCO2_200101_B11210Ar_240913160328s.nc4"  # <-- sửa lại tên file thật

# Mở file .nc4
ds = xr.open_dataset(file_path)

# In thông tin toàn bộ dataset
print(ds)

# In danh sách các biến
print("\n🔹 Danh sách biến:")
print(list(ds.data_vars))

# In các chiều dữ liệu
print("\n🔹 Các chiều:")
print(list(ds.dims))

# In thuộc tính toàn cục
print("\n🔹 Global attributes:")
print(ds.attrs)

# Đóng file sau khi đọc
ds.close()


<xarray.Dataset> Size: 58MB
Dimensions:                 (sounding_id: 128358, levels: 20, bands: 3,
                             vertices: 4, epoch_dimension: 7, source_files: 15,
                             frames: 125965, footprints: 8)
Coordinates:
  * sounding_id             (sounding_id) float64 1MB 2.02e+15 ... 2.02e+15
  * levels                  (levels) int16 40B 1 2 3 4 5 6 ... 15 16 17 18 19 20
  * bands                   (bands) int16 6B 1 2 3
  * vertices                (vertices) int16 8B 1 2 3 4
  * source_files            (source_files) object 120B 'oco2_L2StdGL_29252a_1...
  * frames                  (frames) int32 504kB 1 2 3 ... 125963 125964 125965
  * footprints              (footprints) int16 16B 1 2 3 4 5 6 7 8
Dimensions without coordinates: epoch_dimension
Data variables: (12/20)
    date                    (sounding_id, epoch_dimension) float32 4MB ...
    latitude                (sounding_id) float32 513kB ...
    longitude               (sounding_id) float3

## Gộp dữ liệu nc4 vào file csv

In [9]:
# Đường dẫn đến thư mục chứa các file .nc4
folder_path = "E:\\DownloadData\\co2_nasa\\data\\oco2_nc4_2020\\*.nc4"

# Lấy danh sách tất cả các file .nc4
file_list = glob.glob(folder_path)

# Danh sách lưu DataFrame từ mỗi file
df_list = []

In [10]:
for file in file_list:
    filename = os.path.basename(file)
    date_str = filename.split('_')[2]
    full_date = f"20{date_str[:2]}-{date_str[2:4]}-{date_str[4:6]}"
    try:
        ds = xr.open_dataset(file)
        df = pd.DataFrame({
            "file_date": full_date,
            "latitude": ds["latitude"].values,
            "longitude": ds["longitude"].values,
            "sza": ds["solar_zenith_angle"].values,
            "vza": ds["sensor_zenith_angle"].values,
            "xco2": ds["xco2"].values,
            "xco2_sigma": ds["xco2_uncertainty"].values,
            "xco2_qual": ds["xco2_quality_flag"].values,
            "time": ds["time"].values,
        })
        df_list.append(df)
    except Exception as e:
        print(f"❌ Lỗi với file {file}: {e}")

# Kết hợp tất cả DataFrame thành một DataFrame duy nhất
df_final = pd.concat(df_list, ignore_index=True)

# Xuất CSV
output_csv = "oco2_all_2020.csv"
df_final.to_csv(output_csv, index=False)

print(f"✅ Xuất dữ liệu thành công ra {output_csv}!")
print(f"📂 Tổng số file đã xử lý: {len(file_list)}")
print(f"📊 Tổng số dòng dữ liệu: {len(df_final)}")


✅ Xuất dữ liệu thành công ra oco2_all_2020.csv!
📂 Tổng số file đã xử lý: 356
📊 Tổng số dòng dữ liệu: 53882644


## Xuất dữ liệu CO2 từ OCO2_all lọc theo ranh giới Việt Nam sang file OCO2_vietnam


In [1]:
import pandas as pd
import geopandas as gpd
from shapely.geometry import Point
import os

In [2]:
# Đường dẫn
input_csv_path = r"E:\DownloadData\co2_nasa\data\oco2_csv\oco2_all_2020.csv"
shapefile_path = r"E:\RanhGioi\VNM_adm\gadm41_VNM_0.shp"
output_csv_path = r"E:\DownloadData\co2_nasa\data\oco2_csv\oco2_vietnam_2020.csv"

# Đọc shapefile ranh giới Việt Nam
gdf_vn = gpd.read_file(shapefile_path)
if gdf_vn.crs != "EPSG:4326":
    gdf_vn = gdf_vn.to_crs(epsg=4326)

# Lấy bounding box để lọc sơ bộ
min_lon, min_lat, max_lon, max_lat = gdf_vn.total_bounds

# Nếu file đã tồn tại thì xóa để ghi mới
if os.path.exists(output_csv_path):
    os.remove(output_csv_path)

# Đọc và xử lý từng phần nhỏ
chunk_size = 500_000  # có thể thay đổi tùy theo RAM
chunk_idx = 0

for chunk in pd.read_csv(input_csv_path, chunksize=chunk_size):
    chunk_idx += 1
    print(f"🔄 Đang xử lý phần {chunk_idx}...")

    # Lọc sơ bộ theo bounding box
    chunk = chunk[
        (chunk["longitude"] >= min_lon) & (chunk["longitude"] <= max_lon) &
        (chunk["latitude"] >= min_lat) & (chunk["latitude"] <= max_lat)
    ]

    # Tạo GeoDataFrame từ chunk đã lọc
    geometry = [Point(xy) for xy in zip(chunk["longitude"], chunk["latitude"])]
    gdf_chunk = gpd.GeoDataFrame(chunk, geometry=geometry, crs="EPSG:4326")

    # Lọc chính xác bằng spatial join
    gdf_filtered = gpd.sjoin(gdf_chunk, gdf_vn, predicate="within", how="inner")

    # Xóa các cột không cần
    gdf_filtered.drop(columns=["geometry", "index_right"], errors="ignore", inplace=True)

    # Ghi kết quả vào file (append)
    gdf_filtered.to_csv(output_csv_path, mode='a', index=False, header=not os.path.exists(output_csv_path))

    print(f"✅ Đã xử lý xong phần {chunk_idx}, ghi {len(gdf_filtered)} dòng.")

print("🎉 Hoàn tất lọc toàn bộ dữ liệu!")

🔄 Đang xử lý phần 1...
✅ Đã xử lý xong phần 1, ghi 0 dòng.
🔄 Đang xử lý phần 2...
✅ Đã xử lý xong phần 2, ghi 0 dòng.
🔄 Đang xử lý phần 3...
✅ Đã xử lý xong phần 3, ghi 990 dòng.
🔄 Đang xử lý phần 4...
✅ Đã xử lý xong phần 4, ghi 476 dòng.
🔄 Đang xử lý phần 5...
✅ Đã xử lý xong phần 5, ghi 191 dòng.
🔄 Đang xử lý phần 6...
✅ Đã xử lý xong phần 6, ghi 253 dòng.
🔄 Đang xử lý phần 7...
✅ Đã xử lý xong phần 7, ghi 0 dòng.
🔄 Đang xử lý phần 8...
✅ Đã xử lý xong phần 8, ghi 37 dòng.
🔄 Đang xử lý phần 9...
✅ Đã xử lý xong phần 9, ghi 0 dòng.
🔄 Đang xử lý phần 10...
✅ Đã xử lý xong phần 10, ghi 551 dòng.
🔄 Đang xử lý phần 11...
✅ Đã xử lý xong phần 11, ghi 0 dòng.
🔄 Đang xử lý phần 12...
✅ Đã xử lý xong phần 12, ghi 744 dòng.
🔄 Đang xử lý phần 13...
✅ Đã xử lý xong phần 13, ghi 974 dòng.
🔄 Đang xử lý phần 14...
✅ Đã xử lý xong phần 14, ghi 0 dòng.
🔄 Đang xử lý phần 15...
✅ Đã xử lý xong phần 15, ghi 237 dòng.
🔄 Đang xử lý phần 16...
✅ Đã xử lý xong phần 16, ghi 0 dòng.
🔄 Đang xử lý phần 17...
✅

## Lọc dữ liệu theo xco2_qual 

In [2]:
import pandas as pd

df = pd.read_csv(r"E:\DownloadData\co2_nasa\data\oco2_csv\oco2_vietnam_2020.csv")

# Kiểm tra cột có tên đúng không
print(df.columns)

# Kiểm tra giá trị duy nhất trong cột xco2_qual
print(df['xco2_qual'].unique())


Index(['file_date', 'latitude', 'longitude', 'sza', 'vza', 'xco2',
       'xco2_sigma', 'xco2_qual', 'time', 'GID_0', 'COUNTRY'],
      dtype='object')
[1. 0.]


In [4]:
import pandas as pd

# Đọc file
df = pd.read_csv(r"E:\DownloadData\co2_nasa\data\oco2_csv\oco2_vietnam_2020.csv")

# Lọc các dòng có xco2_qual = 0
filtered_df = df[df['xco2_qual'] == 0.0]  # dùng 0.0 hoặc 0 đều được

# Kiểm tra số dòng lọc được
print(f"Số dòng sau khi lọc xco2_qual = 0: {len(filtered_df)}")

# Xuất ra CSV
filtered_df.to_csv(r"E:\DownloadData\co2_nasa\data\oco2_csv\vn_xco2_qual0.csv", index=False)


Số dòng sau khi lọc xco2_qual = 0: 5849
