In [3]:
import pandas as pd
import numpy as np

# Đường dẫn file (giả sử file nằm cùng thư mục với notebook)
file_path = 'hk_oyster_quarterly_21vars.csv'

try:
    # 1. Đọc dữ liệu
    df = pd.read_csv(file_path)
    
    # 2. Ép kiểu thời gian (nếu cột Quarter tồn tại) để sort cho dễ nhìn
    # Lưu ý: format '%m/%d/%Y' dựa trên ảnh bạn gửi (ví dụ: 1/1/1986)
    if 'Quarter' in df.columns:
        df['Date_Temp'] = pd.to_datetime(df['Quarter'], format='%m/%d/%Y', errors='coerce')
        df = df.sort_values(by=['Station', 'Date_Temp'])
        # Xóa cột tạm nếu không cần thiết, hoặc giữ lại để dùng sau
        # df.drop(columns=['Date_Temp'], inplace=True) 

    # 3. Hiển thị tổng quan
    print(f"✅ Đã đọc thành công! Kích thước data: {df.shape[0]} dòng, {df.shape[1]} cột.")
    
    print("\n=== 5 Dòng đầu tiên (Đã sort theo Trạm & Thời gian) ===")
    display(df.head()) # Dùng display() trong Jupyter đẹp hơn print()

    print("\n=== Kiểm tra dữ liệu thiếu (Null/NaN) ===")
    # Tính % thiếu của từng cột để biết cột nào "nát" nhất
    missing_percent = df.isnull().mean() * 100
    print(missing_percent[missing_percent > 0].sort_values(ascending=False).to_frame(name='% Missing'))

    print("\n=== Danh sách các Trạm (Station) ===")
    if 'Station' in df.columns:
        stations = df['Station'].unique()
        print(f"Có tổng cộng {len(stations)} trạm: {stations}")

except FileNotFoundError:
    print(f"❌ Không tìm thấy file '{file_path}'. Hãy kiểm tra lại đường dẫn hoặc upload file lên.")
except Exception as e:
    print(f"❌ Có lỗi xảy ra: {e}")

✅ Đã đọc thành công! Kích thước data: 11191 dòng, 26 cột.

=== 5 Dòng đầu tiên (Đã sort theo Trạm & Thời gian) ===


Unnamed: 0,Station,Quarter,DO,Temperature,pH,Salinity,NH3,PO4,BOD5,TSS,...,As,Cd,Pb,Cu,Hg,Zn,Total_Cr,Alkalinity_source,Transparency_source,Date_Temp
0,DM1,1986-01-01,,19.4,8.1,26.9,,,1.5,57.0,...,,,,,,,,synthetic_truncated_normal,synthetic_lognormal,NaT
1,DM1,1986-04-01,3.1,26.3,7.6,17.6,,,2.3,26.0,...,,,,,,,,synthetic_truncated_normal,synthetic_lognormal,NaT
2,DM1,1986-07-01,6.3,30.8,8.2,14.1,0.033,0.279,2.8,10.0,...,,,,,,,,synthetic_truncated_normal,synthetic_lognormal,NaT
3,DM1,1986-10-01,4.25,22.55,7.75,23.5,0.0245,0.74,2.55,48.0,...,,,,,,,,synthetic_truncated_normal,synthetic_lognormal,NaT
4,DM1,1987-01-01,3.6,21.5,7.4,24.5,0.001,0.85,2.4,15.0,...,,,,,,,,synthetic_truncated_normal,synthetic_lognormal,NaT



=== Kiểm tra dữ liệu thiếu (Null/NaN) ===
            % Missing
CN         100.000000
COD        100.000000
Total_Cr   100.000000
Date_Temp  100.000000
Zn         100.000000
Hg         100.000000
Cu         100.000000
Pb         100.000000
Cd         100.000000
As         100.000000
NH3          0.491466
PO4          0.437852
BOD5         0.357430
pH           0.357430
TSS          0.330623
DO           0.303816
Coliform     0.160844
Salinity     0.053615

=== Danh sách các Trạm (Station) ===
Có tổng cộng 87 trạm: ['DM1' 'DM2' 'DM3' 'DM4' 'DM5' 'EM1' 'EM2' 'EM3' 'ET1' 'ET2' 'JM3' 'JM4'
 'MM1' 'MM13' 'MM14' 'MM15' 'MM16' 'MM17' 'MM19' 'MM2' 'MM3' 'MM4' 'MM5'
 'MM6' 'MM7' 'MM8' 'PM1' 'PM11' 'PM2' 'PM3' 'PM4' 'PM6' 'PM7' 'PM8' 'PM9'
 'PT2' 'PT3' 'PT4' 'SM1' 'SM10' 'SM11' 'SM12' 'SM13' 'SM17' 'SM18' 'SM19'
 'SM2' 'SM20' 'SM3' 'SM4' 'SM5' 'SM6' 'SM7' 'SM9' 'ST1' 'ST3' 'TM2' 'TM3'
 'TM4' 'TM5' 'TM6' 'TM7' 'TM8' 'TT1' 'VM1' 'VM12' 'VM14' 'VM15' 'VM2'
 'VM4' 'VM5' 'VM6' 'VM7' 'VM8' 'VT10' 'VT