In [28]:
import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.preprocessing import MinMaxScaler

# Hàm tải và xử lý tệp dữ liệu
def load_and_process_file(file_path, column_names):
    file_path = file_path.strip('\u202a')
    data = pd.read_csv(file_path, encoding='utf-8-sig', delimiter=',', decimal='.', header=None, skiprows=1, names=column_names)
    data['Date'] = pd.to_datetime(data['Date'], format='%d/%m/%Y')
    data = data.sort_values(by='Date')
    return data

# Hàm điền các ngày bị thiếu
def fill_missing_dates(df, column_name):
    start_date = pd.to_datetime('2024-01-01')
    end_date = pd.to_datetime('2025-03-03')
    full_dates = pd.date_range(start=start_date, end=end_date, freq='D')
    missing_dates = full_dates.difference(df['Date'])
    missing_df = pd.DataFrame({'Date': missing_dates, column_name: np.nan})
    df = pd.concat([df, missing_df], ignore_index=True).sort_values('Date').reset_index(drop=True)
    return df

# Đọc dữ liệu
locations = {
    "LHK": {
        "file_paths": {
            r'F:\KLTN\LCT\CO.csv': ['date', 'Tenanh', 'CO_S5P', 'CO_aqicn', 'CO_cem', 'CO', 'CO_scaled'],
            r'F:\KLTN\LCT\NO2.csv': ['date', 'Tenanh', 'NO2_S5P', 'NO2_aqicn', 'NO2_cem', 'NO2', 'NO2_scaled'],
            r'F:\KLTN\LCT\O3.csv': ['date', 'Tenanh', 'O3_S5P', 'O3_aqicn', 'O3_cem', 'O3', 'O3_scaled'],
            r'F:\KLTN\LCT\PM10.csv': ['date', 'min', 'max', 'median', 'q1', 'q3', 'stdev', 'count', 'PM10', 'PM10_scaled'],
            r'F:\KLTN\LCT\PM25.csv': ['date', 'min', 'max', 'median', 'q1', 'q3', 'stdev', 'count', 'PM25', 'PM25_scaled'],
            r'F:\KLTN\LCT\SO2.csv': ['date', 'Tenanh', 'SO2_S5P', 'SO2_aqicn', 'SO2_cem', 'SO2', 'SO2_scaled']
        },
        "output_dir": r'F:\KLTN\LCT',
        "station_info": {
            "name": "Lý Chính Thắng",
            "kinhdo_WGS84": 106.68320964273079,
            "vido_WGS84": 10.781912428764183,
            "kinhdo_VN2000": 683842.136624041,
            "vido_VN2000": 1192482.90645692
        }
    },
    "APH": {
        "file_paths": {
            r'F:\KLTN\LSQ\CO.csv': ['date', 'Tenanh', 'CO_S5P', 'CO_ppb', 'CO_aqiin', 'CO', 'CO_scaled'],
            r'F:\KLTN\LSQ\NO2.csv': ['date', 'Tenanh', 'NO2_S5P', 'NO2_ppb', 'NO2_aqiin', 'NO2', 'NO2_scaled'],
            r'F:\KLTN\LSQ\O3.csv': ['date', 'Tenanh', 'O3_S5P', 'O3_ppb', 'O3_aqiin', 'O3', 'O3_scaled'],
            r'F:\KLTN\LSQ\PM10.csv': ['date', 'PM10', 'PM10_scaled'],
            r'F:\KLTN\LSQ\PM25.csv': ['date', 'PM25', 'PM25_scaled'],
            r'F:\KLTN\LSQ\SO2.csv': ['date', 'Tenanh', 'SO2_S5P', 'SO2_ppb', 'SO2_aqiin', 'SO2', 'SO2_scaled']
        },
        "output_dir": r'F:\KLTN\LSQ',
        "station_info": {
            "name": "Lãnh sự quán Hoa Kỳ",
            "kinhdo_WGS84": 106.70060291924969,
            "vido_WGS84": 10.783468200812159,
            "kinhdo_VN2000": 603761.7158103304,
            "vido_VN2000": 1192668.7079877798
        }
    }
}

# Điền các ngày bị thiếu
df = fill_missing_dates(df, "PM25")  # Áp dụng cho một cột làm mẫu, các cột khác sẽ tự động bổ sung

# Hàm điền dữ liệu thiếu bằng KNN
def knn_impute(df, column_name):
    df['date_ordinal'] = df['Date'].map(pd.Timestamp.toordinal)
    knn_imputer = KNNImputer(n_neighbors=1)
    imputed_data = knn_imputer.fit_transform(df[['date_ordinal', column_name]])
    df[column_name] = imputed_data[:, 1]
    df.drop(columns=['date_ordinal'], inplace=True)
    return df

# Áp dụng KNN cho từng cột
columns_to_impute = ['PM25', 'PM10', 'CO', 'SO2', 'NO2', 'O3']
for col in columns_to_impute:
    df = knn_impute(df, col)

# Chuẩn hóa dữ liệu bằng MinMaxScaler
scaler = MinMaxScaler()
for col in columns_to_impute:
    df[f'{col}_scaled'] = scaler.fit_transform(df[[col]])

# Xuất dữ liệu sau xử lý
df.to_csv("D:/LeHuuKieu_processed.csv", index=False)

In [33]:
import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer
from sklearn.preprocessing import MinMaxScaler

# Hàm tải và xử lý tệp dữ liệu
def load_and_process_file(file_path, column_names):
    file_path = file_path.strip('\u202a')
    data = pd.read_csv(file_path, encoding='utf-8-sig', delimiter=',', decimal='.', header=None, skiprows=1, names=column_names)
    data['date'] = pd.to_datetime(data['date'], format='%d/%m/%Y')
    data = data.sort_values(by='date')
    return data

# Hàm điền các ngày bị thiếu
def fill_missing_dates(df, column_name):
    start_date = pd.to_datetime('2024-01-01')
    end_date = pd.to_datetime('2025-03-03')
    full_dates = pd.date_range(start=start_date, end=end_date, freq='D')
    missing_dates = full_dates.difference(df['date'])
    missing_df = pd.DataFrame({'date': missing_dates, column_name: np.nan})
    df = pd.concat([df, missing_df], ignore_index=True).sort_values('date').reset_index(drop=True)
    return df

# Hàm điền dữ liệu thiếu bằng KNN
def knn_impute(df, column_name):
    df['date_ordinal'] = df['date'].map(pd.Timestamp.toordinal)
    knn_imputer = KNNImputer(n_neighbors=1)
    imputed_data = knn_imputer.fit_transform(df[['date_ordinal', column_name]])
    df[column_name] = imputed_data[:, 1]
    df.drop(columns=['date_ordinal'], inplace=True)
    return df

# Hàm xử lý toàn bộ quy trình cho một file
def process_file(file_path, output_path):
    column_names = ["Ten_Tram", "Nguon", "Link", "KinhDo_WGS84", "ViDo_WGS84", "KinhDo_VN2000", "ViDo_VN2000", "date", "PM25", "PM10", "CO", "SO2", "NO2", "O3"]
    df = load_and_process_file(file_path, column_names)
    df = fill_missing_dates(df, "PM25")  # Áp dụng cho một cột, các cột khác sẽ tự động bổ sung
    
    columns_to_impute = ['PM25', 'PM10', 'CO', 'SO2', 'NO2', 'O3']
    for col in columns_to_impute:
        df = knn_impute(df, col)
    
    scaler = MinMaxScaler()
    for col in columns_to_impute:
        df[f'{col}_scaled'] = scaler.fit_transform(df[[col]])
    
    df.to_csv(output_path, index=False)

# Xử lý cả hai file
file_paths = ["D:/LeHuuKieu.csv", "D:/AnPhu.csv"]
output_paths = ["D:/LeHuuKieu_processed.csv", "D:/AnPhu_processed.csv"]

for file_path, output_path in zip(file_paths, output_paths):
    process_file(file_path, output_path)
