In [1]:
import pandas as pd
import numpy as np
import os
from sklearn.impute import KNNImputer

# 特征工程 提取年份 year 和 月份 month
def extract_time_features(df):
    df['year'] = df['指标名称'].dt.year
    df['month'] = df['指标名称'].dt.month
    return df

def process_all_files(base_dir, output_dir):

    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    for root, dirs, files in os.walk(base_dir):
        for file in files:
            if  file.endswith('attention.csv') or file.endswith('participants.csv') or file.endswith('stars.csv') or file.endswith('technical_fork.csv'):
                input_file_path = os.path.join(root, file)
                data = pd.read_csv(input_file_path)
        
                data['指标名称'] = pd.to_datetime(data['指标名称']) # 转化为日期时间类型
                data = extract_time_features(data) # 提取时间特征

                imputer = KNNImputer(n_neighbors=10) # 使用 KNNImputer 填补缺失值
                X = data[['year', 'month', '指标值']].copy() # 准备特征矩阵，包括年、月和指标值
                X_imputed = imputer.fit_transform(X) # 将 DataFrame 转换为 numpy 数组进行填补

                # 将填补后的数据转换回 DataFrame
                imputed_df = pd.DataFrame(X_imputed, columns=['year', 'month', '指标值'], index=data.index)
                # 更新原始数据中的 '指标值' 列
                data['指标值'] = imputed_df['指标值']
                final_data=data[['指标名称','指标值']]

                base_name = os.path.basename(input_file_path)
                output_file_path = os.path.join(output_dir, base_name)

                final_data.to_csv(output_file_path, index=False)

                print(f"已处理并保存到 {output_file_path}")

base_dir = './add 仅填补日期 无补0'
output_dir = './填补数据 补0+KNN近邻+问题变更等'
process_all_files(base_dir, output_dir)

已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\AdguardTeam_AdguardFilters_attention.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\AdguardTeam_AdguardFilters_participants.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\AdguardTeam_AdguardFilters_stars.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\AdguardTeam_AdguardFilters_technical_fork.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\airbytehq_airbyte_attention.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\airbytehq_airbyte_participants.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\airbytehq_airbyte_stars.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\airbytehq_airbyte_technical_fork.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\alibaba_nacos_attention.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\alibaba_nacos_participants.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\alibaba_nacos_stars.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\alibaba_nacos_technical_fork.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\angular_angular_attention.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\angular_angular_participants.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\angular_angular_stars.csv
已处理并保存到 ./填补数据 补0+KNN近邻+问题变更等\angular_angular