In [3]:
import os
import pandas as pd
import chardet
import re
import numpy as np

# 1️⃣ 获取当前 Notebook 所在目录
current_dir = os.getcwd()

# 2️⃣ 获取 `Projekt` 根目录（即 `raw_data` 的上一级目录）
projekt_root = os.path.abspath(os.path.join(current_dir, "..", ".."))

# 3️⃣ 定义 `cleaned_data` 目录的正确路径
cleaned_data_dir = os.path.join(projekt_root, "cleaned_data")

# 4️⃣ 确保 `cleaned_data` 目录存在
os.makedirs(cleaned_data_dir, exist_ok=True)

# 5️⃣ 获取当前目录下所有 CSV 文件
csv_files = [f for f in os.listdir() if f.endswith(".csv")]

# 6️⃣ 定义薪资清理函数（只处理 `Salary`）
def clean_salary(salary):
    """
    只清理无效的薪资数据，如果是浮点数则直接返回，不进行任何转换。
    """
    if isinstance(salary, (int, float)) and not np.isnan(salary):
        return salary  # ✅ 直接返回有效的数值，不做任何修改

    if pd.isna(salary) or salary == "" or str(salary).strip().lower() in ["not provided", "unknown", "n/a"]:
        return "unknown"  # ✅ 仅对真正无效的值替换为 "unknown"

    # 处理字符串类型的薪资
    salary = str(salary)
    salary = re.sub(r"[\$,]", "", salary)  # 移除 $ 和 ,

    # 提取数值范围（如 "80,000 - 110,000" → [80000, 110000]）
    salary_range = re.findall(r"\d+\.\d+|\d+", salary)

    if len(salary_range) == 2:
        low_salary = float(salary_range[0])
        high_salary = float(salary_range[1])
        mean_salary = (low_salary + high_salary) / 2
    elif len(salary_range) == 1:
        mean_salary = float(salary_range[0])
    else:
        return "unknown"  # ✅ 只有无法解析的值才返回 "unknown"

    return mean_salary  # ✅ 只返回正确的薪资数值

# 7️⃣ 处理每个 CSV 文件
for file in csv_files:
    print(f"📂 正在处理文件: {file}")

    # 读取文件编码
    with open(file, "rb") as f:
        raw_data = f.read(10000)  # 读取前 10000 字节检测编码
        detected_encoding = chardet.detect(raw_data)["encoding"]

    print(f"📌 检测到编码: {detected_encoding}")

    # 8️⃣ 使用检测到的编码格式进行读取
    try:
        df = pd.read_csv(file, encoding=detected_encoding)
        print(f"✅ 成功使用 {detected_encoding} 读取 {file}")
    except Exception as e:
        print(f"❌ 读取 {file} 失败，使用 {detected_encoding}，尝试其他编码...")

        # 依次尝试 utf-8、ISO-8859-1、Windows-1252
        encoding_attempts = ["utf-8", "ISO-8859-1", "Windows-1252"]
        success = False

        for enc in encoding_attempts:
            try:
                df = pd.read_csv(file, encoding=enc)
                print(f"✅ 成功使用 {enc} 读取 {file}")
                success = True
                break  # 成功读取，跳出循环
            except Exception as e:
                print(f"❌ 读取 {file} 失败，尝试 {enc} 编码: {e}")

        if not success:
            print(f"⛔ 文件 {file} 无法读取，跳过处理。\n")
            continue  # 跳过无法读取的文件

    # 9️⃣ 识别 `Salary` 列（自动匹配列名大小写）
    def find_salary_column(df):
        salary_keywords = ["salary", "salaries", "base salary"]
        for col in df.columns:
            if any(keyword in col.lower() for keyword in salary_keywords):
                return col
        return None

    salary_col = find_salary_column(df)

    # 🔟 处理 `Salary` 数据
    if salary_col:
        print(f"📌 发现薪资列: {salary_col}")

        # 确保 `Salary` 列为正确数据类型
        df[salary_col] = df[salary_col].apply(clean_salary)

    else:
        print(f"⚠️ 未找到薪资列，跳过薪资处理。")

    # 1️⃣1️⃣ 生成清理后文件名
    cleaned_filename = f"cleaned_{file}"
    cleaned_filepath = os.path.join(cleaned_data_dir, cleaned_filename)

    # 1️⃣2️⃣ 保存清理后的 CSV 文件
    df.to_csv(cleaned_filepath, index=False, encoding="utf-8")

    print(f"✅ 清理完成，已保存至: {cleaned_filepath}\n")

# 1️⃣3️⃣ 处理完成提示
print(f"🎉 所有 CSV 文件已处理完毕，清理后的文件存放在 `{cleaned_data_dir}` 文件夹中！")


📂 正在处理文件: global-salaries-in-ai-ml-data-science.csv
📌 检测到编码: ascii
✅ 成功使用 ascii 读取 global-salaries-in-ai-ml-data-science.csv
📌 发现薪资列: salary
✅ 清理完成，已保存至: G:\Nextcloud\FSU_Cloud\Big Data\Projekt\cleaned_data\cleaned_global-salaries-in-ai-ml-data-science.csv

🎉 所有 CSV 文件已处理完毕，清理后的文件存放在 `G:\Nextcloud\FSU_Cloud\Big Data\Projekt\cleaned_data` 文件夹中！
