In [1]:
import pandas as pd

# 读取数据
file_path = "./My_Data.csv"  # 替换为你的 CSV 文件路径
df = pd.read_csv(file_path, encoding="utf-8", low_memory=False)

# 1️⃣ 修正列名（去空格 & 统一命名格式）
df.columns = ["Job_Title", "AI_Impact", "Tasks", "AI_Models", "AI_Workload_Ratio", "Domain"]

# 2️⃣ 处理 AI_Impact（转换百分比）
df["AI_Impact"] = df["AI_Impact"].str.rstrip('%').astype(float) / 100  # 转换为 0~1 之间的 float 值

# 3️⃣ 清理 Job_Title（职位名称）
df["Job_Title"] = df["Job_Title"].str.title().str.strip()  # 统一首字母大写 & 去空格

# 4️⃣ 统一 Domain（领域分类）
df["Domain"] = df["Domain"].str.title().str.strip()

# 5️⃣ 确保数值字段正确
df["Tasks"] = pd.to_numeric(df["Tasks"], errors="coerce").astype("Int64")
df["AI_Models"] = pd.to_numeric(df["AI_Models"], errors="coerce").astype("Int64")
df["AI_Workload_Ratio"] = pd.to_numeric(df["AI_Workload_Ratio"], errors="coerce")

# 6️⃣ 处理缺失值（如果存在）
df = df.dropna()  # 直接删除缺失值
# 或者可以填充：
# df["Domain"].fillna("Unknown", inplace=True)

# # 7️⃣ 保存清理后的数据
# cleaned_file_path = "./ai_job_threat_index.csv"
# df.to_csv(cleaned_file_path, index=False, encoding="utf-8")

# print(f"✅ 数据清理完成，文件已保存至 {cleaned_file_path}")



In [2]:
import os

# 获取当前 Notebook (`clean_data.ipynb`) 所在目录
current_dir = os.getcwd()

# 获取 `Projekt` 根目录（即 `raw_data` 的上一级目录）
projekt_root = os.path.abspath(os.path.join(current_dir, "..", ".."))

# 定义 `cleaned_data` 目录的正确路径
cleaned_data_dir = os.path.join(projekt_root, "cleaned_data")

# 确保 `cleaned_data` 目录存在
os.makedirs(cleaned_data_dir, exist_ok=True)

# 生成新的文件路径
cleaned_file_path = os.path.join(cleaned_data_dir, "ai_job_threat_index.csv")

# 保存文件到 `Projekt/cleaned_data`
df.to_csv(cleaned_file_path, index=False, encoding="utf-8")
print(f"✅ 数据清理完成，文件已保存至 {cleaned_file_path}")

# 8️⃣ 预览清理后的数据
print(df.info())
print(df.head())


✅ 数据清理完成，文件已保存至 /mnt/g/Nextcloud/FSU_Cloud/Big Data/Projekt/cleaned_data/ai_job_threat_index.csv
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4706 entries, 0 to 4705
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Job_Title          4706 non-null   object 
 1   AI_Impact          4706 non-null   float64
 2   Tasks              4706 non-null   Int64  
 3   AI_Models          4706 non-null   Int64  
 4   AI_Workload_Ratio  4706 non-null   float64
 5   Domain             4706 non-null   object 
dtypes: Int64(2), float64(2), object(2)
memory usage: 229.9+ KB
None
                Job_Title  AI_Impact  Tasks  AI_Models  AI_Workload_Ratio  \
0  Communications Manager       0.98    365       2546           0.143362   
1          Data Collector       0.95    299       2148           0.139199   
2              Data Entry       0.95    325       2278           0.142669   
3              Mail Clerk       0.95