In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random

# 设置随机种子以确保可重复性
np.random.seed(0)

# 配置样本数量和行业类别
num_samples = 100  # 数据集中的公司数量
industries = ['Finance', 'Technology', 'Manufacturing', 'Energy', 'Healthcare']

# 创建随机数据
data = {
    'company_id': range(1, num_samples + 1),
    'company_name': [f'Company_{i+1}' for i in range(num_samples)],
    'industry': [random.choice(industries) for _ in range(num_samples)],
    'date': [datetime(2024, 1, 1) + timedelta(days=random.randint(0, 365)) for _ in range(num_samples)],
    'carbon_footprint': np.random.uniform(0, 100, num_samples),  # 碳足迹分数
    'labor_practices': np.random.uniform(0, 100, num_samples),   # 劳动实践分数
    'board_diversity': np.random.uniform(0, 100, num_samples),   # 董事会多样性分数
    'financial_performance': np.random.uniform(0, 100, num_samples)  # 财务表现分数，用于相关性分析
}

# 创建 DataFrame
esg_data = pd.DataFrame(data)

# 引入部分缺失值，模拟实际情况中的数据缺失
for col in ['carbon_footprint', 'labor_practices', 'board_diversity']:
    esg_data.loc[esg_data.sample(frac=0.1).index, col] = np.nan

# 保存为 CSV 文件
esg_data.to_csv("esg_data.csv", index=False)

print("`esg_data.csv` 文件已成功创建并保存。")


`esg_data.csv` 文件已成功创建并保存。
