In [2]:
import os
import matplotlib.pyplot as plt
import pandas as pd

# 总文件夹路径，其中包含各个领域的子文件夹
root_folder_path = '/data3/zhouqiang/LLM_scratch/dataset/COIG-CQIA'

# 获取所有领域文件夹
domains = [d for d in os.listdir(root_folder_path) if os.path.isdir(os.path.join(root_folder_path, d))]
domain_counts = []

# 遍历每个领域文件夹，计算JSON文件数量
for domain in domains:
    domain_path = os.path.join(root_folder_path, domain)
    json_files = [f for f in os.listdir(domain_path) if f.endswith('.jsonl')]
    domain_counts.append(len(json_files))

# 创建DataFrame
df = pd.DataFrame({
    'Domain': domains,
    'Counts': domain_counts
})

# 创建输出文件夹保存图像
output_folder = '/data3/zhouqiang/LLM_scratch/dataset/output_images'
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 绘制并保存条形图
for i, row in df.iterrows():
    plt.figure()  # 创建新的图形
    plt.bar(row['Domain'], row['Counts'], color='skyblue')
    plt.title(f'Number of JSON Files in {row["Domain"]}')
    plt.xlabel('Domain')
    plt.ylabel('Number of JSON Files')
    plt.xticks(rotation=45)
    plt.tight_layout()  # 调整布局以避免标签重叠

    # 图像保存路径
    file_path = os.path.join(output_folder, f'{row["Domain"]}.jpg')
    plt.savefig(file_path)
    plt.close()  # 关闭图形，避免内存泄漏
