In [5]:
from crmm.arguments import MultimodalDataArguments
from crmm.dataset.multimodal_data import MultimodalData
import warnings
warnings.filterwarnings("ignore")


In [6]:
dataset_name = 'cr2'
data_args = MultimodalDataArguments(
    dataset_name=dataset_name,
    data_path=f'data/{dataset_name}/',
    dataset_split_strategy='rolling_window'
)
train_years_list = [
    [2010, 2011, 2012],
    [2011, 2012, 2013],
    [2012, 2013, 2014],
    [2013, 2014, 2015],
]
test_year_List = [
    [2013],
    [2014],
    [2015],
    [2016],
]
company_col = 'Name' if dataset_name == 'cr' else 'Corporation'
label_col = 'binaryRating' if dataset_name == 'cr' else 'Binary Rating'

In [7]:
for train_years, test_years in zip(train_years_list, test_year_List):
    print(f'***训练年份数据：{train_years}， 测试年份数据：{test_years}***')
    data_args.train_years = train_years
    data_args.test_years = test_years
    data = MultimodalData(data_args, preprocess=False)
    train_data, val_data, test_data = (data.train_data.drop(['GPT_description'], axis=1),
                                       data.val_data.drop(['GPT_description'], axis=1),
                                       data.test_data.drop(['GPT_description'], axis=1))
    # @@@@
    # 训练集中的正负类样本数量
    train_positive_count = train_data[label_col].sum()
    train_negative_count = len(train_data) - train_positive_count
    
    # 训练集中的正负类样本比例
    train_positive_ratio = train_positive_count / len(train_data)
    train_negative_ratio = train_negative_count / len(train_data)
    
    # 打印训练集的统计信息
    print("训练集样本数量:", len(train_data))
    print("训练集中的正类样本数量:", train_positive_count)
    print("训练集中的负类样本数量:", train_negative_count)
    print("训练集中的正负类样本比例", train_positive_count/train_negative_count)
    
    # 测试集中的正负类样本数量
    test_positive_count = test_data[label_col].sum()
    test_negative_count = len(test_data) - test_positive_count
    
    # 测试集中的正负类样本比例
    test_positive_ratio = test_positive_count / len(test_data)
    test_negative_ratio = test_negative_count / len(test_data)
    
    # 打印测试集的统计信息
    print("测试集样本数量:", len(test_data))
    print("测试集中的正类样本数量:", test_positive_count)
    print("测试集中的负类样本数量:", test_negative_count)
    print("测试集中的正负类样本比例", test_positive_count/test_negative_count)
    
    # @@@@
    # 步骤1: 获取训练集中所有独特的企业名称
    unique_train_names = set(train_data[company_col].unique())
    # 步骤2: 判断测试集中的企业名称是否在训练集的企业名称列表中
    # 使用 apply 函数和 lambda 表达式来创建一个新的布尔列
    test_data['Is_New_Company'] = test_data[company_col].apply(lambda x: x not in unique_train_names)
    # 步骤3: 计算测试集中未见企业样本的数量
    new_companies_count = test_data['Is_New_Company'].sum()
    # 步骤4: 计算未见企业样本的比例
    new_companies_ratio = new_companies_count / len(test_data)
    # 打印结果
    print(f"测试集中模型从未见过的企业的样本数量: {new_companies_count}")
    print(f"测试集中模型从未见过的企业的样本比例: {new_companies_ratio:.2%}")
    
    # @@@@
    
    print()

***训练年份数据：[2010, 2011, 2012]， 测试年份数据：[2013]***
训练集样本数量: 1294
训练集中的正类样本数量: 789
训练集中的负类样本数量: 505
训练集中的正负类样本比例 1.5623762376237624
测试集样本数量: 1387
测试集中的正类样本数量: 911
测试集中的负类样本数量: 476
测试集中的正负类样本比例 1.9138655462184875
测试集中模型从未见过的企业的样本数量: 756
测试集中模型从未见过的企业的样本比例: 54.51%

***训练年份数据：[2011, 2012, 2013]， 测试年份数据：[2014]***
训练集样本数量: 2505
训练集中的正类样本数量: 1594
训练集中的负类样本数量: 911
训练集中的正负类样本比例 1.7497255762897914
测试集样本数量: 1944
测试集中的正类样本数量: 1350
测试集中的负类样本数量: 594
测试集中的正负类样本比例 2.272727272727273
测试集中模型从未见过的企业的样本数量: 229
测试集中模型从未见过的企业的样本比例: 11.78%

***训练年份数据：[2012, 2013, 2014]， 测试年份数据：[2015]***
训练集样本数量: 3962
训练集中的正类样本数量: 2619
训练集中的负类样本数量: 1343
训练集中的正负类样本比例 1.9501116902457185
测试集样本数量: 2062
测试集中的正类样本数量: 1413
测试集中的负类样本数量: 649
测试集中的正负类样本比例 2.177195685670262
测试集中模型从未见过的企业的样本数量: 195
测试集中模型从未见过的企业的样本比例: 9.46%

***训练年份数据：[2013, 2014, 2015]， 测试年份数据：[2016]***
训练集样本数量: 4854
训练集中的正类样本数量: 3307
训练集中的负类样本数量: 1547
训练集中的正负类样本比例 2.1376858435681965
测试集样本数量: 975
测试集中的正类样本数量: 543
测试集中的负类样本数量: 432
测试集中的正负类样本比例 1.2569444444444444
测试集中模型从未见过的企业