# 大概有多少Law和MEU

In [3]:
import pandas as pd
import os

def analyze_law_files(directory):
    total_files = 0
    total_articles = 0
    total_meus = 0
    
    print(f"{'文件名':<30} {'法条数':<10} {'MEU数':<10}")
    print("-" * 50)
    
    # 遍历目录下的所有xlsx文件
    for filename in os.listdir(directory):
        if filename.endswith('.xlsx'):
            filepath = os.path.join(directory, filename)
            df = pd.read_excel(filepath)
            
            # 统计法条数和MEU数
            if 'MEU_id' in df.columns:
                # 提取法条编号n
                df['article_num'] = df['MEU_id'].str.extract(r'MEU_(\d+)_\d+')
                article_count = df['article_num'].nunique()
                meu_count = len(df)
                
                print(f"{filename:<30} {article_count:<10} {meu_count:<10}")
                
                total_files += 1
                total_articles += article_count
                total_meus += meu_count
    
    print("\n汇总统计:")
    print(f"总文件数: {total_files}")
    print(f"总法条数: {total_articles}")
    print(f"总MEU数: {total_meus}")
    
    if total_files > 0:
        print(f"平均每个文件的法条数: {total_articles/total_files:.2f}")
        print(f"平均每个文件的MEU数: {total_meus/total_files:.2f}")
        print(f"平均每个法条的MEU数: {total_meus/total_articles:.2f}")

# 使用示例
analyze_law_files('law_to_MEU/st_3_0_MEU')

文件名                            法条数        MEU数      
--------------------------------------------------
北京证券交易所上市公司持续监管指引第5号——要约收购.xlsx 36         103       
北京证券交易所上市公司持续监管指引第6号——内幕信息知情人管理及报送.xlsx 25         75        
北京证券交易所上市公司持续监管指引第9号——募集资金管理.xlsx 27         106       
北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx 29         95        
北京证券交易所上市公司持续监管指引第10号——权益分派.xlsx 33         88        
北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx 78         248       
北京证券交易所上市公司持续监管指引第3号——股权激励和员工持股计划.xlsx 66         155       
北京证券交易所上市公司持续监管指引第7号——转板.xlsx  21         72        
北京证券交易所上市公司持续监管指引第2号——季度报告.xlsx 16         36        
北京证券交易所上市公司持续监管指引第1号——独立董事.xlsx 30         105       

汇总统计:
总文件数: 10
总法条数: 361
总MEU数: 1083
平均每个文件的法条数: 36.10
平均每个文件的MEU数: 108.30
平均每个法条的MEU数: 3.00


In [7]:
30 * 18

540

In [6]:
361 * 2 * 12000 / 1000000 * 16

138.624

In [1]:
import numpy as np
from sklearn.metrics import r2_score

def generate_data_and_calculate_r2(n_samples=100, random_seed=None):
    """
    生成预测值和真实值，并计算R²分数
    
    参数:
    n_samples (int): 样本数量
    random_seed (int): 随机种子，用于可重复性
    
    返回:
    tuple: (y_true, y_pred, r2)
    """
    if random_seed is not None:
        np.random.seed(random_seed)
    
    # 生成真实值 (y_true)
    x = np.linspace(0, 10, n_samples)
    y_true = 2 * x + 1 + np.random.normal(0, 2, n_samples)  # 线性关系加噪声
    
    # 生成预测值 (y_pred) - 这里我们模拟一个不错的预测
    y_pred = 1.9 * x + 1.2 + np.random.normal(0, 1.5, n_samples)
    
    # 计算R²分数
    r2 = r2_score(y_true, y_pred)
    
    return y_true, y_pred, r2

# 测试用例
def test_r2_calculation():
    # 测试1: 使用固定随机种子确保可重复性
    y_true, y_pred, r2 = generate_data_and_calculate_r2(random_seed=42)
    print(f"测试1 - R²分数: {r2:.4f}")
    assert isinstance(r2, float), "R²应该是浮点数"
    assert -1 <= r2 <= 1, "R²应该在-1到1之间"
    
    # 测试2: 完美预测的情况
    y_true_perfect = np.array([1, 2, 3, 4, 5])
    y_pred_perfect = y_true_perfect.copy()
    perfect_r2 = r2_score(y_true_perfect, y_pred_perfect)
    print(f"测试2 - 完美预测R²: {perfect_r2:.4f}")
    assert perfect_r2 == 1.0, "完美预测时R²应为1"
    
    # 测试3: 比基准模型还差的情况
    y_true_bad = np.array([2, 4, 6, 8, 10])
    y_pred_bad = np.array([10, 8, 6, 4, 2])  # 完全相反的预测
    bad_r2 = r2_score(y_true_bad, y_pred_bad)
    print(f"测试3 - 比基准还差的R²: {bad_r2:.4f}")
    assert bad_r2 < 0, "比基准模型还差时R²应为负"
    
    print("所有测试通过!")

In [2]:
# 示例使用
y_true, y_pred, r2 = generate_data_and_calculate_r2(n_samples=50, random_seed=123)
print(f"生成的样本数: {len(y_true)}")
print(f"前5个真实值: {y_true[:5]}")
print(f"前5个预测值: {y_pred[:5]}")
print(f"计算得到的R²分数: {r2:.4f}")

# 运行测试
print("\n运行测试用例...")
test_r2_calculation()

生成的样本数: 50
前5个真实值: [-1.17126121  3.40285416  2.38228353 -0.78809963  1.47545256]
前5个预测值: [-0.74112798  0.02957279  4.59107854  1.1661712   2.79554525]
计算得到的R²分数: 0.7848

运行测试用例...
测试1 - R²分数: 0.8397
测试2 - 完美预测R²: 1.0000
测试3 - 比基准还差的R²: -3.0000
所有测试通过!
