In [11]:
import pandas as pd
import numpy as np
import os
from pathlib import Path

# 设置工作目录
work_dir = Path(r'd:\\Documents\\source\\PyProjects\\21ASolution')
os.chdir(work_dir)

# 读取现有的系数和离散表格
coefficients_file = "系数和离散.xlsx"
original_data = pd.read_excel(coefficients_file)

print("现有系数和离散表格结构:")
print(f"形状: {original_data.shape}")
print(f"列名: {list(original_data.columns)}")
print("\n前几行数据:")
print(original_data.head())

# 读取附件1数据
attachment1_file = "C/附件1 近5年402家供应商的相关数据.xlsx"
supplier_data = pd.read_excel(attachment1_file, sheet_name="供应商的供货量（m³）")

print(f"\n附件1数据结构:")
print(f"形状: {supplier_data.shape}")
print(f"列名: {list(supplier_data.columns)}")
print("\n前几行数据:")
print(supplier_data.head())

现有系数和离散表格结构:
形状: (405, 13)
列名: ['描述统计', 'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12']

前几行数据:
       描述统计 Unnamed: 1 Unnamed: 2 Unnamed: 3 Unnamed: 4 Unnamed: 5 Unnamed: 6  \
0       NaN          N         范围        最小值        最大值        平均值        NaN   
1       NaN         统计         统计         统计         统计         统计       标准误差   
2  VAR00001         25          5          1          6       1.96      0.261   
3  VAR00002         71         66          1         67       3.85      1.023   
4  VAR00003        191        386          1        387      61.48       5.63   

  Unnamed: 7 Unnamed: 8 Unnamed: 9 Unnamed: 10 Unnamed: 11 Unnamed: 12  
0        标准差         方差         偏度         NaN          峰度         NaN  
1         统计         统计         统计        标准误差          统计        标准误差  
2      1.306      1.707      1.786       0.464       3.323       0.902  
3 

In [12]:
# 详细查看现有系数和离散表格
print("=== 现有系数和离散表格详细信息 ===")
print(f"形状: {original_data.shape}")
print(f"列名: {list(original_data.columns)}")
print("\n数据类型:")
print(original_data.dtypes)
print("\n描述性统计:")
print(original_data.describe())

# 查看是否有最小值为0的问题
numeric_cols = original_data.select_dtypes(include=[np.number]).columns
print(f"\n数值列: {list(numeric_cols)}")
for col in numeric_cols:
    min_val = original_data[col].min()
    if min_val == 0:
        print(f"列 '{col}' 的最小值为 0")

=== 现有系数和离散表格详细信息 ===
形状: (405, 13)
列名: ['描述统计', 'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12']

数据类型:
描述统计           object
Unnamed: 1     object
Unnamed: 2     object
Unnamed: 3     object
Unnamed: 4     object
Unnamed: 5     object
Unnamed: 6     object
Unnamed: 7     object
Unnamed: 8     object
Unnamed: 9     object
Unnamed: 10    object
Unnamed: 11    object
Unnamed: 12    object
dtype: object

描述性统计:
            描述统计  Unnamed: 1  Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5  \
count        403         405         404         404         404         404   
unique       403         116         119          36         120         280   
top     VAR00001         240           5           1           6           2   
freq           1          35          41         358          41          12   

        Unnamed: 6  Unnamed: 7  Unnamed: 8 Unnamed: 9  Unnamed: 

In [13]:
# 详细查看附件1数据
print("=== 附件1数据详细信息 ===")
print(f"形状: {supplier_data.shape}")
print(f"列名: {list(supplier_data.columns)}")
print("\n前10行数据:")
print(supplier_data.head(10))

# 查看数据中0值的分布
print("\n数据中0值的统计:")
print("各列中0值的数量:")
for col in supplier_data.columns:
    if supplier_data[col].dtype in ['int64', 'float64']:
        zero_count = (supplier_data[col] == 0).sum()
        total_count = len(supplier_data[col])
        print(f"{col}: {zero_count}/{total_count} ({zero_count/total_count*100:.1f}%)")

# 查看第一列（可能是供应商编号）
first_col = supplier_data.columns[0]
print(f"\n第一列 '{first_col}' 的信息:")
print(f"唯一值数量: {supplier_data[first_col].nunique()}")
print(f"数值范围: {supplier_data[first_col].min()} - {supplier_data[first_col].max()}")

=== 附件1数据详细信息 ===
形状: (402, 242)
列名: ['供应商ID', '材料分类', 'W001', 'W002', 'W003', 'W004', 'W005', 'W006', 'W007', 'W008', 'W009', 'W010', 'W011', 'W012', 'W013', 'W014', 'W015', 'W016', 'W017', 'W018', 'W019', 'W020', 'W021', 'W022', 'W023', 'W024', 'W025', 'W026', 'W027', 'W028', 'W029', 'W030', 'W031', 'W032', 'W033', 'W034', 'W035', 'W036', 'W037', 'W038', 'W039', 'W040', 'W041', 'W042', 'W043', 'W044', 'W045', 'W046', 'W047', 'W048', 'W049', 'W050', 'W051', 'W052', 'W053', 'W054', 'W055', 'W056', 'W057', 'W058', 'W059', 'W060', 'W061', 'W062', 'W063', 'W064', 'W065', 'W066', 'W067', 'W068', 'W069', 'W070', 'W071', 'W072', 'W073', 'W074', 'W075', 'W076', 'W077', 'W078', 'W079', 'W080', 'W081', 'W082', 'W083', 'W084', 'W085', 'W086', 'W087', 'W088', 'W089', 'W090', 'W091', 'W092', 'W093', 'W094', 'W095', 'W096', 'W097', 'W098', 'W099', 'W100', 'W101', 'W102', 'W103', 'W104', 'W105', 'W106', 'W107', 'W108', 'W109', 'W110', 'W111', 'W112', 'W113', 'W114', 'W115', 'W116', 'W117', 'W118', '

In [14]:
from scipy import stats

# 获取所有周列名 (W001-W240)
week_columns = [col for col in supplier_data.columns if col.startswith('W')]
print(f"找到 {len(week_columns)} 个周数据列，从 {week_columns[0]} 到 {week_columns[-1]}")

# 重新计算统计数据，包含偏度和峰度
print("=== 重新计算统计数据（包含偏度和峰度）===")

results_complete = []

for idx, row in supplier_data.iterrows():
    supplier_id = row['供应商ID']
    material_type = row['材料分类']
    
    # 获取该供应商的所有周数据，确保为数值类型
    week_data = pd.to_numeric(row[week_columns], errors='coerce').values
    
    # 去除NaN和0值
    valid_data = week_data[~np.isnan(week_data)]
    non_zero_data = valid_data[valid_data > 0]
    
    if len(non_zero_data) == 0:
        # 如果没有非零数据
        stats_dict = {
            '供应商ID': supplier_id,
            '材料分类': material_type,
            '计数': 0,
            '平均值': np.nan,
            '平均值误差': np.nan,
            '标准差': np.nan,
            '方差': np.nan,
            '最小值': np.nan,
            '25%分位数': np.nan,
            '50%分位数': np.nan,
            '75%分位数': np.nan,
            '85%分位数': np.nan,
            '90%分位数': np.nan,
            '最大值': np.nan,
            '变异系数': np.nan,
            '偏度': np.nan,
            '偏度误差': np.nan,
            '峰度': np.nan,
            '峰度误差': np.nan
        }
    else:
        # 确保数据为float类型
        non_zero_data = non_zero_data.astype(float)
        
        # 计算统计指标
        mean_val = np.mean(non_zero_data)
        std_val = np.std(non_zero_data, ddof=1)
        
        stats_dict = {
            '供应商ID': supplier_id,
            '材料分类': material_type,
            '计数': len(non_zero_data),
            '平均值': mean_val,
            '平均值误差': stats.sem(non_zero_data) if len(non_zero_data) > 1 else np.nan,
            '标准差': std_val,
            '方差': std_val ** 2,
            '最小值': np.min(non_zero_data),
            '25%分位数': np.percentile(non_zero_data, 25),
            '50%分位数': np.percentile(non_zero_data, 50),
            '75%分位数': np.percentile(non_zero_data, 75),
            '85%分位数': np.percentile(non_zero_data, 85),
            '90%分位数': np.percentile(non_zero_data, 90),
            '最大值': np.max(non_zero_data),
            '变异系数': std_val / mean_val if mean_val != 0 else np.nan,
            '偏度': stats.skew(non_zero_data) if len(non_zero_data) > 2 else np.nan,
            '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
            '峰度': stats.kurtosis(non_zero_data) if len(non_zero_data) > 3 else np.nan,
            '峰度误差': stats.sem(stats.kurtosis(non_zero_data)) if len(non_zero_data) > 3 else np.nan
        }
    
    results_complete.append(stats_dict)

# 转换为DataFrame
final_stats_df = pd.DataFrame(results_complete)

print("重新计算完成！")
print(f"数据形状: {final_stats_df.shape}")

# 验证最小值是否还有0
min_values = final_stats_df['最小值'].dropna()
zero_mins = (min_values == 0).sum()
print(f"\n验证结果：")
print(f"最小值为0的供应商数量: {zero_mins}")
print(f"最小值的统计: 最小={min_values.min()}, 最大={min_values.max()}, 平均={min_values.mean():.2f}")

# 显示前5个供应商的完整统计数据
print(f"\n前5个供应商的完整统计数据:")
print(final_stats_df.head())

找到 240 个周数据列，从 W001 到 W240
=== 重新计算统计数据（包含偏度和峰度）===


  '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
  '峰度误差': stats.sem(stats.kurtosis(non_zero_data)) if len(non_zero_data) > 3 else np.nan
  '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
  '峰度误差': stats.sem(stats.kurtosis(non_zero_data)) if len(non_zero_data) > 3 else np.nan
  '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
  '峰度误差': stats.sem(stats.kurtosis(non_zero_data)) if len(non_zero_data) > 3 else np.nan
  '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
  '峰度误差': stats.sem(stats.kurtosis(non_zero_data)) if len(non_zero_data) > 3 else np.nan
  '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
  '峰度误差': stats.sem(stats.kurtosis(non_zero_data)) if len(non_zero_data) > 3 else np.nan
  '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
  '峰度误差': stats.sem(stats.kurtosis(non_

重新计算完成！
数据形状: (402, 19)

验证结果：
最小值为0的供应商数量: 0
最小值的统计: 最小=1.0, 最大=509.0, 平均=10.31

前5个供应商的完整统计数据:
  供应商ID 材料分类   计数        平均值     平均值误差        标准差           方差  最小值  25%分位数  \
0  S001    B   25   1.960000  0.261279   1.306395     1.706667  1.0     1.0   
1  S002    A   71   3.845070  1.023201   8.621647    74.332797  1.0     1.0   
2  S003    C  191  68.785340  5.767595  79.709743  6353.643152  1.0    10.0   
3  S004    B   33   1.939394  0.257241   1.477739     2.183712  1.0     1.0   
4  S005    A  107  64.598131  2.425939  25.094110   629.714336  1.0    62.0   

   50%分位数  75%分位数  85%分位数  90%分位数    最大值      变异系数        偏度  偏度误差         峰度  \
0     2.0     2.0     3.0     3.0    6.0  0.666528  1.676880   NaN   2.463860   
1     1.0     3.0     4.0     8.0   67.0  2.242260  5.866965   NaN  39.078190   
2    35.0    92.0   166.5   190.0  387.0  1.158819  1.510551   NaN   1.701303   
3     1.0     2.0     3.0     3.0    8.0  0.761959  2.465557   NaN   6.956260   
4    71.0    78.0    81

  '偏度误差': stats.sem(stats.skew(non_zero_data)) if len(non_zero_data) > 2 else np.nan,
  '峰度误差': stats.sem(stats.kurtosis(non_zero_data)) if len(non_zero_data) > 3 else np.nan


In [15]:

import numpy as np
from scipy import stats
import pandas as pd
import os

# Create a new DataFrame with the required columns
supplier_stats = pd.DataFrame()
supplier_stats['供应商ID'] = final_stats_df['供应商ID']
supplier_stats['计数'] = final_stats_df['计数']
supplier_stats['最小值'] = final_stats_df['最小值']
supplier_stats['最大值'] = final_stats_df['最大值']
supplier_stats['平均值'] = final_stats_df['平均值']
supplier_stats['平均值误差'] = final_stats_df['平均值误差']
supplier_stats['标准差'] = final_stats_df['标准差']
supplier_stats['方差'] = final_stats_df['方差']
supplier_stats['偏度'] = final_stats_df['偏度']
supplier_stats['偏度误差'] = final_stats_df['偏度误差'] 
supplier_stats['峰度'] = final_stats_df['峰度']
supplier_stats['峰度误差'] = final_stats_df['峰度误差']
supplier_stats['25%分位数'] = final_stats_df['25%分位数']
supplier_stats['50%分位数'] = final_stats_df['50%分位数']
supplier_stats['75%分位数'] = final_stats_df['75%分位数']
supplier_stats['85%分位数'] = final_stats_df['85%分位数']
supplier_stats['90%分位数'] = final_stats_df['90%分位数']
supplier_stats['变异系数'] = final_stats_df['变异系数']

# 添加材料分类信息
supplier_stats['材料分类'] = final_stats_df['材料分类']

# 保存到Excel文件
output_file = os.path.join(work_dir, 'DataFrames', '供应商统计数据离散系数.xlsx')
os.makedirs(os.path.dirname(output_file), exist_ok=True)

# 写入Excel时添加标题行
with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
    # 添加两行空白和标题行
    workbook = writer.book
    supplier_stats.to_excel(writer, index=False, startrow=2)
    
    # 获取worksheet
    worksheet = writer.sheets['Sheet1']
    worksheet.cell(row=3, column=1).value = "供应商统计数据"
    worksheet.cell(row=1, column=1).value = "供应商统计数据离散系数"
    worksheet.cell(row=2, column=1).value = "1"

print(f"供应商统计数据已保存至: {output_file}")

供应商统计数据已保存至: d:\Documents\source\PyProjects\21ASolution\DataFrames\供应商统计数据离散系数.xlsx


# 数据处理工具Notebook

这个notebook专门用于处理系数和离散表格数据，包含可重用的数据处理函数，用于：
- 读取和验证原始数据
- 计算各种系数和指标
- 分析数据的离散程度
- 按标准格式保存处理后的数据到DataFrame文件夹

## 功能概述
1. **系数计算**: 相关系数、转换因子、材料效率比等
2. **离散度分析**: 标准差、变异系数、稳定性指标等
3. **数据验证**: 数据完整性检查和格式验证
4. **批量处理**: 多文件处理和汇总报告生成