In [4]:
#将数据分开

import pandas as pd
import os

# 读取Excel文件
reader = pd.read_excel('original_data.xlsx')

# 创建一个字典，用于存储每个物料编码的数据
grouped_data = {}

# 遍历每一行数据，将相同物料编码的数据分组
for index, row in reader.iterrows():
    num = row.iloc[1]  # 获取物料编码
    if num not in grouped_data:
        grouped_data[num] = []  # 如果该物料编码不在字典中，则创建一个新的列表
    grouped_data[num].append(row)  # 将行数据添加到对应物料编码的列表中

# 创建保存文件的目录
output_dir = 'output_materials'
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 将每个物料编码的数据保存到一个新的Excel文件中
for num, data in grouped_data.items():
    # 将数据转换为DataFrame
    df = pd.DataFrame(data)
    
    # 重命名列
    df.columns = ['日期', '物料编码', '需求量', '销售单价']
    
    # 将DataFrame写入Excel文件，文件名为物料编码
    file_path = os.path.join(output_dir, f"{num}.xlsx")
    df.to_excel(file_path, index=False)

print("数据已成功保存到不同的Excel文件中。")


数据已成功保存到不同的Excel文件中。


In [5]:
#数据处理
"""
先读取刚才保存的每一个物料编码的数据，然后以2019/1/2作为第一周的开始，
将每一周的需求量数据相加，并求每一周的销售单价平均:
（第一天需求*第一天销售单价+第二天需求*第二天销售单价+...）/（一周总需求）  
。最后形成：周数 | 物料编码 | 需求量 | 销售单价 的表格，并覆盖原先的物料编码的表格
"""

import pandas as pd
import os
from datetime import datetime, timedelta

# 设置开始日期为2019/1/2
start_date = datetime(2019, 1, 2)

# 设置文件目录
input_dir = 'output_materials'

# 遍历文件目录中的每个文件
for file_name in os.listdir(input_dir):
    if file_name.endswith('.xlsx'):
        # 读取每个物料编码对应的Excel文件
        file_path = os.path.join(input_dir, file_name)
        df = pd.read_excel(file_path)

        # 转换日期列为datetime格式
        df['日期'] = pd.to_datetime(df['日期'], format='%Y/%m/%d')

        # 计算每一周的需求量和平均销售单价
        weekly_data = []
        current_date = start_date
        week_number = 1

        while current_date <= df['日期'].max():
            week_end = current_date + timedelta(days=6)
            weekly_df = df[(df['日期'] >= current_date) & (df['日期'] <= week_end)]

            if not weekly_df.empty:
                total_demand = weekly_df['需求量'].sum()
                average_price = (weekly_df['需求量'] * weekly_df['销售单价']).sum() / total_demand

                weekly_data.append([week_number, df['物料编码'].iloc[0], total_demand, average_price])

            current_date += timedelta(days=7)
            week_number += 1

        # 将计算结果转换为DataFrame
        weekly_df = pd.DataFrame(weekly_data, columns=['周数', '物料编码', '需求量', '销售单价'])

        # 保存回原始Excel文件
        weekly_df.to_excel(file_path, index=False)

print("所有文件已更新并覆盖保存。")


所有文件已更新并覆盖保存。


In [7]:
import pandas as pd
import os
import matplotlib.pyplot as plt

# 设置文件目录
input_dir = 'output_materials'

# 遍历文件目录中的每个文件
for file_name in os.listdir(input_dir):
    if file_name.endswith('.xlsx'):
        # 读取每个物料编码对应的Excel文件
        file_path = os.path.join(input_dir, file_name)
        df = pd.read_excel(file_path)

        if df.empty:
            print(f"{file_name} is empty, skipping.")
            continue

        # 提取物料编码
        material_code = df['物料编码'].dropna().unique()[0]

        # 计算每周的收益（需求量 * 平均单价）
        df['收益'] = df['需求量'] * df['销售单价']

        # 绘制周数-需求量折线图
        plt.figure(figsize=(10, 6))
        plt.plot(df['周数'], df['需求量'], marker='o', linestyle='-', color='b')
        plt.title(f'{material_code} 每周需求量')
        plt.xlabel('周数')
        plt.ylabel('需求量')
        plt.grid(True)
        plt.savefig(os.path.join(input_dir, f'{material_code}_require.png'))
        plt.close()

        # 绘制周数-收益折线图
        plt.figure(figsize=(10, 6))
        plt.plot(df['周数'], df['收益'], marker='o', linestyle='-', color='g')
        plt.title(f'{material_code} 每周收益')
        plt.xlabel('周数')
        plt.ylabel('收益')
        plt.grid(True)
        plt.savefig(os.path.join(input_dir, f'{material_code}_income.png'))
        plt.close()

print("所有图像已保存为图片。")


6004020701.xlsx is empty, skipping.
6004020706.xlsx is empty, skipping.
6004021102.xlsx is empty, skipping.
所有图像已保存为图片。


In [9]:
#可能保存为矢量图会好一点？

import pandas as pd
import os
import matplotlib.pyplot as plt

# 设置文件目录
input_dir = 'output_materials'

# 遍历文件目录中的每个文件
for file_name in os.listdir(input_dir):
    if file_name.endswith('.xlsx'):
        # 读取每个物料编码对应的Excel文件
        file_path = os.path.join(input_dir, file_name)
        df = pd.read_excel(file_path)

        if df.empty:
            print(f"{file_name} is empty, skipping.")
            continue

        # 提取物料编码
        material_code = df['物料编码'].dropna().unique()[0]

        # 计算每周的收益（需求量 * 平均单价）
        df['收益'] = df['需求量'] * df['销售单价']

        # 绘制周数-需求量折线图
        plt.figure(figsize=(10, 6))
        plt.plot(df['周数'], df['需求量'], marker='o', linestyle='-', color='b')
        plt.title(f'{material_code} 每周需求量')
        plt.xlabel('周数')
        plt.ylabel('需求量')
        plt.grid(True)
        # 保存为SVG格式的矢量图
        plt.savefig(os.path.join(input_dir, f'{material_code}_require.svg'), format='svg')
        plt.close()

        # 绘制周数-收益折线图
        plt.figure(figsize=(10, 6))
        plt.plot(df['周数'], df['收益'], marker='o', linestyle='-', color='g')
        plt.title(f'{material_code} 每周收益')
        plt.xlabel('周数')
        plt.ylabel('收益')
        plt.grid(True)
        # 保存为SVG格式的矢量图
        plt.savefig(os.path.join(input_dir, f'{material_code}_income.svg'), format='svg')
        plt.close()

print("所有图像已保存为SVG矢量图。")

6004020701.xlsx is empty, skipping.
6004020706.xlsx is empty, skipping.
6004021102.xlsx is empty, skipping.
所有图像已保存为SVG矢量图。


In [8]:
#合并图像

import pandas as pd
import os
import matplotlib.pyplot as plt

# 设置文件目录
input_dir = 'output_materials'

# 遍历文件目录中的每个文件
for file_name in os.listdir(input_dir):
    if file_name.endswith('.xlsx'):
        # 读取每个物料编码对应的Excel文件
        file_path = os.path.join(input_dir, file_name)
        df = pd.read_excel(file_path)

        if df.empty:
            print(f"{file_name} is empty, skipping.")
            continue

        # 提取物料编码
        material_code = df['物料编码'].dropna().unique()[0]

        # 计算每周的收益（需求量 * 平均单价）
        df['收益'] = df['需求量'] * df['销售单价']

        # 创建双纵轴图表
        fig, ax1 = plt.subplots(figsize=(10, 6))

        # 绘制需求量折线图
        ax1.plot(df['周数'], df['需求量'], marker='o', linestyle='-', color='b', label='需求量')
        ax1.set_xlabel('周数')
        ax1.set_ylabel('需求量', color='b')
        ax1.tick_params(axis='y', labelcolor='b')

        # 创建第二个纵轴共享x轴
        ax2 = ax1.twinx()
        ax2.plot(df['周数'], df['收益'], marker='o', linestyle='-', color='g', label='收益')
        ax2.set_ylabel('收益', color='g')
        ax2.tick_params(axis='y', labelcolor='g')

        # 添加标题
        plt.title(f'{material_code} 每周需求量与收益')

        # 保存合并后的图像
        plt.savefig(os.path.join(input_dir, f'{material_code}_combined.png'))
        plt.close()

print("所有图像已合并并保存为图片。")


6004020701.xlsx is empty, skipping.
6004020706.xlsx is empty, skipping.
6004021102.xlsx is empty, skipping.
所有图像已合并并保存为图片。


In [12]:
#判断数据行数是否超过50行。
#使用自相关分析和傅里叶变换来判断周期性强度。
#使用多项式回归、时间序列模型（如ARIMA）和指数平滑模型进行拟合。
#计算交叉验证和残差分析，并将结果与拟合图一起保存。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.holtwinters import ExponentialSmoothing
from statsmodels.graphics.tsaplots import plot_acf
from scipy.fftpack import fft
import os

# 设置文件目录
input_dir = 'output_materials'

# 创建函数来绘制和保存图像
def save_plot_with_fitting(df, model_name, material_code, y_pred, formula, cv_score, residuals):
    plt.figure(figsize=(10, 6))
    plt.plot(df['周数'], df['需求量'], marker='o', linestyle='-', color='b', label='实际需求量')
    plt.plot(df['周数'], y_pred, color='r', label=f'{model_name} 拟合')
    plt.title(f'{material_code} - {model_name} 拟合')
    plt.xlabel('周数')
    plt.ylabel('需求量')
    plt.legend()

    # 在图表下方显示拟合函数和其他信息
    plt.figtext(0.5, -0.1, f"拟合函数: {formula}\n交叉验证得分: {cv_score}\n残差均值: {residuals.mean():.2f}, 残差标准差: {residuals.std():.2f}", wrap=True, horizontalalignment='center', fontsize=12)

    # 保存为矢量图（.svg格式）
    file_name = f"{material_code}_{model_name}.svg"
    plt.savefig(os.path.join(input_dir, file_name), format='svg')
    plt.close()

# 遍历文件目录中的每个文件
for file_name in os.listdir(input_dir):
    if file_name.endswith('.xlsx'):
        # 读取每个物料编码对应的Excel文件
        file_path = os.path.join(input_dir, file_name)
        df = pd.read_excel(file_path)

        if len(df) >50:
            print(f"{file_name} 数据行数超过50行，跳过。")
            continue

        material_code = df['物料编码'].iloc[0]

        # 自相关分析
        plot_acf(df['需求量'])
        plt.title(f'{material_code} 自相关分析')
        plt.savefig(os.path.join(input_dir, f'{material_code}_acf.svg'), format='svg')
        plt.close()

        # 傅里叶变换分析
        fft_vals = fft(df['需求量'])
        plt.plot(np.abs(fft_vals))
        plt.title(f'{material_code} 傅里叶变换')
        plt.savefig(os.path.join(input_dir, f'{material_code}_fft.svg'), format='svg')
        plt.close()

        # 多项式回归模型
        poly = PolynomialFeatures(degree=2)
        X_poly = poly.fit_transform(df['周数'].values.reshape(-1, 1))
        poly_model = LinearRegression()
        poly_model.fit(X_poly, df['需求量'])
        y_pred_poly = poly_model.predict(X_poly)
        formula_poly = f'{poly_model.intercept_:.2f} + {poly_model.coef_[1]:.2f}*x + {poly_model.coef_[2]:.2f}*x^2'
        cv_score_poly = cross_val_score(poly_model, X_poly, df['需求量'], cv=5).mean()
        residuals_poly = df['需求量'] - y_pred_poly
        save_plot_with_fitting(df, '多项式回归', material_code, y_pred_poly, formula_poly, cv_score_poly, residuals_poly)

        # 时间序列模型（ARIMA）
        arima_model = ARIMA(df['需求量'], order=(1, 1, 1))
        arima_fit = arima_model.fit()
        y_pred_arima = arima_fit.predict(start=1, end=len(df), dynamic=False)
        formula_arima = 'ARIMA(1,1,1)'
        cv_score_arima = cross_val_score(LinearRegression(), df['周数'].values.reshape(-1, 1), df['需求量'], cv=5).mean()
        residuals_arima = df['需求量'] - y_pred_arima
        save_plot_with_fitting(df, '时间序列模型', material_code, y_pred_arima, formula_arima, cv_score_arima, residuals_arima)

        # 指数平滑模型
        exp_smooth_model = ExponentialSmoothing(df['需求量'], seasonal='add', seasonal_periods=12)
        exp_smooth_fit = exp_smooth_model.fit()
        y_pred_exp_smooth = exp_smooth_fit.fittedvalues
        formula_exp_smooth = 'Exponential Smoothing'
        cv_score_exp_smooth = cross_val_score(LinearRegression(), df['周数'].values.reshape(-1, 1), df['需求量'], cv=5).mean()
        residuals_exp_smooth = df['需求量'] - y_pred_exp_smooth
        save_plot_with_fitting(df, '指数平滑模型', material_code, y_pred_exp_smooth, formula_exp_smooth, cv_score_exp_smooth, residuals_exp_smooth)

print("所有拟合图像已保存。")


所有拟合图像已保存。
