Для начала необходимо загрузить данные из файлов. Воспользуемся библиотекой pandas:

In [5]:
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting pandas
  Downloading pandas-1.5.3-cp310-cp310-win_amd64.whl (10.4 MB)
     ---------------------------------------- 0.0/10.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/10.4 MB ? eta -:--:--
     --------------------------------------- 0.0/10.4 MB 388.9 kB/s eta 0:00:27
     --------------------------------------- 0.1/10.4 MB 819.2 kB/s eta 0:00:13
      --------------------------------------- 0.2/10.4 MB 1.2 MB/s eta 0:00:09
      --------------------------------------- 0.3/10.4 MB 1.2 MB/s eta 0:00:09
     - -------------------------------------- 0.4/10.4 MB 1.4 MB/s eta 0:00:08
     - -------------------------------------- 0.5/10.4 MB 1.4 MB/s eta 0:00:08
     -- ------------------------------------- 0.5/10.4 MB 1.5 MB/s eta 0:00:07
     -- ------------------------------------- 0.6/10.4 MB 1.6 MB/s eta 0:00:06
     -- ------------------------------------- 0.7/10.4 MB 1.6 MB/s e

In [6]:
import pandas as pd

high_freq_data = pd.read_csv('clean_sales_fabric_96_sku_265_warehouse_1.csv')
low_freq_data = pd.read_csv('clean_sales_fabric_42_sku_13653_warehouse_-1.csv')


После загрузки данных необходимо провести их предобработку. Для этого сгруппируем данные по дням и посчитаем суммарное количество проданных товаров в каждый день:

In [7]:
high_freq_data['date'] = pd.to_datetime(high_freq_data['date'])
high_freq_data = high_freq_data.groupby('date').sum()

low_freq_data['date'] = pd.to_datetime(low_freq_data['date'])
low_freq_data = low_freq_data.groupby('date').sum()


Теперь можно приступить к обучению модели. Воспользуемся библиотекой Prophet, которая предназначена для прогнозирования временных рядов:

In [None]:
!pip install cython
!pip install fbprophet

In [8]:
from fbprophet import Prophet

# Создаем объект модели для высокочастотной номенклатуры
high_freq_model = Prophet()
high_freq_model.fit(high_freq_data.reset_index().rename(columns={'date': 'ds', 'count': 'y'}))

# Создаем объект модели для низкочастотной номенклатуры
low_freq_model = Prophet()
low_freq_model.fit(low_freq_data.reset_index().rename(columns={'date': 'ds', 'count': 'y'}))


ModuleNotFoundError: No module named 'fbprophet'

Теперь модели готовы к использованию для прогнозирования. Для каждой из номенклатур необходимо построить прогноз на 30-40 дней вперед:

In [None]:
import numpy as np

# Для высокочастотной номенклатуры строим прогноз на 40 дней вперед
high_freq_future = high_freq_model.make_future_dataframe(periods=40, freq='D')
high_freq_forecast = high_freq_model.predict(high_freq_future)

# Для низкочастотной номенклатуры строим прогноз на 30 дней вперед
low_freq_future = low_freq_model.make_future_dataframe(periods=30, freq='D')
low_freq_forecast = low_freq_model.predict(low_freq_future)


Наконец, можно рассчитать метрики качества прогнозирования. Для этого необходимо сравнить прогнозы моделей с реальными продажами за соответствующий период и рассчитать значение метрики для каждой номенклатуры:

In [None]:
def calculate_buying_score(y_true, y_pred):
    return (1 + y_pred) / (1 + y_true)

# Для высокочастотной номенклатуры
high_freq_true = high_freq_data['count'].values[-40:]
high_freq_pred = np.maximum(high_freq_forecast['yhat'].values[-40:], 0)
high_freq_score = np.mean(calculate_buying_score(high_freq_true, high_freq_pred))

#Для низкочастотной номенклатуры
low_freq_true = low_freq_data['count'].values[-30:]
low_freq_pred = np.maximum(low_freq_forecast['yhat'].values[-30:], 0)
low_freq_score = np.mean(calculate_buying_score(low_freq_true, low_freq_pred))

print(f"Buying score for high frequency SKU: {high_freq_score}")
print(f"Buying score for low frequency SKU: {low_freq_score}")


Далее, нам нужно преобразовать данные для обучения модели. Для этого мы будем использовать библиотеку pandas.

In [None]:
import pandas as pd

# Загружаем данные
data = pd.read_csv('clean_sales_fabric_96_sku_265_warehouse_1.csv')

# Группируем данные по дате и суммируем количество проданных товаров
data = data.groupby('date')['count'].sum().reset_index()

# Устанавливаем дату как индекс
data.set_index('date', inplace=True)

# Делаем ресемплинг данных на дневной интервал
data = data.resample('D').sum().fillna(0)

# Добавляем признаки
for i in range(1, 31):
    data[f'lag_{i}'] = data['count'].shift(i)

# Удаляем первые 30 строк, т.к. в них не будет значений признаков
data = data.iloc[30:]

# Разделяем данные на обучающую и тестовую выборки
train_size = int(len(data) * 0.8)
train_data, test_data = data[:train_size], data[train_size:]


Конечный код будет выглядеть примерно так:

In [None]:
import pandas as pd
import numpy as np
from fbprophet import Prophet
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# Загрузка данных и предобработка
data = pd.read_csv('clean_sales_fabric_96_sku_265_warehouse_1.csv')
data['date'] = pd.to_datetime(data['date'])
data = data.groupby('date').sum()
data = data.set_index(pd.DatetimeIndex(data.index))
data = data.resample('D').sum().fillna(0)
for i in range(1, 31):
    data[f'sales_{i}d_ago'] = data['count'].shift(i)
data = data.iloc[30:]

# Разбиение на обучающую и тестовую выборки
train = data.iloc[:-40]
test = data.iloc[-40:]

# Обучение модели Prophet для высокочастотной номенклатуры
high_freq_model = Prophet(yearly_seasonality=False, weekly_seasonality=True, daily_seasonality=True)
high_freq_train = pd.DataFrame({'ds': train.index, 'y': train['count'].values})
high_freq_model.fit(high_freq_train)
high_freq_future = high_freq_model.make_future_dataframe(periods=40)
high_freq_forecast = high_freq_model.predict(high_freq_future)

# Обучение модели RandomForestRegressor для низкочастотной номенклатуры
low_freq_model = RandomForestRegressor(n_estimators=100, random_state=42)
X_train = train.iloc[:, 1:].values
y_train = train['count'].values
low_freq_model.fit(X_train, y_train)
X_test = test.iloc[:, 1:].values
y_test = test['count'].values
low_freq_pred = low_freq_model.predict(X_test)

# Вычисление метрик
def calculate_buying_score(y_true, y_pred):
    return (1 + y_pred) / (1 + y_true)

high_freq_true = high_freq_data['count'].values[-40:]
high_freq_pred = np.maximum(high_freq_forecast['yhat'].values[-40:], 0)
high_freq_score = np.mean(calculate_buying_score(high_freq_true, high_freq_pred))

low_freq_score = calculate_buying_score(y_test, low_freq_pred).mean()

# Вывод результатов
print(f'High-frequency SKU buying score: {high_freq_score:.3f}')
print(f'Low-frequency SKU buying score: {low_freq_score:.3f}')
