In [417]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.regression.linear_model import OLS

from warnings import filterwarnings

filterwarnings('ignore')

Данная работа была проведена в рамках сотрудничества с одним из продавцов на маркетплейсах Wildberries и Ozon.

In [2]:
df = pd.read_excel('Ecommerce.xlsx', sheet_name='TOTAL')

**MASHA: поиск оптимального количества капсул в упаковке**

**Поставим цель**: оптимизировать значение набора капсул, максимизирующее метрику **конверсия кликов в покупки**

In [23]:
X = df[df['Фирма'] == 'Masha'][['Количество капсул', 'Clicks', 'Orders']].dropna()
X['Количество капсул ** 2'] = X['Количество капсул']**2
y = X.Orders
X.drop(['Orders'], axis=1, inplace=True)
X = sm.add_constant(X)
model = OLS(y, X)
model = model.fit()

Мы пользовались предположением о том, что существует значение, максимизирующее наше значение. У линейных моделей наибольшая интерпретируемость и математическая обоснованность. Поэтому сначала применим их.

In [25]:
model.summary()

0,1,2,3
Dep. Variable:,Orders,R-squared:,0.858
Model:,OLS,Adj. R-squared:,0.858
Method:,Least Squares,F-statistic:,1248.0
Date:,"Wed, 21 Aug 2024",Prob (F-statistic):,1.97e-261
Time:,21:57:51,Log-Likelihood:,-2493.7
No. Observations:,621,AIC:,4995.0
Df Residuals:,617,BIC:,5013.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-8.1913,2.921,-2.804,0.005,-13.928,-2.454
Количество капсул,0.2349,0.092,2.558,0.011,0.055,0.415
Clicks,0.0867,0.001,60.713,0.000,0.084,0.089
Количество капсул ** 2,-0.0017,0.001,-2.763,0.006,-0.003,-0.000

0,1,2,3
Omnibus:,558.232,Durbin-Watson:,2.022
Prob(Omnibus):,0.0,Jarque-Bera (JB):,40757.119
Skew:,3.582,Prob(JB):,0.0
Kurtosis:,42.036,Cond. No.,20800.0


$y_{orders} = 0.2349 * NumCapsules - 0.0017 * NumCapsules^{2} + \ldots$

$\frac{d y_{orders}}{d NumCapsules} = 0.2349 - 0.0017 * NumCapsules = 0$


Максимум достигается при значении $138$ капсул.

Так как наблюдается гетероскедастичность, применим линейную регрессию с робастными ошибками.

In [31]:
X = df[df['Фирма'] == 'Masha'][['Количество капсул', 'Clicks', 'Orders']].dropna()
X['Количество капсул ** 2'] = X['Количество капсул']**2
y = X.Orders
X.drop(['Orders'], axis=1, inplace=True)
X = sm.add_constant(X)
model = sm.RLM(y, X)
model = model.fit()

In [32]:
model.summary()

0,1,2,3
Dep. Variable:,Orders,No. Observations:,621.0
Model:,RLM,Df Residuals:,617.0
Method:,IRLS,Df Model:,3.0
Norm:,HuberT,,
Scale Est.:,mad,,
Cov Type:,H1,,
Date:,"Wed, 21 Aug 2024",,
Time:,22:05:51,,
No. Iterations:,50,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
const,-2.1397,0.116,-18.385,0.000,-2.368,-1.912
Количество капсул,0.0967,0.004,26.427,0.000,0.090,0.104
Clicks,0.0788,5.69e-05,1385.771,0.000,0.079,0.079
Количество капсул ** 2,-0.0011,2.47e-05,-44.824,0.000,-0.001,-0.001


$y_{orders} = 0.0967 * NumCapsules - 0.0011 * NumCapsules^{2} + \ldots$

$\frac{d y_{orders}}{d NumCapsules} = 0.0967 - 0.0011 * NumCapsules = 0$


Максимум достигается при значении $88$ капсул.

In [27]:
X = df[df['Фирма'] == 'PUR'][['Количество капсул', 'Clicks', 'Orders']].dropna()
X['Количество капсул ** 2'] = X['Количество капсул']**2
y = X.Orders
X.drop(['Orders'], axis=1, inplace=True)
X = sm.add_constant(X)
model = OLS(y, X)
model = model.fit()

In [28]:
model.summary()

0,1,2,3
Dep. Variable:,Orders,R-squared:,0.774
Model:,OLS,Adj. R-squared:,0.773
Method:,Least Squares,F-statistic:,500.7
Date:,"Wed, 21 Aug 2024",Prob (F-statistic):,4.27e-95
Time:,22:02:49,Log-Likelihood:,-1163.4
No. Observations:,295,AIC:,2333.0
Df Residuals:,292,BIC:,2344.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.0061,0.001,4.611,0.000,0.004,0.009
Количество капсул,0.2047,0.044,4.611,0.000,0.117,0.292
Clicks,0.0556,0.002,30.494,0.000,0.052,0.059
Количество капсул ** 2,-0.0025,0.001,-4.585,0.000,-0.004,-0.001

0,1,2,3
Omnibus:,109.534,Durbin-Watson:,1.896
Prob(Omnibus):,0.0,Jarque-Bera (JB):,651.819
Skew:,1.388,Prob(JB):,2.88e-142
Kurtosis:,9.733,Cond. No.,4.15e+18


$y_{orders} = 0.2047 * NumCapsules - 0.0025 * NumCapsules^{2} + \ldots$

$\frac{dy_{orders}}{d NumCapsules} = 0.2047 - 0.0025 * NumCapsules = 0$

Максимум достигается при значении $82$ капсулы.

In [34]:
X = df[df['Фирма'] == 'PUR'][['Количество капсул', 'Clicks', 'Orders']].dropna()
X['Количество капсул ** 2'] = X['Количество капсул']**2
y = X.Orders
X.drop(['Orders'], axis=1, inplace=True)
X = sm.add_constant(X)
model = sm.RLM(y, X)
model = model.fit()

In [35]:
model.summary()

0,1,2,3
Dep. Variable:,Orders,No. Observations:,295.0
Model:,RLM,Df Residuals:,292.0
Method:,IRLS,Df Model:,2.0
Norm:,HuberT,,
Scale Est.:,mad,,
Cov Type:,H1,,
Date:,"Wed, 21 Aug 2024",,
Time:,22:08:06,,
No. Iterations:,27,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
const,0.0031,0.001,4.670,0.000,0.002,0.004
Количество капсул,0.1027,0.022,4.670,0.000,0.060,0.146
Clicks,0.0579,0.001,64.038,0.000,0.056,0.060
Количество капсул ** 2,-0.0015,0.000,-5.587,0.000,-0.002,-0.001


$y_{orders} = 0.1027 * NumCapsules - 0.0015 * NumCapsules^{2} + \ldots$

$\frac{dy_{orders}}{d NumCapsules} = 0.1027 - 0.0015 * NumCapsules = 0$

Максимум достигается при значении $68$ капсул.

Мы оптимизировали значение ожидаемого количества заказов относительно фиксированных параметрах, подбирая оптимальное значение количества капсул. Однако, вариативность значения капсул связана с ценой, которую мы устанавливаем для продукта.

Поэтому поставим цель совместной оптимизации параметров.

Для этого построим каскад регрессоров на основе градиентного бустинга. Каждый последующий будет предсказывать значение следующего действия: по показам, цене и количеству капсул количество кликов, по предыдущим параметрам -- количество добавлений в корзину, и количество заказов.

По r2_score градиентный бустинг лучше, чем линейные модели, поэтому предпочтение их обосновано.

In [39]:
from xgboost import XGBRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [56]:
df['Price'] = df.Revenue / df.Orders

In [87]:
data = df[df['Фирма'] == 'Masha'].iloc[:, [2, 5, 6, 7, 8, 9, 10, 11]].dropna()
data.Price = data.Price.astype(int)

In [112]:
X  = data.iloc[:, :2]
X = pd.concat((X, pd.DataFrame(data.Price)), axis=1)

X, y = X.to_numpy(), data.iloc[:, 3].to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [113]:
model1 = XGBRegressor(n_estimators=150)
model1.fit(X_train, y_train)
y_pred = model1.predict(X_test)
print(mean_squared_error(y_test, y_pred))
print(r2_score(y_test, y_pred))

1010.1200028806236
0.8226862449770486


In [71]:
X_train, X_test, y_train, y_test = train_test_split(sm.add_constant(X), y)

Сравним с классической линейной регрессией.

In [72]:
model1 = LinearRegression()
model1.fit(X_train, y_train)
y_pred = model1.predict(X_test)

In [73]:
print(mean_squared_error(y_test, y_pred))
print(r2_score(y_test, y_pred))

906.4104591357737
0.7988288683106017


In [114]:
# Cart
X  = data.iloc[:, :3]
X = pd.concat((X, pd.DataFrame(data.Price)), axis=1)
X, y = X.to_numpy(), data.iloc[:, 4].to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y)
model2 = XGBRegressor(n_estimators=150)
model2.fit(X_train, y_train)
y_pred = model2.predict(X_test)
print(mean_squared_error(y_test, y_pred))
print(r2_score(y_test, y_pred))

167.26979356248424
0.6954077761393431


In [115]:
# Orders

X  = data.iloc[:, :4]
X = pd.concat((X, pd.DataFrame(data.Price)), axis=1)
X, y = X.to_numpy(), data.iloc[:, 5].to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y)
model3 = XGBRegressor(n_estimators=150)
model3.fit(X_train, y_train)
y_pred = model3.predict(X_test)
print(mean_squared_error(y_test, y_pred))
print(r2_score(y_test, y_pred))

1.1817531268215047
0.20431761580544117


Проверим, как работает комплекс моделей.

In [411]:
data = df[df['Фирма'] == 'Masha'].iloc[:, [2, 5, 6, 7, 8, 9, 10, 11]].dropna()
data.Price = data.Price.astype(int)

X = data.iloc[:, :2]
X = pd.concat((X, pd.DataFrame(data.Price)), axis=1)
X, y = X.to_numpy(), data.iloc[:, 3].to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y)
m = X_train.copy()
x_, y_ = X_test.copy(), y_test.copy()
model1 = XGBRegressor(n_estimators=150)
model1.fit(X_train, y_train)


X = data.iloc[:, :3]
X = pd.concat((X, pd.DataFrame(data.Price)), axis=1)
X, y = X.to_numpy(), data.iloc[:, 4].to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y)
model2 = XGBRegressor(n_estimators=150)
model2.fit(X_train, y_train)

X = data.iloc[:, :4]
X = pd.concat((X, pd.DataFrame(data.Price)), axis=1)
X, y = X.to_numpy(), data.iloc[:, 5].to_numpy()
X_train, X_test, y_train, y_test = train_test_split(X, y)
model3 = XGBRegressor(n_estimators=150)
model3.fit(X_train, y_train)

models = [model1, model2, model3]

In [438]:
for item in models:
            y_pred = item.predict(x_)
            x_ = np.hstack((x_[:, :x_.shape[1]-1], 
                            np.expand_dims(y_pred, axis=1), 
                            np.expand_dims(x_[:, x_.shape[1]-1], axis=1)))
            
print(mean_squared_error(np.abs(y_), y_pred))
print(r2_score(np.abs(y_), y_pred))

198.21907070989
0.5768681676660911


In [229]:
from scipy.optimize import minimize, newton

In [415]:
def predict(M):
    sum_ = 0
    for j in range(50):
        exposure = np.random.choice(Exposure, size=1)
        X = np.expand_dims(M, axis=0)
        X = np.expand_dims(np.array(np.hstack((X[0, 0], exposure, X[0, 1]))), axis=0)
        for item in models:
            y_pred = item.predict(X)
            X = np.hstack((X[:, :X.shape[1]-1], 
                            np.expand_dims(y_pred, axis=1), 
                            np.expand_dims(X[:, X.shape[1]-1], axis=1)))
        sum_ += y_pred
    y_pred = sum_ / 10
    return - y_pred

In [292]:
minimize(predict, (50, 400), method='nelder-mead')

       message: Maximum number of function evaluations has been exceeded.
       success: False
        status: 1
           fun: -0.8816530108451843
             x: [ 5.125e+01  4.050e+02]
           nit: 144
          nfev: 400
 final_simplex: (array([[ 5.125e+01,  4.050e+02],
                       [ 5.125e+01,  4.050e+02],
                       [ 5.125e+01,  4.050e+02]]), array([-8.817e-01, -2.719e-01, -2.249e-01]))

In [None]:
lst = []
for i in range(10, 105, 3):
    for j in range(250, 1250, 10):
        z = float(predict((i, j)))
        lst.append([i, j, z])
lst = np.array(lst)
lst[:, 2] = -lst[:,2]

In [418]:
import plotly.express as px
import plotly.graph_objects as go

Построим 3D-визуализацию результатов.

In [419]:
fig = go.Figure(data=[go.Scatter3d(x=lst[:, 0], y=lst[:, 1], z=lst[:, 2])])
fig.show()

In [427]:
result = pd.DataFrame(lst, columns = ['Количество капсул', 'Цена продукта', 'Значение метрики']).nlargest(20, columns=['Значение метрики'])

In [428]:
price = df[(df['Количество капсул'] == 50) & (df['Фирма'] == 'Masha')].Price.mean() / 50

In [429]:
result

Unnamed: 0,Количество капсул,Цена продукта,Значение метрики
2971,97.0,960.0,9.682032
3097,100.0,1220.0,9.479635
2679,88.0,1040.0,9.357452
2570,85.0,950.0,9.356905
3095,100.0,1200.0,9.318036
2983,97.0,1080.0,9.311412
2572,85.0,970.0,9.307737
3181,103.0,1060.0,9.297303
3170,103.0,950.0,9.293014
2581,85.0,1060.0,9.287264


Можем сказать, что такая композиция моделей предписывает повышение цен каждой отдельной капсулы. Более того, количество капсул, более выгодное с точки зрения количества приобретений, примерно равно 100.

Повышение цен до 960-1000 руб. должно принести повышение ожидаемого спроса. Так как в процесс валидации модели включалась случайная выборка из множества показов в ленте маркетплейса, мы максимизировали именно ожидаемую полезность.

In [436]:
df[(df['Количество капсул'] == 100) & (df['Фирма'] == 'Masha')].Price.mean()

886.5019686781484

In [433]:
result['Сравнение с исходной ценой'] = result['Цена продукта'] / result['Количество капсул'] > price
result['Цена за капсулу'] = result['Цена продукта'] / result['Количество капсул']

In [434]:
result[['Цена за капсулу', 'Сравнение с исходной ценой']]

Unnamed: 0,Цена за капсулу,Сравнение с исходной ценой
2971,9.896907,True
3097,12.2,True
2679,11.818182,True
2570,11.176471,True
3095,12.0,True
2983,11.134021,True
2572,11.411765,True
3181,10.291262,True
3170,9.223301,False
2581,12.470588,True


Итак, как результат применения моделей машинного обучения мы получили рекомендацию по увеличению цены товара. Так как эластичность на спрос по цене невысока (в районе 0.3), повышение цены не повлияет значительно на спрос.