#### **Description**
Сервисы доставки еды уже давно перестали быть просто курьерами, которые привозят заказ. Индустрия e-grocery стремительно идет к аккумулированию и использованию больших данных, чтобы знать о своих пользователях больше и предоставлять более качественные и персонализированные услуги. Одним из шагов к такой персонализации может быть разработка модели, которая понимает привычки и нужды пользователя, и, к примеру, может угадать, что и когда пользователь захочет заказать в следующий раз.

Такая модель, будучи разработанной, может принести значительную ценность для клиента - сэкономить время при сборке корзины, помочь ничего не забыть в заказе, убрать необходимость планировать закупки и следить за заканчивающимися запасами продуктов.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt;
import lightgbm as lgb
from itertools import chain
from tqdm import tqdm
import numpy as np;
import time
tqdm.pandas()  # Активируем tqdm для pandas
from time import gmtime, strftime


In [3]:
# Загрузка данных
train = pd.read_csv('data/train.csv')
df_sample = pd.read_csv('data/sample_submission.csv')
df_sample=df_sample.drop(["target"],axis=1);

In [117]:
train.head(5)

Unnamed: 0,user_id,order_completed_at,cart
0,2,2015-03-22 09:25:46,399
1,2,2015-03-22 09:25:46,14
2,2,2015-03-22 09:25:46,198
3,2,2015-03-22 09:25:46,88
4,2,2015-03-22 09:25:46,157


In [118]:
train.describe()

Unnamed: 0,user_id,cart
count,3123064.0,3123064.0
mean,7253.373,227.3235
std,5337.838,211.2867
min,0.0,0.0
25%,2884.0,42.0
50%,6055.0,146.0
75%,11172.0,399.0
max,19999.0,880.0


In [119]:
# Отделим user_id от cart в sample, что бы было удобнее анализировать количество пользователей и количество категорий товаров.

#Оптмизируем операцию.
# Используем векторные операции pandas (str.split)
#это значительно ускоряет процесс за счет оптимизаторов pandas
#Избегаем медленных операций append в списки
#Избегаем многократного вызова split() для одних и тех же данных
#Сразу получаем numpy arrays через .values

split_data = df_sample['id'].str.split(';', expand=True) 
user_id = split_data[0].values
cart = split_data[1].values

# Создаем DataFrame
sample = pd.DataFrame({
    "user_id": user_id,
    "cart": cart
})

sample.head(3)

Unnamed: 0,user_id,cart
0,0,133
1,0,5
2,0,10


In [120]:
sample.describe()

Unnamed: 0,user_id,cart
count,790449,790449
unique,13036,858
top,380,57
freq,250,11336


In [121]:
df_new = train;

In [122]:
# Преобразуем колонку с датами в правильный формат
df_new['order_completed_at'] = pd.to_datetime(train['order_completed_at'])
df_new.head(3)

Unnamed: 0,user_id,order_completed_at,cart
0,2,2015-03-22 09:25:46,399
1,2,2015-03-22 09:25:46,14
2,2,2015-03-22 09:25:46,198


In [123]:
df_new.describe()

Unnamed: 0,user_id,order_completed_at,cart
count,3123064.0,3123064,3123064.0
mean,7253.373,2020-04-09 01:17:00.182836992,227.3235
min,0.0,2015-03-22 09:25:46,0.0
25%,2884.0,2020-02-03 06:03:43,42.0
50%,6055.0,2020-05-19 06:35:20,146.0
75%,11172.0,2020-07-14 04:50:22,399.0
max,19999.0,2020-09-03 23:45:45,880.0
std,5337.838,,211.2867


In [124]:
#Добавим фичу, среднее количество дней между покупками.
user_features = df_new.groupby('user_id').agg(total_orders=('order_completed_at', 'count'),            # Общее число заказов
    avg_days_between_orders=('order_completed_at', lambda x: x.diff().mean().days)  # Средний интервал мужде покупками
).reset_index()

In [125]:
user_features.head(3)

Unnamed: 0,user_id,total_orders,avg_days_between_orders
0,0,44,1
1,1,37,12
2,2,172,11


In [126]:
# Оценим популярность товара, т.е. частоту его появления! 
# Список всех категорий в каждом заказе
# Если итерируемый объект, то all_categories=list(chain.from_iterable(train['cart'])), иначе:
all_categories = df_new['cart'].tolist();
# Очениваем частоту появления 
category_features = pd.Series(all_categories).value_counts().reset_index()
#Добавим названия
category_features.columns = ['cart', 'cart_popular']  # Общая популярность

In [127]:
category_features.head(3)

Unnamed: 0,cart,cart_popular
0,57,108877
1,14,93957
2,61,91543


In [128]:
category_features.describe()

Unnamed: 0,cart,cart_popular
count,881.0,881.0
mean,440.0,3544.908059
std,254.46709,10686.317664
min,0.0,1.0
25%,220.0,7.0
50%,440.0,66.0
75%,660.0,1101.0
max,880.0,108877.0


In [129]:
features = pd.merge(df_new, category_features, on='cart')

features.head(3)

Unnamed: 0,user_id,order_completed_at,cart,cart_popular
0,2,2015-03-22 09:25:46,399,13682
1,2,2015-03-22 09:25:46,14,93957
2,2,2015-03-22 09:25:46,198,17707


In [130]:
features.describe()

Unnamed: 0,user_id,order_completed_at,cart,cart_popular
count,3123064.0,3123064,3123064.0,3123064.0
mean,7253.373,2020-04-09 01:17:00.182836992,227.3235,35722.83
min,0.0,2015-03-22 09:25:46,0.0,1.0
25%,2884.0,2020-02-03 06:03:43,42.0,13958.0
50%,6055.0,2020-05-19 06:35:20,146.0,27249.0
75%,11172.0,2020-07-14 04:50:22,399.0,49571.0
max,19999.0,2020-09-03 23:45:45,880.0,108877.0
std,5337.838,,211.2867,28928.34


In [131]:
# Считаем, сколько раз пользователь заказывал категорию
user_cat_features = df_new.groupby(['user_id', 'cart']).agg(
    cart_order_count=('order_completed_at', 'count'),         # Частота заказов по каждому user
    last_order_date=('order_completed_at', 'max'),            # Дата последнего заказа
    first_order_date=('order_completed_at', 'min')            # Дата первого заказа

).reset_index()

user_cat_features['diff_order_date']=(user_cat_features.last_order_date-user_cat_features.first_order_date).dt.days;
#.dt.days — сразу возвращает целое число дней (отбрасывая часы/минуты).

user_cat_features=user_cat_features.drop(["last_order_date", "first_order_date"], axis=1);

user_cat_features.head(3)

Unnamed: 0,user_id,cart,cart_order_count,diff_order_date
0,0,5,1,0
1,0,10,1,0
2,0,14,2,35


In [132]:
user_cat_features.describe()

Unnamed: 0,user_id,cart,cart_order_count,diff_order_date
count,1117600.0,1117600.0,1117600.0,1117600.0
mean,8653.122,256.9703,2.794438,67.33846
std,5624.315,221.3021,3.907522,119.2
min,0.0,0.0,1.0,0.0
25%,3787.0,61.0,1.0,0.0
50%,7990.0,197.0,1.0,0.0
75%,13224.0,403.0,3.0,91.0
max,19999.0,880.0,196.0,1915.0


In [133]:
features = pd.merge(features, user_cat_features, on=['user_id','cart'], how="left")

features.head(3)

Unnamed: 0,user_id,order_completed_at,cart,cart_popular,cart_order_count,diff_order_date
0,2,2015-03-22 09:25:46,399,13682,1,0
1,2,2015-03-22 09:25:46,14,93957,1,0
2,2,2015-03-22 09:25:46,198,17707,2,1027


In [153]:
features.describe(percentiles=[0.1, 0.25, 0.5, 0.75, 0.95])

Unnamed: 0,user_id,order_completed_at,cart,cart_popular,cart_order_count,diff_order_date,target
count,3123064.0,3123064,3123064.0,3123064.0,3123064.0,3123064.0,3123064.0
mean,7253.373,2020-04-09 01:17:00.182836992,227.3235,35722.83,8.258405,166.6952,0.6123141
min,0.0,2015-03-22 09:25:46,0.0,1.0,1.0,0.0,0.0
10%,938.0,2019-10-26 21:07:12,17.0,4914.0,1.0,0.0,0.0
25%,2884.0,2020-02-03 06:03:43,42.0,13958.0,2.0,25.0,0.0
50%,6055.0,2020-05-19 06:35:20,146.0,27249.0,4.0,120.0,1.0
75%,11172.0,2020-07-14 04:50:22,399.0,49571.0,10.0,265.0,1.0
95%,17497.0,2020-08-24 10:19:24,686.0,93957.0,29.0,462.0,1.0
max,19999.0,2020-09-03 23:45:45,880.0,108877.0,196.0,1915.0,1.0
std,5337.838,,211.2867,28928.34,11.08092,180.939,0.4872224


In [135]:
#features = pd.merge(features, user_features, on=['user_id'], how="left")

#features.head(3)

In [None]:
features["target"]=np.where((features['cart_popular'] > 5000) &         # Популярность
                             (features['cart_order_count'] >2)&          # Частота заказов по каждому user
                             (features['diff_order_date'] > 1), 1, 0)    # количество дней между первым и последним заказом

In [137]:
print(features['target'].value_counts())

target
1    1912296
0    1210768
Name: count, dtype: int64


In [138]:
features.describe()

Unnamed: 0,user_id,order_completed_at,cart,cart_popular,cart_order_count,diff_order_date,target
count,3123064.0,3123064,3123064.0,3123064.0,3123064.0,3123064.0,3123064.0
mean,7253.373,2020-04-09 01:17:00.182836992,227.3235,35722.83,8.258405,166.6952,0.6123141
min,0.0,2015-03-22 09:25:46,0.0,1.0,1.0,0.0,0.0
25%,2884.0,2020-02-03 06:03:43,42.0,13958.0,2.0,25.0,0.0
50%,6055.0,2020-05-19 06:35:20,146.0,27249.0,4.0,120.0,1.0
75%,11172.0,2020-07-14 04:50:22,399.0,49571.0,10.0,265.0,1.0
max,19999.0,2020-09-03 23:45:45,880.0,108877.0,196.0,1915.0,1.0
std,5337.838,,211.2867,28928.34,11.08092,180.939,0.4872224


In [139]:
features.head(3)

Unnamed: 0,user_id,order_completed_at,cart,cart_popular,cart_order_count,diff_order_date,target
0,2,2015-03-22 09:25:46,399,13682,1,0,0
1,2,2015-03-22 09:25:46,14,93957,1,0,0
2,2,2015-03-22 09:25:46,198,17707,2,1027,0


In [140]:
target=features['target'];
features_2=features[["user_id", "cart"]];

In [141]:
features_2.head(3)

Unnamed: 0,user_id,cart
0,2,399
1,2,14
2,2,198


In [142]:
from sklearn.model_selection import train_test_split

In [143]:
# Разделение user_id на train/valid
X_train, X_test, y_train, y_test = train_test_split(
    features_2, target,
    test_size=0.2,
    random_state=42,
)

In [144]:
print("y_train.shape = ", y_train.shape)
print("X_train.shape = ", X_train.shape)

print("y_test.shape = ", y_test.shape)
print("X_test.shape = ", X_test.shape)

y_train.shape =  (2498451,)
X_train.shape =  (2498451, 2)
y_test.shape =  (624613,)
X_test.shape =  (624613, 2)


#### Получим опорное решение.

In [None]:
%%time

from sklearn import ensemble
import pickle

model = (ensemble.RandomForestClassifier(n_estimators=100, random_state=3,verbose=True,\
                                         n_jobs=-1,oob_score=False,max_features='sqrt'));
model.fit(X_train, y_train)

#filename = 'model_one'+strftime("%H-%M-%S")+'.sav'
#pickle.dump(model, open(filename, 'wb'))

[Parallel(n_jobs=-1)]: Using backend ThreadingBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done  26 tasks      | elapsed:   32.1s
[Parallel(n_jobs=-1)]: Done 176 tasks      | elapsed:  2.7min


CPU times: total: 28min 39s
Wall time: 3min 3s


[Parallel(n_jobs=-1)]: Done 200 out of 200 | elapsed:  3.0min finished


In [146]:
score = model.score(X_test, y_test)
print(f"Accuracy: {score:.2f}")

[Parallel(n_jobs=12)]: Using backend ThreadingBackend with 12 concurrent workers.
[Parallel(n_jobs=12)]: Done  26 tasks      | elapsed:    2.3s
[Parallel(n_jobs=12)]: Done 176 tasks      | elapsed:   12.8s


Accuracy: 0.95


[Parallel(n_jobs=12)]: Done 200 out of 200 | elapsed:   14.2s finished


In [None]:
# Переберем несколько моделей.

#Пуская 
#n_estimators_list = [10, 50, 100, 200, 300]
#max_depth_list = [None, 5, 10, 15]
#results = []

# Перебираем модели с tqdm
#for n_estimators in tqdm(n_estimators_list, desc="Number of Trees"):
 #   for max_depth in tqdm(max_depth_list, desc="Max Depth", leave=False):
  #      model = ensemble.RandomForestClassifier(
   #         n_estimators=n_estimators,
    #        max_depth=max_depth,
     #       random_state=42
      #  )
       # model.fit(X_train, y_train)
        #score = model.score(X_test, y_test)
        #results.append({
         #   'n_estimators': n_estimators,
          #  'max_depth': max_depth,
           # 'accuracy': score
        #})

# Выводим результаты
#for res in results:
 #   print(f"Trees: {res['n_estimators']}, Depth: {res['max_depth']}, Accuracy: {res['accuracy']:.4f}")

- Trees: 10, Depth: None, Accuracy: 0.9340
- Trees: 10, Depth: 5, Accuracy: 0.7168
- Trees: 10, Depth: 10, Accuracy: 0.7497
- Trees: 10, Depth: 15, Accuracy: 0.7723
- Trees: 50, Depth: None, Accuracy: 0.9425
- Trees: 50, Depth: 5, Accuracy: 0.7189
- Trees: 50, Depth: 10, Accuracy: 0.7498
- Trees: 50, Depth: 15, Accuracy: 0.7726
- Trees: 100, Depth: None, Accuracy: 0.9433
- Trees: 100, Depth: 5, Accuracy: 0.7189
- Trees: 100, Depth: 10, Accuracy: 0.7499
- Trees: 100, Depth: 15, Accuracy: 0.7729
- Trees: 200, Depth: None, Accuracy: 0.9433
- Trees: 200, Depth: 5, Accuracy: 0.7190
- Trees: 200, Depth: 10, Accuracy: 0.7499
- Trees: 200, Depth: 15, Accuracy: 0.7728
- Trees: 300, Depth: None, Accuracy: 0.9433
- Trees: 300, Depth: 5, Accuracy: 0.7179
- Trees: 300, Depth: 10, Accuracy: 0.7495
- Trees: 300, Depth: 15, Accuracy: 0.7727

Подбирем параметры "получше".Внимание, это самостоятельная работа!!!
- Оптимальный баланс между скоростью и качеством — **RandomizedSearchCV**. Он проверяет случайные комбинации параметров, а не все возможные (как GridSearchCV).
- Использование HalvingRandomSearchCV (еще быстрее!), но это если scikit-learn версии 0.24+.**HalvingRandomSearchCV** — отсеивает плохие комбинации на ранних этапах, экономя время.

In [148]:
# Вариант с RandomizedSearchCV

'''from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Параметры для поиска
param_dist = {
    'n_estimators': randint(20, 300),       # Количество деревьев
    'max_depth': randint(2, 15),            # Глубина дерева
    'min_samples_split': randint(2, 10),    # Минимальное число образцов для разделения
    'min_samples_leaf': randint(1, 6),      # Минимальное число образцов в листе
    'max_features': ['sqrt', 'log2', None]  # Количество признаков для разделения
}

model = RandomForestClassifier(random_state=3, n_jobs=-1)

# Запуск RandomizedSearchCV
search = RandomizedSearchCV(
    model,
    param_distributions=param_dist,
    n_iter=30,  # Количество случайных комбинаций (чем больше, тем дольше)
    cv=3,       # Количество фолдов кросс-валидации
    scoring='accuracy',
    random_state=3,
    n_jobs=-1
)

search.fit(X_train, y_train)

# Лучшие параметры
print("Лучшие параметры:", search.best_params_)
print("Лучшая точность:", search.best_score_)
'''

'from sklearn.ensemble import RandomForestClassifier\nfrom sklearn.model_selection import RandomizedSearchCV\nfrom scipy.stats import randint\n\n# Параметры для поиска\nparam_dist = {\n    \'n_estimators\': randint(20, 300),       # Количество деревьев\n    \'max_depth\': randint(2, 15),            # Глубина дерева\n    \'min_samples_split\': randint(2, 10),    # Минимальное число образцов для разделения\n    \'min_samples_leaf\': randint(1, 6),      # Минимальное число образцов в листе\n    \'max_features\': [\'sqrt\', \'log2\', None]  # Количество признаков для разделения\n}\n\nmodel = RandomForestClassifier(random_state=3, n_jobs=-1)\n\n# Запуск RandomizedSearchCV\nsearch = RandomizedSearchCV(\n    model,\n    param_distributions=param_dist,\n    n_iter=30,  # Количество случайных комбинаций (чем больше, тем дольше)\n    cv=3,       # Количество фолдов кросс-валидации\n    scoring=\'accuracy\',\n    random_state=3,\n    n_jobs=-1\n)\n\nsearch.fit(X_train, y_train)\n\n# Лучшие параме

### Сформируем predict и submisson

In [150]:
from time import gmtime, strftime
tm=strftime("%H-%M-%S");

sab=model.predict(sample);

sabm=pd.DataFrame();
sabm["target"]=sab;

s=sample["user_id"]+";"+sample["cart"];
s=pd.DataFrame(s)

s.columns=["id"];
s["target"]=sabm;

fil="my_submission "+str(tm)+str('.csv');
s.to_csv(str(fil), index=False)# Записываем результат в файл
print("Your submission was successfully saved!")# Сообщение, если все хорошо

[Parallel(n_jobs=12)]: Using backend ThreadingBackend with 12 concurrent workers.
[Parallel(n_jobs=12)]: Done  26 tasks      | elapsed:    0.3s
[Parallel(n_jobs=12)]: Done 176 tasks      | elapsed:    2.2s
[Parallel(n_jobs=12)]: Done 200 out of 200 | elapsed:    2.5s finished


Your submission was successfully saved!
