### Датасет

- `purchases_train.csv` - история покупок в розничном магазине с 21 октября 2003 года по 12 марта 2004 года.
- `purchases_test.csv` - покупки за следующую неделю, с 13 по 19 марта 2004 года). В этой выборке для каждого пользователя исключены товары, которые он уже покупал за период обучающей выборки. Так сделано, чтобы измерить, насколько модель хорошо предсказывает будущие покупки.
- `customers.csv` - пол клиентов (`Male` / `Female`), есть пропуски

### Бейзлайн решение
- на истории покупок обучается модель матричного разложения `implicit.AlternateLeastSquares`
- рекомендации сравниваются с покупками за следующую неделю по метрике `map@10`


### Задание
Улучшите модель с помощью информации о поле клиентов `customers.csv`

# Выгрузка данных, бейзлайн решение, метрика качества

In [1]:
# you need implicit & ml_metrics packages to run this notebook
# pip3 install implicit ml_metrics


from pathlib import Path

import numpy as np
from IPython.core.display import display
from ml_metrics import mapk
import scipy
import pandas as pd
import implicit

from src.load import DataProvider
from src.baseline_model import get_baseline_model
from src.utils import transform_to_item_user_csr_matrix, get_recommendations, get_purchases_by_customer
import inspect

In [2]:
data_provider = DataProvider(data_directory=Path('./data'))
purchases_train = data_provider.get_purchases_train()
purchases_test = data_provider.get_purchases_test()
display(
    purchases_train.head(),
    purchases_test.head(),
)

Unnamed: 0,customer_id,product_id,datetime
0,8698595,12530,2004-03-10 22:18:43.497459200
1,13271885,7541,2004-03-06 02:24:43.209763200
2,16852746,13134,2004-03-10 01:03:09.598614400
3,16852746,6572,2004-03-04 16:45:16.522566400
4,14619070,4659,2004-03-12 13:29:35.011481600


Unnamed: 0,customer_id,product_id,datetime
0,1021292,6197,2004-03-18 13:35:19.145152000
1,11379978,4659,2004-03-19 18:51:31.887936000
2,13271885,5659,2004-03-14 05:47:21.544166400
3,13271885,1015,2004-03-15 14:41:19.702089601
4,12315337,12072,2004-03-19 10:39:17.148105600


Бейзлайн решение основано на библитеке матричного разложения `implicit`.

In [3]:
print(inspect.getsource(get_baseline_model))

def get_baseline_model() -> implicit.als.AlternatingLeastSquares:
    # disable internal multithreading to speed up implicit.als.AlternatingLeastSquares.fit()
    environ["MKL_NUM_THREADS"] = "1"
    environ["OPENBLAS_NUM_THREADS"] = "1"

    # we iterated through hyper parameters and measured map@10 score on test set
    # the parameters below provide 80-th percentile of score
    # we intentionally do not use parameters with best test score
    model = implicit.als.AlternatingLeastSquares(
        factors=20, iterations=7, regularization=100.0
    )
    return model



In [4]:
def train_model_on_purchases_and_measure_map10_score(unfitted_model: implicit.als.AlternatingLeastSquares) -> float:
    data_provider = DataProvider(data_directory=Path('./data'))
    item_users = transform_to_item_user_csr_matrix(data_provider.get_purchases_train())
    
    np.random.seed(42)
    unfitted_model.fit(item_users=item_users)
    
    test_user_ids, test_purchases = get_purchases_by_customer(data_provider.get_purchases_test())
    recommendations = get_recommendations(unfitted_model, test_user_ids, item_users)
    score = mapk(test_purchases, recommendations, k=10)
    return score

train_model_on_purchases_and_measure_map10_score(unfitted_model=get_baseline_model())

HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))




0.18293975547686622

# Улучшите модель с помощью данных о поле потребителя

In [5]:
customers = data_provider.get_customers()
display(customers.head())

Unnamed: 0,customer_id,sex
0,14386819,Female
1,1481405,
2,16745074,
3,10325906,
4,11167384,


# Решение 

Мы специально не стали подбирать самые лучшие гиперпараметры для модели.
Это значит, что даже не используя пол потребителей, можно добиться лучшей метрики качества - просто перебрав гиперпараметры.  
 
Если в решении вы используете другие гиперпараметры для имплисит, посчитайте также метрику для этих гиперпараметров без использования пола, чтобы убедиться, что положительный вклад дал именно пол.    