## [Description](#Description_)
## [Research](#Research_)
## [Imports](#Imports_)
## [Globals](#Globals_)
## [Utils](#Utils_)
## [Setup](#Setup_)
## [Data](#Data_)
## [Data exploration](#Data_exploration_)
## [Model](#Model_)
## [Training](#Training_)
## [Results](#Results_)

## Description <span id=Description_></span>

# План домашней работы
1. Реализовать алгоритмы **item2item**, **ALS**, **IALS** (2 балл за каждый)
2. Посчитать метрику предсказаний **MRR@100** выбрасывая случайный лайк пользователя (2 балла)

Будем решать задачу предсказания: на 4/5 пользователей учимся, на 1/5 выбрасываем случайный лайк и пытаемся предсказать его беря топ 100 наших лучших предсказаний для этого пользователя.

MRR@100 будет равно $1/(p+1)$, где $p$ - позиция на которой оказался выброшенный лайк в нашем ранжировании и 0 если в топ 100 его не было.

3. Подобрать параметры алгоритмов для максимизации MRR@100 (1 балл)
4. Сравнить похожести айтемов получаюшиеся для item2item, ALS, IALS (1 балл)

Замерить насколько получаются похожими топы похожестей. Так же рекомендуется взять 5-топовых (или любимых) треков и посмотреть на похожести которые получаются для них в разных алгоритмах.

### Ссылки на датасет музыки:

1. Матричка: https://disk.yandex.ru/d/cLbDbw3mCido_w
2. Имена тайтемов: https://disk.yandex.ru/d/pPCaGJOqcpcABw
3. Линки между айтемами: https://disk.yandex.ru/d/hMErnDJqtVm9HQ

## Research <span id=Research_></span>

- [Implicit ALS](http://yifanhu.net/PUB/cf.pdf)

## Imports <span id=Imports_></span>

In [1]:
import functools
import glob
import numpy as np
import os
import pandas as pd
import requests
import scipy
import sys
from tqdm.autonotebook import tqdm
import types
from typing import Callable
import urllib
import zipfile

%load_ext nb_black

  from tqdm.autonotebook import tqdm


<IPython.core.display.Javascript object>

## Globals <span id=Globals_></span>

In [2]:
CONFIG = types.SimpleNamespace()
DATA = types.SimpleNamespace()

<IPython.core.display.Javascript object>

## Utils <span id=Utils_></span>

### Markdown

In [3]:
def make_new_markdown_section_with_link(section, header="##", do_print=True):
    section_id = section.replace(" ", "_") + "_"
    section_link = f"{header} [{section}](#{section_id})"
    section_header = f"{header} {section} <span id={section_id}></span>"
    if do_print:
        print(section_link + "\n" + section_header)
    return section_link, section_header


def make_several_sections(
    section_names=(
        "Description",
        "Imports",
        "Globals",
        "Setup",
        "Data",
        "Data exploration",
        "Model",
        "Training",
        "Results",
    )
):
    links, headers = zip(
        *[
            make_new_markdown_section_with_link(sn, do_print=False)
            for sn in section_names
        ]
    )
    print("\n".join(links + ("",) + headers))

<IPython.core.display.Javascript object>

### Yadisk

In [4]:
def get_yadisk_download_url(
    yadisk_url: str,
    base_url="https://cloud-api.yandex.net/v1/disk/public/resources/download?",
) -> str:
    final_url = base_url + urllib.parse.urlencode(dict(public_key=yadisk_url))
    response = requests.get(final_url)
    download_url = response.json()["href"]
    return download_url


def write_response_content(url: str, filename: str) -> None:
    download_response = requests.get(url)
    with open(filename, "wb") as f:
        f.write(download_response.content)

<IPython.core.display.Javascript object>

### Cli

In [5]:
def unzip(zip_path, save_path=None, delete_zip=False):
    !unzip {zip_path} {"-d "+ save_path if save_path else ""}
    if delete_zip:
        for path in glob.glob(zip_path):
            if path.endswith(".zip"):
                !trash {path}

<IPython.core.display.Javascript object>

### Other

In [6]:
def load_or_build_and_save(
    path: str, load: Callable[[str], "T"], build_and_save: Callable[[str], "T"]
) -> "T":
    if os.path.exists(path):
        print(f"Reusing object {path}", file=sys.stderr)
        return load(path)
    return build_and_save(path)

<IPython.core.display.Javascript object>

## Setup <span id=Setup_></span>

In [7]:
DATA.yadisk_df_url = "https://disk.yandex.ru/d/cLbDbw3mCido_w"
DATA.yadisk_names_url = "https://disk.yandex.ru/d/pPCaGJOqcpcABw"
DATA.yadisk_links_url = "https://disk.yandex.ru/d/hMErnDJqtVm9HQ"

DATA.df_filename = "data/music/df"
DATA.names_filename = "data/music/names"
DATA.links_filename = "data/music/links"

<IPython.core.display.Javascript object>

In [8]:
for url, filename in tqdm(
    zip(
        [DATA.yadisk_df_url, DATA.yadisk_names_url, DATA.yadisk_links_url],
        [DATA.df_filename, DATA.names_filename, DATA.links_filename],
    )
):
    if not os.path.exists(filename):
        zip_filename = filename + ".zip"
        write_response_content(
            url=get_yadisk_download_url(yadisk_url=url),
            filename=zip_filename,
        )
        unzip(zip_path=zip_filename, save_path=filename, delete_zip=True)

0it [00:00, ?it/s]

<IPython.core.display.Javascript object>

## Data <span id=Data_></span>

In [9]:
def build_sparse_coo_matrix(df, dtype=np.int32):
    row_indices = []
    col_indices = []

    for i, row in tqdm(df.iterrows(), total=len(df)):
        user_id = row["user_id"]
        item_ids = row["track_ids"]
        row_indices += [user_id] * len(item_ids)
        col_indices += item_ids

    data = np.ones_like(row_indices)
    coo_matrix = scipy.sparse.coo_matrix(
        (data, (row_indices, col_indices)), dtype=dtype
    )
    return coo_matrix


def build_and_save_coo_matrix(filename, df_filename):
    df = pd.read_json(df_filename, lines=True)
    coo_matrix = build_sparse_coo_matrix(df)
    scipy.sparse.save_npz(filename, coo_matrix)
    return coo_matrix

<IPython.core.display.Javascript object>

In [10]:
DATA.coo_matrix_filename = "data/music/coo_matrix.npz"
DATA.coo_matrix = load_or_build_and_save(
    path=DATA.coo_matrix_filename,
    load=lambda f: scipy.sparse.load_npz(f),
    build_and_save=functools.partial(
        build_and_save_coo_matrix, df_filename=DATA.df_filename
    ),
)

Reusing object data/music/coo_matrix.npz


<IPython.core.display.Javascript object>

In [12]:
a = DATA.coo_matrix.sum(0)

<IPython.core.display.Javascript object>

In [20]:
DATA.coo_matrix.shape

(1374583, 101521820)

<IPython.core.display.Javascript object>

In [19]:
(DATA.coo_matrix.sum(1) == 0).sum()

1362

<IPython.core.display.Javascript object>

In [14]:
(a == 0).sum()

100521820

<IPython.core.display.Javascript object>

In [None]:
item_weights = np.array(user_item_matrix.tocsc().sum(0))[0]
top_to_bottom_order = np.argsort(-item_weights)
item_mapping = np.empty(top_to_bottom_order.shape, dtype=int)
item_mapping[top_to_bottom_order] = np.arange(len(top_to_bottom_order))
total_item_count = (item_weights > 0).sum()
total_user_count = user_item_matrix.shape[0]

def build_dataset(user_item_matrix, item_pct, user_pct):
    user_count, item_count = int(total_user_count * user_pct), int(total_item_count * item_pct)
    item_ids = top_to_bottom_order[:item_count]
    user_ids = np.random.choice(np.arange(user_item_matrix.shape[0]), size=user_count, replace=False)
    train = user_item_matrix[user_ids]
    train = train[:, item_ids]
    return train

In [None]:
small_dataset = build_dataset(user_item_matrix, 0.05, 0.05)

## Data exploration <span id=Data_exploration_></span>
## Model <span id=Model_></span>
## Training <span id=Training_></span>
## Results <span id=Results_></span>