## Постановка задачи



## Основные проблемы

- Необходимо учесть как попарные взаимодействия между переменными, так и высокоуровневые.
- Необходимо научиться делать это автоматически, не слишком раздувая матрицу признаков.

## FM

[Статья](https://dl.acm.org/doi/10.1109/ICDM.2010.127), [скачать](https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf)

Факторизационные машины были представлены Стефаном Рендлом в 2010 году. В своей основе они представляют из себя линейную регрессионную модель с дополнительным элементом, моделирующим взаимодействия между переменными при помощи латентных факторов.

Давайте вначале вспомним, что регрессионная модель представляет собой сумму произведений признаков на их веса:
$$y=w_0 + \sum_{i=1}^{n}w_ix_i$$

Эта модель, однако, не ухватывает взаимодействия между признаками. Обычно такое взаимодействие моделируется умножением признаков, мультипликативный эффект которых мы хотим включить в модель. Для модели второго порядка, которая прослеживает взаимодействие только между парами, но уже не тройками переменных, уравнение будет выглядеть следующим образом:
$$y=w_0 + \sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}w_{ij}x_ix_j.$$
Например, если моделируя влияение дохода (предиктор $x_{income}$) на счастье (целевая переменная $y_{happiness}$) мы считаем, что это влияние неодинаково для мужчин и для женщин и хотим учесть его в модели, то надо всего лишь добавить в уравнение ещё одно слагаемое — произведение бинарного признака "пол" на "доход": $y_{happiness}=x_{income}+x_{gender}\times x_{income}$.

С таким подходом, однако, есть одна сложность — исследователью необходимо самостоятельно генерировать новые признаки, для чего необходимо или экспертное знание комбинации признаков, мультипликативный эффект между которыми значимо улучшит модель, или время и память на перебор всех возможных пар (а иногда и троек) и подсчёт их весов, что затруднительно, если количество признаков превышает несколько сотен или тысяч штук (а оно будет превышать из-за того, что в линейных моделях необходимо перекодировать категориальные переменные по схеме dummy encoding). Поскольку число сочетаний из $n$ оббъектов по $k$ рассчитывается по формуле $C_n^k=\frac{n!}{(n-k)!\cdot k!}$, то для модели второго порядка количество параметров будет составлять $\frac{n(n − 1)}{2} + n + 1$, т.е. число весов $w_{i,j}$ растет примерно пропорционально квадрату числа базовых признаков.

К тому же данные могут быть сильно разрежены, что означает отсутствие информации о взаимодействии многих пар признаков и трудности в моделировании мультипликативных эффектов.

Факторизационные машины решают эти проблемы. Они моделируют эффекты взаимодействия между всеми признаками, но не напрямую перемножая их, а обучая для каждого признака вектор низкой размерности и производя скалярное произведение векторов. Итоговая формула выглядит следующим образом:
$$y=w_0 + \sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}\langle v_i,v_j\rangle x_ix_j.$$

Как видно, эта формула имеет одно отличие от предыдущей — веса $w_{ij}$ для мультипликативых эффектов признаков $i$ и $j$ заменены скалярным произведением соответствующих им векторов $v_i$ и $v_j$. Эти вектора имеют размерность k, т.е. $v_i=(u_{i1},u_{i2}\dots u_{ik})$, и чем больше размерность — более глубокие взаимодействия выучит модель, но также затратит на это больше времени и с большей вероятностью переобучится.

Помимо того, что получившиеся вектора в сжатом виде передают взаимодействия между признаками, они обладают её одним важным свойством — чем более они близки, тем более связаны признаки, которые они представяют. Результатом скалярного произведение векторов $\langle v_i,v_j\rangle$ как раз и является число, представляющее степень этой близости. Для задачи класификации, например, это будет означать, что если определённые признаки часто встречаются в одних и тех же классах, то их вектора будут более близки (а скалярное произведение больше), чем вектора других признаков.

Другое преимущество такой замены состоит в уменьшении количества параметров до числа $nk + n + 1$, где $k$ — размерность векторов $v$.

Количество товаров составляет уже $nk + n + 1$, где $k$ — количество скрытых факторов.

Выполнение за линейное время

$$\begin{split}\begin{aligned}
&\sum_{i=1}^d \sum_{j=i+1}^d \langle\mathbf{v}_i, \mathbf{v}_j\rangle x_i x_j \\
 &= \frac{1}{2} \sum_{i=1}^d \sum_{j=1}^d\langle\mathbf{v}_i, \mathbf{v}_j\rangle x_i x_j - \frac{1}{2}\sum_{i=1}^d \langle\mathbf{v}_i, \mathbf{v}_i\rangle x_i x_i \\
 &= \frac{1}{2} \big (\sum_{i=1}^d \sum_{j=1}^d \sum_{l=1}^k\mathbf{v}_{i, l} \mathbf{v}_{j, l} x_i x_j - \sum_{i=1}^d \sum_{l=1}^k \mathbf{v}_{i, l} \mathbf{v}_{j, l} x_i x_i \big)\\
 &=  \frac{1}{2} \sum_{l=1}^k \big ((\sum_{i=1}^d \mathbf{v}_{i, l} x_i) (\sum_{j=1}^d \mathbf{v}_{j, l}x_j) - \sum_{i=1}^d \mathbf{v}_{i, l}^2 x_i^2 \big ) \\
 &= `\frac{1}{2} \sum_{l=1}^k \big ((\sum_{i=1}^d \mathbf{v}_{i, l} x_i)^2 - \sum_{i=1}^d \mathbf{v}_{i, l}^2 x_i^2)
 \end{aligned}\end{split}$$

## FFM

## Wide-And-Deep


## Deep & Cross Network

[Статья](https://arxiv.org/pdf/1708.05123.pdf) 

## xDeepFM


Данная модель является обобщением моделей с матричными разложениями.
Выше мы обсуждали пример построения рекомендаций песен пользователям — интерес пользователя к песне оценивался как скалярное произведение некоторых скрытых векторов. Эту задачу можно сформулировать как задачу построения регрессии
с двумя категориальными признаками: идентификатором пользователя и идентификатором композиции. Целевым признаком является число прослушиваний композиции пользователем. Для некоторого подмножества пар (пользователь, композиция)
мы знаем число прослушиваний; для остальных мы хотим его восстановить. После
бинаризации признаков мы получим, что факторизационная машина оценивает целевую переменную как произведение скрытых векторов пользователя и композиции —
иными словами, она строит разложение матрицы прослушиваний X.

In [209]:
from torch.nn import Module, Embedding, Parameter, Linear
from torch.nn import MSELoss, CrossEntropyLoss
from torch.optim import Adam

import numpy as np
import torch
import torch.nn.functional as F
import pandas as pd

In [253]:
df = pd.read_csv("https://raw.githubusercontent.com/shenweichen/DeepCTR-Torch/master/examples/criteo_sample.txt")
df.shape

(200, 40)

In [259]:
df.to_csv("../../../../tmp/crieto.csv")

In [19]:
# https://github.com/rixwew/pytorch-fm/blob/master/torchfm/model/fm.py

class FeaturesLinear(Module):

    def __init__(self, field_dims, output_dim=1):
        super().__init__()
        self.fc = Embedding(sum(field_dims), output_dim)
        self.bias = Parameter(torch.zeros((output_dim,)))
        self.offsets = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(batch_size, num_fields)``
        """
        x = x + x.new_tensor(self.offsets).unsqueeze(0)
        return torch.sum(self.fc(x), dim=1) + self.bias


class FeaturesEmbedding(Module):

    def __init__(self, field_dims, embed_dim):
        super().__init__()
        self.embedding = Embedding(sum(field_dims), embed_dim)
        self.offsets = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)
        torch.nn.init.xavier_uniform_(self.embedding.weight.data)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(batch_size, num_fields)``
        """
        x = x + x.new_tensor(self.offsets).unsqueeze(0)
        return self.embedding(x)


class FactorizationMachine(Module):

    def __init__(self, reduce_sum=True):
        super().__init__()
        self.reduce_sum = reduce_sum

    def forward(self, x):
        """
        :param x: Float tensor of size ``(batch_size, num_fields, embed_dim)``
        """
        square_of_sum = torch.sum(x, dim=1) ** 2
        sum_of_square = torch.sum(x ** 2, dim=1)
        ix = square_of_sum - sum_of_square
        if self.reduce_sum:
            ix = torch.sum(ix, dim=1, keepdim=True)
        return 0.5 * ix


class FactorizationMachineModel(Module):
    """
    A pytorch implementation of Factorization Machine.
    Reference:
        S Rendle, Factorization Machines, 2010.
    """

    def __init__(self, field_dims, embed_dim):
        super().__init__()
        self.embedding = FeaturesEmbedding(field_dims, embed_dim)
        self.linear = FeaturesLinear(field_dims)
        self.fm = FactorizationMachine(reduce_sum=True)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(batch_size, num_fields)``
        """
        x = self.linear(x) + self.fm(self.embedding(x))
        return torch.sigmoid(x.squeeze(1))

In [315]:
# https://github.com/shenweichen/DeepCTR-Torch/blob/master/deepctr_torch/layers/interaction.py#L12

class FM(Module):
    """Factorization Machine models pairwise (order-2) feature interactions
     without linear term and bias.
      Input shape
        - 3D tensor with shape: ``(batch_size,field_size,embedding_size)``.
      Output shape
        - 2D tensor with shape: ``(batch_size, 1)``.
      References
        - [Factorization Machines](https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf)
    """

    def __init__(self, dim=2):
        super().__init__()

    def forward(self, inputs):
        fm_input = inputs

        square_of_sum = torch.pow(torch.sum(fm_input, dim=1, keepdim=True), 2)
        sum_of_square = torch.sum(fm_input * fm_input, dim=1, keepdim=True)
        cross_term = square_of_sum - sum_of_square
        cross_term = 0.5 * torch.sum(cross_term, dim=dim, keepdim=False)

        return cross_term

In [312]:
class TorchFM(Module):
    def __init__(self, n=None, k=None):
        super().__init__()
        # Initially we fill V with random values sampled from Gaussian distribution
        # NB: use nn.Parameter to compute gradients
        self.V = Parameter(torch.randn(n, k), requires_grad=True)
        self.lin = Linear(n, 1)

        
    def forward(self, x):
        out_1 = torch.matmul(x, self.V).pow(2).sum(1, keepdim=True) #S_1^2
        out_2 = torch.matmul(x.pow(2), self.V.pow(2)).sum(1, keepdim=True) # S_2
        
        out_inter = 0.5 * (out_1 - out_2)
        out_lin = self.lin(x)
        out = out_inter + out_lin
        
        return out

In [313]:
cat_columns = df.columns[df.columns.str.startswith("C")]
X = pd.get_dummies(df, columns=cat_columns, drop_first=True, dummy_na=True).fillna(0)
y = df.label

X = torch.from_numpy(X.values).float()
y = torch.from_numpy(y.values).view(-1, 1).float()

In [316]:
n = X.shape[1]
k = 5

In [321]:
model = FM(dim=k)

In [319]:
model = TorchFM(n=n, k=k)

In [None]:
        square_of_sum = torch.pow(torch.sum(fm_input, dim=1, keepdim=True), 2)
        sum_of_square = torch.sum(fm_input * fm_input, dim=1, keepdim=True)
        cross_term = square_of_sum - sum_of_square
        cross_term = 0.5 * torch.sum(cross_term, dim=dim, keepdim=False)

In [322]:
optimizer = Adam(model.parameters(), lr=0.01)

ValueError: optimizer got an empty parameter list

In [289]:
def chunked(X, y, chuck_size=10):
    assert len(X) == len(y)
        
    for i in range(0, len(X), chuck_size):
        yield X[i : i + chuck_size], y[i : i + chuck_size]

In [290]:
for epoch in range(2):  # loop over the dataset multiple times
    running_loss = 0.0
    for X_batch, y_batch in chunked(X, y, chuck_size=50):
        # zero the parameter gradients
        optimizer.zero_grad()

        # forward + backward + optimize
        predictions = model(X_batch)
        loss = criterion(predictions, y_batch)
        loss.backward()
        optimizer.step()

        # print statistics
        running_loss += loss.item()
        print(f'epoch {epoch}, loss: {running_loss:.3f}')
        running_loss = 0.0

print('Finished Training')

epoch 0, loss: 717111294951424.000
epoch 0, loss: 8930133045936128.000
epoch 0, loss: 372798430117888.000
epoch 0, loss: 4859796297613312.000
epoch 1, loss: 717111294951424.000
epoch 1, loss: 8930133045936128.000
epoch 1, loss: 372798430117888.000
epoch 1, loss: 4859796297613312.000
Finished Training


In [241]:
from torchfm.dataset.criteo import CriteoDataset

In [261]:
citeo_data = CriteoDataset(dataset_path="../../../../tmp/crieto.csv")

In [263]:
field_dims = citeo_data.field_dims

In [266]:
model = FactorizationMachineModel(field_dims=field_dims, embed_dim=5)