# Простое прогнозирование CLTV

    I. Дизайн эксперимента. Pipeline
        1 Вход
        2 Preprocessing
        3 Обучение моделей
        4 Оценка качества
    II. Реализация
        II.I Preprocessing
        II.II Обучение моделей
        II.III Оценка качества


# I. Дизайн эксперимента. Pipeline

### 1 Вход - журнал транзакций с 1.01.1997 по 30.06.1998
  * `cust` - client ID
  * `date` - date
  * `sales` - сумма операции (сделки, покупки)
![](01_transaction_head.JPG)

### 2 Preprocessing

### 2.1 Разбиваем выборку на 3 части (обучение, тест, валидация)
Весь датасет будет разбит на три части:
    1. Обучающий набор (24 недели на обучение, 8 следующих недель на оценку)
    2. Калибровочный (тестовый) набор (предсказание по данным за 24 нелели, 8 следующих недель на оценку)
    3. Валидационный набор (предсказание по данным за 24 нелели, 8 следующих недель на оценку)
![](02_traintestsplit.jpg)

### 2.2 Вычисление признакового описания для каждого набора
В качестве признаков пока используется набор признаков, аналогичный Pareto/NBD модели.

Т.е. это матрица `"object - feature"`. Строки матрицы соотв `client ID`. А Стобцы - признакам клиентов, составленным на основе истории их поведения (взаимодействия):
* `Recency` - время между первой и последней покупкой
* `Frequency` - частота дейтвией (кол-во покупок - 1)
* `monetary value` - среднее кол-во по плажам на дату 
* `T` - время между последней покупкой и текущей датой
![](03_features_rfm.JPG)

### 3 Обучение моделей
Использовались следующие:
    1. Linear Regression
    2. RandomForest
    3. SVMRegressor
    4. Boosting (sklearn.ensemble.GradientBoostingRegressor)
    5. Стекинг RF и бустинга
### 4 Оценка качества

В качестве основной метрики выбрана `RMSLE`, но в справочных целях приведены также `RMSE`, `MAE`, `MAPE`, `R-квадрат`.

#### 4.1 RMSLE
![](04_rmsle.JPG)
##### 4.1.1 Достоинства 
* Устойчива к выбросам (за счет применения log-функции)
* Вычисляет **относительную** ошибку между прогнозируемым и фактическим значением, масштаб ошибки не имеет значения.
* **RMSLE сильнее штрафует за недооценку фактической переменной, чем за ее завышение.**
##### 4.1.2 Недостатки
* Не для всех задач подходит (*x* должен быть более 1)


#### 4.2 RMSE
![](04_rmse.JPG)

##### 4.2.1 Достоинства
* За счет возведения ошибки в степень сильнее штрафует за большие отклонения
* Удобно трактовать, т.к. в тех же ед.измерения что и целевая переменная
* Дифференцируемая функция (MSE) подходит для применения методов оптимизации
##### 4.2.1 Недостатки
* бесполезна для сравнения двух и более моделей, предсказывающих одно и тоже по разным признакам

#### 4.3 MAE
![](04_mae.JPG)

##### 4.3.1 Достоинства
* Удобно трактовать, т.к. в тех же ед.измерения что и целевая переменная

##### 4.3.2 Недостатки
* Одинаково штрафует за расхождение (напр.в 2 и 200 ед.)
* бесполезна для сравнения двух и более моделей, предсказывающих одно и тоже по разным признакам
* Недифференцируемая функция 

#### 4.4 MAPE [upd. НЕ ИСПОЛЬЗУЕМ]
![](04_mape.JPG)

##### 4.4.1 Достоинства
* Удобно интерпретировать. Позволяет абстрагироваться от конкретных цифр и быстро понять, на сколько % разошлись прогноз и результат
* Может вылавливать ошибки разного веса там, где MSE и MAE показали бы одинаковое расхождение для двух разных случаев

##### 4.4.2 Недостатки
* Не подходит для задач, где нужно работать с реальными единицами измерения (деньги, время, штуки и пр)
* Может возникать деление на 0 (если y true = 0)

#### 4.5 R-квадрат (R^2)
![](04_r2.JPG)

##### 4.5.1 Достоинства
* Помогает понять какую долю разнообразия данных модель смогла объяснить
* можно сравнивать модели, обученные на разных данных
* Легко оценить качество (>0.5 it's OK)

##### 4.5.2 Недостатки
* Чувствительная к добавлению новых данных

### * Общая схема 
![](05_bigimg.JPG)

# II.I Реализация. Препроцессинг

In [1]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import datetime as dt 
%matplotlib inline 
%pylab inline
pylab.rcParams['figure.figsize'] = (10, 10)

Populating the interactive namespace from numpy and matplotlib


In [2]:
# load data
transactions = pd.read_csv(r'transaction_log.csv')
transactions['date'] = pd.to_datetime(transactions['date'])

In [3]:
# create timelines

fitPeriod = 7*4*6 # Длина временного промежутка, на котором учимся
evaluatePeriod = 7*4*2 # Длина промежутка, на котором оцениваемся

# train
trainStartDate = pd.Timestamp(dt.date(1997, 1, 1))
trainEndDate = trainStartDate + dt.timedelta(fitPeriod)
traineEvaluateDate = trainEndDate + dt.timedelta(evaluatePeriod)

# test
testStartDate = trainEndDate + dt.timedelta(1)
testEndDate = testStartDate  + dt.timedelta(fitPeriod)
testEvaluateDate = testEndDate + dt.timedelta(evaluatePeriod)

# validation
valStartDate = testEndDate + dt.timedelta(1)
valEndDate = valStartDate + dt.timedelta(fitPeriod)
valEvaluateDate = valEndDate + dt.timedelta(evaluatePeriod)

# fixCustDate = dt.date(1997, 3, 25) 
# endDate =  dt.date(1998, 6, 30) 

In [4]:
# #fig1
# fig, ax = plt.subplots(2,1, figsize=(15,10), sharex = True)
# ax[0].fill_between(x = [trainStartDate,trainEndDate], 
#                 y1 = 3, y2=4, color='green', label='train')
# ax[0].fill_between(x = [trainEndDate,traineEvaluateDate], 
#                 y1 = 3, y2=4, color='blue')
# ax[0].fill_between(x = [testStartDate,testEndDate], 
#                 y1 = 2, y2=3, color='orange', label='test')
# ax[0].fill_between(x = [testEndDate,testEvaluateDate], 
#                 y1 = 2, y2=3, color='blue')
# ax[0].fill_between(x = [valStartDate,valEndDate], 
#                 y1 = 1, y2=2, color='red', label='validation')
# ax[0].fill_between(x = [valEndDate,valEvaluateDate], 
#                 y1 = 1, y2=2, color='blue', label='evaluate')

# for l in [trainStartDate, trainEndDate, traineEvaluateDate, 
#          testStartDate, testEndDate, testEvaluateDate,
#          valStartDate, valEndDate, valEvaluateDate]:
#     ax[0].axvline(l, c='k', linestyle=':')
# ax[0].set_yticklabels([])
# ax[0].set_title('Данные для подготовки модели поделим таким образом, 6мес на обучение, 2мес на оценку')
# _ = ax[0].legend(loc=1)

# #fig2
# _ = transactions.cust.max()
# #fig, ax = plt.subplots(1,1, figsize=(15,5), sharex = True)
# ax[1].scatter(x=transactions.date.values, y=transactions.cust,  edgecolor='k')
# ax[1].fill_between(x = [trainStartDate,trainEndDate], 
#                 y1 = 0, y2=_, color='green', label='train', alpha=0.2)
# ax[1].fill_between(x = [testStartDate,testEndDate], 
#                 y1 = 2, y2=_, color='orange', label='test', alpha=0.2)
# ax[1].fill_between(x = [valStartDate,valEndDate], 
#                 y1 = 1, y2=_, color='red', label='validation', alpha=0.2)
# ax[1].set_title('Другое представление разбиения данных')
# ax[1].set_ylabel('Фиксация активности клиента \nна временном горизонте\n согласно его ID')
# _ = plt.legend()

In [5]:
# create train, test, val datasets
# train
train = transactions[transactions.date < trainEndDate]
trainEval = transactions[(transactions.date >= trainEndDate)&(transactions.date <= traineEvaluateDate)]
# test
test = transactions[(transactions.date >= testStartDate)&(transactions.date < testEndDate)]
testEval = transactions[(transactions.date >= testEndDate)&(transactions.date <= testEvaluateDate)]
# val
val = transactions[(transactions.date >= valStartDate)&(transactions.date < valEndDate)]
valEval = transactions[(transactions.date >= valEndDate)&(transactions.date <= valEvaluateDate)]

for i in [train, trainEval, test, testEval, val, valEval]: print(i.shape)

(3929, 3)
(502, 3)
(1393, 3)
(401, 3)
(1140, 3)
(222, 3)


In [6]:
# Вычисление целевой перменной - сумма дохода за период по каждому клиенту

def make_y_true(train, test):
    '''
    Parameters:
    -------
        train, test: pandas.DataFrame with columns: cust,sales
    
    Returns
    -------
    pandas.Series
    
    '''
    test = test.groupby('cust').sales.sum().rename('test')
    var1 = train.groupby('cust').sum().rename(columns={'sales':'train'})
    # Учитываем в test только тех клиентов, которые есть в train
    var2 = var1.merge(pd.DataFrame(test), left_on='cust', right_on='cust', how='left') 
    var2.test = var2.test.apply(lambda x: x if x>0 else 0)
    y_true = var2.test
   
    return y_true

# CLTV really
yTrue_train = make_y_true(train, trainEval)
yTrue_test = make_y_true(test, testEval)
yTrue_val = make_y_true(val, valEval)

In [7]:
# Блок для вычисления признаков клиентов по transaction log

def shift_date(x): 
    # посмотрим на смещение во времени, через сколько была следующая покупка
    x['shifted_date'] = x['date'].shift(-1) 
    return x



def compute_rfm(x, end_calibration):
    # функция на весь RFM
    x['recency'] = (x['date'].max() - x['date'].min()).days
    x['frequency'] = x['date'].count()-1
    x['T'] = (end_calibration - x['date'].min()).days
    x['monetary_value'] = x['sales'].mean()
    return x

def make_x(transactions, end_calibration):

    # Вычисляем М параметр на покупателя и дату

    train2 = transactions.sort_values(['date'], ascending=True)\
              .groupby(['cust', 'date'], 
                        as_index=False)['sales'].sum()    
    # RFM
    train3 = train2.groupby(['cust']).apply(lambda x: compute_rfm(x, end_calibration))
    # отбираем 1 строку, которая показывает агрегированные данные пользователя
    rfm = train3[['cust', 'recency', 'frequency', 'T', 'monetary_value']].groupby(['cust']).first()
    
    return rfm



In [8]:
Xtrain = make_x(train, trainEndDate)
Xtest = make_x(test, testEndDate)
Xval = make_x(val, valEndDate)

In [9]:
for i,j in ((Xtrain, yTrue_train), (Xtest, yTrue_test), (Xval, yTrue_val)):
            print(i.shape, j.shape)

(2357, 4) (2357,)
(629, 4) (629,)
(526, 4) (526,)


# II.II Обучение моделей

Пока без особого подбора гиперпараметров

In [10]:
import sklearn
from sklearn.linear_model import LinearRegression, SGDRegressor, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, r2_score

### II.II.I Linear regression

In [11]:
modelLinReg = LinearRegression()
modelLinReg.fit(Xtrain, yTrue_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

### II.II.II Random Forest

In [12]:
modelRF = RandomForestRegressor(max_depth=10, n_estimators=100)
modelRF.fit(Xtrain, yTrue_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=10,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=1,
           oob_score=False, random_state=None, verbose=0, warm_start=False)

In [13]:
modelGrBoost = GradientBoostingRegressor()
modelGrBoost.fit(Xtrain, yTrue_train)

GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
             learning_rate=0.1, loss='ls', max_depth=3, max_features=None,
             max_leaf_nodes=None, min_impurity_decrease=0.0,
             min_impurity_split=None, min_samples_leaf=1,
             min_samples_split=2, min_weight_fraction_leaf=0.0,
             n_estimators=100, presort='auto', random_state=None,
             subsample=1.0, verbose=0, warm_start=False)

In [14]:
# stacking
class custommodel:
    def __init__(self, *args):
        self.models = args
    def predict(self, x):
        return np.array([m.predict(x) for m in self.models[0]]).mean(axis=0) # смешаем в пропорции 50/50

In [15]:
_ = custommodel([modelRF, modelGrBoost])

In [16]:
# Мешок моделей
bagWithModels = {'model_name':('LinReg', 'RF', 'GrBoost', 'RF+GrBoost'),  
                'models': (modelLinReg, modelRF, modelGrBoost, _)}

# II.III Оценка качества

In [17]:
# Некоторые модели предсказывают отрицательные LTV
# Поэтому в таких предсказаниях нужно заменять отрицательные значения на ноль

def func(x):
    return x if x>=0 else 0
vfunc = np.vectorize(func)


In [23]:
# RMSLE function

def rmsle(ytrue, ypred):
    '''
    Parameters:
    -------
        ytrue, ypred: pandas.Series or  numpy.array
    
    Returns
    -------
    float
    '''
    return np.sqrt(((np.log(ypred + 1) - np.log(ytrue + 1))**2).mean())

def fastEval(model, x, y):
    '''Обучения и метрика быстро, для отладки'''
    model.fit(x,y)
    y_pr = vfunc(model.predict(x))
    return rmsle(y, y_pr)

In [19]:
metrics = (rmsle, mean_absolute_error, r2_score)
metric_names = ('RMSLE', 'MAE', 'R2')
yTrues = (yTrue_train, yTrue_test, yTrue_val)
_names = ('_train', '_test', '_val')
X = (Xtrain, Xtest, Xval)

shape = (len(bagWithModels['model_name']), len(metric_names)*len(_names)) #(rows, cols)
summary = pd.DataFrame(np.zeros(shape).reshape(shape), 
             columns=[mn+n for mn in metric_names for n in _names],
             index=bagWithModels['model_name'])

# Для каждой модели вычисляем метрики на train, test, val
for model, model_name in zip(bagWithModels['models'], bagWithModels['model_name']):
    for metric, metric_name in zip(metrics, metric_names):
        for yTrue, x, _name in zip(yTrues, X, _names):
            yPred = vfunc(model.predict(x)) # Делаем предсказание !vfunc!
            summary.loc[model_name][metric_name+_name] = metric(yTrue, yPred) # Вычисляем метрику

In [20]:
summary

Unnamed: 0,RMSLE_train,RMSLE_test,RMSLE_val,MAE_train,MAE_test,MAE_val,R2_train,R2_test,R2_val
LinReg,1.821883,2.001969,2.13446,11.944272,18.884941,16.163253,0.118884,0.253117,0.069806
RF,1.390818,2.078574,2.176363,6.885826,21.297887,19.106258,0.789711,0.097237,-0.474691
GrBoost,1.650046,1.944061,2.068738,9.29656,19.981979,17.818486,0.603103,0.071833,-0.418311
RF+GrBoost,1.524883,2.016776,2.135052,8.041016,20.50234,18.346815,0.714798,0.112689,-0.384626
