# <center> Идентификация пользователей по посещенным веб-страницам
<img src='http://i.istockimg.com/file_thumbview_approve/21546327/5/stock-illustration-21546327-identification-de-l-utilisateur.jpg'>

вспомним про концепцию стохастического градиентного спуска и опробуем классификатор Scikit-learn SGDClassifier, который работает намного быстрее на больших выборках.


In [1]:
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score

**Считаем данные [соревнования](https://inclass.kaggle.com/c/identify-me-if-you-can-yandex-mipt/data) в DataFrame train_df и test_df (обучающая и тестовая выборки).**

In [2]:
train_df = pd.read_csv('kaggle_data/train_sessions.csv', index_col='session_id')
test_df = pd.read_csv('kaggle_data/test_sessions.csv', index_col='session_id')

In [3]:
train_df.head()

Unnamed: 0_level_0,site1,time1,site2,time2,site3,time3,site4,time4,site5,time5,...,time6,site7,time7,site8,time8,site9,time9,site10,time10,user_id
session_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,8,2014-01-04 08:44:50,11.0,2014-01-04 08:44:50,82.0,2014-01-04 08:45:19,68.0,2014-01-04 08:45:25,8.0,2014-01-04 08:45:25,...,2014-01-04 08:45:51,8403.0,2014-01-04 08:45:51,932.0,2014-01-04 08:45:53,3260.0,2014-01-04 08:45:53,8.0,2014-01-04 08:45:53,1845
2,111,2014-03-18 10:33:20,78.0,2014-03-18 10:33:31,151.0,2014-03-18 10:33:31,111.0,2014-03-18 10:33:31,1401.0,2014-03-18 10:33:31,...,2014-03-18 10:33:32,1375.0,2014-03-18 10:33:32,38.0,2014-03-18 10:33:32,1401.0,2014-03-18 10:33:32,97.0,2014-03-18 10:33:34,3322
3,11,2014-12-02 13:13:41,3187.0,2014-12-02 13:13:41,132.0,2014-12-02 13:13:42,496.0,2014-12-02 13:13:42,1969.0,2014-12-02 13:13:45,...,2014-12-02 13:13:45,3187.0,2014-12-02 13:13:45,82.0,2014-12-02 13:13:46,3191.0,2014-12-02 13:13:46,3184.0,2014-12-02 13:13:47,2003
4,668,2014-02-14 15:16:45,1965.0,2014-02-14 15:17:13,598.0,2014-02-14 15:20:47,1965.0,2014-02-14 15:21:13,284.0,2014-02-14 15:21:14,...,2014-02-14 15:21:14,38.0,2014-02-14 15:21:14,4451.0,2014-02-14 15:21:14,4537.0,2014-02-14 15:21:15,11.0,2014-02-14 15:21:15,1373
5,1943,2014-03-17 15:19:40,1943.0,2014-03-17 15:20:10,1943.0,2014-03-17 15:21:40,1943.0,2014-03-17 15:22:10,1943.0,2014-03-17 15:22:39,...,2014-03-17 15:22:39,1952.0,2014-03-17 15:22:41,1943.0,2014-03-17 15:22:41,1943.0,2014-03-17 15:22:42,1943.0,2014-03-17 15:22:43,1737


**Объединим обучающую и тестовую выборки – это понадобится, чтоб вместе потом привести их к разреженному формату.**

In [4]:
train_test_df = pd.concat([train_df, test_df])

In [5]:
train_df.shape, test_df.shape, train_test_df.shape

((95319, 21), (41177, 20), (136496, 21))

В обучающей выборке видим следующие признаки:
    - site1 – индекс первого посещенного сайта в сессии
    - time1 – время посещения первого сайта в сессии
    - ...
    - site10 – индекс 10-го посещенного сайта в сессии
    - time10 – время посещения 10-го сайта в сессии
    - user_id – ID пользователя
    
Сессии пользователей выделены таким образом, что они не могут быть длинее получаса или 10 сайтов. То есть сессия считается оконченной либо когда пользователь посетил 10 сайтов подряд, либо когда сессия заняла по времени более 30 минут. 

**Посмотрим на статистику признаков.**

Пропуски возникают там, где сессии короткие (менее 10 сайтов). Скажем, если человек 1 января 2015 года посетил *vk.com* в 20:01, потом *yandex.ru* в 20:29, затем *google.com* в 20:33, то первая его сессия будет состоять только из двух сайтов (site1 – ID сайта *vk.com*, time1 – 2015-01-01 20:01:00, site2 – ID сайта  *yandex.ru*, time2 – 2015-01-01 20:29:00, остальные признаки – NaN), а начиная с *google.com* пойдет новая сессия, потому что уже прошло более 30 минут с момента посещения *vk.com*.

**В обучающей выборке – 550 пользователей.**

In [6]:
train_df['user_id'].nunique()

550

**Пока для прогноза ID пользователя будем использовать только индексы посещенных сайтов. Индексы нумеровались с 1, так что заменим пропуски на нули.**

In [7]:
train_sites = train_df[['site1', 'site2', 'site3','site4','site5','site6','site7',
          'site8', 'site9', 'site10', 'user_id']].fillna(0).astype('int')

In [8]:
def ures_top_sites(data, threshold=1):
    """ input dataframe
    return 
    list of top sites for users with the threshold
    dictionary user, top site's list """
    top_users_sites =[]
    dic_user_top ={}
    
    for user, values in pd.groupby(data, by = 'user_id'):
        n,m = values.shape
        sites, freq = np.unique(np.ravel(values.values), return_counts=True)
        mask = np.logical_not(np.logical_not(sites))
        sites = sites[mask]
        freq = freq[mask]
        sort_sites = sorted([(s, fr) for s,fr in zip(sites, freq)], key= lambda x: x[1], reverse =True )
        #user_site_top = sort_sites[:threshold]
        top_list = np.array([x[0] for x in  sort_sites[:threshold]])
        dic_user_top[user] = top_list
        top_users_sites.append(top_list)
    return np.unique(top_users_sites), dic_user_top

In [64]:
def tops_sites(data, threshold=3):
    """ input dataframe
    return top sites with the frequensy by  threshold"""
    data_ravel =np.ravel(data.drop(['user_id'], axis =1).values)
    sites, freq = np.unique(data_ravel, return_counts=True)
    mask = np.logical_not(np.logical_not(sites))
    sites = sites[mask]
    freq = freq[mask]
    mask= freq >= threshold
    sites = sites[mask]
    freq = freq[mask]
    sort_sites = sorted([(s, fr) for s,fr in zip(sites, freq)], key= lambda x: x[1], reverse =True )
    #user_site_top = sort_sites[:threshold]
    top_list = np.array([x[0] for x in  sort_sites])
    return top_list

In [10]:
def top_sites(data, threshold=50):
    """ input dataframe
    return top sites with the threshold"""
    data_ravel =np.ravel(data.drop(['user_id'], axis =1).values)
    sites, freq = np.unique(data_ravel, return_counts=True)
    mask = np.logical_not(np.logical_not(sites))
    sites = sites[mask]
    freq = freq[mask]
    sort_sites = sorted([(s, fr) for s,fr in zip(sites, freq)], key= lambda x: x[1], reverse =True )
    #user_site_top = sort_sites[:threshold]
    top_list = np.array([x[0] for x in  sort_sites[:threshold]])
    return top_list

- создадим список из 50 самых популярных сайтов

In [11]:
top_sites = top_sites(train_sites, 50)

In [67]:
len(top_sites), top_sites

(50, array([  32,    8, 1943,   22,   11,   38, 1945,  237,   12, 1940,  251,
           9, 1942,   63,   55,   82,   67,   97,    7,   88,  419,  307,
          69,  111,  280,   77,  106,  151,  298,   65,   70,   27,   71,
          64,  523,  690,  521,  422, 9027,    1,  662, 2184,   78,  305,
          85,   14,  526,  255,  243,    6]))

- создадим список из сайтов которые повторяются минимум 2 раза

In [65]:
list_sites = tops_sites(train_sites, 2)

In [66]:
len(list_sites), list_sites[:10]

(13988, array([  32,    8, 1943,   22,   11,   38, 1945,  237,   12, 1940]))

In [69]:
dic_sites = {x: np.int32(i+1) for i,x in enumerate(list_sites) } # словарь для переименования сайтов

In [21]:
def in2D(data, ar2):
    """ return the mask like data where True only the element of data is in ar2"""
    data = data.values
    n,m = data.shape
    mask = np.in1d(np.ravel(data),ar2)
    mask_2d = mask.reshape((n,m))
    return mask_2d
#np.where(mask_2d,train_sites.head(3).values, 0)

#### создадим признаки связанные с временем

In [22]:
train_test_time = train_test_df[['time1', 'time2', 'time3', 'time4','time5', 'time6',
                        'time7','time8', 'time9', 'time10']].fillna(np.datetime64('nat'))
train_test_time.head(3) 

Unnamed: 0_level_0,time1,time2,time3,time4,time5,time6,time7,time8,time9,time10
session_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,2014-01-04 08:44:50,2014-01-04 08:44:50,2014-01-04 08:45:19,2014-01-04 08:45:25,2014-01-04 08:45:25,2014-01-04 08:45:51,2014-01-04 08:45:51,2014-01-04 08:45:53,2014-01-04 08:45:53,2014-01-04 08:45:53
2,2014-03-18 10:33:20,2014-03-18 10:33:31,2014-03-18 10:33:31,2014-03-18 10:33:31,2014-03-18 10:33:31,2014-03-18 10:33:32,2014-03-18 10:33:32,2014-03-18 10:33:32,2014-03-18 10:33:32,2014-03-18 10:33:34
3,2014-12-02 13:13:41,2014-12-02 13:13:41,2014-12-02 13:13:42,2014-12-02 13:13:42,2014-12-02 13:13:45,2014-12-02 13:13:45,2014-12-02 13:13:45,2014-12-02 13:13:46,2014-12-02 13:13:46,2014-12-02 13:13:47


In [70]:
train_test_df_sites = train_test_df[['site1', 'site2', 'site3', 'site4','site5', 
                                     'site6','site7', 'site8', 'site9', 'site10']].fillna(np.int32(0)).astype(np.int32)
y = train_df['user_id']

In [71]:
mask1 = in2D(train_test_df_sites, top_sites) # маска для сайтов самых популярных у пользователей
mask2 = in2D(train_test_df_sites, list_sites)  # маска для сайтов которые встречаются в выборке больше 2 раз

**выделим сайты которые идут за сымыми популярными**

In [72]:
dic_sites[0] = 0

In [73]:
# оставим только сайты с частотой более 2
train_test_df_sites = np.where(mask2, train_test_df_sites.values, 0)

In [82]:
train_test_df_sites.shape

(136496L, 10L)

In [81]:
f = np.vectorize(lambda x: dic_sites[x])
train_test_df_replace = f(train_test_df_sites)
train_test_df_replace.shape

(136496L, 10L)

In [83]:
train_test_df_sites_shift = train_test_df_sites[:,1:]

In [84]:
next_top_site = np.where(mask1[:,:-1], train_test_df_sites_shift, 0) # site after top50
next_top_site.shape,  train_test_df_sites_shift.shape

((136496L, 9L), (136496L, 9L))

In [85]:
train_test_df_time = train_test_time.apply(pd.to_datetime).values

In [22]:
# оставим только сайты с частотой более 2
train_test_df_time = np.where(mask2, train_test_df_time, train_test_df_time.min())

In [23]:
# начало сессии по дням недели
day_of_week = (pd.to_datetime(np.min(train_test_df_time, axis =1))).dayofweek
day_of_week = day_of_week.reshape(train_test_df_time.shape[0],1).astype(int) 
# время начала сессии в часах
start_hour = (pd.to_datetime(np.min(train_test_df_time, axis =1))).hour
start_hour = start_hour.reshape(train_test_df_time.shape[0],1).astype(int)
# время захода на сайт из top50  
time_tops_site = np.where(mask1, train_test_df_time, train_test_df_time.max())

In [24]:
train_test_df_time = np.where(mask2, train_test_df_time, np.datetime64('nat'))

In [25]:
# время перехода между сайтами в 3 сек 
train_test_time_diff = (np.diff(train_test_df_time, axis =1)/np.timedelta64(2, 's')).round()
#test_time_diff = (np.diff(test_time, axis =1)/np.timedelta64(3, 's')).round()

In [26]:
# время перехода между сайтами из top50 and next в 2 сек 
next_time_diff_tops = np.where(mask1[:,:-1], train_test_time_diff, 0).astype(int)

In [27]:
next_time_diff_tops.max()

900

In [28]:
# время захода на сайт из top50 в часах
top_start_hour = (pd.to_datetime(np.min(time_tops_site, axis =1))).hour 
top_start_hour = top_start_hour.reshape(time_tops_site.shape[0],1).astype(int) +1
top_start_hour = np.nan_to_num(top_start_hour)

**перевод категориальных признаков в двоичные**

In [29]:
from sklearn.preprocessing import OneHotEncoder
day_of_week_encode = OneHotEncoder().fit_transform(day_of_week) # перевод категориальных признаков в двоичные
start_hour_encode = OneHotEncoder().fit_transform(start_hour)
top_start_hour_encode = OneHotEncoder().fit_transform(top_start_hour)
day_of_week_encode.shape, start_hour_encode.shape, top_start_hour_encode.shape

((136496, 7), (136496, 17), (136496, 17))

**Создаем разреженные матрицы *X_train_sparse* и *X_test_sparse* аналогично тому, как делали ранее. Используем объединенную матрицу train_test_df_sites – потом разделим обратно на обучающую и тестовую части.**


**Выделим в отдельный вектор *y* ответы на обучающей выборке.**

In [30]:
def matrix_to_sparse_matrix (matrix):
    """переводим обычную матрицу в разреженноу матрицу 
    где 
    номер столбца это уникальное число из исходной матрицы от 1  до максимального
    значение в строке это сколько раз уникальное число встречалось в строке оригинальной матрицы"""
    import numpy as np
    from scipy.sparse import csr_matrix
        
    NMZ = np.prod(np.array(matrix.shape)) # колличество элементов в matrix
    data = np.array([1]*NMZ)
    indptr = np.arange(0, NMZ+matrix.shape[1], matrix.shape[1])
    return csr_matrix((data, matrix.reshape(-1), indptr), dtype=int)[:,1:]

In [31]:
Train_test_sparse = matrix_to_sparse_matrix(train_test_df_sites.astype(np.int64))
Train_test_sparse.shape

(136496, 21532)

In [32]:
Next_top_site_sparse = matrix_to_sparse_matrix(next_top_site.astype(np.int64))
Next_top_site_sparse.shape

(136496, 21532)

In [33]:
Next_time_tops_sparse =  matrix_to_sparse_matrix(next_time_diff_tops)
Next_time_tops_sparse.shape

(136496, 900)

**объединим все признаки сайты время начала сесии время захода на сайт из top200 and top5user**

In [34]:
from scipy.sparse import hstack
# sites + day_of_week+ start_hour + top50 hour
Train_Test_1 = hstack((Train_test_sparse, day_of_week_encode, start_hour_encode, top_start_hour_encode ))
Train_Test_1.shape

**разделим признаки на Train and Test**

In [83]:
#X_train_spare = Train_Test_1.tocsr()[: 95319, :]
#X_test_sparse = Train_Test_1.tocsr()[95319 :, :]
y = train_df['user_id'].values

In [35]:
X_train_spare = Train_test_sparse.tocsr()[: 95319, :]
X_test_sparse = Train_test_sparse.tocsr()[95319 :, :]
y = train_df['user_id'].values

**Создаем объекты sklearn.linear_model.SGDClassifier с логистической функцией потерь и с hinge loss (логистическая регрессия и линейный SVM соответственно) . Остальные параметры  по умолчанию, разве что alpha=0.00007, n_jobs=-1 никогда не помешает. Обучите  модели на выборке (X_train, y_train).**

**обучим и проверим на валидации два классификатора SGDClassifier( alpha=0.00007, loss ='log') и SGDClassifier( alpha=0.00007, loss ='hinge')**

In [47]:
def fit_SGD (Train, y, explain = "fit_SGD"):
    # Разобьем обучающую выборку на 2 части в пропорции 7/3
    X_train, X_valid, y_train, y_valid = train_test_split(Train, y, test_size=0.3, 
                                                     random_state=0, stratify=y)
    
    sgd_logit = SGDClassifier( alpha=0.00007, loss ='log', random_state = 0,  n_jobs = -1)
    sgd_svm  = SGDClassifier( alpha=0.00007, loss ='hinge', random_state=0,  n_jobs = -1)
    print('fit...')
    %time sgd_logit.fit(X_train, y_train)
    %time sgd_svm.fit(X_train, y_train)
    # Сделаем прогнозы на отложенной выборке (X_valid, y_valid)
    print('predict...')
    pred_log = sgd_logit.predict(X_valid)
    pred_svm = sgd_svm.predict(X_valid)
    print (explain)
    print('log',accuracy_score(y_valid, pred_log))
    print('svm',accuracy_score(y_valid, pred_svm))
    return sgd_logit, sgd_svm

In [84]:
log_pred1, svm_pred1 = fit_SGD (X_train_spare, y, explain = "sites + day_of_week+ start_hour + top50 hour")

fit...
Wall time: 37.1 s
Wall time: 26.1 s
predict...
sites + day_of_week+ start_hour + top50 hour
('log', 0.36116939432088402)
('svm', 0.33662050636452651)


In [88]:
from scipy.sparse import hstack
# sites + day_of_week+ start_hour + top50 hour + next after top50 site
Train_Test_2 = hstack((Train_Test_1, Next_top_site_sparse))
Train_Test_2.shape

(136496, 43105)

In [86]:
X_train_spare = Train_Test_2.tocsr()[: 95319, :]
X_test_sparse = Train_Test_2.tocsr()[95319 :, :]
y = train_df['user_id'].values

In [87]:
log2, svm2 = fit_SGD (X_train_spare, y,\
             explain = "sites + day_of_week+ start_hour + top50 hour + next after top50 site")

fit...
Wall time: 41.3 s
Wall time: 31.3 s
predict...
sites + day_of_week+ start_hour + top50 hour + next after top50 site
('log', 0.35763743180864455)
('svm', 0.33004616030214018)


In [89]:
from scipy.sparse import hstack
# sites + day_of_week+ start_hour + top50 hour + time of next top50 site
Train_Test_3 = hstack((Train_Test_1, Next_time_tops_sparse))
Train_Test_3.shape

(136496, 22473)

In [96]:
X_train_spare = Train_Test_3.tocsr()[: 95319, :]
X_test_sparse = Train_Test_3.tocsr()[95319 :, :]
y = train_df['user_id'].values

In [91]:
log3, svm3 = fit_SGD (X_train_spare, y,\
             explain = "sites + day_of_week+ start_hour + top50 hour + time of next top50 site")

fit...
Wall time: 43.2 s
Wall time: 33.2 s
predict...
sites + day_of_week+ start_hour + top50 hour + time of next top50 site
('log', 0.36151909357952161)
('svm', 0.33648062666107148)


In [92]:
from scipy.sparse import hstack
# sites + day_of_week+ start_hour + top50 hour +next after top50 site+  time of next top50 site
Train_Test_4 = hstack((Train_Test_2, Next_time_tops_sparse))
Train_Test_4.shape

(136496, 44005)

In [93]:
X_train_spare = Train_Test_4.tocsr()[: 95319, :]
X_test_sparse = Train_Test_4.tocsr()[95319 :, :]
y = train_df['user_id'].values

In [94]:
log4, svm4 = fit_SGD (X_train_spare, y,\
             explain = "sites + day_of_week+ start_hour + top50 hour +next after top50 site+  time of next top50 site")

fit...
Wall time: 43.8 s
Wall time: 32.9 s
predict...
sites + day_of_week+ start_hour + top50 hour +next after top50 site+  time of next top50 site
('log', 0.35616869492236675)
('svm', 0.32955658134004756)


**Сделаем прогноз для тестовой выборки с помощью log3.**

In [97]:
pred_test = log3.predict(X_test_sparse)

In [98]:
def write_to_submission_file(predicted_labels, out_file,
                             target='user_id', index_label="session_id"):
    # turn predictions into data frame and save as csv file
    predicted_df = pd.DataFrame(predicted_labels,
                                index = np.arange(1, predicted_labels.shape[0] + 1),
                                columns=[target])
    predicted_df.to_csv(out_file, index_label=index_label)

In [99]:
write_to_submission_file (pred_test, 'kaggle_data/[YDF&MIPT]_Coursera_Oleg67.csv')

## Пути улучшения

Что можно попробовать:
 - Использовать ранее построенные признаки для улучшения модели (проверить их можно на меньшей выборке по 150 пользователям – это быстрее)
 - Настроить параметры моделей (например, коэффициенты регуляризации)
 - Если позволяют мощности (или хватает терпения), можно попробовать смешивание (блендинг) ответов бустинга и линейной модели. [Вот](http://mlwave.com/kaggle-ensembling-guide/) один из самых известных тьюториалов по смешиванию ответов алгоритмов
