In [2]:
import implicit
import numpy as np
import pandas as pd
import surprise as srp
import scipy.sparse as sparse
import data_management as dm

from implicit.nearest_neighbours import bm25_weight
from implicit.datasets.lastfm import get_lastfm

## Загрузка данных

In [3]:
user_event_df = dm.get_user_event_dataframe(
    user_event_file_path='../dataset/cliks_add.csv'
)
user_event_df

Unnamed: 0,user_id,event_id,event_name,clicks_count
0,00001deaca68c3e7a9943ad6d29d1a95,1205186,Концерт оркестра UralBand,2
1,00001deaca68c3e7a9943ad6d29d1a95,1237397,Выставка «Антика. Западноевропейское искусство...,1
2,00001deaca68c3e7a9943ad6d29d1a95,1264968,Выставка «От романтизма к импрессионизму. Фран...,1
3,00002fa07c02629bf0dc022a6c0283d1,476106,Выставка «Искусство ХХ века»,1
4,000061466abdfa67ca963ae752fa937d,185644,Мюзикл «Снежная королева»,1
...,...,...,...,...
630584,ffff5daad033e2b9b57593627d9b1a9b,1189248,Выставка «91 день счастья»,2
630585,ffff5daad033e2b9b57593627d9b1a9b,1390909,Музыкальная программа The Beatles,2
630586,ffff5daad033e2b9b57593627d9b1a9b,1423074,Ночь искусств в Волгоградском музее изобразите...,1
630587,ffff63c5a29c432e2ca2fb4aa968d7ba,1292376,Посещение Павловского парка,1


In [4]:
users_df = dm.get_user_dataframe(
    users_file_path='../dataset/users_and_purchases/users.txt',
    regions_file_path='../dataset/users_and_purchases/region.txt',
    regions_nums_file_path='../dataset/RegionRussia.csv'
)
users_df

Unnamed: 0,user_id,region,region_code,age
0,9af020ef757c476c64fbdf0b71781dfe,Республика Коми,11,22.0
1,06d589eba089ca6bcb984d32c5399cc5,Пермский край,59,22.0
2,2816bd3aabf33fbc25c82678571b0e81,Краснодарский край,23,23.0
3,f6fcc2dadfeb783308bd102ddcbc1412,Саратовская область,64,17.0
4,e0b3e50d8d9f467470a8aa2b42899841,Москва,77,21.0
...,...,...,...,...
2231047,6e8f4dc75245926306665942fd1173b2,Ханты-Мансийский автономный округ – Югра,86,14.0
2231048,c925794714279efbdbe2e5cba0de7b28,Москва,77,19.0
2231049,18cf6bb59c25e9c6493f89780348b622,Ханты-Мансийский автономный округ – Югра,86,18.0
2231050,ec8d3c862c1383c63f8adbca559bf86c,Ростовская область,61,20.0


In [5]:
events_df = dm.get_events_dataframe(
    events_file_path='../dataset/users_and_purchases/events/events_pushka_accepted_30122021.csv',
    organizations_file_path='../dataset/users_and_purchases/events/organizations.csv'
)
events_df

Unnamed: 0,event_id,event_name,link,add_link,org_id,org_name,region_name,category
0,36,Спектакль «Касатка»,https://quicktickets.ru/belgorodskiy-dramatich...,,6,ОГАУК «Драматический театр имени М. С. Щепкина»,Белгородская обл,Театры
1,86,Спектакль «Горе от ума»,https://quicktickets.ru/belgorodskiy-dramatich...,,6,ОГАУК «Драматический театр имени М. С. Щепкина»,Белгородская обл,Театры
2,86,Спектакль «Горе от ума»,https://quicktickets.ru/belgorodskiy-dramatich...,,6,ОГАУК «Драматический театр имени М. С. Щепкина»,Белгородская обл,Театры
3,139,Спектакль «Куклы»,https://quicktickets.ru/belgorodskiy-dramatich...,,6,ОГАУК «Драматический театр имени М. С. Щепкина»,Белгородская обл,Театры
4,150,Спектакль «Филумена Мартурано»,https://quicktickets.ru/belgorodskiy-dramatich...,,6,ОГАУК «Драматический театр имени М. С. Щепкина»,Белгородская обл,Театры
...,...,...,...,...,...,...,...,...
47851,1518521,Опера «Садко»,https://tickets.mariinsky.ru/ru/performance/VG...,,5268,ФГБУК «Государственный академический Мариински...,г Санкт-Петербург,Театры
47852,1518585,Опера «Фауст»,https://tickets.mariinsky.ru/ru/performance/Nk...,,5268,ФГБУК «Государственный академический Мариински...,г Санкт-Петербург,Театры
47853,1518645,Опера «Трубадур»,https://tickets.mariinsky.ru/ru/performance/OW...,,5268,ФГБУК «Государственный академический Мариински...,г Санкт-Петербург,Театры
47854,1519214,Спектакль «Царевна-лягушка»,https://ulan-ude.kassy.ru/events/range-2021-12/,,12276,АУК РБ Бурятский республиканский театр кукол «...,Респ Бурятия,Театры


In [6]:
user_event = dm.filter_user_event_by_user_region(
    user_event_df=user_event_df,
    user_df=users_df,
    user_region=77
)
user_event.shape

(40148, 4)

In [7]:
user_event = dm.filter_user_event_by_event_region(
    user_event_df=user_event,
    event_df=events_df,
    event_region='г Москва'
)
user_event.shape


(35557, 4)

## Модель для Пушкинской карты
### Alternative Least Squares

In [12]:
user_event['event_id'] = user_event['event_id'].astype(int)
user_event['event_id'] = user_event['event_id'].astype('category')
user_event['user_id'] = user_event['user_id'].astype('category')
user_event['user_num'] = user_event['user_id'].cat.codes
user_event['event_id'] = user_event['event_id'].cat.codes
user_event

Unnamed: 0,user_id,event_id,event_name,clicks_count,user_num
13,0001ad0041738ac671fe52a5f887742e,337,Экспозиция «Древнерусская иконопись XIII–XVI в...,1,0
14,0001ad0041738ac671fe52a5f887742e,592,Экспозиция музея Владимира Высоцкого,1,0
15,0001ad0041738ac671fe52a5f887742e,882,Экспозиции Мультимедиа Арт Музея,1,0
16,0001ad0041738ac671fe52a5f887742e,1481,Выставка «За все тебя благодарю»,1,0
17,0001ad0041738ac671fe52a5f887742e,1654,Вечер музыки П. И. Чайковского,1,0
...,...,...,...,...,...
630238,ffe13ffdd93b045e3b06ee834c585d26,1150,Спектакль «Дневник Анны Франк. Белая роза»,1,13655
630274,ffe4a90226a335c9ed184bc19163490b,513,Спектакль «Анна Каренина»,1,13656
630275,ffe4a90226a335c9ed184bc19163490b,1145,Спектакль «Люди как люди»,1,13656
630276,ffe4a90226a335c9ed184bc19163490b,1151,Спектакль «Мнимый больной»,1,13656


In [14]:
sparse_event_user = sparse.csr_matrix(
    (user_event['clicks_count'].astype(float), (user_event['event_id'], user_event['user_num']))
)
sparse_user_event = sparse.csr_matrix(
    (user_event['clicks_count'].astype(float), (user_event['user_num'], user_event['event_id']))
)

In [15]:
model = implicit.als.AlternatingLeastSquares(factors=20, regularization=0.1, iterations=20)

alpha_val = 15
data_conf = (sparse_event_user * alpha_val).astype('double')

model.fit(data_conf)


  0%|          | 0/20 [00:00<?, ?it/s]

In [20]:
user_num = 0
recommended = model.recommend(user_num, sparse_user_event)

events = list()
scores = list()

for item in recommended:
    idx, score = item
    events.append(user_event.event_name.loc[user_event.event_id == idx].iloc[0])
    scores.append(score)

recommendations = pd.DataFrame({
    'event_name': events,
    'score': scores
})

Unnamed: 0,event_name,score
0,Экспозиция картинной галереи Ильи Глазунова,0.730704
1,Концерт «Вечера органной музыки»,0.691417
2,Программа «Твой Пушкинский»,0.62983
3,Экспозиция «Зоогеография»,0.594213
4,Выставка «Карадаг заповедный»,0.539093
5,"Цикл концертов «Мама, я меломан»",0.486502
6,Выставка «Частоты 2.0»,0.477433
7,Экскурсия «Профессия – реставратор»,0.451066
8,Концерт-закрытие XIII Международного виолончел...,0.427815
9,Концерт «Вещь в себе. Сокровища современной му...,0.41823


#### Что кликал пользователь:

In [26]:
visited = user_event.loc[user_event.user_num == 0]['event_name']
visited

13    Экспозиция «Древнерусская иконопись XIII–XVI в...
14                 Экспозиция музея Владимира Высоцкого
15                     Экспозиции Мультимедиа Арт Музея
16                     Выставка «За все тебя благодарю»
17                       Вечер музыки П. И. Чайковского
Name: event_name, dtype: object

#### Рекомендации для пользователя:

In [23]:
recommendations


Unnamed: 0,event_name,score
0,Экспозиция картинной галереи Ильи Глазунова,0.730704
1,Концерт «Вечера органной музыки»,0.691417
2,Программа «Твой Пушкинский»,0.62983
3,Экспозиция «Зоогеография»,0.594213
4,Выставка «Карадаг заповедный»,0.539093
5,"Цикл концертов «Мама, я меломан»",0.486502
6,Выставка «Частоты 2.0»,0.477433
7,Экскурсия «Профессия – реставратор»,0.451066
8,Концерт-закрытие XIII Международного виолончел...,0.427815
9,Концерт «Вещь в себе. Сокровища современной му...,0.41823


## Bayesian Personalized Ranking

In [25]:
bpr_model = implicit.bpr.BayesianPersonalizedRanking(factors=60)
bpr_model.fit(sparse_event_user)

  0%|          | 0/100 [00:00<?, ?it/s]

In [28]:
user_num = 0
recommended = bpr_model.recommend(user_num, sparse_user_event)

events = list()
scores = list()

for item in recommended:
    idx, score = item
    events.append(user_event.event_name.loc[user_event.event_id == idx].iloc[0])
    scores.append(score)

bpr_recommendations = pd.DataFrame({
    'event_name': events,
    'score': scores
})

#### Что кликал пользователь:

In [27]:
visited = user_event.loc[user_event.user_num == 0]['event_name']
visited

13    Экспозиция «Древнерусская иконопись XIII–XVI в...
14                 Экспозиция музея Владимира Высоцкого
15                     Экспозиции Мультимедиа Арт Музея
16                     Выставка «За все тебя благодарю»
17                       Вечер музыки П. И. Чайковского
Name: event_name, dtype: object

#### Рекомендации для пользователя:

In [29]:
bpr_recommendations

Unnamed: 0,event_name,score
0,Выставка «Частоты 2.0»,1.131621
1,Экспозиция картинной галереи Ильи Глазунова,1.074359
2,Программа «Твой Пушкинский»,1.048114
3,Экспозиция центра «Космонавтика и авиация»,1.00538
4,Концерт Дениса Мацуева и Томского академическо...,0.983287
5,Экспозиции Дворцово-выставочного комплекса и о...,0.975915
6,Экскурсия «Профессия – реставратор»,0.975847
7,Экскурсии по выставке «Бывают странные сближен...,0.974219
8,"Цикл концертов «Мама, я меломан»",0.972228
9,Концерт-закрытие XIII Международного виолончел...,0.958811
