In [72]:
import gc
import itertools

import pandas as pd
import numpy as np
import pickle
from tqdm.auto import tqdm
from scipy.sparse import lil_matrix
from scipy.stats import spearmanr, kendalltau
from sklearn.linear_model import LogisticRegression

In [2]:
def read_pickle(path: str):
    objects = []
    with (open(path, "rb")) as openfile:
        while True:
            try:
                objects.append(pickle.load(openfile))
            except EOFError:
                break
    return objects

In [3]:
PLAYERS_PATH = 'chgk/players.pkl'
RESULTS_PATH = 'chgk/results.pkl'
TOURNAMENTS_PATH = 'chgk/tournaments.pkl'

In [4]:
players = read_pickle(PLAYERS_PATH)[0]

In [5]:
results = read_pickle(RESULTS_PATH)[0]

In [6]:
tournaments = read_pickle(TOURNAMENTS_PATH)[0]

### Очистка данных: оставляем только 2019 год и  более

In [7]:
valid_tournament_ids = []

for tournament_id, tournament in tournaments.items():
    date_start = pd.Timestamp(tournament['dateStart'])
    if date_start.year >= 2019:
        valid_tournament_ids.append(tournament_id)
        
valid_tournament_ids = set(valid_tournament_ids)

In [8]:
temp_tournaments = {}

for tournament_id, tournament in tournaments.items():
    if tournament_id in valid_tournament_ids:
        temp_tournaments[tournament_id] = tournament
        
temp_results = {}

for tournament_id, result in results.items():
    if tournament_id in valid_tournament_ids:
        temp_results[tournament_id] = result

In [9]:
tournaments = temp_tournaments
results = temp_results

In [10]:
valid_players_ids = set()

for tournament_id, teams_results in results.items():
    for result in teams_results:
        for player in result['teamMembers']:
            valid_players_ids.add(player['player']['id'])

In [11]:
len(valid_players_ids), len(players)

(63810, 204063)

#### Количество игроков уменшилось в 3 раза, что поможет нам в обучении модели, так как силы игроков, которые уже не играют нам не интересны

In [12]:
cnt = 0
players_id_to_ind = {}
players_ind_to_id = []

for player_id in valid_players_ids:
    players_id_to_ind[player_id] = cnt
    players_ind_to_id.append(player_id)
    cnt += 1

#### Почистим значения масок в результатах

In [13]:
for tournament_id in valid_tournament_ids:
        
    for i in range(len(results[tournament_id])):
        if 'mask' not in results[tournament_id][i]:
            continue
        if results[tournament_id][i]['mask'] is None:
            continue
            
        results[tournament_id][i]['mask'] = results[tournament_id][i]['mask'].replace('?', '0').replace('X', '0')

#### Также пронумеруем ВСЕ вопросы, которые были в 2019 году, чтобы засовывать их в модель

In [14]:
questions_start_index = {}
cnt = 0

for tournament_id in valid_tournament_ids:
    if pd.Timestamp(tournaments[tournament_id]['dateStart']).year != 2019:
        continue
    mask_len = 0
    for team_result in results[tournament_id]:
        if 'mask' not in team_result:
            continue
        if team_result['mask'] is None:
            continue
            
        mask_len = max(mask_len, len(team_result['mask']))
    questions_start_index[tournament_id] = cnt
    cnt += mask_len

In [15]:
QUESTIONS_NUM = cnt

#### Давайте также для каждого игрока посчитаем на сколько вопросов он сыграл(только по трейн выборке за 2019 год)

In [16]:
player_questions_num = {}
for player_id in valid_players_ids:
    player_questions_num[player_id] = 0

for tournament_id in valid_tournament_ids:
    if pd.Timestamp(tournaments[tournament_id]['dateStart']).year != 2019:
        continue
        
    for team_result in results[tournament_id]:
        if 'mask' not in team_result:
            continue
        if team_result['mask'] is None:
            continue
            
        n = len(team_result['mask'])
        
        for player in team_result['teamMembers']:
            player_id = player['player']['id']
            player_questions_num[player_id] += n

### Для связки игрок-вопрос мы составляем вектор длиной PLAYERS_NUM(кол-во игроков) + QUESTIONS_NUM(количество вопросов всего) и проставляем две единицы - индекс игрока и индекс вопроса. Далее, если игрок ответил на вопрос, то значение таргета = 1, иначе 0 и для таких данных строим модель лог регрессии. По весам модели, можно оценить силу игроков и сложность вопроса.

In [17]:
PLAYERS_NUM = len(valid_players_ids)

In [18]:
PLAYERS_NUM + QUESTIONS_NUM

97195

#### По очевидным соображениям связок типа - игрок вопрос довольно много(N > 10^6), а значит матрица numpy (N, 97k) явно испытает проблемы с памятью и скоростью работы. Но так как она очень разреженная, то мы используем scipy.sparse.lil_matrix, но для ее инициализации нам необходимо узнать число строк(кол-во связок игрок-вопрос)

In [19]:
rows_num = 0

for tournament_id in valid_tournament_ids:
    
    if pd.Timestamp(tournaments[tournament_id]['dateStart']).year != 2019:
        continue
        
    for team_result in results[tournament_id]:
        if 'mask' not in team_result:
            continue
        if team_result['mask'] is None:
            continue
        team_size = len(team_result['teamMembers'])
        mask_len = len(team_result['mask'])
        rows_num += team_size * mask_len

In [20]:
rows_num

21014267

In [21]:
columns_num = PLAYERS_NUM + QUESTIONS_NUM

In [22]:
columns_num

97195

In [23]:
X_train = lil_matrix((rows_num, columns_num))

In [24]:
y_train = np.zeros(rows_num)

In [25]:
cnt = 0

for tournament_id in tqdm(valid_tournament_ids):
    
    if pd.Timestamp(tournaments[tournament_id]['dateStart']).year != 2019:
        continue
        
    for team_result in results[tournament_id]:
        if 'mask' not in team_result:
            continue
        if team_result['mask'] is None:
            continue
        mask_start = questions_start_index[tournament_id]
        mask = [int(c) for c in team_result['mask']]
        players_indexes = []
        
        for player in team_result['teamMembers']:
            player_ind = players_id_to_ind[player['player']['id']]
            players_indexes.append(player_ind)
        
        mask_indexes = [PLAYERS_NUM + mask_start + i for i in range(len(team_result['mask']))]
        mask = mask * len(players_indexes)
        start_pos = cnt
        
        for item in itertools.product(players_indexes, mask_indexes):
            X_train[cnt, item] = 1
            cnt += 1
        y_train[start_pos:start_pos + len(mask)] = mask

  0%|          | 0/1109 [00:00<?, ?it/s]

### Модель

In [26]:
model = LogisticRegression(fit_intercept=False, max_iter=10000)

In [27]:
%%time
model.fit(X_train, y_train)

Wall time: 2min 15s


LogisticRegression(fit_intercept=False, max_iter=10000)

In [28]:
weights = model.coef_[0]

In [29]:
players_weights = weights[:PLAYERS_NUM]

In [30]:
players_info = []
for i in range(PLAYERS_NUM):
    player_id = players_ind_to_id[i]
    item = (players_weights[i], players_ind_to_id[i], \
            players[player_id]['surname'] + ' ' + players[player_id]['name'], player_questions_num[player_id])
    players_info.append(item)

### Топ игроков по силе

In [31]:
players_info_sorted = sorted(players_info, key=lambda x: x[0], reverse=True)

In [32]:
players_info_sorted

[(3.4505308893832365, 27403, 'Руссо Максим', 2474),
 (3.3246703838525655, 4270, 'Брутер Александра', 3026),
 (3.2972858569847214, 28751, 'Семушин Иван', 4118),
 (3.1211608283043693, 30152, 'Сорожкин Артём', 5254),
 (3.117906854814739, 27822, 'Савченков Михаил', 3677),
 (3.109692837200936, 30270, 'Спешков Сергей', 4190),
 (2.980652326063511, 36844, 'Щербина Павел', 36),
 (2.96784509065964, 20691, 'Мереминский Станислав', 1739),
 (2.966095904119455, 18036, 'Левандовский Михаил', 1560),
 (2.9267274844854816, 87637, 'Саксонов Антон', 1458),
 (2.920991978208503, 26089, 'Прокофьева Ирина', 1171),
 (2.9090736113705287, 22799, 'Николенко Сергей', 2325),
 (2.877113343658527, 18332, 'Либер Александр', 4127),
 (2.8711479093836787, 22935, 'Новиков Илья', 1647),
 (2.851395001276852, 56647, 'Горелова Наталья', 2357),
 (2.8433467350673163, 21698, 'Мосягин Александр', 1168),
 (2.8410849419491218, 7008, 'Гилёв Алексей', 4827),
 (2.828427133587661, 34328, 'Царёв Михаил', 507),
 (2.8245093875980554, 1368

### Предсказание тестовых турниров

In [103]:
res = []
for tournament_id in tqdm(valid_tournament_ids):
    if pd.Timestamp(tournaments[tournament_id]['dateStart']).year == 2019:
        continue
    true_order = []
    test = []
    cnt = 0
    for team_result in results[tournament_id]:
        cnt += 1
        true_order.append(cnt)
        team_mask = [0 for _ in range(PLAYERS_NUM + QUESTIONS_NUM)]
        for player in team_result['teamMembers']:
            player_id = player['player']['id']
            team_mask[players_id_to_ind[player_id]] = 1
        test.append(team_mask)
    if len(true_order) <= 1:
        continue
    test = np.array(test)
    pred = list(model.predict_proba(test)[:, 1])
    pred = [(pred[i], i + 1) for i in range(len(pred))]
    pred = sorted(pred, key=lambda x: x[0], reverse=True)
    pred = [x[1] for x in pred]
    spearman = spearmanr(true_order, pred).correlation
    kendall = kendalltau(true_order, pred).correlation
    res.append([spearman, kendall])

  0%|          | 0/1109 [00:00<?, ?it/s]

In [104]:
res = np.array(res)

In [107]:
print('Корреляция Спирмана: {}'.format(res[:, 0].mean()))

Корреляция Спирмана: 0.7353677933132773


In [108]:
print('Корреляция Кендалла: {}'.format(res[:, 1].mean()))

Корреляция Кендалла: 0.577878157772176


### Сложности вопросов

In [113]:
questions_weights = weights[PLAYERS_NUM:]

In [117]:
cur = []
for tournament_id, questions_start in questions_start_index.items():
    cur.append((tournament_id, questions_start))
cur = sorted(cur, key=lambda x: x[1])

In [119]:
questions_ind_to_info = []
for i in range(len(cur) - 1):
    n = cur[i + 1][1] - cur[i][1]
    for j in range(n):
        questions_ind_to_info.append((cur[i][0], j))

In [124]:
n = QUESTIONS_NUM - cur[-1][1]
for j in range(n):
    questions_ind_to_info.append((cur[-1][0], j))

In [126]:
assert len(questions_ind_to_info) == QUESTIONS_NUM

In [135]:
tournaments_complexities = {}
for i in range(len(cur) - 1):
    tournaments_complexities[cur[i][0]] = questions_weights[cur[i][1]:cur[i + 1][1]].sum()
tournaments_complexities[cur[-1][0]] = questions_weights[cur[-1][1]:QUESTIONS_NUM].sum()

In [139]:
tournaments_info = []

for tournament_id in tournaments_complexities:  
    tournaments_info.append((tournament_id, tournaments_complexities[tournament_id], tournaments[tournament_id]['name']))

In [141]:
tournaments_info = sorted(tournaments_info, key=lambda x: x[1])

In [143]:
tournaments_info

[(6149, -947.7499615823492, 'Чемпионат Санкт-Петербурга. Первая лига'),
 (6085, -400.5364203206256, 'Серия Гран-при. Общий зачёт'),
 (6150, -367.32215661619966, 'Чемпионат Санкт-Петербурга. Высшая лига'),
 (5554, -265.91526844931224, 'Гран-при Славянки. Общий зачёт'),
 (6090, -262.66564643965086, 'Дзержинский марафон'),
 (5405, -243.94262598897225, 'Кавалькада волхвов'),
 (5465, -226.49014997003184, 'Чемпионат России'),
 (5553, -215.71754814886904, 'Славянка без раздаток. Общий зачёт'),
 (5864, -209.96584917563126, 'Гран-при Славянки. Общий зачет'),
 (5833, -174.4368287803921, 'Memel Cup'),
 (5368, -157.28218711395203, 'AU'),
 (5903, -157.19951228551216, 'Беловежская Зима'),
 (5976,
  -153.99441437958183,
  'Открытый Студенческий чемпионат Краснодарского края'),
 (5343, -152.85352477487882, 'Кубок Физтеха'),
 (5506, -147.2763475643676, 'Открытый Чемпионат Берлина'),
 (5795, -146.3247468178016, 'Кубок Москвы'),
 (5928, -145.81502416582288, 'Угрюмый Ёрш'),
 (5451, -144.3122565179696, 'Ве

#### Здесь турниры по возрастанию, но это топ по сложности, так как отрицательный вес вопроса означает, что он будет понижать вероятность ответа на него, а следственно - делает его сложнее. Данная оценка соответствует интуиции: в топе Чемпионаты Питера, Гран-при и т д, а внизу - школьные турниры, студентческие и т д

In [145]:
questions_info = []

for i in range(QUESTIONS_NUM):
    questions_info.append([questions_weights[i], questions_ind_to_info[i][0], questions_ind_to_info[i][1]])

In [147]:
questions_info = sorted(questions_info, key=lambda x: x[0])

In [149]:
hard_questions = questions_info[:5]
easy_questions = questions_info[-5:]

In [152]:
hard_questions

[[-7.548989446235126, 5757, 14],
 [-7.548989446235126, 5757, 30],
 [-7.548989446235126, 5757, 34],
 [-7.368187699210843, 5819, 25],
 [-7.326603400800641, 5718, 5]]

In [153]:
tournaments[5757]

{'id': 5757,
 'name': 'Открытый Кубок России',
 'dateStart': '2019-12-05T19:00:00+03:00',
 'dateEnd': '2019-12-11T19:00:00+03:00',
 'type': {'id': 3, 'name': 'Синхрон'},
 'season': '/seasons/53',
 'orgcommittee': [{'id': 23030,
   'name': 'Марина',
   'patronymic': '',
   'surname': 'Ножнина'},
  {'id': 14544,
   'name': 'Константин',
   'patronymic': 'Александрович',
   'surname': 'Кноп'}],
 'synchData': {'dateRequestsAllowedTo': '2019-12-08T23:55:00+03:00',
  'resultFixesTo': '2019-12-27T23:55:00+03:00',
  'resultsRecapsTo': '2019-12-13T23:55:00+03:00',
  'allowAppealCancel': True,
  'allowNarratorErrorAppeal': False,
  'dateArchivedAt': '2019-12-27T00:00:00+03:00',
  'dateDownloadQuestionsFrom': '2019-12-05T01:00:00+03:00',
  'dateDownloadQuestionsTo': '2019-12-11T19:00:00+03:00',
  'hideQuestionsTo': '2019-12-12T23:55:00+03:00',
  'hideResultsTo': '2019-12-12T23:55:00+03:00',
  'allVerdictsDone': None,
  'instantControversial': False},
 'questionQty': {'1': 12, '2': 12, '3': 12, '4

#### Открытый кубок России 2019 года не обработан в базе ЧГК, так что ссылка на турнир, а не на вопросы конкретно

In [154]:
hard_questions[0].append('https://db.chgk.info/node/8811')
hard_questions[1].append('https://db.chgk.info/node/8811')
hard_questions[2].append('https://db.chgk.info/node/8811')

In [155]:
tournaments[5819]

{'id': 5819,
 'name': 'ОВСЧ. 2 этап',
 'dateStart': '2019-10-11T00:00:00+03:00',
 'dateEnd': '2019-10-16T23:59:00+03:00',
 'type': {'id': 3, 'name': 'Синхрон'},
 'season': '/seasons/53',
 'orgcommittee': [{'id': 32901,
   'name': 'Наиль',
   'patronymic': 'Евгеньевич',
   'surname': 'Фарукшин'},
  {'id': 505,
   'name': 'Иделия',
   'patronymic': 'Мукадясовна',
   'surname': 'Айзятулова'},
  {'id': 59140,
   'name': 'Борис',
   'patronymic': 'Сергеевич',
   'surname': 'Белозёров'},
  {'id': 14736,
   'name': 'Евгений',
   'patronymic': 'Владимирович',
   'surname': 'Коваль'}],
 'synchData': {'dateRequestsAllowedTo': '2019-10-16T23:59:59+03:00',
  'resultFixesTo': '2019-10-27T23:59:59+03:00',
  'resultsRecapsTo': '2019-10-18T23:59:59+03:00',
  'allowAppealCancel': True,
  'allowNarratorErrorAppeal': True,
  'dateArchivedAt': '2019-10-21T23:59:59+03:00',
  'dateDownloadQuestionsFrom': '2019-10-11T00:00:00+03:00',
  'dateDownloadQuestionsTo': '2019-10-16T20:00:00+03:00',
  'hideQuestionsT

In [157]:
tournaments[5718]

{'id': 5718,
 'name': 'Топ-1000',
 'dateStart': '2019-11-07T00:05:00+03:00',
 'dateEnd': '2019-11-13T23:55:00+03:00',
 'type': {'id': 3, 'name': 'Синхрон'},
 'season': '/seasons/53',
 'orgcommittee': [{'id': 21487,
   'name': 'Борис',
   'patronymic': 'Яковлевич',
   'surname': 'Моносов'}],
 'synchData': {'dateRequestsAllowedTo': '2019-11-13T23:59:00+03:00',
  'resultFixesTo': '2019-11-26T23:59:00+03:00',
  'resultsRecapsTo': '2019-11-30T00:00:00+03:00',
  'allowAppealCancel': True,
  'allowNarratorErrorAppeal': False,
  'dateArchivedAt': '2019-11-28T00:00:00+03:00',
  'dateDownloadQuestionsFrom': '2019-11-05T00:00:00+03:00',
  'dateDownloadQuestionsTo': '2019-11-13T21:30:00+03:00',
  'hideQuestionsTo': '2019-11-13T23:59:00+03:00',
  'hideResultsTo': '2019-11-13T23:59:00+03:00',
  'allVerdictsDone': None,
  'instantControversial': True},
 'questionQty': {'1': 12, '2': 12, '3': 12}}

#### Не нашел много вопросов в базе ЧГК

In [158]:
hard_questions

[[-7.548989446235126, 5757, 14, 'https://db.chgk.info/node/8811'],
 [-7.548989446235126, 5757, 30, 'https://db.chgk.info/node/8811'],
 [-7.548989446235126, 5757, 34, 'https://db.chgk.info/node/8811'],
 [-7.368187699210843, 5819, 25],
 [-7.326603400800641, 5718, 5]]

In [159]:
easy_questions

[[4.863355639573329, 5013, 4],
 [4.921386024668571, 5644, 23],
 [4.9923320006462415, 5702, 6],
 [4.992942764047882, 5564, 100],
 [5.1612559604117125, 6008, 1]]

In [166]:
easy_questions[0].append('https://db.chgk.info/question/lite_start-5_u.1/5')

In [167]:
easy_questions

[[4.863355639573329,
  5013,
  4,
  'https://db.chgk.info/question/lite_start-5_u.1/5'],
 [4.921386024668571, 5644, 23],
 [4.9923320006462415, 5702, 6],
 [4.992942764047882, 5564, 100],
 [5.1612559604117125, 6008, 1]]