In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

from sklearn.linear_model import LinearRegression, LogisticRegression
from IPython.display import clear_output
from datetime import datetime

import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import json
import numpy as np
import scipy as sp
import scipy.stats as st
import scipy.integrate as integrate
from sklearn import linear_model
from scipy.stats import multivariate_normal
from sklearn.utils.testing import ignore_warnings
from sklearn.exceptions import ConvergenceWarning
import statsmodels.api as sm

from sklearn.preprocessing import OneHotEncoder
from scipy.sparse import csr_matrix, hstack

import pickle, json
from scipy.stats import spearmanr, kendalltau

from scipy.optimize import fmin_tnc

import warnings
warnings.filterwarnings("ignore")



In [2]:
%%time
with open("chgk/tournaments.pkl", "rb") as f:
    tournaments = pickle.load(f)
with open("chgk/results.pkl", "rb") as f:
    results = pickle.load(f)
with open("chgk/players.pkl", "rb") as f:
    players = pickle.load(f)

Wall time: 23.4 s


# Задание 1

Прочитайте и проанализируйте данные, выберите турниры, в которых есть данные о составах команд и повопросных результатах (поле mask в results.pkl). Для унификации предлагаю:
- взять в тренировочный набор турниры с dateStart из 2019 года; 
- в тестовый — турниры с dateStart из 2020 года.

## Решение
    Оставляем турниры, у которых есть информация о составах команд и есть информация об ответах команд на вопросы
    Вопросы с отметкой X удаляются из выборки, вопросы с отметкой ? меняются на 0

In [3]:
def has_teamMembers_and_mask(tournament):
    flg = True
    for team in tournament:
        if (len(team['teamMembers']) == 0) or (team.get('mask') is None):
            flg = False
    return flg

In [4]:
%%time
# поправка на наличие инфо о составе и ответах по вопросам
results_corrected  = [i for i in results.keys() if has_teamMembers_and_mask(results[i])]

Wall time: 488 ms


In [5]:
%%time
# Делим чемпионаты на train (2019 год) и test (2020 год)
train_tournaments_labels = []
test_tournaments_labels = []
for i in tournaments.keys():
    if i in results_corrected:
        if tournaments[i]['dateStart'][:4] == '2019':
            train_tournaments_labels.append(i)
        elif tournaments[i]['dateStart'][:4] == '2020':
            test_tournaments_labels.append(i)
            
print('Количество чемпионатов в TRAIN :', len(train_tournaments_labels))
print('Количество чемпионатов в TEST :', len(test_tournaments_labels))

Количество чемпионатов в TRAIN : 657
Количество чемпионатов в TEST : 386
Wall time: 871 ms


In [6]:
def to_int(x):
    try:
        return int(x)
    except:
        return 0

In [7]:
%%time
# Вопросы с отметкой X удаляются из выборки, вопросы с отметкой ? меняются на 0
data = {
    'tournament_id': [],
    'tournament_name': [],
    'team_id': [],
    'player_id': [],
    'player_name': [],
    'player_surname': [],
    'question_num': [],
    'question_result': []
}

for i in train_tournaments_labels:
    for team in results[i]:
        for player in team['teamMembers']:
            for question_num in range(len(team['mask'])):
                if team['mask'][question_num] != 'X':
                    data['tournament_id'].append(tournaments[i]['id'])
                    data['tournament_name'].append(tournaments[i]['name'])
                    data['team_id'].append(team['team']['id'])
                    data['player_id'].append(player['player']['id'])
                    data['player_name'].append(player['player']['name'])
                    data['player_surname'].append(player['player']['surname'])
                    data['question_num'].append(question_num)
                    data['question_result'].append(to_int(team['mask'][question_num]))
                
                
data_train = pd.DataFrame.from_dict(data)

Wall time: 1min 51s


# Задание 2

Постройте baseline-модель на основе линейной или логистической регрессии, которая будет обучать рейтинг-лист игроков. Замечания и подсказки:
- повопросные результаты — это фактически результаты броска монетки, и их предсказание скорее всего имеет отношение к бинарной классификации;
- в разных турнирах вопросы совсем разного уровня сложности, поэтому модель должна это учитывать; скорее всего, модель должна будет явно обучать не только силу каждого игрока, но и сложность каждого вопроса;
- для baseline-модели можно забыть о командах и считать, что повопросные результаты команды просто относятся к каждому из её игроков.


## Решение
    Соберем следующий набор признаков:
    - Доля команд, участвующая в турнире
    - Среднее количество ответов на турнире
    - Среднее количество ответов на вопрос на турнире
    - Среднее количество ответов игроком (в составе команды) за все время
    
    В качестве baseline модели будем использовать логистическую регерессию, обученную на одном атрибуте - доля команд, участвующая в этом турнире + среднее количество правильных ответов на турнире + среднее количество ответов на вопрос + среднее количество ответов одного игрока + среднее количество правильных ответов по всем игрокам
    
    Таблица рейтинга игроков формируется следующим образом: по каждому игроку считается средняя вероятность ответа игроком на вопрос

In [8]:
data_train = data_train.merge((data_train.groupby('tournament_id')['team_id'].nunique()/data_train['team_id'].nunique()).to_frame('teams_qnt_rate').reset_index(), on='tournament_id', how='left')
data_train = data_train.merge(data_train.groupby('tournament_id')['question_result'].mean().to_frame('mean_tournament_answered').reset_index(), on='tournament_id', how='left')
data_train = data_train.merge(data_train.groupby(['tournament_id', 'question_num'])['question_result'].mean().to_frame('question_dificulty').reset_index(), on=['tournament_id', 'question_num'], how='left')
data_train = data_train.merge(data_train.groupby(['tournament_id', 'player_id'])['question_result'].mean().to_frame('player_strength').reset_index(), on=['tournament_id', 'player_id'], how='left')

In [9]:
data_train.head()

Unnamed: 0,tournament_id,tournament_name,team_id,player_id,player_name,player_surname,question_num,question_result,teams_qnt_rate,mean_tournament_answered,question_dificulty,player_strength
0,4772,Синхрон северных стран. Зимний выпуск,45556,6212,Юрий,Выменец,0,1,0.021079,0.475605,0.892295,0.777778
1,4772,Синхрон северных стран. Зимний выпуск,45556,6212,Юрий,Выменец,1,1,0.021079,0.475605,0.776305,0.777778
2,4772,Синхрон северных стран. Зимний выпуск,45556,6212,Юрий,Выменец,2,1,0.021079,0.475605,0.463132,0.777778
3,4772,Синхрон северных стран. Зимний выпуск,45556,6212,Юрий,Выменец,3,1,0.021079,0.475605,0.541839,0.777778
4,4772,Синхрон северных стран. Зимний выпуск,45556,6212,Юрий,Выменец,4,1,0.021079,0.475605,0.888981,0.777778


In [10]:
# Формируем выборки для обучения модели
X_train = (data_train['teams_qnt_rate'] + data_train['mean_tournament_answered'] + data_train['question_dificulty'] + data_train['player_strength'] + data_train['question_result'].mean()).values
X_train = X_train.reshape(-1, 1)
X_train = np.append(X_train, np.ones((X_train.shape[0], 1)), axis=1)
y_train = data_train['question_result'].values
y_train = y_train.reshape(-1, 1)

In [11]:
%%time
# Обучаем модель
model = LogisticRegression(solver = 'lbfgs')
model.fit(X_train[:, 0].reshape(-1, 1), y_train)

Wall time: 21.6 s


LogisticRegression()

In [12]:
# Функция для формирования рейтинга игроков
def calc_rating(prediction, player_rating_table=None, rating_name='rating'):
    
    temp_player_rating = data_train['player_id'].to_frame().copy()
    temp_player_rating['probability'] = prediction
    temp_player_rating = temp_player_rating.groupby('player_id')['probability'].mean().to_frame(rating_name).reset_index()
    
    if player_rating_table is None:
        player_rating_table = temp_player_rating
    else:
        if rating_name in player_rating_table.columns:
            player_rating_table[rating_name] = temp_player_rating[rating_name]
        else:
            player_rating_table = player_rating_table.merge(temp_player_rating, how='left', on='player_id')
        
    return player_rating_table

Топ самых сильных игроков

In [13]:
player_rating = calc_rating(model.predict_proba(X_train[:, 0].reshape(-1, 1))[:, 1], player_rating_table=None)
player_rating.merge(data_train[['player_id', 'player_name', 'player_surname']].drop_duplicates(), on='player_id', how='left').sort_values('rating', ascending=False).head(10)

Unnamed: 0,player_id,rating,player_name,player_surname
51527,215497,0.96795,Екатерина,Горелова
51525,215495,0.96795,Юлия,Крюкова
51526,215496,0.96795,Наталья,Артемьева
1810,13105,0.964567,Антон,Калинин
23115,172202,0.958324,Роман,Рябухин
51460,215410,0.9568,Махбуба,Мамаджанова
51524,215494,0.952363,Дарина,Калнина
18189,150837,0.952363,Артём,Улюкин
41052,202410,0.943226,Валентина,Подюкова
41053,202413,0.942738,Мария,Каменских


# Задание 3

Качество рейтинг-системы оценивается качеством предсказаний результатов турниров. Но сами повопросные результаты наши модели предсказывать вряд ли смогут, ведь неизвестно, насколько сложными окажутся вопросы в будущих турнирах; да и не нужны эти предсказания сами по себе. Поэтому:
- предложите способ предсказать результаты нового турнира с известными составами, но неизвестными вопросами, в виде ранжирования команд;
- в качестве метрики качества на тестовом наборе давайте считать ранговые корреляции Спирмена и Кендалла (их можно взять в пакете scipy) между реальным ранжированием в результатах турнира и предсказанным моделью, усреднённые по тестовому множеству турниров.


## Решение
Рейтинг команды будем оценивать, как сумма рейтингов участников команды

In [14]:
%%time
# Обработка тестовой выборки - чемпионаты 2020
# Вопросы с отметкой X удаляются из выборки, вопросы с отметкой ? меняются на 0
data = {
    'tournament_id': [],
    'tournament_name': [],
    'team_id': [],
    'player_id': [],
    'position' : [],
}

for i in test_tournaments_labels:
    for team in results[i]:
        for player in team['teamMembers']:
            data['tournament_id'].append(tournaments[i]['id'])
            data['tournament_name'].append(tournaments[i]['name'])
            data['team_id'].append(team['team']['id'])
            data['player_id'].append(player['player']['id'])
            data['position'].append(int(team['position']))
                                
data_test = pd.DataFrame.from_dict(data)

Wall time: 1.14 s


In [15]:
# Функция для проверки качества рейтингования игроков на тестовом наборе данных
def check_quality(test_df, rating_df, rating_name):
    
    test_df = test_df.merge(rating_df, on='player_id', how='left')
    test_df[rating_name] = test_df[rating_name].fillna(0)
    data_test_grouped = test_df.groupby(['tournament_id', 'team_id', 'position'])[rating_name].sum().to_frame().reset_index()

    spearmanr_list = []
    kendalltau_list = []

    for i in data_test_grouped['tournament_id'].drop_duplicates():
        temp = data_test_grouped[data_test_grouped['tournament_id']==i]
        if temp.shape[0] > 1:
            spearmanr_value, _ = spearmanr(temp['position'], temp[rating_name])
            kendalltau_value, _ = kendalltau(temp['position'], temp[rating_name])
            spearmanr_list.append(spearmanr_value)
            kendalltau_list.append(kendalltau_value)

    return np.mean(spearmanr_list), np.mean(kendalltau_list)

In [16]:
# Проверка качества: средняя корреляция Спирмена и Кендала
spearman, kendal = check_quality(test_df=data_test.copy(), 
                                 rating_df=player_rating.copy(), 
                                 rating_name='rating')
print('Корреляция Спирмана:', spearman)
print('Корреляция Кендала:', kendal)

Корреляция Спирмана: -0.5929472671744298
Корреляция Кендала: -0.4469306480998754


# Задание 4

Теперь главное: ЧГК — это всё-таки командная игра. Поэтому:
- предложите способ учитывать то, что на вопрос отвечают сразу несколько игроков; скорее всего, понадобятся скрытые переменные; не стесняйтесь делать упрощающие предположения, но теперь переменные “игрок X ответил на вопрос Y” при условии данных должны стать зависимыми для игроков одной и той же команды;
- разработайте EM-схему для обучения этой модели, реализуйте её в коде;
- обучите несколько итераций, убедитесь, что целевые метрики со временем растут (скорее всего, ненамного, но расти должны), выберите лучшую модель, используя целевые метрики.


## Решение
    Основное предположение: 
    - если команда не ответила на вопрос, значит ни один из игроков не ответил на вопрос
    - если команда отвтеила на вопрос, значит хотя бы один игрок команды ответил на вопрос
    
    EM-алгоритм будет состоять в следующем:
    - введем скрытую переменную z - игрок ответил на вопрос
    - на M-шаге мы фиксируем текущие значения z для игроков и обучаем логистическую регрессию
    - на Е-шаге мы прогнозируем новые вероятности z для игроков, а также делаем корректировку этих вероятностей:
        - если команда не ответила на вопрос (y==0), то z = 0
        - если команда ответила на вопрос (у==1), то z = z / вероятность того, что хотя бы один игрок из команды ответил на этот вопрос

In [17]:
# Функции, реализующие логистическую регрессию, которая может обрабатывать нецелые значения в качестве целевого события
def sigmoid(x):
    # Activation function used to map any real value between 0 and 1
    return 1 / (1 + np.exp(-x))

def net_input(theta, x):
    # Computes the weighted sum of inputs
    return np.dot(x, theta)

def probability(theta, x):
    # Returns the probability after passing through sigmoid
    return sigmoid(net_input(theta, x))

def cost_function(theta, x, y):
    # Computes the cost function for all the training samples
    m = x.shape[0]
    total_cost = -(1 / m) * np.sum(
        y * np.log(probability(theta, x)) + (1 - y) * np.log(
            1 - probability(theta, x)))
    return total_cost

def gradient(theta, x, y):
    # Computes the gradient of the cost function at the point theta
    m = x.shape[0]
    return (1 / m) * np.dot(x.T, sigmoid(net_input(theta,   x)) - y)

def fit(x, y, theta):
    opt_weights = fmin_tnc(func=cost_function, x0=theta,
                  fprime=gradient,args=(x, y.flatten()))
    return opt_weights[0]

In [18]:
def em_step(X_train, y_train, z_train=None, write_rating_to=player_rating, rating_name='rating_new'):
    
    # только для первого шага
    if z_train is None:
        z_train = y_train.copy()
    
    # для всех остальных шагов, включая первый
    theta = np.zeros((X_train.shape[1], 1))
    parameters = fit(X_train, z_train, theta)
    
    parameters[1] = parameters[1] + np.log((pi * n_u) / (n_0 + pi * n_u))
    
    z_pred = probability(parameters, X_train)
    
    # Для правильных ответов на вопрос с учетом того, что хотя бы один человек из команды ответил
    temp_data_train = data_train.copy()
    temp_data_train['1_minus_z_pred'] = np.ones((temp_data_train.shape[0], 1)) - z_pred.reshape(-1, 1)
    temp_data_train_gr = temp_data_train.groupby(['tournament_id', 'team_id', 'question_num']).agg({'1_minus_z_pred':np.prod}).reset_index().rename(columns={'1_minus_z_pred':'1_minus_z_pred_multi'})
    temp_data_train = temp_data_train.merge(temp_data_train_gr, 
                                            how='left',
                                            on=['tournament_id', 'team_id', 'question_num']
                                           )
    z_pred = (z_pred / (1 - temp_data_train['1_minus_z_pred_multi'])).values
    
    # Для тех вопросов на которые команда не ответила
    z_pred[y_train.flatten()==0] = 0
    
    write_rating_to = calc_rating(prediction = z_pred, player_rating_table=write_rating_to, rating_name=rating_name)
    
    return z_pred, parameters, write_rating_to

In [19]:
pi = 0.1 # p(z==1)
n_0 = len(data_train['question_result'])-sum(data_train['question_result'])
n_u = sum(data_train['question_result'])

In [20]:
%%time
# Выведем корреляцию рейтинга команд и спрогнозированный рейтинг команд после каждого шага EM-алгоритма
N = 3
for step_number in range(N):
    
    if step_number == 0:
        # первый шаг
        z_new, coefs, player_rating = em_step(X_train=X_train.copy(), 
                                              y_train=y_train.copy(), 
                                              z_train=None,
                                              write_rating_to = player_rating,
                                              rating_name='rating_new'
                                             )
    else:
        # все остальные шаги
        z_new, coefs, player_rating = em_step(X_train=X_train.copy(), 
                                      y_train=y_train.copy(), 
                                      z_train=z_new.copy(),
                                      write_rating_to = player_rating,
                                      rating_name='rating_new'
                                     )

    
    # Проверка качества: средняя корреляция Спирмена и Кендала
    spearman, kendal = check_quality(test_df=data_test.copy(), 
                                     rating_df=player_rating.copy(), 
                                     rating_name='rating_new')
    print('Шаг', step_number+1)
    print('Корреляция Спирмана:', spearman)
    print('Корреляция Кендала:', kendal)
    print()

Шаг 1
Корреляция Спирмана: -0.6784036560669311
Корреляция Кендала: -0.521887170432703

Шаг 2
Корреляция Спирмана: -0.6850047334763094
Корреляция Кендала: -0.5280740462626515

Шаг 3
Корреляция Спирмана: -0.6852120573262123
Корреляция Кендала: -0.528558975105415

Wall time: 4min 4s


Обновленный рейтинг игроков

In [21]:
player_rating.merge(data_train[['player_id', 'player_name', 'player_surname']].drop_duplicates(), on='player_id', how='left')[['player_id', 'rating_new', 'player_name', 'player_surname']].sort_values('rating_new', ascending=False).head(10)

Unnamed: 0,player_id,rating_new,player_name,player_surname
22497,169939,0.42396,Иван,Таратин
15525,136300,0.394786,Александра,Буйная
681,4876,0.391636,Владимир,Вакуленко
2820,20056,0.38093,Евгений,Мартьянов
3155,22474,0.37671,Илья,Немец
48083,211291,0.361111,Валерий,Галкин
50231,213791,0.352941,Кямал,Гурбанли
15195,134316,0.349408,Екатерина,Морозова
18494,152100,0.335372,Дмитрий,Крючков
2536,17997,0.335256,Константин,Лебедев


# Задание 5

А что там с вопросами? Постройте “рейтинг-лист” турниров по сложности вопросов. Соответствует ли он интуиции (например, на чемпионате мира в целом должны быть сложные вопросы, а на турнирах для школьников — простые)? Если будет интересно: постройте топ сложных и простых вопросов со ссылками на конкретные записи в базе вопросов ЧГК (это чисто техническое дело, тут никакого ML нету).

## Решение 
В качестве рейтинга сложности вопроса будем использовать средний рейтинг команд, которые не ответили на этот вопрос. Для оценки сложности турнира будем использовать средний рейтинг сложности вопросов.

In [22]:
temp_data_train = data_train.copy()
temp_data_train = temp_data_train.merge(player_rating[['player_id', 'rating_new']], how='left', on='player_id')
temp_data_train = temp_data_train.groupby(['tournament_id', 'tournament_name', 'team_id', 'question_num', 'question_result']).agg({'rating_new':'sum'}).reset_index()
temp_data_train = temp_data_train.groupby(['tournament_id', 'tournament_name']).agg({'rating_new':'mean'}).reset_index()

Топ-5 самых сложных турниров

In [23]:
temp_data_train.sort_values('rating_new', ascending=False)[['tournament_name', 'rating_new']].head(5)

Unnamed: 0,tournament_name,rating_new
643,Чемпионат Санкт-Петербурга. Высшая лига,0.815264
541,Чемпионат Мира. Финал. Группа А,0.783617
538,Чемпионат Мира. Этап 3. Группа А,0.779232
534,Чемпионат Мира. Этап 2. Группа А,0.778732
531,Чемпионат Мира. Этап 1. Группа А,0.734405


Топ-5 самых легких турниров

In [24]:
temp_data_train.sort_values('rating_new', ascending=True)[['tournament_name', 'rating_new']].head(20)

Unnamed: 0,tournament_name,rating_new
619,One ring - async,0.128201
376,Чемпионат Таджикистана,0.136663
633,ДР Земцовского,0.168761
69,Парный асинхронный турнир ChGK is...,0.209183
557,Открытый Студенческий чемпионат Краснодарского...,0.218041
140,Зимник,0.227262
174,Зимние игры,0.237733
286,Чемпионат Туркменистана,0.238974
630,Открытый кубок МВУТ,0.245495
321,Чемпионат Кыргызстана,0.247279


Результаты рейтингования логичны: на чемпионате мира уровень сложности вопросов выше, чем на школьных турнирах