# Part-2: Baseline with logreg for user rating

Постройте baseline-модель на основе линейной или логистической регрессии, которая будет обучать рейтинг-лист игроков. Замечания и подсказки:
* повопросные результаты — это фактически результаты броска монетки, и их предсказание скорее всего имеет отношение к бинарной классификации;
* в разных турнирах вопросы совсем разного уровня сложности, поэтому модель должна это учитывать; скорее всего, модель должна будет явно обучать не только силу каждого игрока, но и сложность каждого вопроса;
* для baseline-модели можно забыть о командах и считать, что повопросные результаты команды просто относятся к каждому из её игроков.


In [7]:
import pickle
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

TRAIN_MODE = False

In [2]:
# source: https://stackoverflow.com/questions/19201290/how-to-save-a-dictionary-to-a-file/32216025

def save_obj(obj, name ):
    with open('obj/'+ name + '.pkl', 'wb') as f:
        pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL)

def load_obj(name ):
    with open('obj/' + name + '.pkl', 'rb') as f:
        return pickle.load(f)

### Схема baseline:
#### 1) Преобразуем 'tournament_id', 'player_id' в one-hot-фичи
#### 2)  Обучаем logreg на целевой переменной target (ответил / не ответил на вопрос)
#### 3) Сохраняем финальные веса фичей пользователей (one-hot из player_id), это и есть рейтинг

In [8]:
if TRAIN_MODE:
    # get preprocessed df ('tournament_id', 'team_id', 'player_id', 'question_local_id', 'target')
    df = pd.read_csv('train.zip').drop(columns=['team_id', 'question_local_id'])
    
    # construct pipeline with one-hot-encoder and logreg
    feature_generation = ColumnTransformer(
        transformers=[
            ('OneHot', OneHotEncoder(), ['tournament_id', 'player_id'])
        ],
        remainder='drop',
        sparse_threshold=1
    )
    pipe = Pipeline(
        verbose=True,
        steps=[
            ('feature_generation', feature_generation),
            ('classifier', LogisticRegression(solver='liblinear', max_iter=100))
        ]
    )
    
    # train
    pipe.fit(df[['tournament_id', 'player_id']], df['target'])
    
    # save player weights (~raiting)
    player_features_start_pos = df.nunique()['tournament_id']
    player_features_names = pipe['feature_generation'].get_feature_names()[player_features_start_pos:]
    assert(len(player_features_names) == df.nunique()['player_id'])
    player_ids = [int(name[11:]) for name in player_features_names]
    
    player_weights = pipe['classifier'].coef_[0][player_features_start_pos:]
    assert(len(player_weights) == df.nunique()['player_id'])
    
    player_to_weight = dict(zip(player_ids, player_weights))
    save_obj(player_to_weight, 'player_to_weight')

In [9]:
if not TRAIN_MODE:
    player_to_weight = load_obj('player_to_weight')

### Грубая проверка: сравним top-100 официального рейтинга и предсказания
#### Официальный рейтинг: https://rating.chgk.info/players.php

In [37]:
official_top_100_ids = pd.read_csv('players-official-top-1000.csv')[:100]
official_top_100_ids = set(official_top_100_ids[' ИД'])

In [41]:
player_to_weight_sorted = sorted(player_to_weight.items(), key=lambda kv: kv[1], reverse=True)
predicted_top_100_ids = set(k for k, v in player_to_weight_sorted[:100])

In [45]:
len(official_top_100_ids.intersection(predicted_top_100_ids))

53

### Модель смогла предсказать больше 53 игрока из топ 100.
#### Т.е грубая проверка показывает, что большие веса получили сильные игроки. Основная валидация на тестовых данных в Part-3