In [44]:
import random

import numpy as np
import pandas as pd
from sklearn.metrics import classification_report, log_loss, roc_auc_score

from src.dataset import get_dataset
from src.models.dualemb import DualEmbPredictor
from src.models.elog import ELOgPredictor
from src.models.freq import FrequencyMatchPredictor
from src.models.uni import UniformMatchPredictor

In [45]:
ITERATIONS = 1
random.seed(548)
np.random.seed(548)

In [46]:
def determine_target(row):
    if row["team_score"] > row["opponent_score"]:
        return 0
    elif row["team_score"] == row["opponent_score"]:
        return 1
    else:
        return 2

In [47]:
dataset = get_dataset()

  mls_df = pd.read_csv("data/mls_matches.csv")


In [48]:
dataset

Unnamed: 0,team_id,opponent_id,team_at_home,opponent_at_home,team_score,opponent_score,fold
0,Scotland,England,1.0,0.0,0,0,international
1,England,Scotland,1.0,0.0,4,2,international
2,Scotland,England,1.0,0.0,2,1,international
3,England,Scotland,1.0,0.0,2,2,international
4,Scotland,England,1.0,0.0,3,0,international
...,...,...,...,...,...,...,...
143000,Sport Lisboa e Benfica,Sporting Clube de Braga,1.0,0.0,3,0,europe
143001,Panathinaikos Athlitikos Omilos,APS Atromitos Athinon,1.0,0.0,2,1,europe
143002,Fulham Football Club,Watford FC,1.0,0.0,4,1,europe
143003,Panthessalonikios Athlitikos Omilos Konstantin...,Athlitiki Enosi Konstantinoupoleos,1.0,0.0,1,1,europe


In [49]:
model_classes = [
    # FrequencyMatchPredictor,
    # UniformMatchPredictor,
    # ELOgPredictor,
    DualEmbPredictor,
]
# folds_names = ["brazil", "libertadores", "mls", "europe", "international"]
folds_names = ["brazil", "international"]

In [50]:
folds_train = [dataset[dataset["fold"] != name] for name in folds_names]
folds_test = [dataset[dataset["fold"] == name] for name in folds_names]

In [51]:
results = pd.DataFrame({}, columns=["metric", "model", "fold", "iteration", "value"])

In [52]:
for iteration in range(ITERATIONS):
    for model_class in model_classes:
        for fold_train, fold_test, fold_test_name in zip(
            folds_train, folds_test, folds_names
        ):
            X_train = fold_train[
                ["team_id", "opponent_id", "team_at_home", "opponent_at_home"]
            ]
            y_train = fold_train[["team_score", "opponent_score"]] / 10.0
            X_test = fold_test[
                ["team_id", "opponent_id", "team_at_home", "opponent_at_home"]
            ]
            y_test = fold_test[["team_score", "opponent_score"]] / 10.0
            model = model_class(
                embedding_dim=20, num_epochs=50, update_learning_rate=0.01
            )
            model.fit(X_train, y_train)
            pred = model.predict_and_update(X_test, y_test)
            max_pred = np.argmax(pred, axis=1)
            target = fold_test.apply(determine_target, axis=1).to_numpy()
            report = classification_report(
                target, max_pred, target_names=["win", "draw", "loss"], output_dict=True
            )
            metrics = {
                "accuracy": report["accuracy"],
                "log_loss": log_loss(target, pred, labels=[0, 1, 2]),
                "micro_auc_roc": roc_auc_score(
                    target, pred, average="micro", multi_class="ovr"
                ),
                "weighted_precision": report["weighted avg"]["precision"],
                "weighted_recall": report["weighted avg"]["recall"],
                "macro_precision": report["macro avg"]["precision"],
                "macro_recall": report["macro avg"]["recall"],
            }
            for key, value in metrics.items():
                results.loc[len(results)] = {
                    "metric": key,
                    "model": model_class.__name__,
                    "fold": fold_test_name,
                    "iteration": iteration + 1,
                    "value": value,
                }

Epoch 1/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:25<00:00, 142.54it/s, loss=0.0218]


Epoch 2/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:27<00:00, 136.88it/s, loss=0.0216]


Epoch 3/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:28<00:00, 129.48it/s, loss=0.0215]


Epoch 4/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:29<00:00, 127.03it/s, loss=0.0215]


Epoch 5/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:25<00:00, 143.65it/s, loss=0.0214]


Epoch 6/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:29<00:00, 124.42it/s, loss=0.0214]


Epoch 7/50


100%|██████████████████████████████████████████████████████████████████| 3699/3699 [01:15<00:00, 49.21it/s, loss=0.0214]


Epoch 8/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:25<00:00, 144.47it/s, loss=0.0215]


Epoch 9/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:23<00:00, 160.43it/s, loss=0.0215]


Epoch 10/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:22<00:00, 164.70it/s, loss=0.0215]


Epoch 11/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:21<00:00, 172.10it/s, loss=0.0214]


Epoch 12/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:18<00:00, 196.91it/s, loss=0.0214]


Epoch 13/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:16<00:00, 221.16it/s, loss=0.0214]


Epoch 14/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:19<00:00, 185.56it/s, loss=0.0214]


Epoch 15/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:20<00:00, 181.79it/s, loss=0.0214]


Epoch 16/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:28<00:00, 129.72it/s, loss=0.0214]


Epoch 17/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:28<00:00, 128.60it/s, loss=0.0214]


Epoch 18/50


100%|████████████████████████████████████████████████████████████████| 3699/3699 [1:59:15<00:00,  1.93s/it, loss=0.0214]


Epoch 19/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:23<00:00, 157.62it/s, loss=0.0214]


Epoch 20/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:20<00:00, 184.81it/s, loss=0.0214]


Epoch 21/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:18<00:00, 201.77it/s, loss=0.0214]


Epoch 22/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:21<00:00, 175.00it/s, loss=0.0214]


Epoch 23/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:23<00:00, 156.52it/s, loss=0.0215]


Epoch 24/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:22<00:00, 166.24it/s, loss=0.0214]


Epoch 25/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:25<00:00, 146.05it/s, loss=0.0215]


Epoch 26/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:28<00:00, 129.62it/s, loss=0.0215]


Epoch 27/50


100%|███████████████████████████████████████████████████████████████| 3699/3699 [12:40:34<00:00, 12.34s/it, loss=0.0215]


Epoch 28/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:22<00:00, 163.36it/s, loss=0.0215]


Epoch 29/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:20<00:00, 182.10it/s, loss=0.0215]


Epoch 30/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:18<00:00, 205.44it/s, loss=0.0215]


Epoch 31/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:16<00:00, 228.12it/s, loss=0.0215]


Epoch 32/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:15<00:00, 237.49it/s, loss=0.0215]


Epoch 33/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:22<00:00, 165.06it/s, loss=0.0215]


Epoch 34/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:21<00:00, 175.38it/s, loss=0.0215]


Epoch 35/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:25<00:00, 145.48it/s, loss=0.0215]


Epoch 36/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:24<00:00, 149.52it/s, loss=0.0215]


Epoch 37/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:26<00:00, 138.95it/s, loss=0.0215]


Epoch 38/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:22<00:00, 167.08it/s, loss=0.0215]


Epoch 39/50


100%|██████████████████████████████████████████████████████████████████| 3699/3699 [00:41<00:00, 89.92it/s, loss=0.0215]


Epoch 40/50


100%|██████████████████████████████████████████████████████████████████| 3699/3699 [00:37<00:00, 99.15it/s, loss=0.0215]


Epoch 41/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:23<00:00, 157.49it/s, loss=0.0215]


Epoch 42/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:27<00:00, 136.57it/s, loss=0.0215]


Epoch 43/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:34<00:00, 106.98it/s, loss=0.0215]


Epoch 44/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:24<00:00, 153.61it/s, loss=0.0215]


Epoch 45/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:21<00:00, 169.73it/s, loss=0.0215]


Epoch 46/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:20<00:00, 183.62it/s, loss=0.0215]


Epoch 47/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:25<00:00, 143.95it/s, loss=0.0215]


Epoch 48/50


100%|██████████████████████████████████████████████████████████████████| 3699/3699 [13:27<00:00,  4.58it/s, loss=0.0215]


Epoch 49/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:11<00:00, 316.02it/s, loss=0.0215]


Epoch 50/50


100%|█████████████████████████████████████████████████████████████████| 3699/3699 [00:08<00:00, 411.79it/s, loss=0.0215]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pair_X["team_id"] = [0, 1]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pair_X["opponent_id"] = [1, 0]
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Epoch 1/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 402.66it/s, loss=0.0119]


Epoch 2/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 392.69it/s, loss=0.0117]


Epoch 3/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 393.12it/s, loss=0.0113]


Epoch 4/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 369.62it/s, loss=0.0111]


Epoch 5/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 414.60it/s, loss=0.0111]


Epoch 6/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 419.88it/s, loss=0.0111]


Epoch 7/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 339.23it/s, loss=0.0110]


Epoch 8/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 370.00it/s, loss=0.0110]


Epoch 9/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 387.92it/s, loss=0.0110]


Epoch 10/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 369.97it/s, loss=0.0109]


Epoch 11/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 352.13it/s, loss=0.0109]


Epoch 12/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 355.36it/s, loss=0.0109]


Epoch 13/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 393.27it/s, loss=0.0108]


Epoch 14/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:12<00:00, 236.25it/s, loss=0.0108]


Epoch 15/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:13<00:00, 228.88it/s, loss=0.0108]


Epoch 16/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 363.67it/s, loss=0.0107]


Epoch 17/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:11<00:00, 250.37it/s, loss=0.0107]


Epoch 18/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 348.20it/s, loss=0.0107]


Epoch 19/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 351.02it/s, loss=0.0106]


Epoch 20/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 345.64it/s, loss=0.0106]


Epoch 21/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 372.07it/s, loss=0.0106]


Epoch 22/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:06<00:00, 425.29it/s, loss=0.0106]


Epoch 23/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 392.60it/s, loss=0.0105]


Epoch 24/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:06<00:00, 434.39it/s, loss=0.0105]


Epoch 25/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:06<00:00, 438.89it/s, loss=0.0105]


Epoch 26/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:06<00:00, 483.72it/s, loss=0.0105]


Epoch 27/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 421.88it/s, loss=0.0104]


Epoch 28/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 363.99it/s, loss=0.0104]


Epoch 29/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:09<00:00, 326.96it/s, loss=0.0105]


Epoch 30/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:09<00:00, 317.35it/s, loss=0.0106]


Epoch 31/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 352.89it/s, loss=0.0106]


Epoch 32/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 372.91it/s, loss=0.0105]


Epoch 33/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:06<00:00, 431.45it/s, loss=0.0105]


Epoch 34/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 396.85it/s, loss=0.0105]


Epoch 35/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 372.26it/s, loss=0.0104]


Epoch 36/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 411.70it/s, loss=0.0106]


Epoch 37/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 422.82it/s, loss=0.0105]


Epoch 38/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:06<00:00, 448.25it/s, loss=0.0103]


Epoch 39/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:12<00:00, 231.79it/s, loss=0.0105]


Epoch 40/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:09<00:00, 314.64it/s, loss=0.0104]


Epoch 41/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:09<00:00, 323.67it/s, loss=0.0106]


Epoch 42/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 413.55it/s, loss=0.0104]


Epoch 43/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 370.44it/s, loss=0.0103]


Epoch 44/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 359.48it/s, loss=0.0104]


Epoch 45/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 359.11it/s, loss=0.0103]


Epoch 46/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 350.80it/s, loss=0.0105]


Epoch 47/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:08<00:00, 364.10it/s, loss=0.0103]


Epoch 48/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 378.97it/s, loss=0.0104]


Epoch 49/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 425.01it/s, loss=0.0103]


Epoch 50/50


100%|█████████████████████████████████████████████████████████████████| 2976/2976 [00:07<00:00, 384.66it/s, loss=0.0103]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pair_X["team_id"] = [0, 1]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pair_X["opponent_id"] = [1, 0]
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [53]:
results

Unnamed: 0,metric,model,fold,iteration,value
0,accuracy,DualEmbPredictor,brazil,1,0.481029
1,log_loss,DualEmbPredictor,brazil,1,1.059609
2,micro_auc_roc,DualEmbPredictor,brazil,1,0.601912
3,weighted_precision,DualEmbPredictor,brazil,1,0.231389
4,weighted_recall,DualEmbPredictor,brazil,1,0.481029
5,macro_precision,DualEmbPredictor,brazil,1,0.160343
6,macro_recall,DualEmbPredictor,brazil,1,0.333333
7,accuracy,DualEmbPredictor,international,1,0.461435
8,log_loss,DualEmbPredictor,international,1,1.055864
9,micro_auc_roc,DualEmbPredictor,international,1,0.633848


In [54]:
results.groupby(["metric", "model", "fold"])["value"].mean().reset_index().groupby(
    ["metric", "model"]
)["value"].mean().reset_index().pivot(index="model", columns="metric", values="value")

metric,accuracy,log_loss,macro_precision,macro_recall,micro_auc_roc,weighted_precision,weighted_recall
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
DualEmbPredictor,0.471232,1.057737,0.220295,0.345564,0.61788,0.287099,0.471232
