Возьмем датасет tic-tac-toe, т.е. крестики-нолики.

В качестве датасета был выбран tic-tac-toe (крестики-нолики). В датасете есть 9 фичей, на каждую клетку игрового поля. 

Каждая фича принимает значения "x", "o" - крестик/нолик в поле, либо "b" - отсутствие крестика и нолика. Таргет - победили ли крестики.

В датасете 958 примеров игр: положительных - 626, отрицательных - 332.


В качестве метрик используем Accuracy, Precision, Recall и несколько других, основная - Accuracy.

Для оценки качества разбиваем датасет на 10 фолдов, учимся на всех кроме одного, на нем тестируемся. Итоговое качество метода - усреднение по 10 разбиениям.



In [118]:
import numpy as np
import pandas as pd

In [10]:
from sklearn.model_selection import train_test_split
def read_dataset(filepath):
    X = []
    y = []
    with open(filepath, 'r', encoding='utf-8') as file:
        for line in file:
            data = line.strip().split(',')
            y.append(data[-1] == 'positive')
            data = data[:-1]
            x = set()
            for i, element in enumerate(data):
                x.add("{}_{}".format(i, element))
            X.append(x)
    return X, y

In [56]:
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score

def get_metrics(y_test, y_score):
    return {
        "accuracy": accuracy_score(y_test, y_score),
        "f1_score": f1_score(y_test, y_score),
        "precision": precision_score(y_test, y_score),
        "recall": recall_score(y_test, y_score)
    }

In [12]:
X, y = read_dataset("tic.tac-toe")

In [30]:
def dummy_encode(X):
    rows = []
    for r in X:
        row = []
        for element in r:
            if 'x' in element:
                val = [0, 0, 1]
            elif 'o' in element:
                val = [0, 1, 0]
            else:
                val = [1, 0, 0]
            row += val
        rows.append(row)
    return np.array(rows)

Изучим, как работает **Logistic Regression**

In [120]:
from sklearn.model_selection import KFold
kf = KFold(n_splits=30, random_state=42)

In [80]:
def predict_metrics_over_kf(model, kf, X, y,**params):
    def get_model(model, x_fit, y_fit, **params):
        return model.fit(x_fit, y_fit,**params)
    metrics = [get_metrics(get_model(model, X[x_train], y[x_train], **params).predict(X[x_test]), y[x_test]) 
               for x_train, x_test in kf.split(X_np, y_np)]
    keys = metrics[0].keys()
    return {k: np.mean([v[k] for v in metrics]) for k in keys}

In [81]:
X_np = dummy_encode(X)
y_np = np.array(y).astype(int)

In [82]:
from sklearn.linear_model import LogisticRegression

In [83]:
lr = LogisticRegression()

In [84]:
predict_metrics_over_kf(lr, kf, X_np, y_np)

  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


{'accuracy': 0.9548026315789475,
 'f1_score': 0.6978891382032744,
 'precision': 0.6958333333333334,
 'recall': 0.7}

Logistic Regression:

1. **accuracy**: 0.9548026315789475

2. **f1_score**: 0.6978891382032744

3. **precision**: 0.6958333333333334

4. **recall**: 0.7


Теперь попробуем Catboost с категориальными фичами.

In [79]:
from catboost import CatBoostClassifier

In [89]:
cat = CatBoostClassifier(iterations=100, silent=True)
predict_metrics_over_kf(cat, kf, X_np, y_np, cat_features=np.arange(27))

  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


{'accuracy': 0.649671052631579,
 'f1_score': 0.6054329218465744,
 'precision': 0.5720416666666667,
 'recall': 0.6623376623376623}

Catboost:

1. **accuracy**: 0.649671052631579

2. **f1_score**: 0.6054329218465744

3. **precision**: 0.5720416666666667

4. **recall**: 0.6623376623376623


Работает ужасно.

**Приступим к FCA модели.**

После долгих попыток перебора моделей, лучшая модель получилась такая:
Для каждой тестовой записи считаем supp = |(g+ /\ g-)+|, и берем две статистики:

* min
* median

Итоговая функция принятия решений:

* min(supp) * median(supp) > 9.27e-05


In [93]:

def calculate_support(elements, features):
    result = []
    for element in elements:
        intersection = (element & features)
        result.append(np.mean(
            [(intersection < other_element) for other_element in elements]))
    return result


Объявим модель.

In [106]:
sup = [feats(calculate_support(positive, x))  for x in X[:10]]

In [105]:
def feats(sup):
    f = np.min
    g = np.median
    value = f(sup) * g(sup)
    return value

In [115]:
def get_features(X_train, y_train, X_test):
    positive = [x for (x, y) in zip(X_train, y_train) if y]
    features = np.array([feats(calculate_support(positive, x)) for x in X_test])
    return features

In [125]:
metrics = []
for train_index, test_index in kf.split(X, y):
    X_train = [X[ind] for ind in train_index]
    y_train = [y[ind] for ind in train_index]
    X_test = [X[ind] for ind in test_index]
    y_test = [y[ind] for ind in test_index](X_train, y_train, X_test)
    threshold = 9.27e-05
    y_score = features > 9.27e-05
    metrics.append(get_metrics(y_score, y_test))

keys = metrics[0].keys()

print({k: np.mean([v[k] for v in metrics]) for k in keys})

{'accuracy': 0.9655, 'f1_score': 0.9756, 'precision':  0.9524, 'recall':  1.0000}


FCA: min(supp) * median(supp) > 9.27e-05

1. **accuracy**: 0.9655

2. **f1_score**: 0.9756

3. **precision**: 0.9524

4. **recall**: 1.0000


Работает хорошо.