## Решение 1

Для классификации объекта посчитаем, сколько в положительном контексте объектов, мощность пересечения признаков которых с признаками данного объекта составляет долю, большую чем `C` от общего числа признаков классифицируемого объекта. Каждый такой объект в положительном контексте будем называть "голосом" за положительную классификацию объекта.

Аналогичным образом посчитаем голоса за отрицательную классификацию. Каких голосов будет больше, те и будем использовать.


In [1]:
def classifier1(positive_context, negative_context, object_props, c=0.5):
    def count_votes(context):
        votes = 0
        for props in context:
            intersection_size = object_props & props
            if len(intersection_size) >= c * len(object_props):
                votes += 1
        return votes

    positive_votes = count_votes(positive_context)
    negative_votes = count_votes(negative_context)
    return 1 if positive_votes > negative_votes else -1

## Решение 2

Чтобы классифицировать объект, будем для каждого контекста считать количество объектов, пересечение свойств которых со свойствами классифицируемого объекта не встречается в противоположном контексте.

В каком контексте насчитали больше таких объектов, к такому классу и относим объект

In [2]:
def classifier2(positive_context, negative_context, object_props):
    def count_votes(target_context, opposite_context):
        votes = 0
        for props in target_context:
            props_intersection = object_props & props
            if not any(props_intersection <= opposite_props for opposite_props in opposite_context):
                votes += 1
        return votes

    positive_votes = count_votes(positive_context, negative_context)
    negative_votes = count_votes(negative_context, positive_context)
    return 1 if positive_votes > negative_votes else -1

## Тестирование эффективности и оптимизация первого решения

Для начала, сделаем некоторые подготовительные действия

In [3]:
from sklearn.metrics import accuracy_score, precision_score, recall_score

In [4]:
def load_data(file_name):
    """    (file_name) -> (positive_context, negative_context)    """
    positive_context = list()
    negative_context = list()
    with open(file_name, "r") as f:
        # skip the header
        next(f)
        for line in f:
            columns = [x.strip() for x in line.split(',')]
            props = set(i for (i, x) in enumerate(columns[:-1]) if x == 'x')
            if columns[-1] == 'positive':
                positive_context.append(props)
            else:
                negative_context.append(props)
    return {"positive": positive_context, "negative": negative_context}

In [8]:
def measure_scores(train, test, classifier):
    y_correct = [1] * len(test['positive']) + [-1] * len(test['negative'])
    y_predicted = []
    objects = test['positive'] + test['negative']
    for obj_props in objects:
        y_predicted.append(classifier(train['positive'], train['negative'], obj_props))
    
    return {
        'accuracy': accuracy_score(y_correct, y_predicted),
        'precision': precision_score(y_correct, y_predicted),
        'recall': recall_score(y_correct, y_predicted)
    }

Теперь посмотрим на метрики, которые получаются при разных значениях параметра `C` в первом решении. 

In [11]:
from functools import partial
import numpy as np


trains = [load_data(f'train/train{i}.csv') for i in range(1, 11)]
tests = [load_data(f'test/test{i}.csv') for i in range(1, 11)]

print("C\tAccuracy\tPrecision\tRecall")
for c in range(50, 100, 5):
    c /= 100
    scores = []
    for train, test in zip(trains, tests):
        scores.append(measure_scores(train, test, partial(classifier1, c=c)))
    accuracy = np.mean(list(score['accuracy'] for score in scores))
    precision = np.mean(list(score['precision'] for score in scores))
    recall = np.mean(list(score['recall'] for score in scores))
    print(f"{c}\t{accuracy}\t{precision}\t{recall}")

C	Accuracy	Precision	Recall
0.5	0.6534736343466454	0.6534736343466454	1.0
0.55	0.6720720754101499	0.6659386417820471	1.0
0.6	0.6720720754101499	0.6659386417820471	1.0
0.65	0.6794298894178069	0.6708925608078662	1.0
0.7	0.6994726500753474	0.6850787653048859	1.0
0.75	0.6994726500753474	0.6850787653048859	1.0
0.8	0.8372087446601346	0.8021675858255325	1.0
0.85	0.7817489504433107	0.7952091194706027	0.9014572374872412
0.9	0.7817489504433107	0.7952091194706027	0.9014572374872412
0.95	0.7817489504433107	0.7952091194706027	0.9014572374872412


Таким образом, данное решение лучше всего себя ведет при `c = 0.8`

Второе же решение, как оказывается, вообще полностью решает нашу задачу:

In [12]:
for train, test in zip(trains, tests):
    print(measure_scores(train, test, classifier2))

{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
{'accuracy': 1.0, 'precision': 1.0, 'recall': 1.0}
