##### Задание 1
взять любой набор данных для бинарной классификации (можно скачать один из модельных с https://archive.ics.uci.edu/ml/datasets.php)

Датасет для оценки автомобилей

Описание данных - https://archive.ics.uci.edu/ml/datasets/Car+Evaluation

In [127]:
import pandas as pd
import numpy as np
data = pd.read_csv("car.data", header=None)
data.head(3)

Unnamed: 0,0,1,2,3,4,5,6
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc


Attribute Information:
1. buying: vhigh, high, med, low.
2. maint: vhigh, high, med, low.
3. doors: 2, 3, 4, 5more.
4. persons: 2, 4, more.
5. lug_boot: small, med, big.
6. safety: low, med, high.
7. class: unacc, acc, good, vgood

In [128]:
data.rename(columns={0: 'buying',
                     1: 'main',
                     2: 'doors',
                     3: 'persons',
                     4: 'lug_boot',
                     5: 'safety',
                     6: 'class'}, inplace=True)
data.head(3)

Unnamed: 0,buying,main,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc


В датасете 6 категориальных признаков и 1 целевая переменная class - сласс автомобиля

In [129]:
print(data.shape)

(1728, 7)


Посмотрим на соотношение классов

In [130]:
data.iloc[:, -1].value_counts()

unacc    1210
acc       384
good       69
vgood      65
Name: class, dtype: int64

##### Задание 2
сделать feature engineering

Попробуем среди автомобилей классов unacc, acc, и good найти автомобили, которые могут подойти под класс vgood.
Поэтому разделим автомобили на 2 категории 0 и 1.

In [131]:
data['class'] = data['class'].replace({'unacc':0, 'acc': 0, 'good': 0, 'vgood':1})
data['class'].unique()

array([0, 1], dtype=int64)

In [132]:
data.head(3)

Unnamed: 0,buying,main,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,0
1,vhigh,vhigh,2,2,small,med,0
2,vhigh,vhigh,2,2,small,high,0


Будем использовать модель Catboost Classification, поэтому категориальные признаки не трогаем

Разбиваем выборку на тренировочную и тестовую части и обучаем модель

In [133]:
from sklearn.model_selection import train_test_split

x_data = data.iloc[:,:-1]
y_data = data.iloc[:,-1]

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=42)

##### Задание 3
обучить любой классификатор (какой вам нравится)

In [134]:
import catboost as ctb

cat_features = ['buying', 'main', 'doors', 'persons', 'lug_boot', 'safety']
model = ctb.CatBoostClassifier(random_state=42, silent=True, cat_features=cat_features)
model.fit(x_train, y_train)

y_predict = model.predict(x_test)

Проверяем качество

In [135]:
from sklearn.metrics import auc, f1_score, roc_auc_score, precision_score, classification_report, precision_recall_curve, confusion_matrix

# Функция рассчета показателей и формирования словаря для датафрейма
def get_metrics(learn_type, y_test, y_predict):
    precision, recall, thresholds = precision_recall_curve(y_test, y_predict)

    fscore = (2 * precision * recall) / (precision + recall)
    # locate the index of the largest f score
    ix = np.argmax(fscore)
    print('Best Threshold=%f, F-Score=%.3f, Precision=%.3f, Recall=%.3f, roc_auc_score=%.3f, pr_auc=%.3f' % (
        thresholds[ix],
        fscore[ix],
        precision[ix],
        recall[ix],
        roc_auc_score(y_test, y_predict), 
        auc(recall, precision)))
    
    data = {'Learn type':learn_type,
        'Best Threshold':thresholds[ix],
        'F-Score':fscore[ix],
        'precision':precision[ix],
        'recall':recall[ix], 
        'roc_auc_score':roc_auc_score(y_test, y_predict),
        'pr_auc':auc(recall, precision)}
    
    return data

stats = get_metrics('Standart', y_test, y_predict)
stats_df = pd.DataFrame(stats, index=[0])

Best Threshold=1.000000, F-Score=0.903, Precision=1.000, Recall=0.824, roc_auc_score=0.912, pr_auc=0.916


##### Задание 4
далее разделить ваш набор данных на два множества: P (positives) и U (unlabeled). Причем брать нужно не все положительные (класс 1) примеры, а только лишь часть

In [150]:
mod_data = data.copy()
#get the indices of the positives samples
pos_ind = np.where(mod_data.iloc[:,-1].values == 1)[0]
#shuffle them
np.random.shuffle(pos_ind)
# leave just 25% of the positives marked
part = 0.75
pos_sample_len = int(np.ceil(part * len(pos_ind)))
print(f'Using {pos_sample_len}/{len(pos_ind)} as positives and unlabeling the rest')
pos_sample = pos_ind[:pos_sample_len]

Using 49/65 as positives and unlabeling the rest


Создаем столбец для новой целевой переменной, где у нас два класса - P (1) и U (-1)

In [151]:
mod_data['class_test'] = -1
mod_data.loc[pos_sample,'class_test'] = 1
print('target variable:\n', mod_data.iloc[:,-1].value_counts())

target variable:
 -1    1679
 1      49
Name: class_test, dtype: int64


In [152]:
mod_data.head(10)

Unnamed: 0,buying,main,doors,persons,lug_boot,safety,class,class_test
0,vhigh,vhigh,2,2,small,low,0,-1
1,vhigh,vhigh,2,2,small,med,0,-1
2,vhigh,vhigh,2,2,small,high,0,-1
3,vhigh,vhigh,2,2,med,low,0,-1
4,vhigh,vhigh,2,2,med,med,0,-1
5,vhigh,vhigh,2,2,med,high,0,-1
6,vhigh,vhigh,2,2,big,low,0,-1
7,vhigh,vhigh,2,2,big,med,0,-1
8,vhigh,vhigh,2,2,big,high,0,-1
9,vhigh,vhigh,2,4,small,low,0,-1


In [153]:
x_data = mod_data.iloc[:,:-2].values # just the X 
y_labeled = mod_data.iloc[:,-1].values # new class (just the P & U)
y_positive = mod_data.iloc[:,-2].values # original class

##### Задание 5
применить random negative sampling для построения классификатора в новых условиях

In [154]:
mod_data = mod_data.sample(frac=1)
neg_sample = mod_data[mod_data['class_test']==-1][:len(mod_data[mod_data['class_test']==1])]
sample_test = mod_data[mod_data['class_test']==-1][len(mod_data[mod_data['class_test']==1]):]
pos_sample = mod_data[mod_data['class_test']==1]
print(neg_sample.shape, pos_sample.shape)
sample_train = pd.concat([neg_sample, pos_sample]).sample(frac=1)

(49, 8) (49, 8)


In [155]:
cat_features = ['buying', 'main', 'doors', 'persons', 'lug_boot', 'safety']
model = ctb.CatBoostClassifier(random_state=42, silent=True, cat_features=cat_features)

model.fit(sample_train.iloc[:,:-2], sample_train.iloc[:,-2])
y_predict = model.predict(sample_test.iloc[:,:-2])

stats = get_metrics(f'PU {part}', sample_test.iloc[:,-2], y_predict)
stats_df = stats_df.append(stats, ignore_index=True)

Best Threshold=1.000000, F-Score=0.190, Precision=0.105, Recall=1.000, roc_auc_score=0.960, pr_auc=0.552


##### Задание 6
сравнить качество с решением из пункта 4 (построить отчет - таблицу метрик)

In [142]:
stats_df

Unnamed: 0,Learn type,Best Threshold,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,1,0.903226,1.0,0.823529,0.911765,0.9161
1,PU 0.25,1,0.34058,0.20524,1.0,0.944748,0.60262


Стандартный вариант классификации показал более хорошие результаты. Скорее всего потому, что 0.25 от положительного класса в данном датасете это очень мало

##### Задание 7
поэкспериментировать с долей P на шаге 5 (как будет меняться качество модели при уменьшении/увеличении размера P)

Вернемся к шагу 4 и увеличим долю данных положительного класса до 0.5 (part = 0.5)

In [149]:
stats_df

Unnamed: 0,Learn type,Best Threshold,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,1,0.903226,1.0,0.823529,0.911765,0.9161
1,PU 0.25,1,0.34058,0.20524,1.0,0.944748,0.60262
2,PU 0.5,1,0.350282,0.212329,1.0,0.964746,0.606164


Точность улучшилась, но не существенно

Попробуем взять 0.75

In [157]:
stats_df

Unnamed: 0,Learn type,Best Threshold,F-Score,precision,recall,roc_auc_score,pr_auc
0,Standart,1,0.903226,1.0,0.823529,0.911765,0.9161
1,PU 0.25,1,0.34058,0.20524,1.0,0.944748,0.60262
2,PU 0.5,1,0.350282,0.212329,1.0,0.964746,0.606164
3,PU 0.75,1,0.189873,0.104895,1.0,0.960372,0.552448


### Домашнее задание

1. взять любой набор данных для бинарной классификации (можно скачать один из модельных с https://archive.ics.uci.edu/ml/datasets.php)
3. сделать feature engineering
4. обучить любой классификатор (какой вам нравится)
5. далее разделить ваш набор данных на два множества: P (positives) и U (unlabeled). Причем брать нужно не все положительные (класс 1) примеры, а только лишь часть
6. применить random negative sampling для построения классификатора в новых условиях
7. сравнить качество с решением из пункта 4 (построить отчет - таблицу метрик)
8. поэкспериментировать с долей P на шаге 5 (как будет меняться качество модели при уменьшении/увеличении размера P)

<b>Бонусный вопрос:</b>

Как вы думаете, какой из методов на практике является более предпочтительным: random negative sampling или 2-step approach?

Ваш ответ здесь: