# Урок 6. Задача lookalike (Positive Unlabeled Learning)

### Домашнее задание

1. взять любой набор данных для бинарной классификации (можно скачать один из модельных с https://archive.ics.uci.edu/ml/datasets.php)
3. сделать feature engineering
4. обучить любой классификатор (какой вам нравится)
5. далее разделить ваш набор данных на два множества: P (positives) и U (unlabeled). Причем брать нужно не все положительные (класс 1) примеры, а только лишь часть
6. применить random negative sampling для построения классификатора в новых условиях
7. сравнить качество с решением из пункта 4 (построить отчет - таблицу метрик)
8. поэкспериментировать с долей P на шаге 5 (как будет меняться качество модели при уменьшении/увеличении размера P)

Загрузим датасет:

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import catboost as catb

import matplotlib.pyplot as plt

from sklearn.metrics import f1_score, roc_auc_score, precision_score, recall_score, precision_recall_curve

%matplotlib inline

In [2]:
df = pd.read_csv("adult.data", header=None)
df.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K


Задача: спрогнозировать, превышает ли доход 50 тысяч долларов в год.

Посмотрим, есть ли пропуски:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       32561 non-null  int64 
 1   1       32561 non-null  object
 2   2       32561 non-null  int64 
 3   3       32561 non-null  object
 4   4       32561 non-null  int64 
 5   5       32561 non-null  object
 6   6       32561 non-null  object
 7   7       32561 non-null  object
 8   8       32561 non-null  object
 9   9       32561 non-null  object
 10  10      32561 non-null  int64 
 11  11      32561 non-null  int64 
 12  12      32561 non-null  int64 
 13  13      32561 non-null  object
 14  14      32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


Пропусков нет. Приведем таргет к числовому виду:

In [4]:
df[14] = df[14].map({' <=50K': 0, ' >50K': 1}) 
df[14]

0        0
1        0
2        0
3        0
4        0
        ..
32556    0
32557    1
32558    0
32559    0
32560    1
Name: 14, Length: 32561, dtype: int64

Оценим соотношение таргета:

In [5]:
df[14].value_counts()

0    24720
1     7841
Name: 14, dtype: int64

Посмотрим количество оригинальных значений у категориальных признаков (это нужно для определения параметра one_hot_max_size у catboost):

In [6]:
cat_features = [1, 3, 5, 6, 7, 8, 9, 13]
for i in cat_features:
    print(f'{i} feauture has {pd.unique(df[i]).shape[0]} unique values')

1 feauture has 9 unique values
3 feauture has 16 unique values
5 feauture has 7 unique values
6 feauture has 15 unique values
7 feauture has 6 unique values
8 feauture has 5 unique values
9 feauture has 2 unique values
13 feauture has 42 unique values


Сделаем разбиение на трейн и тест и обучим catboost:

In [7]:
X = df.copy()
X.drop(columns=14, inplace=True)
X_train, X_test, y_train, y_test = train_test_split(X, df[14], test_size=0.3, shuffle=True, stratify=df[14], random_state=42)

disbalance = y_train.value_counts()[0] / y_train.value_counts()[1]
cat_features = [1, 3, 5, 6, 7, 8, 9, 13]
frozen_params = {
     'class_weights':[1, disbalance], 
     'silent':True,
     'random_state':42,
     'cat_features':cat_features,
     'one_hot_max_size':42
}

model = catb.CatBoostClassifier(**frozen_params)

model.fit(X_train, y_train)
y_pred_proba = model.predict_proba(X_test)[:, 1]

precision, recall, thresholds = precision_recall_curve(y_test, y_pred_proba)

fscore = (2 * precision[:-10] * recall[:-10]) / (precision[:-10] + recall[:-10])
# locate the index of the largest f score
ix = np.argmax(fscore)
print('Best Threshold=%f, F-Score=%.3f, Precision=%.3f, Recall=%.3f, ROC_AUC=%.3f' % (thresholds[ix], 
                                                                                      fscore[ix],
                                                                                      precision[ix],
                                                                                      recall[ix],
                                                                                     roc_auc_score(y_test, y_pred_proba)))

Best Threshold=0.618866, F-Score=0.737, Precision=0.689, Recall=0.793, ROC_AUC=0.931


Применим Random Negative Sampling к нашему датасету. Причем долю положительных наблюдений будем варьировать от 0.1 до 0.9 от истинного количества положительного класса. После составим таблицу метрик в зависимости от доли положительных наблюдений.

In [8]:
# Создадим словарь с метриками
metric_dict = {
    'P_sample_size': [],
    'roc_auc': [],
    'best_threshold': [],
    'precision': [],
    'recall': [],
    'f1-score': []
}

np.random.seed(42)
X = df.copy()
X.drop(columns=14, inplace=True)
y_true = df[14]
# Создадим массив индексов с истинно положительным таргетом и перемешаем их:
tp_index = np.array(y_true.loc[y_true==1].index)
np.random.shuffle(tp_index)

for i in np.linspace(.1, .9, 9):
    
    # Возьмем выборку положительных индексов для random negative sampling:
    p_index = tp_index[:int(i*len(tp_index))]
    # Создадим таргет для random negative sampling:
    y_pu = pd.Series([0]*len(y_true))
    y_pu.loc[p_index] = 1
    # Извлечем выборку неразмеченных(Unlabeled) индексов и перемешаем их
    u_index = np.array(y_true.loc[~y_true.index.isin(p_index)].index)
    np.random.shuffle(u_index)
    # Создадим тестовую выборку из неразмеченных, размером в треть от всего датасета
    test_index = u_index[:int(0.3*len(y_true))]
    # Сщздадим обучающую выборку из положительных и оставшейся части неразмеченных индексов:
    train_index = np.concatenate((u_index[int(0.33*len(y_true)):], p_index))
    # Создадим обучающие и валидационные наборы данных:
    X_train, X_test = X.loc[train_index], X.loc[test_index]
    y_pu_train = y_pu.loc[train_index]
    y_true_test = y_true.loc[test_index]

    # Обучим модель catboost:
    disbalance = y_pu_train.value_counts()[0] / y_pu_train.value_counts()[1]
    cat_features = [1, 3, 5, 6, 7, 8, 9, 13]
    frozen_params = {
         'class_weights':[1, disbalance], 
         'silent':True,
         'random_state':42,
         'cat_features':cat_features,
         'one_hot_max_size':42
    }
    model = catb.CatBoostClassifier(**frozen_params)
    model.fit(X_train, y_pu_train)
    y_pred_proba = model.predict_proba(X_test)[:, 1]
    
    precision, recall, thresholds = precision_recall_curve(y_true_test, y_pred_proba)
    fscore = (2 * precision[:-10] * recall[:-10]) / (precision[:-10] + recall[:-10])
    ix = np.argmax(fscore)

    # Внесем метрики в словарь метрик
    metric_dict['P_sample_size'].append(i)
    metric_dict['roc_auc'].append(roc_auc_score(y_true_test, y_pred_proba))
    metric_dict['best_threshold'].append(thresholds[ix])
    metric_dict['precision'].append(precision[ix])
    metric_dict['recall'].append(recall[ix])
    metric_dict['f1-score'].append(fscore[ix])

In [9]:
RNS_report = pd.DataFrame(metric_dict)
RNS_report

Unnamed: 0,P_sample_size,roc_auc,best_threshold,precision,recall,f1-score
0,0.1,0.857741,0.212283,0.492634,0.77193,0.601439
1,0.2,0.893348,0.50826,0.595361,0.695783,0.641667
2,0.3,0.900461,0.563038,0.587573,0.683163,0.631773
3,0.4,0.919618,0.592385,0.585433,0.703289,0.638972
4,0.5,0.912939,0.620283,0.552448,0.692982,0.614786
5,0.6,0.921796,0.684284,0.564743,0.659381,0.608403
6,0.7,0.915961,0.784293,0.635311,0.526379,0.575738
7,0.8,0.924174,0.827817,0.61242,0.459069,0.524771
8,0.9,0.933081,0.865393,0.486486,0.456522,0.471028


Как видно по таблице, лучшими долями P_sample_size от общего количества положительных наблюдений по f1-score являются доли от 0.2 до 0.4. При этом метрика f1-score естественно ниже, чем при обычной классификации (там было 74%), так как при PU learning качество обучения модели падает из-за того, что в Unlabeled class находятся как positive так и negative наблюдения. Но между тем такой метод все равно позволяет нам найти похожие наблюдения, если брать наблюдения с максимальным predict_proba.