## Bank Marketing Data Set

In [1]:
import pandas as pd
import numpy as np
data = pd.read_csv("bank.csv", sep=';')
data.head(3)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no


In [2]:
list_replace = ['default', 'housing', 'loan', 'y']

### Информация об атрибутах:

Входные переменные:
#### данные клиента банка:
1 - возраст (числовой)
2 - работа: тип работы (категориальный: «администратор», «синий воротничок», «предприниматель», «домработница», «менеджмент», «пенсионер» , «самозанятый», «услуги», «студент», «техник», «безработный», «неизвестен»)
3 - в браке: семейное положение (категориальное: «разведен», «женат», «холост», «неизвестен». '; примечание:' разведенный 'означает разведенный или овдовевший)
4 - образование (категориальные:' basic.4y ',' basic.6y ',' basic.9y ',' high.school ',' неграмотный ',' professional.course ' ',' university.degree ',' unknown ')
5 - по умолчанию: есть кредит по умолчанию? (категорично: 'нет', '
да »,« неизвестно ») 6 - жилье: есть жилищная ссуда? (категорично: «нет», «да», «неизвестно»)
7 - заем: есть ли личный заем? (категорично: «нет», «да», «неизвестно»)
#### связанный с последним контактом текущей кампании:
8 - контакт: тип связи контакта (категориальный: 'сотовый', 'телефон')
9 - месяц: последний месяц контакта в году (категориальный: 'jan', 'feb', ' мар ', ...,' ноя ',' декабрь ')
10 - day_of_week: последний контактный день недели (категориальный:' пн ',' вт ',' ср ',' чт ',' пт ')
11 - duration: продолжительность последнего контакта в секундах (числовое значение). Важное примечание: этот атрибут сильно влияет на цель вывода (например, если длительность = 0, то y = «нет»). Тем не менее, продолжительность вызова до выполнения вызова неизвестна. Кроме того, после окончания звонка, очевидно, известно y. Таким образом, эти входные данные следует включать только для целей эталонного тестирования и от них следует отказаться, если предполагается получить реалистичную прогностическую модель.
#### другие атрибуты:
12 - кампания: количество контактов, выполненных во время этой кампании и для этого клиента (числовое, включая последний контакт)
13 - дней: количество дней, прошедших после того, как с клиентом последний раз связались из предыдущей кампании (числовое; 999 означает, что клиент не был ранее связывался)
14 - предыдущий: количество контактов, выполненных до этой кампании и для этого клиента (числовое значение)
15 - poutcome: результат предыдущей маркетинговой кампании (категориальные: «неудача», «несуществующий», «успех»)
#### социальные и экономические атрибуты контекста
16 - emp.var.rate: уровень вариации занятости - квартальный показатель (числовой)
17 - cons.price.idx: индекс потребительских цен - месячный показатель (числовой)
18 - cons.conf.idx: индекс доверия потребителей - месячный показатель (числовой)
19 - euribor3m: 3-месячная ставка euribor - дневной показатель (числовой)
20 - кол-во занятых: количество сотрудников - квартальный показатель (числовой)

Выходная переменная (желаемая target):
21 - y - подписался ли клиент на срочный депозит? (двоичный: «да», «нет»)

In [3]:
data.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0
mean,41.170095,1422.657819,15.915284,263.961292,2.79363,39.766645,0.542579
std,10.576211,3009.638142,8.247667,259.856633,3.109807,100.121124,1.693562
min,19.0,-3313.0,1.0,4.0,1.0,-1.0,0.0
25%,33.0,69.0,9.0,104.0,1.0,-1.0,0.0
50%,39.0,444.0,16.0,185.0,2.0,-1.0,0.0
75%,49.0,1480.0,21.0,329.0,3.0,-1.0,0.0
max,87.0,71188.0,31.0,3025.0,50.0,871.0,25.0


In [4]:
data.isna().sum()

age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64

In [5]:
data[list_replace].value_counts()

default  housing  loan  y  
no       yes      no    no     1927
         no       no    no     1381
         yes      yes   no      370
         no       no    yes     279
                  yes   no      255
         yes      no    yes     192
yes      yes      no    no       31
no       yes      yes   yes      25
         no       yes   yes      16
yes      no       no    no       13
                  yes   no       12
         yes      yes   no       11
         no       no    yes       4
         yes      no    yes       3
         no       yes   yes       2
dtype: int64

In [6]:
for col in list_replace:
    data.replace({col: {'yes': 1, 'no': 0}}, inplace=True)

In [7]:
data

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,0,1787,0,0,cellular,19,oct,79,1,-1,0,unknown,0
1,33,services,married,secondary,0,4789,1,1,cellular,11,may,220,1,339,4,failure,0
2,35,management,single,tertiary,0,1350,1,0,cellular,16,apr,185,1,330,1,failure,0
3,30,management,married,tertiary,0,1476,1,1,unknown,3,jun,199,4,-1,0,unknown,0
4,59,blue-collar,married,secondary,0,0,1,0,unknown,5,may,226,1,-1,0,unknown,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4516,33,services,married,secondary,0,-333,1,0,cellular,30,jul,329,5,-1,0,unknown,0
4517,57,self-employed,married,tertiary,1,-3313,1,1,unknown,9,may,153,1,-1,0,unknown,0
4518,57,technician,married,secondary,0,295,0,0,cellular,19,aug,151,11,-1,0,unknown,0
4519,28,blue-collar,married,secondary,0,1137,0,0,cellular,6,feb,129,4,211,3,other,0


In [8]:
dict_month = {'jan': 1, 'feb': 2, 'mar': 3, 'apr': 4, 'may': 5,
              'jun': 6, 'jul': 7, 'aug': 8, 'sep': 9, 'oct':10,
              'nov': 11, 'dec':12}

In [9]:
data.replace({'month': dict_month}, inplace=True)

In [10]:
data

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,0,1787,0,0,cellular,19,10,79,1,-1,0,unknown,0
1,33,services,married,secondary,0,4789,1,1,cellular,11,5,220,1,339,4,failure,0
2,35,management,single,tertiary,0,1350,1,0,cellular,16,4,185,1,330,1,failure,0
3,30,management,married,tertiary,0,1476,1,1,unknown,3,6,199,4,-1,0,unknown,0
4,59,blue-collar,married,secondary,0,0,1,0,unknown,5,5,226,1,-1,0,unknown,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4516,33,services,married,secondary,0,-333,1,0,cellular,30,7,329,5,-1,0,unknown,0
4517,57,self-employed,married,tertiary,1,-3313,1,1,unknown,9,5,153,1,-1,0,unknown,0
4518,57,technician,married,secondary,0,295,0,0,cellular,19,8,151,11,-1,0,unknown,0
4519,28,blue-collar,married,secondary,0,1137,0,0,cellular,6,2,129,4,211,3,other,0


In [11]:
from sklearn.model_selection import train_test_split

x_data = data.iloc[:,:-1]
y_data = data.iloc[:,-1]

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=12, shuffle=True, stratify=y_data)

In [12]:
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.preprocessing import StandardScaler

class ColumnSelector(BaseEstimator, TransformerMixin):
    """
    Transformer to select a single column from the data frame to perform additional transformations on
    """
    def __init__(self, key):
        self.key = key

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X[self.key]
    
class NumberSelector(BaseEstimator, TransformerMixin):
    """
    Transformer to select a single column from the data frame to perform additional transformations on
    Use on numeric columns in the data
    """
    def __init__(self, key):
        self.key = key

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X[[self.key]]
    
class OHEEncoder(BaseEstimator, TransformerMixin):
    def __init__(self, key):
        self.key = key
        self.columns = []

    def fit(self, X, y=None):
        self.columns = [col for col in pd.get_dummies(X, prefix=self.key).columns]
        return self

    def transform(self, X):
        X = pd.get_dummies(X, prefix=self.key)
        test_columns = [col for col in X.columns]
        for col_ in test_columns:
            if col_ not in self.columns:
                X[col_] = 0
        return X[self.columns]

In [16]:
continuos_cols = ['age', 'balance', 'duration', 'pdays']
cat_cols = ['job', 'marital', 'education', 'contact', 'poutcome']
base_cols = ['default', 'housing', 'loan', 'day', 'month', 'campaign', 'previous']

continuos_transformers = []
cat_transformers = []
base_transformers = []

for cont_col in continuos_cols:
    transfomer =  Pipeline([
                ('selector', NumberSelector(key=cont_col)),
                ('standard', StandardScaler())
            ])
    continuos_transformers.append((cont_col, transfomer))
    
for cat_col in cat_cols:
    cat_transformer = Pipeline([
                ('selector', ColumnSelector(key=cat_col)),
                ('ohe', OHEEncoder(key=cat_col))
            ])
    cat_transformers.append((cat_col, cat_transformer))
    
for base_col in base_cols:
    base_transformer = Pipeline([
                ('selector', NumberSelector(key=base_col))
            ])
    base_transformers.append((base_col, base_transformer))

In [17]:
feats = FeatureUnion(continuos_transformers+cat_transformers+base_transformers)
feature_processing = Pipeline([('feats', feats)])

x_train_ = feature_processing.fit_transform(x_train)
x_test_ = feature_processing.fit_transform(x_test)

In [21]:
feature_processing.fit_transform(x_train)

array([[-0.6728763 , -0.33463046, -0.62284097, ...,  7.        ,
         3.        ,  0.        ],
       [ 1.39765875, -0.24881964, -0.79436124, ...,  6.        ,
         1.        ,  0.        ],
       [-1.80225905, -0.08502864, -0.55423286, ...,  6.        ,
         1.        ,  0.        ],
       ...,
       [ 0.17416077, -0.0687148 , -0.21500388, ...,  5.        ,
         3.        ,  0.        ],
       [-1.3316829 ,  2.26579632,  0.73788653, ...,  5.        ,
         2.        ,  1.        ],
       [ 1.30354352, -0.1816066 , -0.64189878, ..., 10.        ,
         1.        ,  3.        ]])

In [119]:
import xgboost as xgb

model = xgb.XGBClassifier(max_depth=4, n_estimators=100, reg_lambda=0.8, use_label_encoder=False, random_state=12, subsample=0.3)

model.fit(x_train_, y_train)
y_predict = model.predict(x_test_)



In [120]:
from sklearn.metrics import recall_score, precision_score, roc_auc_score, accuracy_score, f1_score

table = {
    'model': [],
    'f1': [],
    'ROC-AUC': [],
    'recall': [],
    'precision': []
}

def evaluate_results(y_test, y_predict, name):
    table['model'].append(name)
    print('Classification results:')
    f1 = f1_score(y_test, y_predict)
    table['f1'].append(f1)
    print("f1: %.2f%%" % (f1 * 100.0))
    roc = roc_auc_score(y_test, y_predict)
    table['ROC-AUC'].append(roc)
    print("roc: %.2f%%" % (roc * 100.0)) 
    rec = recall_score(y_test, y_predict, average='binary')
    table['recall'].append(rec)
    print("recall: %.2f%%" % (rec * 100.0)) 
    prc = precision_score(y_test, y_predict, average='binary')
    table['precision'].append(prc)
    print("precision: %.2f%%" % (prc * 100.0)) 

    
evaluate_results(y_test, y_predict, 'default')

Classification results:
f1: 52.70%
roc: 72.42%
recall: 50.00%
precision: 55.71%


y_pred_tr = model.predict(x_train_)
evaluate_results(y_train, y_pred_tr)

Попался очень вредный набор данных - переобучиться как нефиг.
поднастроив гиперпараметры f1 получилоось поднять до 52 (до этого болталось вообще в районе 42 на тесте при схожих показателях на трейне.

In [121]:
list_p = [0.1, 0.15, 0.20, 0.25, 0.4, 0.6, 0.8]
for el in list_p:
    mod_data = data.copy()
    mod_data = pd.DataFrame(feature_processing.fit_transform(mod_data))
    mod_data['y'] = data['y']
    #get the indices of the positives samples
    pos_ind = np.where(mod_data.iloc[:,-1].values == 1)[0]
    #shuffle them
    np.random.shuffle(pos_ind)
    # leave just 25% of the positives marked
    pos_sample_len = int(np.ceil(el * len(pos_ind)))
    print(f'Using {pos_sample_len}/{len(pos_ind)} as positives and unlabeling the rest')
    pos_sample = pos_ind[:pos_sample_len]
    mod_data['class_test'] = -1
    mod_data.loc[pos_sample,'class_test'] = 1
    print('target variable:\n', mod_data.iloc[:,-1].value_counts())
    x_data = mod_data.iloc[:,:-2].values # just the X 
    y_labeled = mod_data.iloc[:,-1].values # new class (just the P & U)
    y_positive = mod_data.iloc[:,-2].values # original class
    mod_data = mod_data.sample(frac=1)
    neg_sample = mod_data[mod_data['class_test']==-1][:len(mod_data[mod_data['class_test']==1])]
    sample_test = mod_data[mod_data['class_test']==-1][len(mod_data[mod_data['class_test']==1]):]
    pos_sample = mod_data[mod_data['class_test']==1]
    print(neg_sample.shape, pos_sample.shape)
    sample_train = pd.concat([neg_sample, pos_sample]).sample(frac=1)
    model = xgb.XGBClassifier(max_depth=4, n_estimators=100, reg_lambda=0.8, use_label_encoder=False, random_state=12, subsample=0.3)


    model.fit(sample_train.iloc[:,:-2].values, 
              sample_train.iloc[:,-2].values)
    y_predict = model.predict(sample_test.iloc[:,:-2].values)
    evaluate_results(sample_test.iloc[:,-2].values, y_predict, f'P = {el}')

Using 53/521 as positives and unlabeling the rest
target variable:
 -1    4468
 1      53
Name: class_test, dtype: int64
(53, 39) (53, 39)
Classification results:
f1: 35.91%
roc: 72.25%
recall: 70.69%
precision: 24.06%
Using 79/521 as positives and unlabeling the rest
target variable:
 -1    4442
 1      79
Name: class_test, dtype: int64
(79, 39) (79, 39)
Classification results:
f1: 34.52%
roc: 71.72%
recall: 68.97%
precision: 23.02%
Using 105/521 as positives and unlabeling the rest
target variable:
 -1    4416
 1     105
Name: class_test, dtype: int64
(105, 39) (105, 39)
Classification results:
f1: 38.43%
roc: 78.54%
recall: 82.67%
precision: 25.04%
Using 131/521 as positives and unlabeling the rest
target variable:
 -1    4390
 1     131
Name: class_test, dtype: int64
(131, 39) (131, 39)
Classification results:
f1: 37.01%
roc: 78.19%
recall: 81.79%
precision: 23.92%
Using 209/521 as positives and unlabeling the rest
target variable:
 -1    4312
 1     209
Name: class_test, dtype: in

In [122]:
pd.DataFrame(data=table).sort_values('f1', ascending=False)

Unnamed: 0,model,f1,ROC-AUC,recall,precision
0,default,0.527027,0.724188,0.5,0.557143
3,P = 0.2,0.38435,0.785391,0.826733,0.250375
4,P = 0.25,0.370149,0.781909,0.817942,0.239198
1,P = 0.1,0.359059,0.722469,0.706897,0.240646
2,P = 0.15,0.345224,0.717154,0.689655,0.230238
5,P = 0.4,0.321406,0.795711,0.864865,0.197379
6,P = 0.6,0.253942,0.774599,0.780612,0.151635
7,P = 0.8,0.166845,0.817515,0.847826,0.092527


Странно, однако, лучше всего сработало с долей P = 0.2, причем такое ощущение, что просто случайный разброс без видимых зависимостей и уровень P нужно подбирать эксперементальным путем...
Правда и датасет впринципе мутный попался)) даже общее качество модели вытянуть еще с бубном нужно потанцевать, правда и на генерацию фичей времени не было, может это и поправило бы ситуацию.
Впрочем, этот датасет лучше, чем первый который взял (там вообще бы не получилось сравнивать, потому что там два положения - либо модель не обучилась совсем либо сразу метрики до 1 взлетают)))