# Подготовка инструментов

Импорт необходимых инструментов

In [2]:
%load_ext autoreload
%autoreload 2

Создадим перцептрон со случаными весами для имитации сложной функции

In [3]:
import numpy as np
import pandas as pd

relu = np.vectorize(lambda x: x if x>0 else 0.)
sigm = lambda x: 1./(1+np.exp(-x))

vec_sizes = [45, 45, 45, 20, 15, 1]

def perceptron(xx, vec_sizes):
    
    xx_ext = xx
    generator = np.random.RandomState(43)
    
    for i, new_size in enumerate(vec_sizes):
        xx_ext = np.hstack([np.ones((xx_ext.shape[0], 1)), xx_ext])
        
        weights = generator.normal(0., 1, size=(xx_ext.shape[1], new_size))
        
        xx_ext = relu(xx_ext.dot(weights))
        
    return np.floor(xx_ext.reshape((-1,)))

# Генерация данных, построение модели

Сгенерируем нормально распределенные фичи и с помощью случайного 
перцептрона сымитируем зависимость целевой переменной. Сгенерированный 
датафрейм состоит из признаков, которые вошли в итоговую модель.

Предположим, что факторы feat_3, feat_8, feat_13, feat_27
являются защищенными характеристиками

In [4]:
# Генератор 
gen = np.random.RandomState(42)


# Генерация признаков
X = pd.DataFrame(data=gen.normal(50., 100., size=(30000, 30)),
                 columns=[f'feat_{i}' for i in range(30)],
                 index=[i for i in range(30000)])


# Имитация зависимости
y = pd.Series(data=1*(perceptron(X.values, [60, 32, 12, 5, 1])>0),
              index=[i for i in range(30000)],
              name='target'
             )

# Защищенные характеристики 
fair_factors = ['feat_3', 'feat_8', 'feat_13', 'feat_27']

# Остальные признаки
no_fair_factors = list(set(X.columns) - set(fair_factors))

Сгенеруем защищенные характеристики и "руками" внесем дискриминацию.
С помощью другого случайного перцептрона сымитируем зависимость 
одного защищенного фактора от признаков, не являющихся защищенными характеристиками

In [5]:
# Генерация
X['feat_3'] = gen.randint(18, 40, size=(30000,))

# Внесение "руками" дискриминации
X['feat_3'][y>0]=gen.randint(30, 41, size=(len(X['feat_3'][y>0]),))

# Генерация
X['feat_8'] = gen.choice([0, 1], size=(30000,), p=[0.4, 0.6])

# Внесение "руками" дискриминации
X['feat_8'][y>0]=gen.choice([0, 1], size=(len(X['feat_8'][y>0]),), p=[0.1, 0.9])

# Генерация
X['feat_13'] = gen.uniform(0, 10, size=(30000,))

# Имитация зависимости 
X['feat_27'] = perceptron(X[no_fair_factors].values, vec_sizes)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X['feat_3'][y>0]=gen.randint(30, 41, size=(len(X['feat_3'][y>0]),))
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X['feat_8'][y>0]=gen.choice([0, 1], size=(len(X['feat_8'][y>0]),), p=[0.1, 0.9])


Разобьем данные и закинем их в sampler, также создадим scorer(он необходим для любой валидации, но имеено в тестах по fairness он не используется, поэтому выберем самый обычный)

In [6]:
from sklearn.model_selection import train_test_split
from sbe_vallib.sampler.supervised_sampler import SupervisedSampler
from sbe_vallib.scorer.table_scorer import BinaryScorer

X_train, X_oos, y_train, y_oos = train_test_split(X, y, 
                                                  test_size=0.1, 
                                                  random_state=42,
                                                  stratify=y)
sampler = SupervisedSampler(train={'X': X_train, 'y_true': y_train}, oos={'X': X_oos, 'y_true': y_oos})
scorer = BinaryScorer()

Построим итоговую модель, она должны быть в sklearn-like формате, то есть реализовать методы predict_proba, fit, predict И АТРИБУТ classes_

In [7]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

model = RandomForestClassifier()
model.fit(sampler.train['X'], sampler.train['y_true'])
roc_auc_score(sampler.oos['y_true'], model.predict_proba(sampler.oos['X'])[:, 1])

0.928486405179499

# Пайплайн fairness

Создадим object validation и передадим в него конфиг для fairness анализа

In [8]:
from sbe_vallib.validation import Validation

In [9]:
# Первый способ, это передать, просто путь до конфига, но тогда придется, для каждого теста прописать значения для параметра protected_feats
# Не думаю, что это удобно
val = Validation(model=model,
                 sampler=sampler,
                 scorer=scorer,
                 pipeline='../src/sbe_vallib/table/pipelines/fairness_config.xlsx')

In [10]:
# второй способ это считать config.xlxs из файла и затем дополнить получившийся json тем, что нам надо

val = Validation(model=model,
                 sampler=sampler,
                 scorer=scorer,
                 pipeline='../src/sbe_vallib/table/pipelines/fairness_config.xlsx')

for test_key in val.pipeline['tests_desc']:
    val.pipeline['tests_desc'][test_key]['params'].update({'protected_feats': fair_factors})
val.pipeline['tests_desc']['test_indirect_discr']['params']

{'conf_lvl': 0.95,
 'n_bootstrap': 200,
 'random_seed': 1,
 'protected_feats': ['feat_3', 'feat_8', 'feat_13', 'feat_27']}

In [24]:
#третий наиболее удобный это воспользоваться агрументом валидации tests_params. этот словарь будет передаваться в каждый тест с наивысшим приоритетом.
# перед этим конфиг считается, поэтому абсолютно все параметры передавать не надо.

val = Validation(model=model,
                 sampler=sampler,
                 scorer=scorer,
                 pipeline='../src/sbe_vallib/table/pipelines/fairness_config.xlsx',
                 tests_params={'protected_feats': fair_factors, 'min_freq_pos': 0.00, 'min_freq_value': 0.03, 'cat_features': None},
                 exclude_tests=[],
                 store_path='./fairness_results')
print(f'fair_facotrs: {fair_factors}')

fair_facotrs: ['feat_3', 'feat_8', 'feat_13', 'feat_27']


In [25]:
pd.isna(np.nan)

True

In [26]:
#Возможны warning по поводу, взятия среднего по пустому списку - это нормально, просто при подсчете TPR FPR, получилось так, что есть только один класс
res = val.validate(save_excel=True)

  groups_metric['fpr'].append(source_preds[target == 0].mean())
  ret = ret.dtype.type(ret / rcount)
  swap_preds[target == 0].mean())


In [None]:
#Итак у нас получились следующие тесты
res.keys()

In [None]:
res['test_indirect_discr']['result_dataframes'][0]

In [None]:
res['test_target_rate_delta']['result_dataframes'][0]

In [None]:
res['test_tprd_fprd_delta']['result_dataframes'][0]

In [None]:
res['test_oppr_priv_ci']['result_dataframes'][0]

# Пайплайн fairness для реальных данных 

У вас должны быть:
1) выборки train и OOS
2) используемые признаки - здесь я взял их из модели разработчика
3) обученная вами модель valid_model с методом predict_proba
4) категориальные признаки - если не уверены, оставляйте в вызове метода FairnessValidation cat_features=[]

In [None]:
fair_factors = ['sd_gender_cd',
'sd_age_yrs_frac_nv',
'sd_age_yrs_comp_nv',
'sd_client_valid_nflag',
'sd_stlmnt_type_cd',
'sd_russian_citizen_nflag',
'sd_resident_nflag',
'sd_sbrf_employee_nflag',
'dep_social_client_nflag',
'lne_coborrower_nflag',
'lne_loan_overdue_nflag',
'prl_employee_dzo_nflag',
'prl_social_disab_pension_nflag',
'seg_client_mp_segment_cd',
'seg_crd_pos_cat_group',
'seg_crd_trx_segm',
'seg_crd_trx_subsegm',
'seg_age_segment',
'sd_name_age_segment_cd',
'sd_age_mnth_comp_nv',
'sd_cb_staff_nflag',
'client_region']
feats_for_analyse = list(set(model.used_features) & set(fair_factors))