In [1]:
import numpy as np
import pandas as pd

# 1.Кросс-валидация

In [None]:
# Разбивая все данные на train, val и test мы делаем это случайным образом

# Поэтому может оказаться так, что данные val могут дать очень хорошие результаты, например, или наоборот плохие.

# Возникает риск столкнутся с искаженной подвыборкой. 

# Кросс-валидация - позволяет избежатеь этого.


In [None]:
# 1. Разбиваем все данные только на train и test

# 2. Делим train на несколько равных частей (например на три части)

# 3. Последовательно обучаемся на двух, а валидируемся на третьем. Потом меняемся.

# 4. Таким образом будет обучено ТРИ модели. У каждой модели будет своё качество (ROC AUC)

# 5. Считаем среднее качество всех трех моделей - это будет уверенное качество нашей целой модели.

# 6. Мы защищаем себя от того, чтобы в выборке не попалось что-то странное, чтобы не стать жертвой сэмплирования.

# 7. Чем стабильней ведет себя качество каждой из под-моделей - тем надежней модель в целом. Это надо учитывать.

# 8. Обычно разбивают на 5 или 10 кусочков (train - test) - это фолды.

# 9. Обязательно кросс-валидацию нужно делать когда у нас маленькие выборки.

# 10. Когда данных много на разных под-моделях мы не получим сильного разлета качества, но проверять всё равно надо.

## Кросс-валидация в CatBoost

In [3]:
df = pd.read_csv('Churn_Modelling.csv')

In [4]:
df

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


### Создание обучающей, валидационной и тестовой выборки

In [5]:
from sklearn.model_selection import train_test_split

# чтобы избегать неравносмерности доли целевого параметра нужно задавать startify

train, test = train_test_split(df, train_size = 0.6, random_state = 42, stratify = df['Exited'])

In [6]:
val, test = train_test_split(test, train_size = 0.5, random_state = 42, stratify = test['Exited'])

In [7]:
# делаем проверку:

print(train['Exited'].mean())
print(val['Exited'].mean())
print(test['Exited'].mean())

0.20366666666666666
0.204
0.2035


### Обучение модели (раздельные train и val)

In [8]:
from catboost import CatBoostClassifier

In [9]:
# обучимся на ВСЕХ фичах:

X = ['CustomerId', 'CreditScore', 'Geography',
       'Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard',
       'IsActiveMember', 'EstimatedSalary']
y = ['Exited']

# категориальные фичи = ['Geography', 'Gender']
cat_features = ['Geography', 'Gender']

In [10]:
# взяли кусок кода с pool c Tutorial: CatBoost Overview (https://www.kaggle.com/code/mitribunskiy/tutorial-catboost-overview)

from catboost import Pool

train_data = Pool(data=train[X],
                  label=train[y],
                  cat_features=cat_features
                 )

valid_data = Pool(data=val[X],
                  label=val[y],
                  cat_features=cat_features
                 )

In [11]:

params_2 = {'verbose':100,
            'eval_metric': 'AUC',
            'loss_function': 'Logloss',
            'random_seed': 42,
           'learning_rate': 0.01}

In [12]:
model_2 = CatBoostClassifier(**params_2)

In [13]:
# запускаем обучение:

# так мы запускали раньше:
# model_2.fit(train[X], train[y], eval_set = (val[X], val[y]))

# с использованием Pool для более чистого кода:
model_2.fit(train_data, eval_set = valid_data)

0:	test: 0.8338545	best: 0.8338545 (0)	total: 239ms	remaining: 3m 59s
100:	test: 0.8725090	best: 0.8725090 (100)	total: 3.03s	remaining: 27s
200:	test: 0.8784656	best: 0.8784656 (200)	total: 5.65s	remaining: 22.5s
300:	test: 0.8812676	best: 0.8812676 (300)	total: 8.32s	remaining: 19.3s
400:	test: 0.8823868	best: 0.8824376 (390)	total: 11s	remaining: 16.4s
500:	test: 0.8834491	best: 0.8834522 (498)	total: 13.8s	remaining: 13.7s
600:	test: 0.8834737	best: 0.8836554 (564)	total: 16.5s	remaining: 11s
700:	test: 0.8837847	best: 0.8838694 (685)	total: 19.2s	remaining: 8.17s
800:	test: 0.8834383	best: 0.8838694 (685)	total: 21.8s	remaining: 5.42s
900:	test: 0.8829318	best: 0.8838694 (685)	total: 24.6s	remaining: 2.71s
999:	test: 0.8822744	best: 0.8838694 (685)	total: 27.4s	remaining: 0us

bestTest = 0.8838694083
bestIteration = 685

Shrink model to first 686 iterations.


<catboost.core.CatBoostClassifier at 0x2618a414e20>

In [14]:
# здесь задаем лучшую итерацию, которую получили на предыдущем шаге 'bestIteration = 685'
n_iter = model_2.best_iteration_ + 1

In [15]:
n_iter

686

In [16]:
# проверка модели на тесте:

test['SCORE_NO_Cross_Validation_ONLY_TRAIN'] = model_2.predict_proba(test[X])[:, 1]

In [17]:
from sklearn.metrics import roc_auc_score

In [18]:
roc_auc_score(test['Exited'], test['SCORE_NO_Cross_Validation_ONLY_TRAIN'])

0.8713952781749392

### Обучение модели (совместно train и val) = train_full

In [48]:
train_full = pd.concat([train, val])

In [20]:
train_full

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
6851,6852,15779103,Cantamessa,527,Germany,Female,39,9,96748.89,2,1,0,94711.43,0
7026,7027,15588123,Horton,677,France,Female,27,2,0.00,2,0,1,114685.92,0
5705,5706,15698703,Doherty,628,Germany,Male,40,5,181768.32,2,1,1,129107.97,0
9058,9059,15802560,Moran,470,Spain,Female,48,6,140576.11,1,1,1,116971.05,0
9415,9416,15750407,Hunt,768,Germany,Female,43,2,129264.05,2,0,0,19150.14,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
926,927,15628303,Thurgood,738,Spain,Male,35,3,0.00,1,1,1,15650.73,0
6727,6728,15610416,Christie,745,France,Female,36,9,0.00,1,1,0,19605.18,1
4745,4746,15655410,Hinton,768,Germany,Male,49,1,133384.66,1,1,0,102397.22,1
1307,1308,15638806,Blackburn,645,Spain,Male,49,2,0.00,2,0,0,10023.15,0


In [61]:
from catboost import Pool

train_full_data = Pool(data=train_full[X],
                  label=train_full[y],
                  cat_features=cat_features
                 )

In [62]:
# берем итерацию, которую получили при обучении только на traine выше: bestIteration = 685

params_3 = {'verbose':100,
            
            'iterations': n_iter,
            
            'eval_metric': 'AUC',
            'loss_function': 'Logloss',
            'random_seed': 42,
           'learning_rate': 0.01}

In [63]:
model_3_1 = CatBoostClassifier(**params_3)

In [66]:
model_3_1.fit(train_full_data)

0:	total: 25.8ms	remaining: 17.7s
100:	total: 3.02s	remaining: 17.5s
200:	total: 5.87s	remaining: 14.2s
300:	total: 8.65s	remaining: 11.1s
400:	total: 11.4s	remaining: 8.1s
500:	total: 14s	remaining: 5.18s
600:	total: 16.7s	remaining: 2.36s
685:	total: 18.9s	remaining: 0us


<catboost.core.CatBoostClassifier at 0x2618a414850>

In [67]:
# проверка модели на тесте:

test['SCORE_NO_Cross_Validation'] = model_3_1.predict_proba(test[X])[:, 1]

In [68]:
from sklearn.metrics import roc_auc_score

In [69]:
roc_auc_score(test['Exited'], test['SCORE_NO_Cross_Validation'])

0.8735839074822127

# ТЕПЕРЬ ПРОДЕЛАЕМ ТО ЖЕ С КРОСС ВАЛИДАЦИЕЙ И СРАВНИМ roc_auc_score

In [None]:
# https://github.com/catboost/tutorials/blob/master/cross_validation/cv_tutorial.ipynb

In [28]:
# cv == cross_valiation

from catboost import cv


In [70]:

# parameters for training inside cv (передаем сюда наши прошлые параметры (получены на предыдущем шаге)
# но без количества итераций):

params_3 = {'verbose':100,           
                       
            'eval_metric': 'AUC',
            'loss_function': 'Logloss',
            'random_seed': 42,
           'learning_rate': 0.01}


In [30]:
cv_data = cv(
    params = params_3,
    pool = train_full_data,
    fold_count=5,
    shuffle=True,
    partition_random_seed=0,
    plot=True,
    stratified=False,
    verbose=False
)

MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

Training on fold [0/5]

bestTest = 0.866360207
bestIteration = 881

Training on fold [1/5]

bestTest = 0.8716621864
bestIteration = 998

Training on fold [2/5]

bestTest = 0.8695412245
bestIteration = 540

Training on fold [3/5]

bestTest = 0.8795945701
bestIteration = 942

Training on fold [4/5]

bestTest = 0.8586794872
bestIteration = 750



In [71]:
# в cv_data храниться информация по каждой итерации с достигнутым качеством:

cv_data

Unnamed: 0,iterations,test-AUC-mean,test-AUC-std,test-Logloss-mean,test-Logloss-std,train-Logloss-mean,train-Logloss-std
0,0,0.818479,0.009480,0.685020,0.000209,0.684939,0.000262
1,1,0.823848,0.010334,0.677216,0.000374,0.677055,0.000503
2,2,0.831819,0.009265,0.668989,0.000472,0.668799,0.000751
3,3,0.834559,0.008771,0.662008,0.001326,0.661753,0.000689
4,4,0.834483,0.008218,0.654599,0.001429,0.654270,0.000898
...,...,...,...,...,...,...,...
995,995,0.868703,0.007809,0.329986,0.016873,0.284097,0.003644
996,996,0.868715,0.007781,0.329972,0.016875,0.284057,0.003631
997,997,0.868718,0.007804,0.329972,0.016876,0.284003,0.003636
998,998,0.868725,0.007777,0.329969,0.016855,0.283943,0.003613


In [72]:
# найдем итерацию на котором среднее ROC AUC было максимальным:

cv_data[cv_data['test-AUC-mean'] == cv_data['test-AUC-mean'].max()]

Unnamed: 0,iterations,test-AUC-mean,test-AUC-std,test-Logloss-mean,test-Logloss-std,train-Logloss-mean,train-Logloss-std
741,741,0.868822,0.007457,0.330818,0.017005,0.297428,0.004326


In [73]:
# сохраним это в n_iters чтобы у нас было задано точное количество итераций которое надо делать

n_iters = cv_data[cv_data['test-AUC-mean'] == cv_data['test-AUC-mean'].max()]['iterations'].values[0]

n_iters

741

In [74]:
# теперь обучаем модель на выборке train_full с n_iters, которые получили выше:


params_3 = {'verbose':100,
            
            'iterations': n_iters,
                       
            'eval_metric': 'AUC',
            'loss_function': 'Logloss',
            'random_seed': 42,
           'learning_rate': 0.01}

In [75]:
model_3_2 = CatBoostClassifier(**params_3)

In [76]:
model_3_2.fit(train_full_data)

0:	total: 26.1ms	remaining: 19.3s
100:	total: 3.02s	remaining: 19.1s
200:	total: 5.79s	remaining: 15.6s
300:	total: 8.46s	remaining: 12.4s
400:	total: 11.2s	remaining: 9.47s
500:	total: 13.8s	remaining: 6.62s
600:	total: 16.6s	remaining: 3.86s
700:	total: 19.3s	remaining: 1.1s
740:	total: 20.3s	remaining: 0us


<catboost.core.CatBoostClassifier at 0x2618a416080>

In [77]:
# проверка модели на тесте:

test['SCORE_YES_Cross_Validation'] = model_3_2.predict_proba(test[X])[:, 1]

In [78]:
from sklearn.metrics import roc_auc_score

In [79]:
roc_auc_score(test['Exited'], test['SCORE_NO_Cross_Validation'])

0.8735839074822127

In [80]:
roc_auc_score(test['Exited'], test['SCORE_YES_Cross_Validation'])

0.8737196364315009

# 28.05.2023

# 2. Подбор гипер параметров

In [84]:
# catboost делает всё с заданными параметрами, но также можно настраивать:


# чтобы вывести все параметры: (это и есть гипер параметры)


model_3_2.get_all_params()

{'nan_mode': 'Min',
 'eval_metric': 'AUC',
 'combinations_ctr': ['Borders:CtrBorderCount=15:CtrBorderType=Uniform:TargetBorderCount=1:TargetBorderType=MinEntropy:Prior=0/1:Prior=0.5/1:Prior=1/1',
  'Counter:CtrBorderCount=15:CtrBorderType=Uniform:Prior=0/1'],
 'iterations': 741,
 'sampling_frequency': 'PerTree',
 'fold_permutation_block': 0,
 'leaf_estimation_method': 'Newton',
 'counter_calc_method': 'SkipTest',
 'grow_policy': 'SymmetricTree',
 'penalties_coefficient': 1,
 'boosting_type': 'Plain',
 'model_shrink_mode': 'Constant',
 'feature_border_type': 'GreedyLogSum',
 'ctr_leaf_count_limit': 18446744073709551615,
 'bayesian_matrix_reg': 0.10000000149011612,
 'one_hot_max_size': 2,
 'eval_fraction': 0,
 'force_unit_auto_pair_weights': False,
 'l2_leaf_reg': 3,
 'random_strength': 1,
 'rsm': 1,
 'boost_from_average': False,
 'max_ctr_complexity': 4,
 'model_size_reg': 0.5,
 'simple_ctr': ['Borders:CtrBorderCount=15:CtrBorderType=Uniform:TargetBorderCount=1:TargetBorderType=MinEntro

In [None]:
# как работать с гипер параметрами:

In [90]:
# сначала определяем параметры, которые менять не будем:

params = {'verbose':100,           
                       
            'eval_metric': 'AUC',
            'loss_function': 'Logloss',
            'random_seed': 42}

In [94]:
model = CatBoostClassifier(**params)

In [95]:
# задаем сетку параметров которые надо перебирать, подбирая наилучшую модель:

grid = {'learning_rate': [0.01, 0.1],
       'depth': [5, 6]}

In [96]:
# запускаем модель которая перебирает все заданные параметры
# ОНА РАБОТАЕТ ОЧЕНЬ ДОЛГО - НЕ ЗАПУСКАЙ
# result = model.grid_search(grid, train_full_data, verbose = False)

0:	test: 0.7811641	best: 0.7811641 (0)	total: 20.2ms	remaining: 20.2s
100:	test: 0.8435462	best: 0.8435769 (99)	total: 2.43s	remaining: 21.6s
200:	test: 0.8508923	best: 0.8508923 (200)	total: 4.72s	remaining: 18.8s
300:	test: 0.8547897	best: 0.8547897 (300)	total: 6.99s	remaining: 16.2s
400:	test: 0.8569385	best: 0.8569385 (400)	total: 9.5s	remaining: 14.2s
500:	test: 0.8576410	best: 0.8576410 (500)	total: 12.6s	remaining: 12.6s
600:	test: 0.8585538	best: 0.8585538 (600)	total: 15.8s	remaining: 10.5s
700:	test: 0.8590923	best: 0.8591487 (694)	total: 18.9s	remaining: 8.06s
800:	test: 0.8593590	best: 0.8595564 (749)	total: 21.9s	remaining: 5.43s
900:	test: 0.8593282	best: 0.8595564 (749)	total: 24.4s	remaining: 2.68s
999:	test: 0.8593897	best: 0.8595974 (986)	total: 26.8s	remaining: 0us

bestTest = 0.8595974359
bestIteration = 986

Metric AUC is not calculated on train by default. To calculate this metric on train, add hints=skip_train~false to metric parameters.
0:	test: 0.7811641	best:

In [97]:
# получаем лучшие параметры, которые были найдены в результате такого перебора:

result['params']

{'depth': 5, 'learning_rate': 0.1}

In [100]:
# также можем посмотреть какое там было получено качество:

pd.DataFrame(result['cv_results'])['test-AUC-mean'].max()

0.8689660773549619

# 3. Принципы sklearn

In [None]:
# есть много туториалов, для CatBoost не так важно, т.к. делается по-другому

In [None]:
# https://towardsdatascience.com/how-to-use-sklearn-pipelines-for-ridiculously-neat-code-a61ab66ca90d

# 4. Предобработка и фиче инжинириг 

In [None]:
# создание новых фич на основании существующих

# например фича скорость - это фича расстояние поделить на фичу время

# 5. Калибровка

In [None]:
# при классификации мы на выходе получаем SCORE 

# SCORE может соответствовать вероятности, а может и не соответствовать

# для соответствия SCORE вероятности мы должны делать калибровку 

In [None]:
# https://www.kaggle.com/code/residentmario/notes-on-classification-probability-calibration

In [None]:
https://catboost.ai/en/docs/concepts/quantization

https://www.kaggle.com/learn/feature-engineering

# 6. CatBoost текст и эмбеддинги

In [None]:
# встроенная обработка текстов в CatBoost - встроенный пересчет текста в фичи

# для работы с текстом просто достаточно:

text_features = text_features

In [None]:
https://github.com/catboost/catboost/blob/master/catboost/tutorials/events/2020_06_04_catboost_tutorial/text_features.ipynb

https://youtu.be/ZaP5qFSIcIw?t=3802

In [None]:
# эмбеддинги это фичи которые получаются из картинок

# скармливаем картинку - на выходе получаем строчку фичей

In [None]:
# !!! https://github.com/glebmikha/ds-course/blob/main/08_useful_stuff.ipynb !!!

In [None]:
Прикладное машинное обучение с помощью Scikit-Learn, Keras и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем, 2-е издание | Жерон Орельен
Задачи на kaggle, вот список для начинающих
Откликайся на вакансии и решай тестовые. Можешь смотреть тестовые по дс у меня на канале
Мой курс по статистике
Задачи по pandas и sql на StrataScratch
Мой курс по SQL
Задачи на itresume
Задачи на Checkio
Задачи на Leetcode вот по этому списку
Мой плейлист по основам Linux
Основы Git
Основы докера
Основы веб-сервисов

In [None]:
# !!! https://github.com/glebmikha/ds-course/blob/main/08_useful_stuff.ipynb !!!