# CatBoost

# Статьи:

https://habr.com/ru/articles/594077/

https://habr.com/ru/companies/otus/articles/778714/

# Документация:
https://catboost.ai/en/docs/concepts/python-reference_catboost_fit

# Импорт data

In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
import numpy as np

In [2]:
train_df = pd.read_excel('train.xlsx')
test_df = pd.read_excel('test.xlsx')

In [3]:
train_df.head().style

Unnamed: 0,ID,Находится в реестре МСП,Размер уставного капитала объявленный,Численность персонала по данным ФНС.Количество,Карточка клиента (внешний источник).Индекс платежной дисциплины Значение,Карточка клиента (внешний источник).Индекс финансового риска Значение,Провозная плата (период 1),Провозная плата (период 2),Объем перевозок(тн) (период 1),Объем перевозок(тн) (период 2),positive_action,Devotion,Churn
0,9,0,0,18,0,27,0,168141,0,50,1,1.0,0
1,25,0,0,361,0,25,12754399,18211112,31095,34923,0,1.0,0
2,33,0,443485350,1987,84,21,80731499,105789052,28510,31213,0,48.99102,1
3,86,0,0,0,0,0,0,0,0,0,0,1.0,0
4,115,0,20773333,1211,96,16,79490420,113617841,30340,41348,2,56.083486,1


In [4]:
X = train_df.drop("Churn", axis=1)
y = train_df["Churn"]

In [5]:
cat_features = list(range(1, 13)) #пропускает первое значение, т.к. ID не катигориальный признак (12 признаков из 13)
print(cat_features)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]


In [6]:
print(f"Labels: {set(y)}")
print(f"Zero count: {len(y)-sum(y)}, One count: {sum(y)}")

Labels: {0, 1}
Zero count: 190, One count: 62


In [7]:
# подготовка датасета
train_df.to_csv(('train.tsv'), 
                index=False, sep='\t', header=False)


test_df.to_csv(('test.tsv'), 
              index=False, sep='\t', header=False)


train_df.to_csv(('train.csv'),
                index=False, sep=',', header=True)


test_df.to_csv(('test.csv'),
              index=False, sep=',', header=True)

In [11]:
from catboost.utils import create_cd

feature_names = dict()

for column, name in enumerate(train_df):
    if column == 0:
        continue
    feature_names[column-1] = name
    

create_cd(
    
    cat_features=list(range(1, train_df.columns.shape[0])),
    feature_names=feature_names,
    output_path='train.cd'
)

In [16]:
pool1 = Pool(data=X, label=y, cat_features=cat_features)

pool2 = Pool(
    data=os.path.join(dataset_dir, 'train.csv'),
    delimiter=',',
    column_description=os.path.join(dataset_dir, 'train.cd'),
    has_header=True
)

pool3 = Pool(data=X, cat_features=cat_features)

X_prepared = X.values.astype(str).astype(object)

pool4 = Pool(
    data=FeaturesData(
        cat_feature_data=X_prepared,
        cat_feature_names=list(X)
    ),
    label=y.values
)

print("Dataset shape")
print(f"Dataset 1: {str(pool1.shape)}")
print(f"Dataset 2: {str(pool2.shape)}")
print(f"Dataset 3: {str(pool3.shape)}")
print(f"Dataset 4: {str(pool4.shape)}")
print()
print("Column names")
print(f"Dataset 1: {pool1.get_feature_names()}")
print(f"Dataset 2: {pool2.get_feature_names()}")
print(f"Dataset 3: {pool3.get_feature_names()}")
print(f"Dataset 4: {pool4.get_feature_names()}")

NameError: name 'Pool' is not defined

# Нормализация Log Transformation

In [46]:
df[['Размер уставного капитала объявленный', 'Численность персонала по данным ФНС.Количество', 
    'Карточка клиента (внешний источник).Индекс платежной дисциплины Значение', 
    'Карточка клиента (внешний источник).Индекс финансового риска Значение',
    'Провозная плата (период 1)', 'Провозная плата (период 2)',
    'Объем перевозок(тн) (период 1)', 'Объем перевозок(тн) (период 2)',
    'positive_action', 'Devotion' 
    ]] = np.log1p(df[['Размер уставного капитала объявленный', 'Численность персонала по данным ФНС.Количество', 
    'Карточка клиента (внешний источник).Индекс платежной дисциплины Значение', 
    'Карточка клиента (внешний источник).Индекс финансового риска Значение',
    'Провозная плата (период 1)', 'Провозная плата (период 2)',
    'Объем перевозок(тн) (период 1)', 'Объем перевозок(тн) (период 2)',
    'positive_action', 'Devotion']])

# ...продолжение основной части

In [17]:
y = df['Devotion'] # используется параметр с плавающей точкой

X = df[['Размер уставного капитала объявленный', 'Численность персонала по данным ФНС.Количество', 
    'Карточка клиента (внешний источник).Индекс платежной дисциплины Значение', 
    'Карточка клиента (внешний источник).Индекс финансового риска Значение',
    'Провозная плата (период 1)', 'Провозная плата (период 2)',
    'Объем перевозок(тн) (период 1)', 'Объем перевозок(тн) (период 2)',
    'positive_action']]


In [18]:
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split

In [39]:
# Загрузка данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.6, random_state=42)

# Создание и обучение модели с автоматической обработкой категориальных данных
model = CatBoostClassifier(iterations=1000, learning_rate=0.1, depth=8)
model.fit(X_train, y_train)

# Оценка производительности модели
accuracy = model.score(X_test, y_test)
print(f"Accuracy: {accuracy}")

0:	learn: 3.1778205	total: 61.2ms	remaining: 1m 1s
1:	learn: 2.9511562	total: 119ms	remaining: 59.2s
2:	learn: 2.7931030	total: 176ms	remaining: 58.4s
3:	learn: 2.6128458	total: 235ms	remaining: 58.5s
4:	learn: 2.4511606	total: 298ms	remaining: 59.2s
5:	learn: 2.3464730	total: 355ms	remaining: 58.8s
6:	learn: 2.2246164	total: 408ms	remaining: 57.8s
7:	learn: 2.1204118	total: 459ms	remaining: 57s
8:	learn: 2.0196230	total: 472ms	remaining: 52s
9:	learn: 1.9355256	total: 525ms	remaining: 52s
10:	learn: 1.8678596	total: 582ms	remaining: 52.3s
11:	learn: 1.8072663	total: 637ms	remaining: 52.4s
12:	learn: 1.7578813	total: 687ms	remaining: 52.2s
13:	learn: 1.6950253	total: 746ms	remaining: 52.5s
14:	learn: 1.6413821	total: 804ms	remaining: 52.8s
15:	learn: 1.5822640	total: 861ms	remaining: 52.9s
16:	learn: 1.5377135	total: 917ms	remaining: 53s
17:	learn: 1.4875267	total: 970ms	remaining: 52.9s
18:	learn: 1.4478183	total: 1.03s	remaining: 53s
19:	learn: 1.4162826	total: 1.08s	remaining: 52.9s

In [20]:
accuracy = model.score(X_test, y_test)
print(f"Accuracy: {accuracy}")

Accuracy: 0.0


In [23]:
predictions = model.predict(X_test)
print(predictions)

[[0.69314718]
 [0.69314718]
 [0.69314718]
 [4.06252432]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [3.9627161 ]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [4.08093882]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [4.06783915]
 [4.00712442]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [3.9118433 ]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [0.69314718]
 [4.07193184]
 [0.69314718]
 [0.69314718]
 [4.04929113]
 [0.69314718]
 [0.69314718]
 [4.08170414]
 [0.69314718]
 [0.69314718]]


In [11]:
log_transformed_predictions = np.array(predictions)  
# результат в %
original_predictions = np.exp(log_transformed_predictions)
print(original_predictions)

[[ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [58.12084158]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [52.5999991 ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [59.20102264]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [58.43056614]
 [54.98851933]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [49.99101553]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [ 2.        ]
 [58.67019455]
 [ 2.        ]
 [ 2.        ]
 [57.35678435]
 [ 2.        ]
 [ 2.        ]
 [59.24634792]
 [ 2.        ]
 [ 2.        ]]


In [30]:
X_test.head(30).style

Unnamed: 0,Размер уставного капитала объявленный,Численность персонала по данным ФНС.Количество,Карточка клиента (внешний источник).Индекс платежной дисциплины Значение,Карточка клиента (внешний источник).Индекс финансового риска Значение,Провозная плата (период 1),Провозная плата (период 2),Объем перевозок(тн) (период 1),Объем перевозок(тн) (период 2),positive_action
73,9.21044,2.197225,0.0,4.382027,0.0,0.0,0.0,0.0,0.0
280,16.811243,3.912023,0.0,3.688879,0.0,0.0,0.0,0.0,0.0
25,16.118096,4.762174,0.0,1.94591,15.452219,16.117869,8.627123,9.117786,0.0
255,0.0,0.0,4.564348,0.0,12.642565,12.311824,3.583519,4.795791,0.0
9,15.909133,3.367296,0.0,3.73767,0.0,0.0,0.0,0.0,0.693147
101,11.513415,5.463832,4.394449,3.912023,13.789377,10.962093,7.323171,4.204693,0.0
176,0.0,3.806662,4.430817,2.302585,15.200883,14.731223,7.343426,6.507278,0.0
186,9.21044,1.609438,0.0,2.639057,0.0,0.0,0.0,0.0,0.0
63,11.512935,3.178054,0.0,3.295837,16.428574,16.447116,9.644976,9.686202,0.0
116,18.159316,8.257126,4.454347,2.564949,0.0,0.0,0.0,0.0,0.0
