In [1]:
!pip install graphviz



In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np

# Загрузка исходных данных из файла parquet
data_cleaned = pd.read_parquet('data/data_cleaned.parquet')
data_cleaned['Год'] = pd.to_numeric(data_cleaned['Год'], errors='coerce')

columns_to_drop = [       
  ' Выручка, RUB',
' Краткосрочные обязательства, RUB', ' Кредиторская задолженность, RUB',
' Нераспределенная прибыль (непокрытый убыток), RUB',
' Себестоимость продаж, RUB', ' Собственный оборотный капитал, RUB',' Активы  всего, RUB'
]
data_cleaned = data_cleaned.drop(columns=columns_to_drop)


# Список столбцов, для которых нужно рассчитать изменения в процентах за последний год
columns_to_calculate = [' Cooтношение дебиторской задолженности к активам компании, %',
       ' Доля рабочего капитала в активах компании, %',
       ' Коэффициент абсолютной ликвидности, %',
       ' Коэффициент быстрой ликвидности, %',
       ' Коэффициент обеспеченности собственными оборотными средствами, %',
       ' Коэффициент оборачиваемости совокупных активов, %',
       ' Коэффициент соотношения заемных и собственных средств, %',
       ' Коэффициент текущей ликвидности, %',
       ' Период оборота активов, дни', ' Период оборота запасов, дни',
       ' Период оборота основных средств, дни',
       ' Период погашения дебиторской задолженности, дни',
       ' Период погашения кредиторской задолженности, дни',
       ' Рентабельность активов (ROA), %', ' Рентабельность затрат, %',
       ' Рентабельность капитала (ROE), %', ' Рентабельность продаж, %',
       ' Соотношение чистого долга к капиталу, %']

# Выбор последних двух годов для каждой компании
last_years_data = data_cleaned.groupby('Наименование').apply(lambda x: x.nlargest(2, 'Год')).reset_index(drop=True)

def calculate_percentage_change(df, columns, years):
    if len(df) < years:
        return pd.Series([float('NaN')] * len(columns), index=columns)
    changes = (df.iloc[years-1][columns] - df.iloc[0][columns]) / df.iloc[0][columns] * 100
    return changes

# Вычисление изменений в процентах за последние 2 и 3 года для указанных столбцов
last_2_years_changes = data_cleaned.groupby('Наименование').apply(calculate_percentage_change, columns=columns_to_calculate, years=2)
last_3_years_changes = data_cleaned.groupby('Наименование').apply(calculate_percentage_change, columns=columns_to_calculate, years=3)
last_4_years_changes = data_cleaned.groupby('Наименование').apply(calculate_percentage_change, columns=columns_to_calculate, years=4)

# Замена пропусков на нули
last_2_years_changes = last_2_years_changes.fillna(0)
last_3_years_changes = last_3_years_changes.fillna(0)
last_4_years_changes = last_4_years_changes.fillna(0)
# Переименование столбцов
last_2_years_changes.columns = [col + '_change_last_2_years' for col in last_2_years_changes.columns]
last_3_years_changes.columns = [col + '_change_last_3_years' for col in last_3_years_changes.columns]
last_4_years_changes.columns = [col + '_change_last_4_years' for col in last_4_years_changes.columns]


# Объединение информации об изменениях с исходным датафреймом
data_cleaned = pd.merge(data_cleaned, last_2_years_changes, on='Наименование', how='left')
data_cleaned = pd.merge(data_cleaned, last_3_years_changes, on='Наименование', how='left')
data_cleaned = pd.merge(data_cleaned, last_4_years_changes, on='Наименование', how='left')
# Вывод результата
data_cleaned


FileNotFoundError: [Errno 2] No such file or directory: 'data/data_cleaned.parquet'

In [None]:
# Фильтруем данные по категориальной переменной
bankrupt_data = data_cleaned[data_cleaned['Категориальная переменная'] == True]
no_bankrupt_data = data_cleaned[data_cleaned['Категориальная переменная'] == False]

# Приводим столбец 'Год' в тип int для компаний
no_bankrupt_data['Год'] = no_bankrupt_data['Год'].astype(int)
bankrupt_data['Год'] = bankrupt_data['Год'].astype(int)
no_bankrupt_data

In [None]:
# Вычисляем год иска для компаний, которые банкроты
bankrupt_data['Год иска'] = bankrupt_data['Дата иска'].apply(lambda x: x.year - 2 if x.month > 3 else x.year - 1)

# Фильтруем банкроты по году
filtered_data = bankrupt_data[bankrupt_data['Год'] == bankrupt_data['Год иска']]
filtered_data

In [None]:
# Сортировка данных по столбцам "наименование" и "год"
sorted_data = no_bankrupt_data.sort_values(by=['Наименование', 'Год'])

# Группировка данных по столбцу "наименование" и выбор последней строки из каждой группы
last_year_data = sorted_data.groupby('Наименование').tail(1)
last_year_data

In [None]:
no_matched_data = pd.concat([last_year_data, filtered_data], ignore_index=True)

no_matched_data.to_parquet('data/no_matched_data.parquet')

# Save the matching_data DataFrame as an Excel file
no_matched_data.to_excel('data/no_matched_data.xlsx', index=False)
no_matched_data

In [None]:
y = no_matched_data['Категориальная переменная']

X = no_matched_data.select_dtypes(exclude=['object'])

X = X.drop(columns=['index','Регистрационный номер','Код налогоплательщика','Категориальная переменная','Дата иска','Год иска'])
X

In [None]:
# Разделите данные на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=42, stratify=y)

# ДОРАБОТКА - валидационная выборка для ROC кривой
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.15, random_state=42, stratify=y_train)

# Check for infinite or NaN values in X_train and replace them with a suitable value
X_train.replace([np.inf, -np.inf, np.nan], 0, inplace=True)

# Check for infinite or NaN values in X_val and replace them with a suitable value
X_val.replace([np.inf, -np.inf, np.nan], 0, inplace=True)

# Check for infinite or NaN values in X_test and replace them with a suitable value
X_test.replace([np.inf, -np.inf, np.nan], 0, inplace=True)

X_train.columns = ["".join(c if c.isalnum() or c in {'_', '.'} else '_' for c in str(x)) for x in X_train.columns]
X_val.columns = ["".join(c if c.isalnum() or c in {'_', '.'} else '_' for c in str(x)) for x in X_val.columns]
X_test.columns = ["".join(c if c.isalnum() or c in {'_', '.'} else '_' for c in str(x)) for x in X_test.columns]

y_train = y_train.astype(int)
y_val = y_val.astype(int)
y_test = y_test.astype(int)

In [None]:
# Сохраняем данные в формате parquet
X_train.to_parquet('data/X_train.parquet', index=False)
X_val.to_parquet('data/X_val.parquet', index=False)
X_test.to_parquet('data/X_test.parquet', index=False)
y_train.to_frame().to_parquet('data/y_train.parquet', index=False)
y_val.to_frame().to_parquet('data/y_val.parquet', index=False)
y_test.to_frame().to_parquet('data/y_test.parquet', index=False)


In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, classification_report
from math import sqrt

def calculate_regression_metrics(y_true, y_pred):
    # Вычисление MAE
    mae = mean_absolute_error(y_true, y_pred)
    print(f"MAE: {mae}")

    # Вычисление MSE и RMSE
    mse = mean_squared_error(y_true, y_pred)
    rmse = sqrt(mse)
    print(f"MSE: {mse}")
    print(f"RMSE: {rmse}")

    # # Вычисление MAPE
    # mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    # print(f"MAPE: {mape}%")

    # Вычисление R^2
    r2 = r2_score(y_true, y_pred)
    print(f"R^2: {r2}")

def calculate_classification_metrics(y_true, y_pred):
    # Округление предсказаний
    y_pred_rounded = [round(value) for value in y_pred]

    # Вычисление метрик классификации
    classification_metrics = classification_report(y_true, y_pred_rounded)
    print(classification_metrics)

# Вызов функции метрик для задачи регрессии с LGBM

# Предположим, что preds_class - предсказанные вероятности или классы модели классификации
# преобразуем вероятности в классы, если это необходимо, прежде чем использовать функцию calculate_classification_metrics()
# примерно так: 
# затем вызываем функцию метрик для задачи классификации (если у вас задача классификации)
#print("Metrics for LightGBM (Classification):")
#

# Замечание: Удалите или закомментируйте вызов функции для задачи классификации, если у вас задача регрессии

In [None]:
# ДОРАБОТКА 1 - ФУНКЦИЯ ПОСТРОЕНИЯ ROC кривой и вывод AUC score

from sklearn.metrics import roc_curve, roc_auc_score, auc
import matplotlib.pyplot as plt

def build_roc_curve(y_test, preds):
    fpr, tpr, thresholds = roc_curve(y_test, preds)
    roc_auc = auc(fpr, tpr)
    
    plt.figure(figsize=(8, 6))
    plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
    plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('False Positive Rate (FPR)')
    plt.ylabel('True Positive Rate (TPR)')
    plt.title('Receiver Operating Characteristic (ROC)')
    plt.legend(loc="lower right")
    plt.show()
    
    auc_score = roc_auc_score(y_test, preds)
    print("AUC: ", auc_score)

In [None]:
import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.model_selection import train_test_split

# Предполагается, что X и y - это ваш датасет
# X = ... # Ваши входные данные (features)
# y = ... # Ваша целевая переменная (target)
zxc = "_auto"
# Загружаем данные из формата parquet
# X_train = pd.read_parquet(f'data/X_train.parquet{zxc}')
# X_val = pd.read_parquet(f'data/X_val.parquet{zxc}')
# X_test = pd.read_parquet(f'data/X_test.parquet{zxc}')
# y_train = pd.read_parquet(f'data/y_train.parquet{zxc}')
# y_val = pd.read_parquet(f'data/y_val.parquet{zxc}')
# y_test = pd.read_parquet(f'data/y_test.parquet{zxc}')
# Задаем гиперпараметры для LightGBM
params = {
    "boosting": "dart",
    "lambda_l1": 0.6908619234998079,
    "lambda_l2": 0.3955923595617765,
    "bagging_fraction": 0.8517327079270671,
    "bagging_freq": 1,
    "num_leaves": 40,
    "max_depth": 9,
    "learning_rate": 0.04650198552323694,
    "max_bin": 700,
    "num_iterations": 400,
}

# # Разделение данных на тренировочный и тестовый наборы
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

model_lgb = lgb.LGBMClassifier(**params)
# Обучение модели
model_lgb.fit(X_train, y_train)
# Предсказание для тестового набора данных
lgbm_preds_bin = model_lgb.predict(X_val)
print("Metrics for LightGBM (Classifier):") # ДОРАБОТКА: исправил название в тексте на Classifier
calculate_classification_metrics(y_val, lgbm_preds_bin) # Здесь тоже зачем-то вызывались метрики регрессии

In [None]:
# ДОРАБОТКА 1.1 - эксперимент на LGBM
# результат странный, наверное из-за специфики LGBM - upd: проблема была в регрессии, исправили
lgbm_preds = model_lgb.predict_proba(X_val)[:, 1]
build_roc_curve(y_val, lgbm_preds)

In [None]:
lgb.plot_tree(model_lgb, tree_index=0, figsize=(15,10), show_info=['split_gain', 'internal_value', 'internal_count', 'leaf_count'])
plt.savefig('lgbm_tree.png', dpi=300)
plt.show()

In [None]:
zxc = "_auto"
# Загружаем данные из формата parquet
# X_train = pd.read_parquet(f'data/X_train.parquet{zxc}')
# X_test = pd.read_parquet(f'data/X_test.parquet{zxc}')
# y_train = pd.read_parquet(f'data/y_train.parquet{zxc}')
# y_test = pd.read_parquet(f'data/y_test.parquet{zxc}')


import xgboost as xgb
params = {
    'objective': 'binary:logistic',
    "max_depth": 11,
    "n_estimators": 1500,
    "learning_rate": 0.056505476002963344,
    "subsample": 0.7,
    "gamma": 0.1493988264994933,
    "min_child_weight": 0.14882816532567922,
    "max_delta_step": 0.4260247335309186,
    "colsample_bytree": 0.9068581911881414,
    "reg_alpha": 0.6330159374879993,
    "reg_lambda": 0.8476194476619723,
    "scale_pos_weight": 0.9468520576013162
}
model_xgb = xgb.XGBClassifier()
model_xgb.fit(X_train, y_train)
# Предсказание для тестового набора данных
xgb_preds_bin = model_xgb.predict(X_val)
print("Metrics for XGBOOST (Classification):")

calculate_classification_metrics(y_val, xgb_preds_bin)

In [None]:
# ДОРАБОТКА 1.2 ROC AUC для XGB

val_preds_xgb = model_xgb.predict_proba(X_val)[:, 1]
build_roc_curve(y_val, val_preds_xgb)

# Далее для любой другой регрессии также можно вызвать эту функцию, передав y_val и результат модели на тестовой выборке.

In [None]:
xgb.plot_tree(model_xgb, num_trees=0, rankdir='LR')
plt.savefig('xgb_tree.png', dpi=600)
plt.show()

In [None]:
from sklearn.metrics import confusion_matrix

# Получаем вероятности класса 1 (положительный класс)
val_preds_xgb = model_xgb.predict_proba(X_val)[:, 1]

# Инициализируем списки для хранения значений sensitivity и specificity
sensitivities = []
specificities = []

# Итерируемся по различным порогам от 0 до 1
thresholds = np.linspace(0, 1, 500) # увеличили точность, но можно делать по реальным порогам
for cutoff in thresholds:
    # Получаем предсказанные классы по текущему порогу
    predicted_classes = (val_preds_xgb >= cutoff).astype(int)
    
    # Считаем матрицу ошибок
    tn, fp, fn, tp = confusion_matrix(y_val, predicted_classes).ravel()
    
    # Рассчитываем sensitivity и specificity
    sensitivity = tp / (tp + fn)
    specificity = tn / (tn + fp)
    
    # Добавляем в список
    sensitivities.append(sensitivity)
    specificities.append(specificity)


# Строим график
plt.figure(figsize=(10, 6))
plt.plot(thresholds, sensitivities, label="XGB Sensitivity")
plt.plot(thresholds, specificities, label="XGB Specificity")
plt.title("XGB Sensitivity and Specificity vs. Probability Cutoff")
plt.xlabel("Probability Cutoff Threshold")
plt.ylabel("Sensitivity/Specificity")
plt.legend()
plt.grid(True)
plt.show()

# Определение оптимального порога как точки пересечения
# Находим индекс минимальной разницы между sensitivity и specificity
index_of_optimal_threshold = np.argmin(np.abs(np.array(sensitivities) - np.array(specificities)))
optimal_threshold_xgb = thresholds[index_of_optimal_threshold]
print(f"Optimal Threshold: {optimal_threshold_xgb}")

In [None]:
# Получаем вероятности класса 1 (положительный класс)
val_preds_lgb = model_lgb.predict_proba(X_val)[:, 1]

# Инициализируем списки для хранения значений sensitivity и specificity
sensitivities = []
specificities = []

# Итерируемся по различным порогам от 0 до 1
thresholds = np.linspace(0, 1, 500) # увеличили точность, но можно делать по реальным порогам
for cutoff in thresholds:
    # Получаем предсказанные классы по текущему порогу
    predicted_classes = (val_preds_lgb >= cutoff).astype(int)
    
    # Считаем матрицу ошибок
    tn, fp, fn, tp = confusion_matrix(y_val, predicted_classes).ravel()
    
    # Рассчитываем sensitivity и specificity
    sensitivity = tp / (tp + fn)
    specificity = tn / (tn + fp)
    
    # Добавляем в список
    sensitivities.append(sensitivity)
    specificities.append(specificity)


# Строим график
plt.figure(figsize=(10, 6))
plt.plot(thresholds, sensitivities, label="LGBM Sensitivity")
plt.plot(thresholds, specificities, label="LGBM Specificity")
plt.title("LGBM Sensitivity and Specificity vs. Probability Cutoff")
plt.xlabel("Probability Cutoff Threshold")
plt.ylabel("Sensitivity/Specificity")
plt.legend()
plt.grid(True)
plt.show()

# Определение оптимального порога как точки пересечения
# Находим индекс минимальной разницы между sensitivity и specificity
index_of_optimal_threshold = np.argmin(np.abs(np.array(sensitivities) - np.array(specificities)))
optimal_threshold_lgb = thresholds[index_of_optimal_threshold]
print(f"Optimal Threshold: {optimal_threshold_lgb}")

In [None]:
predicted_classes = (model_xgb.predict_proba(X_test)[:,1] >= optimal_threshold_xgb).astype(int)
calculate_classification_metrics(y_test, predicted_classes)

In [None]:
predicted_classes = (model_lgb.predict_proba(X_test)[:,1] >= optimal_threshold_lgb).astype(int)
calculate_classification_metrics(y_test, predicted_classes)

In [None]:
model_lgb.predict_proba(X_test)[0] # вероятности классов у 1 строки
# вероятность 0 (не банкротства), вероятность 1 (банкротства)
# [0.9969689, 0.0030311] - список двух вероятностей

In [None]:
model_lgb.predict_proba(X_test)[0][1]
# берём только вероятность 1 (банкротства)

In [None]:
# ДОРАБОТКА 2 - модель Альтмана

params_public = (1.2,  1.4, 3.3, 0.6, 1.0)
params_private = (0.717, 0.847, 3.107, 0.42, 0.995)

def altman_z_score(row, P = None):
    
    if not P:
        P = (1.2,  1.4, 3.3, 0.6, 1.0)

    X1 = row[' Доля рабочего капитала в активах компании, %']/100
    X2 = row[' Нераспределенная прибыль (непокрытый убыток), RUB'] / row[' Активы  всего, RUB']
    X3 = (row[' Выручка, RUB'] - row[' Себестоимость продаж, RUB']) / row[' Активы  всего, RUB']
    X4 = row[' Собственный оборотный капитал, RUB'] / (row[' Краткосрочные обязательства, RUB'] + row[' Кредиторская задолженность, RUB'])
    X5 = row[' Выручка, RUB'] / row[' Активы  всего, RUB']
    # X5 - ' Коэффициент оборачиваемости совокупных активов, %'/100

    Z = P[0] * X1 + P[1] * X2 + P[2] * X3 + P[3] * X4 + P[4] * X5
    
    return Z

In [None]:
X_test.columns[:19]

In [None]:
# переименование столбцов обратно в исходные

column_mapping = {
    'Год': 'Год',
    '_Cooтношение_дебиторской_задолженности_к_активам_компании___': ' Cooтношение дебиторской задолженности к активам компании, %',
    '_Доля_рабочего_капитала_в_активах_компании___': ' Доля рабочего капитала в активах компании, %',
    '_Коэффициент_абсолютной_ликвидности___': ' Коэффициент абсолютной ликвидности, %',
    '_Коэффициент_быстрой_ликвидности___': ' Коэффициент быстрой ликвидности, %',
    '_Коэффициент_обеспеченности_собственными_оборотными_средствами___': ' Коэффициент обеспеченности собственными оборотными средствами, %',
    '_Коэффициент_оборачиваемости_совокупных_активов___': ' Коэффициент оборачиваемости совокупных активов, %',
    '_Коэффициент_соотношения_заемных_и_собственных_средств___': ' Коэффициент соотношения заемных и собственных средств, %',
    '_Коэффициент_текущей_ликвидности___': ' Коэффициент текущей ликвидности, %',
    '_Период_оборота_активов__дни': ' Период оборота активов, дни',
    '_Период_оборота_запасов__дни': ' Период оборота запасов, дни',
    '_Период_оборота_основных_средств__дни': ' Период оборота основных средств, дни',
    '_Период_погашения_дебиторской_задолженности__дни': ' Период погашения дебиторской задолженности, дни',
    '_Период_погашения_кредиторской_задолженности__дни': ' Период погашения кредиторской задолженности, дни',
    '_Рентабельность_активов__ROA____': ' Рентабельность активов (ROA), %',
    '_Рентабельность_затрат___': ' Рентабельность затрат, %',
    '_Рентабельность_капитала__ROE____': ' Рентабельность капитала (ROE), %',
    '_Рентабельность_продаж___': ' Рентабельность продаж, %',
    '_Соотношение_чистого_долга_к_капиталу___': ' Соотношение чистого долга к капиталу, %'
}

# Create a new DataFrame with renamed columns from X_test
# X_test_filtered = X_test[list(column_mapping.keys())] #!!! странное поведение датафрейма
X_test_renamed = X_test.rename(columns=column_mapping)
X_test_renamed.columns

In [None]:
# создание датасета с всеми нужными столбцами для модели Альтмана
# некоторые данные загружены из исходного датасета потому что в начале были удалены
# далее проверки что мэтч произошёл бесшовно

df = pd.read_parquet('data/data_cleaned.parquet')
df['Год'] = pd.to_numeric(df['Год'], errors='coerce')

columns_to_match = ['Год', '_Доля_рабочего_капитала_в_активах_компании___',
                    '_Коэффициент_абсолютной_ликвидности___', '_Коэффициент_быстрой_ликвидности___',
                    '_Коэффициент_обеспеченности_собственными_оборотными_средствами___',
                    '_Коэффициент_оборачиваемости_совокупных_активов___',
                    '_Коэффициент_соотношения_заемных_и_собственных_средств___',
                    '_Коэффициент_текущей_ликвидности___', '_Период_оборота_активов__дни',
                    '_Период_оборота_запасов__дни', '_Период_оборота_основных_средств__дни',
                    '_Период_погашения_дебиторской_задолженности__дни',
                    '_Период_погашения_кредиторской_задолженности__дни',
                    '_Рентабельность_активов__ROA____', '_Рентабельность_затрат___',
                    '_Рентабельность_капитала__ROE____', '_Рентабельность_продаж___',
                    '_Соотношение_чистого_долга_к_капиталу___']

# список колонок на мэтч написан старый, переименовали его по словарю
columns_to_match = [column_mapping.get(col, col) for col in columns_to_match]

# Соединение датафрейма по общим столбцам
matched_df = pd.merge(X_test_renamed, df, on=columns_to_match, how='inner')

In [None]:
len(X_test_renamed)

In [None]:
len(matched_df)

In [None]:
matched_df.isnull().sum().sum()

In [None]:
matched_df.columns

In [None]:
preds_altman = matched_df.apply(altman_z_score, axis=1)
preds_altman.describe()

In [None]:
zxc = ""
y_test = pd.read_parquet(f'data/y_test.parquet{zxc}')
print(y_test.index)

In [None]:
# выбросы в датасете приводят к сильным выбросам модели альтмана, их нужно удалить

invalid_indexes = preds_altman[(preds_altman < 0) | (preds_altman > 4)].index

preds_altman_filtered = preds_altman.drop(invalid_indexes)
y_test_filtered = y_test.drop(invalid_indexes, axis='index')

preds_altman_filtered.describe()

In [None]:
# нормализованный предикт, от 0 до 1

preds_altman_norm = (preds_altman_filtered - preds_altman_filtered.min()) / (preds_altman_filtered.max() - preds_altman_filtered.min())
preds_altman_norm.describe()

In [None]:
# ИНВЕРТИРУЕМ ТАК КАК У АЛЬТМАНА больше = стабильнее, а у нас больше = банкрот

preds_altman_norm=1-preds_altman_norm

In [None]:
# оценка предикта простым округлением

# ДЛЯ ПРИМЕРА, ДАЛЕЕ БОЛЕЕ ОБЪЕКТИВНАЯ ОЦЕНКА

print(classification_report(y_test_filtered, [round(i) for i in preds_altman_norm]))

In [None]:
# оценка предикта ROC AUC

build_roc_curve(y_test_filtered, preds_altman_norm)

In [None]:
# оценим как классификатор
# но по сути это бессмысленно, просто так мы можем не удалять выбросы

threshold = 1.81
# (1.81+2.99)/2

binary_preds_altman = preds_altman.apply(lambda x: 1 if x < threshold else 0)

print(classification_report(y_test, binary_preds_altman))

In [None]:
# попробуем с параметрами для непубличных компаний

preds_altman = matched_df.apply(altman_z_score, P = params_private, axis=1)

invalid_indexes = preds_altman[(preds_altman < 0) | (preds_altman > 4)].index

preds_altman_filtered = preds_altman.drop(invalid_indexes)
y_test_filtered = y_test.drop(invalid_indexes)

preds_altman_norm = (preds_altman_filtered - preds_altman_filtered.min()) / (preds_altman_filtered.max() - preds_altman_filtered.min())

preds_altman_norm=1-preds_altman_norm

print(classification_report(y_test_filtered, [round(i) for i in preds_altman_norm]))
build_roc_curve(y_test_filtered, preds_altman_norm)

In [None]:
# модель Таффлера

def taffler_score(row):
    working_capital = row[' Собственный оборотный капитал, RUB']
    total_assets = row[' Активы  всего, RUB']
    retained_earnings = row[' Нераспределенная прибыль (непокрытый убыток), RUB']
    ebit = row[' Выручка, RUB'] - row[' Себестоимость продаж, RUB']
    total_liabilities = row[' Краткосрочные обязательства, RUB']
    book_value_of_equity = total_assets - total_liabilities  # Приближенное значение

    if total_assets == 0 or total_liabilities == 0:  # Избегаем деления на ноль
        return pd.NA  # Возвращаем специальный NA тип данных pandas для отсутствующих данных

    working_capital_to_assets = working_capital / total_assets
    retained_earnings_to_assets = retained_earnings / total_assets
    ebit_to_assets = ebit / total_assets
    book_equity_to_liabilities = book_value_of_equity / total_liabilities

    return (0.53 * working_capital_to_assets +
            0.13 * retained_earnings_to_assets +
            0.18 * ebit_to_assets +
            0.16 * book_equity_to_liabilities)

In [None]:
preds_taffler = matched_df.apply(taffler_score, axis=1)
preds_taffler.describe()

In [None]:
# посмотрим метрики обычной классификации

threshold = 0.25

print(classification_report(y_test, [round(i) for i in preds_taffler.apply(lambda x: 1 if x < threshold else 0)]))

In [None]:
# наоборот

print(classification_report(y_test, [round(i) for i in preds_taffler.apply(lambda x: 0 if x < threshold else 1)]))

In [None]:
invalid_indexes = preds_taffler[(preds_taffler < 0) | (preds_taffler > 0.35)].index

preds_taffler_filtered = preds_taffler.drop(invalid_indexes)
y_test_filtered = y_test.drop(invalid_indexes)

preds_taffler_norm = (preds_taffler_filtered - preds_taffler_filtered.min()) / (preds_taffler_filtered.max() - preds_taffler_filtered.min())

preds_taffler_norm=1-preds_taffler_norm

# print(classification_report(y_test_filtered, [round(i) for i in preds_taffler_norm]))
build_roc_curve(y_test_filtered, preds_taffler_norm)

In [None]:
# ДОРАБОТКА 666
# baseline модель
# что будет если объявить всех не банкротами

y_pred_cringe = [0 for pred in y_test]
calculate_classification_metrics(y_test, y_pred_cringe)
build_roc_curve(y_test, y_pred_cringe)