In [2]:
!pip install xlrd

Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m96.5/96.5 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: xlrd
Successfully installed xlrd-2.0.1


In [3]:
import pandas as pd

# Загрузка данных, пропуская первую строку (заголовок)
volumes = pd.read_excel('/kaggle/input/da-rzhd/transportation_volumes.xls', header=None, skiprows=1)

# Заполнение NaN пустыми строками для корректного объединения
volumes = volumes.fillna('')

# Объединение значений второй и третьей строки, чтобы создать заголовки
new_headers = volumes.iloc[0].astype(str) + ' ' + volumes.iloc[1].astype(str)

# Применение новых заголовков
volumes.columns = new_headers

# Удаление строк, использованных для создания заголовков
volumes = volumes.drop([0, 1]).reset_index(drop=True)

# Удалить лишние пробелы из названий столбцов
volumes.columns = volumes.columns.str.strip()

# Сохранение уникальных ID
unique_ids = volumes['ID'].unique()

# Проверка результата
print(volumes.head())


      ID Субъект федерации отп  Субъект федерации наз Код груза  \
0  21220     Рязанская область   Оренбургская область     39146   
1    912     Кировская область    Саратовская область     32411   
2    912     Кировская область        Приморский край     32411   
3    912     Кировская область  Удмуртская Республика     32411   
4    912     Кировская область   Оренбургская область     32411   

  Месяц Гр груза по опер.номен 2022/08 Провозная плата  \
0                       МЕТИЗЫ                       0   
1               ЧЕРНЫЕ МЕТАЛЛЫ                       0   
2               ЧЕРНЫЕ МЕТАЛЛЫ                  675705   
3               ЧЕРНЫЕ МЕТАЛЛЫ                       0   
4               ЧЕРНЫЕ МЕТАЛЛЫ                       0   

  2022/08 Объем перевозок(тн) 2023/10 Провозная плата  \
0                           0                       0   
1                           0                       0   
2                         203                       0   
3                   

In [4]:
# Группируем данные по 'ID' и суммируем все денежные показатели, начиная с 5-го столбца
summed_volumes = volumes.groupby('ID').sum().iloc[:, 4:]

# Создание DataFrame для удобного отображения результата
result_volumes = summed_volumes.reset_index()

# Отображение результата
print(result_volumes)

        ID 2022/08 Провозная плата 2022/08 Объем перевозок(тн)  \
0        9                       0                           0   
1       25                 2243274                        5616   
2       33                13666447                        4753   
3       86                       0                           0   
4      115                 7681607                        2970   
..     ...                     ...                         ...   
951  21725                       0                           0   
952  21726                       0                           0   
953  21727                       0                           0   
954  21728                       0                           0   
955  21729                       0                           0   

    2023/10 Провозная плата 2023/10 Объем перевозок(тн)  \
0                         0                           0   
1                   2578495                        6460   
2                  12396634   

In [5]:
# Сохранение результирующего DataFrame в Excel файл
result_file_path = "/kaggle/working/summed_volumes_by_id.xlsx"
result_volumes.to_excel(result_file_path, index=False)

In [6]:
# Разделение столбцов на провозную плату и объем перевозок
freight_columns = [col for col in result_volumes.columns if "Провозная плата" in col]
tonnage_columns = [col for col in result_volumes.columns if "Объем перевозок" in col]

# Сортировка столбцов по дате, извлекая из имени столбца информацию о дате
sorted_freight_columns = sorted(freight_columns, key=lambda x: pd.to_datetime(x.split()[0], format="%Y/%m"))
sorted_tonnage_columns = sorted(tonnage_columns, key=lambda x: pd.to_datetime(x.split()[0], format="%Y/%m"))

# Создание нового DataFrame с нужным порядком столбцов
sorted_columns = ['ID'] + sorted_freight_columns + sorted_tonnage_columns
volumes_sorted = result_volumes[sorted_columns]

# Сохранение результата в новый файл или использование отсортированных данных для анализа
volumes_sorted.to_excel("/kaggle/working/sorted_volumes_by_date.xlsx", index=False)

# Отображение первых строк для проверки
volumes_sorted.head()


Unnamed: 0,ID,2022/01 Провозная плата,2022/02 Провозная плата,2022/03 Провозная плата,2022/04 Провозная плата,2022/05 Провозная плата,2022/06 Провозная плата,2022/07 Провозная плата,2022/08 Провозная плата,2022/09 Провозная плата,...,2023/11 Объем перевозок(тн),2023/12 Объем перевозок(тн),2024/01 Объем перевозок(тн),2024/02 Объем перевозок(тн),2024/03 Объем перевозок(тн),2024/04 Объем перевозок(тн),2024/05 Объем перевозок(тн),2024/06 Объем перевозок(тн),2024/07 Объем перевозок(тн),2024/08 Объем перевозок(тн)
0,9,0,0,0,0,0,0,0,0,155364,...,0,0,0,0,0,0,0,0,0,50
1,25,1833430,1986327,2130880,2474585,2081455,3286550,2863569,2243274,2352663,...,7284,5675,3224,3760,3800,6296,4441,5530,6841,8015
2,33,8391136,9859024,9205997,10782588,9835553,18380073,17302701,13666447,8084979,...,4079,4169,5229,5021,4727,6330,5274,4919,4634,5329
3,86,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,115,5091833,6576660,6802046,9907326,7867965,5868940,6983278,7681607,14858867,...,4960,5935,3210,6911,8270,10131,5789,5877,6604,4677


In [7]:
volumes_sorted.loc[:, 'Отток'] = (volumes_sorted.filter(like='Провозная плата').T.rolling(window=12).sum().T.min(axis=1) == 0) | \
                                 (volumes_sorted.filter(like='Объем перевозок(тн)').T.rolling(window=12).sum().T.min(axis=1) == 0)
print(volumes_sorted.columns)

Index(['ID', '2022/01 Провозная плата', '2022/02 Провозная плата',
       '2022/03 Провозная плата', '2022/04 Провозная плата',
       '2022/05 Провозная плата', '2022/06 Провозная плата',
       '2022/07 Провозная плата', '2022/08 Провозная плата',
       '2022/09 Провозная плата', '2022/10 Провозная плата',
       '2022/11 Провозная плата', '2022/12 Провозная плата',
       '2023/01 Провозная плата', '2023/02 Провозная плата',
       '2023/03 Провозная плата', '2023/04 Провозная плата',
       '2023/05 Провозная плата', '2023/06 Провозная плата',
       '2023/07 Провозная плата', '2023/08 Провозная плата',
       '2023/09 Провозная плата', '2023/10 Провозная плата',
       '2023/11 Провозная плата', '2023/12 Провозная плата',
       '2024/01 Провозная плата', '2024/02 Провозная плата',
       '2024/03 Провозная плата', '2024/04 Провозная плата',
       '2024/05 Провозная плата', '2024/06 Провозная плата',
       '2024/07 Провозная плата', '2024/08 Провозная плата',
       '2022/01 Об

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  volumes_sorted.loc[:, 'Отток'] = (volumes_sorted.filter(like='Провозная плата').T.rolling(window=12).sum().T.min(axis=1) == 0) | \


In [8]:
!pip install keras-tuner




In [106]:
import pandas as pd
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Создаем список месячных колонок для провозной платы и объема перевозок
freight_cols = volumes_sorted.filter(like='Провозная плата').columns
volume_cols = volumes_sorted.filter(like='Объем перевозок(тн)').columns

# Подготовка данных для LSTM
sequences = []
targets = []
client_ids = []  # Хранение ID клиентов
sequence_length = 12  # Окно для последовательностей (12 месяцев)

for _, row in volumes_sorted.iterrows():
    # Получаем значения провозной платы и объемов перевозок
    freight = row[freight_cols].values.astype('float32')
    volumes = row[volume_cols].values.astype('float32')
    
    # Объединяем данные в одну матрицу с двумя признаками на каждый месяц
    data = np.stack([freight, volumes], axis=1)
    
    # Создаем последовательности длиной sequence_length и целевой признак оттока
    if len(data) >= sequence_length:
        for i in range(len(data) - sequence_length + 1):
            sequences.append(data[i:i+sequence_length])
            targets.append(int(row['Отток']))
            client_ids.append(row['ID'])  # Сохраняем ID клиента для каждой последовательности

# Преобразуем в numpy массивы и указываем типы данных
X = np.array(sequences, dtype='float32')
y = np.array(targets, dtype='int32')
client_ids = np.array(client_ids)

# Разделение на обучающую (60%), валидационную (20%) и тестовую (20%) выборки
X_train_val, X_test, y_train_val, y_test, train_val_client_ids, test_client_ids = train_test_split(
    X, y, client_ids, test_size=0.2, random_state=42
)
X_train, X_val, y_train, y_val, train_client_ids, val_client_ids = train_test_split(
    X_train_val, y_train_val, train_val_client_ids, test_size=0.25, random_state=42
)  # 0.25 * 0.8 = 0.2

# Построение модели LSTM
model = Sequential([
    LSTM(64, return_sequences=True, input_shape=(sequence_length, 2)),
    Dropout(0.2),
    LSTM(32),
    Dropout(0.2),
    Dense(1, activation='sigmoid')  # Выход для вероятности оттока
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Обучение модели на обучающей и валидационной выборках
history = model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_val, y_val))

# Оценка модели на тестовой выборке
y_pred = (model.predict(X_test) > 0.5).astype("int32")
print("Отчет по LSTM модели на тестовой выборке:")
print(classification_report(y_test, y_pred))

# Получение вероятностей оттока на тестовой выборке
churn_probabilities = model.predict(X_test)

# Сопоставляем тестовые ID с вероятностями и добавляем данные из volumes_sorted
test_results = pd.DataFrame({
    'Client_ID': test_client_ids,
    'Churn_Probability': churn_probabilities.flatten()
})

# Объединение результатов с исходными данными volumes_sorted на основе Client_ID
merged_results = test_results.merge(volumes_sorted, left_on='Client_ID', right_on='ID')

# Удаление столбцов 'Отток' и дублирующегося 'ID', перемещение 'Churn_Probability' вправо
merged_results.drop(columns=['Отток', 'ID'], inplace=True)
merged_results['Churn_Probability'] = merged_results.pop('Churn_Probability')

# Сортировка по вероятности оттока
merged_results = merged_results.sort_values(by='Churn_Probability', ascending=False)

# Сохранение в Excel
output_path = "/kaggle/working/client_churn_probabilities.xlsx"
with pd.ExcelWriter(output_path) as writer:
    merged_results.to_excel(writer, index=False, sheet_name="Churn_Probabilities")

print("Результаты сохранены в файл client_churn_probabilities.xlsx")


Epoch 1/10


  super().__init__(**kwargs)


[1m377/377[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 15ms/step - accuracy: 0.8420 - loss: 0.3793 - val_accuracy: 0.8971 - val_loss: 0.2538
Epoch 2/10
[1m377/377[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8880 - loss: 0.2817 - val_accuracy: 0.8981 - val_loss: 0.2515
Epoch 3/10
[1m377/377[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8911 - loss: 0.2682 - val_accuracy: 0.8999 - val_loss: 0.2482
Epoch 4/10
[1m377/377[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8944 - loss: 0.2673 - val_accuracy: 0.8974 - val_loss: 0.2488
Epoch 5/10
[1m377/377[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8884 - loss: 0.2666 - val_accuracy: 0.8996 - val_loss: 0.2469
Epoch 6/10
[1m377/377[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 13ms/step - accuracy: 0.8928 - loss: 0.2683 - val_accuracy: 0.8999 - val_loss: 0.2466
Epoch 7/10
[1m377/377[0m [32m━

In [110]:
# Оценка модели на валидационной выборке
y_val_pred = (model.predict(X_val) > 0.5).astype("int32")
print("Отчет по LSTM модели на валидационной выборке:")
print(classification_report(y_val, y_val_pred))

# Оценка модели на тестовой выборке
y_pred = (model.predict(X_test) > 0.5).astype("int32")
print("Отчет по LSTM модели на тестовой выборке:")
print(classification_report(y_test, y_pred))

# Получение финального значения потерь на валидационной выборке
val_loss = history.history['val_loss'][-1]  # Потери на валидационной выборке после последней эпохи
print(f"Loss на валидационной выборке: {val_loss:.4f}")


[1m126/126[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 6ms/step
Отчет по LSTM модели на валидационной выборке:
              precision    recall  f1-score   support

           0       0.90      0.91      0.91      2147
           1       0.90      0.89      0.89      1868

    accuracy                           0.90      4015
   macro avg       0.90      0.90      0.90      4015
weighted avg       0.90      0.90      0.90      4015

[1m126/126[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step
Отчет по LSTM модели на тестовой выборке:
              precision    recall  f1-score   support

           0       0.90      0.89      0.90      2093
           1       0.88      0.89      0.89      1923

    accuracy                           0.89      4016
   macro avg       0.89      0.89      0.89      4016
weighted avg       0.89      0.89      0.89      4016

Loss на валидационной выборке: 0.2469


In [113]:
#предсказание на 3 месяца. Увеличено окно до 15 месяцев, чтобы модель могла лучше понимать 
#общие тренды. Эти изменения позволят модели адаптироваться к долгосрочному прогнозированию и учитывать признаки, указывающие на отток в течение более продолжительного периода.
import pandas as pd
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Создаем список месячных колонок для провозной платы и объема перевозок
freight_cols = volumes_sorted.filter(like='Провозная плата').columns
volume_cols = volumes_sorted.filter(like='Объем перевозок(тн)').columns

# Подготовка данных для LSTM с 15-месячным окном и 3-месячным периодом предсказания
sequence_length = 15  # Окно для последовательностей (15 месяцев)
prediction_period = 3  # Период предсказания на 3 месяца

sequences = []
targets = []
client_ids = []  # Хранение ID клиентов

for _, row in volumes_sorted.iterrows():
    # Получаем значения провозной платы и объемов перевозок
    freight = row[freight_cols].values.astype('float32')
    volumes = row[volume_cols].values.astype('float32')
    
    # Объединяем данные в одну матрицу с двумя признаками на каждый месяц
    data = np.stack([freight, volumes], axis=1)
    
    # Создаем последовательности длиной sequence_length и целевой признак оттока на 3 месяца вперед
    if len(data) >= sequence_length + prediction_period:
        for i in range(len(data) - sequence_length - prediction_period + 1):
            sequences.append(data[i:i+sequence_length])
            # Определение метки 'Отток': 1, если нет активности в следующие 3 месяца, иначе 0
            next_3_months = data[i+sequence_length:i+sequence_length+prediction_period]
            targets.append(int((next_3_months.sum() == 0).all()))  # 1, если все значения 0, иначе 0
            client_ids.append(row['ID'])  # Сохраняем ID клиента для каждой последовательности

# Преобразуем в numpy массивы и указываем типы данных
X = np.array(sequences, dtype='float32')
y = np.array(targets, dtype='int32')
client_ids = np.array(client_ids)

# Разделение на обучающую, валидационную и тестовую выборки
X_train_val, X_test, y_train_val, y_test, train_val_client_ids, test_client_ids = train_test_split(
    X, y, client_ids, test_size=0.2, random_state=42
)
X_train, X_val, y_train, y_val, train_client_ids, val_client_ids = train_test_split(
    X_train_val, y_train_val, train_val_client_ids, test_size=0.25, random_state=42
)

# Построение модели LSTM
model = Sequential([
    LSTM(64, return_sequences=True, input_shape=(sequence_length, 2)),
    Dropout(0.2),
    LSTM(32),
    Dropout(0.2),
    Dense(1, activation='sigmoid')  # Выход для вероятности оттока
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Обучение модели на обучающей и валидационной выборках
history = model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_val, y_val))

# Оценка модели на тестовой выборке
y_pred = (model.predict(X_test) > 0.5).astype("int32")
print("Отчет по LSTM модели на тестовой выборке:")
print(classification_report(y_test, y_pred))

# Получение вероятностей оттока на тестовой выборке
churn_probabilities = model.predict(X_test)

# Сопоставляем тестовые ID с вероятностями и добавляем данные из volumes_sorted
test_results = pd.DataFrame({
    'Client_ID': test_client_ids,
    'Churn_Probability': churn_probabilities.flatten()
})

# Объединение результатов с исходными данными volumes_sorted на основе Client_ID
merged_results = test_results.merge(volumes_sorted, left_on='Client_ID', right_on='ID')

# Удаление столбцов 'Отток' и дублирующегося 'ID', перемещение 'Churn_Probability' вправо
merged_results.drop(columns=['Отток', 'ID'], inplace=True)
merged_results['Churn_Probability'] = merged_results.pop('Churn_Probability')

# Сортировка по вероятности оттока
merged_results = merged_results.sort_values(by='Churn_Probability', ascending=False)

# Сохранение в Excel
output_path = "/kaggle/working/client_churn_probabilities_3_months.xlsx"
with pd.ExcelWriter(output_path) as writer:
    merged_results.to_excel(writer, index=False, sheet_name="Churn_Probabilities")

print("Результаты сохранены в файл client_churn_probabilities_3_months.xlsx")


Epoch 1/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 17ms/step - accuracy: 0.8139 - loss: 0.4203 - val_accuracy: 0.8490 - val_loss: 0.3585
Epoch 2/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8369 - loss: 0.3668 - val_accuracy: 0.8487 - val_loss: 0.3558
Epoch 3/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8412 - loss: 0.3634 - val_accuracy: 0.8487 - val_loss: 0.3601
Epoch 4/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8507 - loss: 0.3495 - val_accuracy: 0.8508 - val_loss: 0.3562
Epoch 5/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 16ms/step - accuracy: 0.8480 - loss: 0.3463 - val_accuracy: 0.8529 - val_loss: 0.3580
Epoch 6/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8559 - loss: 0.3376 - val_accuracy: 0.8511 - val_loss: 0.3558
Epoch 7/10
[1m269/269

In [9]:
import pandas as pd
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Список месячных колонок для провозной платы и объема перевозок
freight_cols = volumes_sorted.filter(like='Провозная плата').columns
volume_cols = volumes_sorted.filter(like='Объем перевозок(тн)').columns

# Параметры анализа
sequence_length = 12  # Окно для последовательностей (12 месяцев)

# Перебор для прогнозирования на 1, 2, 3, 4, 5 и 6 месяцев
for prediction_period in range(1, 7):
    sequences = []
    targets = []
    client_ids = []  # Хранение ID клиентов

    for _, row in volumes_sorted.iterrows():
        # Получаем значения провозной платы и объемов перевозок
        freight = row[freight_cols].values.astype('float32')
        volumes = row[volume_cols].values.astype('float32')
        
        # Объединяем данные в матрицу с двумя признаками на каждый месяц
        data = np.stack([freight, volumes], axis=1)
        
        # Создаем последовательности длиной sequence_length и целевой признак оттока на "prediction_period" месяцев вперед
        if len(data) >= sequence_length + prediction_period:
            for i in range(len(data) - sequence_length - prediction_period + 1):
                sequences.append(data[i:i+sequence_length])
                
                # Определение метки 'Отток': 1, если нет активности в следующие "prediction_period" месяцев, иначе 0
                future_period = data[i+sequence_length:i+sequence_length+prediction_period]
                targets.append(int((future_period.sum() == 0).all()))  # 1, если все значения 0, иначе 0
                client_ids.append(row['ID'])  # Сохраняем ID клиента для каждой последовательности

    # Преобразуем в numpy массивы и указываем типы данных
    X = np.array(sequences, dtype='float32')
    y = np.array(targets, dtype='int32')
    client_ids = np.array(client_ids)

    # Разделение на обучающую, валидационную и тестовую выборки
    X_train_val, X_test, y_train_val, y_test, train_val_client_ids, test_client_ids = train_test_split(
        X, y, client_ids, test_size=0.2, random_state=42
    )
    X_train, X_val, y_train, y_val, train_client_ids, val_client_ids = train_test_split(
        X_train_val, y_train_val, train_val_client_ids, test_size=0.25, random_state=42
    )

    # Построение модели LSTM
    model = Sequential([
        LSTM(64, return_sequences=True, input_shape=(sequence_length, 2)),
        Dropout(0.2),
        LSTM(32),
        Dropout(0.2),
        Dense(1, activation='sigmoid')  # Выход для вероятности оттока
    ])

    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

    # Обучение модели на обучающей и валидационной выборках
    history = model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_val, y_val))

    # Оценка модели на тестовой выборке
    y_pred = (model.predict(X_test) > 0.5).astype("int32")
    print(f"\nОтчет по LSTM модели на тестовой выборке для периода предсказания {prediction_period} месяца(ев):")
    print(classification_report(y_test, y_pred))

    # Получение вероятностей оттока на тестовой выборке
    churn_probabilities = model.predict(X_test)

    # Сопоставляем тестовые ID с вероятностями и добавляем данные из volumes_sorted
    test_results = pd.DataFrame({
        'Client_ID': test_client_ids,
        'Churn_Probability': churn_probabilities.flatten()
    })

    # Объединение результатов с исходными данными volumes_sorted на основе Client_ID
    merged_results = test_results.merge(volumes_sorted, left_on='Client_ID', right_on='ID')

    # Удаление столбцов 'Отток' и дублирующегося 'ID', перемещение 'Churn_Probability' вправо
    merged_results.drop(columns=['Отток', 'ID'], inplace=True)
    merged_results['Churn_Probability'] = merged_results.pop('Churn_Probability')

    # Сортировка по вероятности оттока
    merged_results = merged_results.sort_values(by='Churn_Probability', ascending=False)

    # Сохранение в Excel
    output_path = f"/kaggle/working/client_churn_probabilities_{prediction_period}_months.xlsx"
    with pd.ExcelWriter(output_path) as writer:
        merged_results.to_excel(writer, index=False, sheet_name=f"Churn_Probabilities_{prediction_period}M")

    print(f"Результаты сохранены в файл client_churn_probabilities_{prediction_period}_months.xlsx")


  super().__init__(**kwargs)


Epoch 1/10
[1m359/359[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 16ms/step - accuracy: 0.8421 - loss: 0.4018 - val_accuracy: 0.8661 - val_loss: 0.3286
Epoch 2/10
[1m359/359[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8601 - loss: 0.3374 - val_accuracy: 0.8677 - val_loss: 0.3248
Epoch 3/10
[1m359/359[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8677 - loss: 0.3313 - val_accuracy: 0.8682 - val_loss: 0.3247
Epoch 4/10
[1m359/359[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8695 - loss: 0.3307 - val_accuracy: 0.8666 - val_loss: 0.3255
Epoch 5/10
[1m359/359[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8695 - loss: 0.3260 - val_accuracy: 0.8672 - val_loss: 0.3241
Epoch 6/10
[1m359/359[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8706 - loss: 0.3180 - val_accuracy: 0.8695 - val_loss: 0.3234
Epoch 7/10
[1m359/35

  super().__init__(**kwargs)


[1m341/341[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 16ms/step - accuracy: 0.8296 - loss: 0.4222 - val_accuracy: 0.8580 - val_loss: 0.3395
Epoch 2/10
[1m341/341[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8595 - loss: 0.3487 - val_accuracy: 0.8599 - val_loss: 0.3373
Epoch 3/10
[1m341/341[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8488 - loss: 0.3688 - val_accuracy: 0.8602 - val_loss: 0.3336
Epoch 4/10
[1m341/341[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8663 - loss: 0.3389 - val_accuracy: 0.8585 - val_loss: 0.3359
Epoch 5/10
[1m341/341[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8565 - loss: 0.3509 - val_accuracy: 0.8552 - val_loss: 0.3382
Epoch 6/10
[1m341/341[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8588 - loss: 0.3510 - val_accuracy: 0.8541 - val_loss: 0.3413
Epoch 7/10
[1m341/341[0m [32m━

  super().__init__(**kwargs)


[1m323/323[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 16ms/step - accuracy: 0.7959 - loss: 0.4455 - val_accuracy: 0.8361 - val_loss: 0.3780
Epoch 2/10
[1m323/323[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8434 - loss: 0.3712 - val_accuracy: 0.8379 - val_loss: 0.3667
Epoch 3/10
[1m323/323[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8458 - loss: 0.3621 - val_accuracy: 0.8463 - val_loss: 0.3665
Epoch 4/10
[1m323/323[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8465 - loss: 0.3633 - val_accuracy: 0.8457 - val_loss: 0.3652
Epoch 5/10
[1m323/323[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8496 - loss: 0.3620 - val_accuracy: 0.8469 - val_loss: 0.3659
Epoch 6/10
[1m323/323[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 14ms/step - accuracy: 0.8529 - loss: 0.3605 - val_accuracy: 0.8457 - val_loss: 0.3657
Epoch 7/10
[1m323/323[0m [32m━

  super().__init__(**kwargs)


[1m305/305[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 16ms/step - accuracy: 0.8009 - loss: 0.4475 - val_accuracy: 0.8290 - val_loss: 0.3687
Epoch 2/10
[1m305/305[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8324 - loss: 0.3779 - val_accuracy: 0.8416 - val_loss: 0.3616
Epoch 3/10
[1m305/305[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8370 - loss: 0.3798 - val_accuracy: 0.8410 - val_loss: 0.3708
Epoch 4/10
[1m305/305[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8357 - loss: 0.3727 - val_accuracy: 0.8404 - val_loss: 0.3609
Epoch 5/10
[1m305/305[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8353 - loss: 0.3759 - val_accuracy: 0.8397 - val_loss: 0.3615
Epoch 6/10
[1m305/305[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 15ms/step - accuracy: 0.8418 - loss: 0.3710 - val_accuracy: 0.8404 - val_loss: 0.3603
Epoch 7/10
[1m305/305[0m [32m━

  super().__init__(**kwargs)


[1m287/287[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 16ms/step - accuracy: 0.7786 - loss: 0.4617 - val_accuracy: 0.8333 - val_loss: 0.3757
Epoch 2/10
[1m287/287[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 16ms/step - accuracy: 0.8189 - loss: 0.3958 - val_accuracy: 0.8356 - val_loss: 0.3624
Epoch 3/10
[1m287/287[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8253 - loss: 0.3855 - val_accuracy: 0.8365 - val_loss: 0.3622
Epoch 4/10
[1m287/287[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8213 - loss: 0.3871 - val_accuracy: 0.8352 - val_loss: 0.3640
Epoch 5/10
[1m287/287[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 17ms/step - accuracy: 0.8240 - loss: 0.3901 - val_accuracy: 0.8349 - val_loss: 0.3621
Epoch 6/10
[1m287/287[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8244 - loss: 0.3873 - val_accuracy: 0.8392 - val_loss: 0.3652
Epoch 7/10
[1m287/287[0m [32m━

  super().__init__(**kwargs)


[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 16ms/step - accuracy: 0.7969 - loss: 0.4370 - val_accuracy: 0.8075 - val_loss: 0.4096
Epoch 2/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 14ms/step - accuracy: 0.8188 - loss: 0.3890 - val_accuracy: 0.7950 - val_loss: 0.4142
Epoch 3/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 16ms/step - accuracy: 0.8259 - loss: 0.3782 - val_accuracy: 0.8079 - val_loss: 0.4035
Epoch 4/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 15ms/step - accuracy: 0.8159 - loss: 0.3881 - val_accuracy: 0.8068 - val_loss: 0.4081
Epoch 5/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 14ms/step - accuracy: 0.8195 - loss: 0.3810 - val_accuracy: 0.8089 - val_loss: 0.4040
Epoch 6/10
[1m269/269[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 14ms/step - accuracy: 0.8171 - loss: 0.3808 - val_accuracy: 0.8054 - val_loss: 0.4029
Epoch 7/10
[1m269/269[0m [32m━

In [11]:
import pandas as pd

# Загрузка данных из файла Excel
df = pd.read_excel("/kaggle/input/da-rzhd/tatarstan.xls")

# Очистка столбца от пробелов и скрытых символов
df['ЕЛС действующий'] = df['ЕЛС действующий'].str.strip()

# Фильтрация строк, где столбец 'ЕЛС действующий' не пустой, и вывод уникальных ID
filtered_ids = df[df['ЕЛС действующий'].notna() & (df['ЕЛС действующий'] != '')]['ID'].unique()

# Печать всех уникальных ID
print(filtered_ids.tolist())


[6252, 6256, 6258, 6259, 6261, 6262, 6264, 6265, 6266, 6271, 6273, 6278, 6282, 6287, 6290, 6300, 6305, 6307, 6309, 6313, 6314, 6315, 6316, 6320, 6321, 6323, 6325, 6326, 6327, 6328, 6329, 6332, 6333, 6335, 6336, 6337, 6338, 6339, 6341, 6342, 6344, 6346, 6348, 6349, 6353, 6356, 6357, 6359, 6380, 6400, 6401, 247, 1023, 6411, 6412, 6413, 6414, 6436, 6448, 6449, 6496, 6497, 6508, 6509, 6515, 6577, 6597, 6631, 6639, 6665, 6673, 6677, 6679, 6687, 6694, 6701, 6730, 6764, 6765, 6783, 6788, 6798, 6809, 6813, 6815, 6826, 6828, 6831, 6833, 6834, 6837, 6846, 6853, 6856, 6861, 6865, 6867, 6870, 6872, 6875, 6876, 6885, 6888, 6890, 6896, 6897, 6903, 6909, 6912, 6913, 6914, 6916, 6917, 6921, 6927, 6928, 6938, 6945, 6947, 6955, 6956, 6957, 6961, 6966, 6969, 6971, 6975, 6979, 6980, 6985, 6988, 6994, 6996, 7000, 7004, 5272, 7015, 7016, 7024, 7030, 7033, 7037, 7042, 7043, 7052, 6645, 7057, 7059, 7070, 7071, 7072, 7077, 7082, 7087, 7089, 7092, 7094, 7096, 7099, 7101, 7102, 7111, 7115, 7116, 7117, 7119, 7122