# ПРОГНОЗ ОТТОКА ПОЛЬЗОВАТЕЛЕЙ КРЕДИТНЫХ КАРТ

## ЗАДАЧА
Необходимо построить прогнозную модель, которая сможет определить, перестанет ли клиент банка пользоваться кредитной картой.

#### В таблице представлены следующие столбцы:

**CLIENTNUM** - Номер клиента. Уникальный идентификатор клиента, которому принадлежит счет

**Attrition_Flag** - Aктивность клиента — если учетная запись закрыта, то Attrited Customer, иначе Existing Customer

**Customer_Age** - Bозраст клиента в годах

**Gender** - М=мужчина, Ж=женщина

**Dependent_count** - Количество иждивенцев

**Education_Level** - Образование, квалификация владельца счета (пример: средняя школа, выпускник колледжа и т. д.)

**Marital_Status** - Женат, Холост, Разведен, Неизвестно

**Income_Category** - Категория годового дохода владельца счета (< 40 000 долларов США, 40 000-60 000 долларов США, 60 000-80 000 долларов США, 80 000-120 000 долларов США, >

**Card_Category** - Тип карты (Синяя, Серебряная, Золотая, Платиновая)

**Months_on_book** - Период отношений с банком

**Total_Relationship_Count** - Общее количество продукции, хранящейся у клиента

**Months_Inactive_12_mon** - Количество месяцев бездействия за последние 12 месяцев

**Contacts_Count_12_mon** - Количество контактов за последние 12 месяцев

**Credit_Limit** - Кредитный лимит по кредитной карте

**Total_Revolving_Bal** - Общий оборотный баланс на кредитной карте

**Avg_Open_To_Buy** - Открытая кредитная линия для покупки (среднее значение за последние 12 месяцев)

**Total_Amt_Chng_Q4_Q1** - Изменение суммы транзакции (Q4 по сравнению с Q1)

**Total_Trans_Amt** - Общая сумма транзакции (последние 12 месяцев)

**Total_Trans_Ct** - Общее количество транзакций (последние 12 месяцев)

**Total_Ct_Chng_Q4_Q1** - Изменение количества транзакций (Q4 по сравнению с Q1)

**Avg_Utilization_Ratio** - Средний коэффициент использования карт

### Целевой признак
**Attrition_Flag** - Aктивность клиента — если учетная запись закрыта, то Attrited Customer, иначе Existing Customer

**МЕТРИКА**

Вычислите оценку F1, также известную как сбалансированная F-оценка или F-мера.

Показатель F1 можно интерпретировать как среднее гармоническое между точностью и отзывом, где показатель F1 достигает своего наилучшего значения при 1, а наихудший показатель при 0. Относительный вклад точности и отзыва в показатель F1 равен.

Формула для оценки F1:

F1 = 2 * (precision * recall) / (precision + recall)

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import RocCurveDisplay
from torchmetrics import F1Score
import torch
from torch.utils.data import Dataset, DataLoader

import matplotlib.pyplot as plt
%matplotlib inline

In [3]:
train_df = pd.read_csv('train.csv')

In [4]:
train_df.head(3)

Unnamed: 0,CLIENTNUM,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,...,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Attrition_Flag
0,715630983,31,F,0,Graduate,Single,Less than $40K,Blue,21,4,...,3,4598.0,0,4598.0,0.439,6317,77,0.833,0.0,Attrited Customer
1,713643858,53,F,1,College,Married,$40K - $60K,Blue,43,4,...,2,1525.0,1411,114.0,0.66,1911,47,0.958,0.925,Existing Customer
2,708334158,46,F,3,Graduate,Divorced,Less than $40K,Blue,34,4,...,4,9863.0,686,9177.0,0.581,3068,58,0.933,0.07,Existing Customer


Заменим значения целевого признака на:

    1 - Attrited Customer
    0 - Existing Customer

In [5]:
train_df['Attrition_Flag'] = train_df['Attrition_Flag'].apply(lambda x: 1 if x == 'Attrited Customer' else 0)

In [6]:
numeric_features = []
object_features = []
for col in train_df.columns:
    if train_df[col].dtype == 'object':
        object_features.append(col)
    else:
        numeric_features.append(col)

In [7]:
X = train_df[numeric_features].iloc[:, 1:-1].values

In [8]:
y = train_df[numeric_features].iloc[:, [-1]].values

In [9]:
scaler = MinMaxScaler()

In [10]:
X = scaler.fit_transform(X)

In [11]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

In [12]:
if torch.cuda.is_available():
    device = torch.device('cuda')
else:
    device = torch.device('cpu')

In [13]:
class MyDataset(Dataset):
    def __init__(self, X, y=None):
        self.n_samples = X.shape[0]
        self.x_data = torch.from_numpy(X).type(torch.float32)
        if not y is None:
            self.y_data = torch.from_numpy(y).type(torch.int64)
        else:
            self.y_data = torch.zeros(self.n_samples).type(torch.float)

    
    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]
    
    def __len__(self):
        return self.n_samples

In [16]:
# Класс - модуль, реализующий архитектуру. Можно было бы использовать nn.Sequential
class FeedforwardNeuralNetModel(torch.nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(FeedforwardNeuralNetModel, self).__init__()
        # Первый полносвязный слой
        self.fc1 = torch.nn.Linear(input_dim, hidden_dim, device=device) 

        # Нелинейная функция
        self.activation = torch.nn.ReLU()
#         self.activation = torch.nn.Tanh()
        
        
        # Полносвязный слой
        self.fc2 = torch.nn.Linear(hidden_dim, output_dim, device=device)  

    def forward(self, x):
        # Полносвязный слой
        out = self.fc1(x)

        # Нелинейная функция
        out = self.activation(out)

        # Полносвязный слой
        out = self.fc2(out)
        
        return out

In [17]:
batch_size = 100
n_iters = 100000

In [31]:
input_dim = X.shape[1]
hidden_dim = 100
output_dim = 2

In [32]:
criterion = torch.nn.CrossEntropyLoss()
f1 = F1Score(num_classes=2)

In [33]:
learning_rate = 0.1

In [34]:
model = FeedforwardNeuralNetModel(input_dim, hidden_dim, output_dim)

In [35]:
model.to(device)

FeedforwardNeuralNetModel(
  (fc1): Linear(in_features=14, out_features=100, bias=True)
  (activation): ReLU()
  (fc2): Linear(in_features=100, out_features=2, bias=True)
)

In [36]:
X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True)

train_dataset = MyDataset(X_train, y_train)
test_dataset = MyDataset(X_test, y_test)

train_loader = torch.utils.data.DataLoader(dataset=train_dataset, 
                                           batch_size=batch_size, 
                                           shuffle=True)

test_loader = torch.utils.data.DataLoader(dataset=test_dataset, 
                                          batch_size=batch_size, 
                                          shuffle=False)

num_epochs = n_iters / (len(train_dataset) / batch_size)
num_epochs = int(num_epochs)

# Передаем параметры в оптимизатор, чтобы для них считались градиенты
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)
iteration = 0

for epoch in range(num_epochs):
    for i, (X_, y_) in enumerate(train_loader):
#         # Спрямляем изображение в вектор
# #         images = images.view(-1, 28*28)
# #         images = images.cuda(device)
# #         labels = labels.cuda(device)
#         y_ = y_[0]
        y_ = y_.reshape(-1)

        # Затираем прошлые градиенты, чтобы они не аккумулировались
        optimizer.zero_grad()

        # Получаем выход модели
        outputs = model(X_)
        
#         # Вычисляем значение функции потерь
        loss = criterion(outputs, y_)
                

#         # Здесь происходит вычисление градентов для параметров модели, которые переданы в оптимизатор
        loss.backward()
# #         break
        
#         # Здесь происходит обновление параметров
        optimizer.step()

        iteration += 1
        
# #         break
        if iteration % 1000 == 0:
            # Вычисляем точность (можно пользоваться и sklearn)         
            correct = 0
            total = 0
            # Итерация по всему валидационному датасету, "переключаем" модель в режим инференса
            # (в данном случае не обязательно, но в общем случае важно не забывать)
            model.eval()
            
            # Поскольку нам не нужно вычисление градиентов, мы используем менеджер контекста
            with torch.no_grad():
                for X_, y_ in test_loader:
                    y_ = y_.reshape(-1)
# #                     y_ = y_[0]
#                     # Преобразуем изображение в вектор
# #                     images = images.view(-1, 28*28)
                    
# #                     images = images.cuda(device)
# #                     labels = labels.cuda(device)
                    
                    # Получаем выход модели
                    outputs = model(X_)
                    
                    # Берем класс, имеющий наибольшую вероятность (здесь логиты)
                    _, predicted = torch.max(outputs.data, 1)
# #                     predicted = outputs
# 
                    # Подсчитываем общее количество объектов в тестовой выборке
                    total += y_.size(0)

                    # Общее количество верно классифицированных объектов
#                     correct += (predicted == y_).sum()
                    correct += f1(predicted, y_)
                model.train()
            accuracy = 100 * correct / total
            
#             print('Итерация: {}. Validation loss: {}. Validation accuracy: {}'.format(iteration, loss.item(), accuracy))
            print('Итерация: {}. Validation loss: {}. Validation f1_score: {}'.format(iteration, loss.item(), accuracy))

Итерация: 1000. Validation loss: 0.2705950438976288. Validation f1_score: 0.9062132835388184
Итерация: 2000. Validation loss: 0.21400858461856842. Validation f1_score: 0.9141121506690979
Итерация: 3000. Validation loss: 0.2095683217048645. Validation f1_score: 0.9209630489349365
Итерация: 4000. Validation loss: 0.2504304349422455. Validation f1_score: 0.9283407330513
Итерация: 5000. Validation loss: 0.13948479294776917. Validation f1_score: 0.9304470419883728
Итерация: 6000. Validation loss: 0.14705854654312134. Validation f1_score: 0.9336066842079163
Итерация: 7000. Validation loss: 0.22682422399520874. Validation f1_score: 0.9409790635108948
Итерация: 8000. Validation loss: 0.1331716924905777. Validation f1_score: 0.9399310350418091
Итерация: 9000. Validation loss: 0.0957331582903862. Validation f1_score: 0.9420321583747864
Итерация: 10000. Validation loss: 0.15880365669727325. Validation f1_score: 0.9446704983711243
Итерация: 11000. Validation loss: 0.10795225948095322. Validation f

Итерация: 88000. Validation loss: 0.13537949323654175. Validation f1_score: 0.9499469995498657
Итерация: 89000. Validation loss: 0.12030494958162308. Validation f1_score: 0.9536279439926147
Итерация: 90000. Validation loss: 0.08255921304225922. Validation f1_score: 0.9330747127532959
Итерация: 91000. Validation loss: 0.04543565213680267. Validation f1_score: 0.9494203925132751
Итерация: 92000. Validation loss: 0.14807738363742828. Validation f1_score: 0.9520482420921326
Итерация: 93000. Validation loss: 0.10599258542060852. Validation f1_score: 0.955734133720398
Итерация: 94000. Validation loss: 0.06894320249557495. Validation f1_score: 0.9541545510292053
Итерация: 95000. Validation loss: 0.08826127648353577. Validation f1_score: 0.9557396173477173
Итерация: 96000. Validation loss: 0.07843883335590363. Validation f1_score: 0.9509895443916321
Итерация: 97000. Validation loss: 0.06515271216630936. Validation f1_score: 0.9509949088096619
Итерация: 98000. Validation loss: 0.065614990890026

In [37]:
torch.save(model.state_dict(), 'model.pt')

In [None]:
# model = TheModelClass(*args, **kwargs)
# model.load_state_dict(torch.load(PATH))
# model.eval()