## Решение задачи прогнозирования задолженности по услугам ЖКХ с использованием полностью гомоморфного шифрования
### Этап 2a - Исследование влияние размера данных на производительность полностью гомоморфного шифрования

In [1]:
import pandas as pd
import tenseal as ts
import torch
from sklearn.model_selection import train_test_split
from time import time

#### 1 Обучение на незашифрованных данных

Разделим набор данных на выборки с разным объёмом: 4400, 3400, 2400, 1400 и 400 объектов соответственно.

In [2]:
df_1 = pd.read_csv('data.csv', low_memory=False) # (4400, 23) 

df_2 = df_1.sample(frac=0.7727) # (3400, 23)

df_3 = df_1.sample(frac=0.5455) # (2400, 23)

df_4 = df_1.sample(frac=0.3182) # (1400, 23)

df_5 = df_1.sample(frac=0.091) # (400, 23)

Также разделим набор данных на выборки с разным количество признаков: 23, 21, 19, 17 и 15 соответственно.  
За основу возьмём выборку df_4 размером 1400 на 23.

In [18]:
df_6 = df_4.copy()
df_6 = df_6.drop(columns=[
    "Age",
    "Family_Size"
]) # (1400, 21)

df_7 = df_6.copy()
df_7 = df_7.drop(columns=[
    "Number_of_Children",
    "Residence_Type"
]) # (1400, 19)

df_8 = df_7.copy()
df_8 = df_8.drop(columns=[
    "Frequency_of_Mobile_App_Usage", 
    "Payment_Method",
]) # (1400, 17)

df_9 = df_8.copy()
df_9 = df_9.drop(columns=[
    "Seasonal_Factors", 
    "Email_Notifications_Opt_In",
]) # (1400, 15)

(1400, 17)

Разделим данные на тестовые и обучающие выборки.

In [4]:
def get_train_test_split(df):
    x = df.drop(columns=['Is_Delinquent'])
    y = df['Is_Delinquent'].copy()

    return train_test_split(x, y, test_size=0.2, random_state=42)

In [5]:
x_1_train, x_1_test, y_1_train, y_1_test = get_train_test_split(df_1)
x_2_train, x_2_test, y_2_train, y_2_test = get_train_test_split(df_2)
x_3_train, x_3_test, y_3_train, y_3_test = get_train_test_split(df_3)
x_4_train, x_4_test, y_4_train, y_4_test = get_train_test_split(df_4)

In [6]:
x_5_train, x_5_test, y_5_train, y_5_test = get_train_test_split(df_5)
x_6_train, x_6_test, y_6_train, y_6_test = get_train_test_split(df_6)
x_7_train, x_7_test, y_7_train, y_7_test = get_train_test_split(df_7)
x_8_train, x_8_test, y_8_train, y_8_test = get_train_test_split(df_8)
x_9_train, x_9_test, y_9_train, y_9_test = get_train_test_split(df_9)

Создадим тензоры.

In [7]:
x_1_train = torch.tensor(x_1_train.values).to(torch.float32)
x_1_test = torch.tensor(x_1_test.values).to(torch.float32)

x_2_train = torch.tensor(x_2_train.values).to(torch.float32)
x_2_test = torch.tensor(x_2_test.values).to(torch.float32)

x_3_train = torch.tensor(x_3_train.values).to(torch.float32)
x_3_test = torch.tensor(x_3_test.values).to(torch.float32)

x_4_train = torch.tensor(x_4_train.values).to(torch.float32)
x_4_test = torch.tensor(x_4_test.values).to(torch.float32)

x_5_train = torch.tensor(x_5_train.values).to(torch.float32)
x_5_test = torch.tensor(x_5_test.values).to(torch.float32)

x_6_train = torch.tensor(x_6_train.values).to(torch.float32)
x_6_test = torch.tensor(x_6_test.values).to(torch.float32)

x_7_train = torch.tensor(x_7_train.values).to(torch.float32)
x_7_test = torch.tensor(x_7_test.values).to(torch.float32)

x_8_train = torch.tensor(x_8_train.values).to(torch.float32)
x_8_test = torch.tensor(x_8_test.values).to(torch.float32)

x_9_train = torch.tensor(x_9_train.values).to(torch.float32)
x_9_test = torch.tensor(x_9_test.values).to(torch.float32)

In [8]:
y_1_train = torch.tensor(y_1_train.values).to(torch.float32).unsqueeze(1)
y_1_test = torch.tensor(y_1_test.values).to(torch.float32).unsqueeze(1)

y_2_train = torch.tensor(y_2_train.values).to(torch.float32).unsqueeze(1)
y_2_test = torch.tensor(y_2_test.values).to(torch.float32).unsqueeze(1)

y_3_train = torch.tensor(y_3_train.values).to(torch.float32).unsqueeze(1)
y_3_test = torch.tensor(y_3_test.values).to(torch.float32).unsqueeze(1)

y_4_train = torch.tensor(y_4_train.values).to(torch.float32).unsqueeze(1)
y_4_test = torch.tensor(y_4_test.values).to(torch.float32).unsqueeze(1)

y_5_train = torch.tensor(y_5_train.values).to(torch.float32).unsqueeze(1)
y_5_test = torch.tensor(y_5_test.values).to(torch.float32).unsqueeze(1)

y_6_train = torch.tensor(y_6_train.values).to(torch.float32).unsqueeze(1)
y_6_test = torch.tensor(y_6_test.values).to(torch.float32).unsqueeze(1)

y_7_train = torch.tensor(y_7_train.values).to(torch.float32).unsqueeze(1)
y_7_test = torch.tensor(y_7_test.values).to(torch.float32).unsqueeze(1)

y_8_train = torch.tensor(y_8_train.values).to(torch.float32).unsqueeze(1)
y_8_test = torch.tensor(y_8_test.values).to(torch.float32).unsqueeze(1)

y_9_train = torch.tensor(y_9_train.values).to(torch.float32).unsqueeze(1)
y_9_test = torch.tensor(y_9_test.values).to(torch.float32).unsqueeze(1)

Создадим модель логистической регрессии.

In [9]:
class LogisticRegression(torch.nn.Module):

    def __init__(self, n_features):
        super(LogisticRegression, self).__init__()
        self.lr = torch.nn.Linear(n_features, 1)
        
    def forward(self, x):
        out = torch.sigmoid(self.lr(x))
        return out

In [10]:
EPOCHS = 3

def train(model, optim, criterion, x, y, data_name, epochs=EPOCHS):
    for e in range(1, epochs + 1):
        optim.zero_grad()
        out = model(x)
        loss = criterion(out, y)
        loss.backward()
        optim.step()
    return model


def accuracy(model, x, y, data_name):
    out = model(x)
    correct = torch.abs(y - out) < 0.5
    plain_accuracy = correct.float().mean()
    print(f'Точность модели обученной на незашифрованных данных {data_name}: {plain_accuracy}')
    return plain_accuracy

criterion = torch.nn.BCELoss()

Обучим модель на выборках, разделённых по количеству объектов.

In [21]:
n_1 = x_1_train.shape[1]
lr_1 = LogisticRegression(n_1)
optim_1 = torch.optim.SGD(lr_1.parameters(), lr=1)
model_1 = train(lr_1, optim_1, criterion, x_1_train, y_1_train, '"Набор 1"')
plain_accuracy_1 = accuracy(model_1, x_1_test, y_1_test, '"Набор 1"')

Точность модели обученной на незашифрованных данных "Набор 1": 0.8602272868156433


In [22]:
n_2 = x_2_train.shape[1] 
lr_2 = LogisticRegression(n_2)
optim_2 = torch.optim.SGD(lr_2.parameters(), lr=1)
model_2 = train(lr_2, optim_2, criterion, x_2_train, y_2_train, '"Набор 2"')
plain_accuracy_2 = accuracy(model_2, x_2_test, y_2_test, '"Набор 2"')

Точность модели обученной на незашифрованных данных "Набор 2": 0.8661764860153198


In [11]:
n_3 = x_3_train.shape[1]
lr_3 = LogisticRegression(n_3)
optim_3 = torch.optim.SGD(lr_3.parameters(), lr=1)
model_3 = train(lr_3, optim_3, criterion, x_3_train, y_3_train, '"Набор 3"')
plain_accuracy_3 = accuracy(model_3, x_3_test, y_3_test, '"Набор 3"')

Точность модели обученной на незашифрованных данных "Набор 3": 0.8333333134651184


In [12]:
n_4 = x_4_train.shape[1]
lr_4 = LogisticRegression(n_4)
optim_4 = torch.optim.SGD(lr_4.parameters(), lr=1)
model_4 = train(lr_4, optim_4, criterion, x_4_train, y_4_train, '"Набор 4"')
plain_accuracy_4 = accuracy(model_4, x_4_test, y_4_test, '"Набор 4"')

Точность модели обученной на незашифрованных данных "Набор 4": 0.8571428656578064


In [11]:
n_5 = x_5_train.shape[1]
lr_5 = LogisticRegression(n_5)
optim_5 = torch.optim.SGD(lr_5.parameters(), lr=1)
model_5 = train(lr_5, optim_5, criterion, x_5_train, y_5_train, '"Набор 5"')
plain_accuracy_5 = accuracy(model_5, x_5_test, y_5_test, '"Набор 5"')

Точность модели обученной на незашифрованных данных "Набор 5": 0.8374999761581421


Обучим модель на выборках, разделённых по количеству признаков.

In [12]:
n_6 = x_6_train.shape[1]
lr_6 = LogisticRegression(n_6)
optim_6 = torch.optim.SGD(lr_6.parameters(), lr=1)
model_6 = train(lr_6, optim_6, criterion, x_6_train, y_6_train, '"Набор 6"')
plain_accuracy_6 = accuracy(model_6, x_6_test, y_6_test, '"Набор 6"')

Точность модели обученной на незашифрованных данных "Набор 6": 0.8464285731315613


In [11]:
n_7 = x_7_train.shape[1] 
lr_7 = LogisticRegression(n_7)
optim_7 = torch.optim.SGD(lr_7.parameters(), lr=1)
model_7 = train(lr_7, optim_7, criterion, x_7_train, y_7_train, '"Набор 7"')
plain_accuracy_7 = accuracy(model_7, x_7_test, y_7_test, '"Набор 7"')

Точность модели обученной на незашифрованных данных "Набор 7": 0.8714285492897034


In [12]:
n_8 = x_8_train.shape[1]
lr_8 = LogisticRegression(n_8)
optim_8 = torch.optim.SGD(lr_8.parameters(), lr=1)
model_8 = train(lr_8, optim_8, criterion, x_8_train, y_8_train, '"Набор 8"')
plain_accuracy_8 = accuracy(model_8, x_8_test, y_8_test, '"Набор 8"')

Точность модели обученной на незашифрованных данных "Набор 8": 0.8714285492897034


In [11]:
n_9 = x_9_train.shape[1]
lr_9 = LogisticRegression(n_9)
optim_9 = torch.optim.SGD(lr_9.parameters(), lr=1)
model_9 = train(lr_9, optim_9, criterion, x_9_train, y_9_train, '"Набор 9"')
plain_accuracy_9 = accuracy(model_9, x_9_test, y_9_test, '"Набор 9"')

Точность модели обученной на незашифрованных данных "Набор 9": 0.8714285492897034


#### 2 Обучение на зашифрованных данных

In [12]:
poly_mod_grade = 8192
coeff_mod_bit_sizes = [40, 21, 21, 21, 21, 21, 21, 40]
ctx_training = ts.context(ts.SCHEME_TYPE.CKKS, poly_mod_grade, -1, coeff_mod_bit_sizes)
ctx_training.global_scale = 2 ** 21
ctx_training.generate_galois_keys()

In [24]:
t_start = time()
enc_x_1_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_1_train]
enc_y_1_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_1_train]
t_end = time()
print(f'Шифрование данных "Набор 1" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 1" заняло 54 секунд


In [25]:
t_start = time()
enc_x_2_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_2_train]
enc_y_2_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_2_train]
t_end = time()
print(f'Шифрование данных "Набор 2" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 2" заняло 44 секунд


In [14]:
t_start = time()
enc_x_3_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_3_train]
enc_y_3_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_3_train]
t_end = time()
print(f'Шифрование данных "Набор 3" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 3" заняло 29 секунд


In [15]:
t_start = time()
enc_x_4_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_4_train]
enc_y_4_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_4_train]
t_end = time()
print(f'Шифрование данных "Набор 4" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 4" заняло 17 секунд


In [14]:
t_start = time()
enc_x_5_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_5_train]
enc_y_5_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_5_train]
t_end = time()
print(f'Шифрование данных "Набор 5" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 5" заняло 4 секунд


In [15]:
t_start = time()
enc_x_6_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_6_train]
enc_y_6_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_6_train]
t_end = time()
print(f'Шифрование данных "Набор 6" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 6" заняло 17 секунд


In [14]:
t_start = time()
enc_x_7_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_7_train]
enc_y_7_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_7_train]
t_end = time()
print(f'Шифрование данных "Набор 7" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 7" заняло 17 секунд


In [15]:
t_start = time()
enc_x_8_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_8_train]
enc_y_8_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_8_train]
t_end = time()
print(f'Шифрование данных "Набор 8" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 8" заняло 17 секунд


In [13]:
t_start = time()
enc_x_9_train = [ts.ckks_vector(ctx_training, x.tolist()) for x in x_9_train]
enc_y_9_train = [ts.ckks_vector(ctx_training, y.tolist()) for y in y_9_train]
t_end = time()
print(f'Шифрование данных "Набор 9" заняло {int(t_end - t_start)} секунд')

Шифрование данных "Набор 9" заняло 17 секунд


In [14]:
class EncryptedLogisticRegression:
    
    def __init__(self, torch_lr):
        self.weight = torch_lr.lr.weight.data.tolist()[0]
        self.bias = torch_lr.lr.bias.data.tolist()
        # накапливаем градиент и подсчитываем количество итераций
        self._delta_w = 0
        self._delta_b = 0
        self._count = 0
        
    def forward(self, enc_x):
        enc_out = enc_x.dot(self.weight) + self.bias
        enc_out = EncryptedLogisticRegression.sigmoid(enc_out)
        return enc_out
    
    def backward(self, enc_x, enc_out, enc_y):
        out_minus_y = (enc_out - enc_y)
        self._delta_w += enc_x * out_minus_y
        self._delta_b += out_minus_y
        self._count += 1
        
    def update_parameters(self):
        # обновляем параметры в соответствии с L2 регуляризацией, приняв α=1 и λ/m=0.05
        self.weight -= self._delta_w * (1 / self._count) + self.weight * 0.05
        self.bias -= self._delta_b * (1 / self._count)
        # обнуляем накапливание градиента и счётчик итераций
        self._delta_w = 0
        self._delta_b = 0
        self._count = 0
    
    @staticmethod
    def sigmoid(enc_x):
        return enc_x.polyval([0.5, 0.197, 0, -0.004])

    def encrypt(self, context):
        self.weight = ts.ckks_vector(context, self.weight)
        self.bias = ts.ckks_vector(context, self.bias)
        
    def decrypt(self):
        self.weight = self.weight.decrypt()
        self.bias = self.bias.decrypt()
        
    def __call__(self, *args, **kwargs):
        return self.forward(*args, **kwargs)
    

def enc_accuracy(model, x_test, y_test):
    w = torch.tensor(model.weight)
    b = torch.tensor(model.bias)
    out = torch.sigmoid(x_test.matmul(w) + b).reshape(-1, 1)
    correct = torch.abs(y_test - out) < 0.5
    return correct.float().mean()  

In [15]:
def enc_train(enc_model, enc_x_train, enc_y_train, x_test, y_test, data_name):
    times = []
    for epoch in range(EPOCHS):
        enc_model.encrypt(ctx_training)
        t_start = time()
        for enc_x, enc_y in zip(enc_x_train, enc_y_train):
            enc_out = enc_model.forward(enc_x)
            enc_model.backward(enc_x, enc_out, enc_y)
        enc_model.update_parameters()
        t_end = time()
        times.append(t_end - t_start)
        
        enc_model.decrypt()
        accuracy = enc_accuracy(enc_model, x_test, y_test)

            
        print(f"Точность модели, обученной на {data_name}, за эпоху {epoch + 1}: {accuracy}")

    print(f"\nСреднее время обучения модели, обученной на {data_name}, за эпоху: {int(sum(times) / len(times))} секунд")
    print(f"Точность модели обученной на зашифрованных данных {data_name}: {accuracy}")
    
    # if data_name == '"Набор 1"':
    #     diff_accuracy = plain_accuracy_1 - accuracy
    # elif data_name == '"Набор 2"':
    #     diff_accuracy = plain_accuracy_2 - accuracy
    # elif data_name == '"Набор 3"':
    #     diff_accuracy = plain_accuracy_3 - accuracy
    # elif data_name == '"Набор 4"':
    #     diff_accuracy = plain_accuracy_4 - accuracy
    # elif data_name == '"Набор 5"':
    #     diff_accuracy = plain_accuracy_5 - accuracy   
    # elif data_name == '"Набор 6"':
    #     diff_accuracy = plain_accuracy_6 - accuracy
    # elif data_name == '"Набор 7"':
    #     diff_accuracy = plain_accuracy_7 - accuracy
    # elif data_name == '"Набор 8"':
    #     diff_accuracy = plain_accuracy_8 - accuracy
    # elif data_name == '"Набор 9"':
    #     diff_accuracy = plain_accuracy_9 - accuracy    
    # print(f"Разница между точностью модели обученной на зашифрованных и незашифрованных данных: {diff_accuracy}")

In [28]:
enc_lr_1 = EncryptedLogisticRegression(LogisticRegression(x_1_train.shape[1]))
enc_model_1 = enc_train(enc_lr_1, enc_x_1_train, enc_y_1_train, x_1_test, y_1_test, '"Набор 1"')

Точность модели, обученной на "Набор 1", за эпоху 1: 0.8602272868156433
Точность модели, обученной на "Набор 1", за эпоху 2: 0.8602272868156433
Точность модели, обученной на "Набор 1", за эпоху 3: 0.8602272868156433

Среднее время обучения модели, обученной на "Набор 1", за эпоху: 388 секунд
Точность модели обученной на зашифрованных данных "Набор 1": 0.8602272868156433


In [29]:
enc_lr_2 = EncryptedLogisticRegression(LogisticRegression(x_2_train.shape[1]))
enc_model_2 = enc_train(enc_lr_2, enc_x_2_train, enc_y_2_train, x_2_test, y_2_test, '"Набор 2"')

Точность модели, обученной на "Набор 2", за эпоху 1: 0.8661764860153198
Точность модели, обученной на "Набор 2", за эпоху 2: 0.8661764860153198
Точность модели, обученной на "Набор 2", за эпоху 3: 0.8661764860153198

Среднее время обучения модели, обученной на "Набор 2", за эпоху: 297 секунд
Точность модели обученной на зашифрованных данных "Набор 2": 0.8661764860153198


In [20]:
enc_lr_3 = EncryptedLogisticRegression(LogisticRegression(x_3_train.shape[1]))
enc_model_3 = enc_train(enc_lr_3, enc_x_3_train, enc_y_3_train, x_3_test, y_3_test, '"Набор 3"')

Точность модели, обученной на "Набор 3", за эпоху 1: 0.8333333134651184
Точность модели, обученной на "Набор 3", за эпоху 2: 0.8333333134651184
Точность модели, обученной на "Набор 3", за эпоху 3: 0.8333333134651184

Среднее время обучения модели, обученной на "Набор 3", за эпоху: 219 секунд
Точность модели обученной на зашифрованных данных "Набор 3": 0.8333333134651184


In [21]:
enc_lr_4 = EncryptedLogisticRegression(LogisticRegression(x_4_train.shape[1]))
enc_model_4 = enc_train(enc_lr_4, enc_x_4_train, enc_y_4_train, x_4_test, y_4_test, '"Набор 4"')

Точность модели, обученной на "Набор 4", за эпоху 1: 0.8571428656578064
Точность модели, обученной на "Набор 4", за эпоху 2: 0.8571428656578064
Точность модели, обученной на "Набор 4", за эпоху 3: 0.8571428656578064

Среднее время обучения модели, обученной на "Набор 4", за эпоху: 124 секунд
Точность модели обученной на зашифрованных данных "Набор 4": 0.8571428656578064


In [18]:
enc_lr_5 = EncryptedLogisticRegression(LogisticRegression(x_5_train.shape[1]))
enc_model_5 = enc_train(enc_lr_5, enc_x_5_train, enc_y_5_train, x_5_test, y_5_test, '"Набор 5"')

Точность модели, обученной на "Набор 5", за эпоху 1: 0.8374999761581421
Точность модели, обученной на "Набор 5", за эпоху 2: 0.8374999761581421
Точность модели, обученной на "Набор 5", за эпоху 3: 0.8374999761581421

Среднее время обучения модели, обученной на "Набор 5", за эпоху: 36 секунд
Точность модели обученной на зашифрованных данных "Набор 5": 0.8374999761581421


In [19]:
enc_lr_6 = EncryptedLogisticRegression(LogisticRegression(x_6_train.shape[1]))
enc_model_6 = enc_train(enc_lr_6, enc_x_6_train, enc_y_6_train, x_6_test, y_6_test, '"Набор 6"')

Точность модели, обученной на "Набор 6", за эпоху 1: 0.8464285731315613
Точность модели, обученной на "Набор 6", за эпоху 2: 0.8464285731315613
Точность модели, обученной на "Набор 6", за эпоху 3: 0.8464285731315613

Среднее время обучения модели, обученной на "Набор 6", за эпоху: 111 секунд
Точность модели обученной на зашифрованных данных "Набор 6": 0.8464285731315613


In [18]:
enc_lr_7 = EncryptedLogisticRegression(LogisticRegression(x_7_train.shape[1]))
enc_model_7 = enc_train(enc_lr_7, enc_x_7_train, enc_y_7_train, x_7_test, y_7_test, '"Набор 7"')

Точность модели, обученной на "Набор 7", за эпоху 1: 0.8714285492897034
Точность модели, обученной на "Набор 7", за эпоху 2: 0.8714285492897034
Точность модели, обученной на "Набор 7", за эпоху 3: 0.8714285492897034

Среднее время обучения модели, обученной на "Набор 7", за эпоху: 104 секунд
Точность модели обученной на зашифрованных данных "Набор 7": 0.8714285492897034


In [19]:
enc_lr_8 = EncryptedLogisticRegression(LogisticRegression(x_8_train.shape[1]))
enc_model_8 = enc_train(enc_lr_8, enc_x_8_train, enc_y_8_train, x_8_test, y_8_test, '"Набор 8"')

Точность модели, обученной на "Набор 8", за эпоху 1: 0.8714285492897034
Точность модели, обученной на "Набор 8", за эпоху 2: 0.8714285492897034
Точность модели, обученной на "Набор 8", за эпоху 3: 0.8714285492897034

Среднее время обучения модели, обученной на "Набор 8", за эпоху: 88 секунд
Точность модели обученной на зашифрованных данных "Набор 8": 0.8714285492897034
