# Разработка алгоритма для защиты данных

Требуется защитить данные клиентов страховой компании. 
Необходимо разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию и обосновать корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.  
Целевой признак: количество страховых выплат клиенту за последние 5 лет.  



#### Часть 1. [Загрузка данных](#part1)
* [1. Импорт библиотек.](#part1.1)
* [2. Загрузка и изучение данных](#part1.2)

#### Часть 2. [Умножение матриц](#part2)

#### Часть 3. [Алгоритм преобразования](#part3)

#### Часть 4. [Проверка алгоритма](#part4)

#### Часть 5. [Общий вывод](#part5)

<a id='part1'></a>
# 1. Загрузка данных
<a id='part1.1'></a>
## 1.1 Импорт библиотек

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

<a id='part1.2'></a>
## 1.2 Загрузка и изучение данных

In [2]:
data = pd.read_csv('/datasets/insurance.csv')
data.info()
display(data.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


## Вывод
Библиотеки импортированы, данные загружены.
Пропусков нет, предобработка не требуется.

<a id='part2'></a>
## 2. Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $A$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Домножим матрицу признаков $X (m \times n)$ на обратимую матрицу $A$ размера $(n \times n)$ и получим новую матрицу $X_1$ размера $(m \times n)$:

$$
X_1 = XA
$$

Тогда вектор весов линейной регресии $w_1$ будет равен:

$$
w_1 = (X_1^T X_1)^{-1} X_1^T y = ((XA)^T XA)^{-1} (XA)^T y
$$

Воспользуемся свойствами обратных, транспонированных и единичных матриц:

$$
(AB)^{-1} = B^{-1}A^{-1} \\
(AB)^{T} = B^{T}A^{T} \\
A^{-1}A = AA^{-1} = E
$$

Тогда новый вектор весов преобразуется следующим образом:
$$
w_1 = ((XA)^T XA)^{-1} (XA)^T y = (A^TX^TXA)^{-1} A^T X^T y = A^{-1}(A^TX^TX)^{-1}A^TX^T y= \\
= A^{-1}(X^TX)^{-1}(A^T)^{-1}A^TX^T y = A^{-1}(X^TX)^{-1}EX^T y = A^{-1} w
$$

Следовательно, вектор весов новой регрессии будет зависеть от параметров старой регрессии так:

$$
w_1 = A^{-1} w
$$

Подставим полученное значение в формулу предсказаний, где $a_1$ - новый вектор предсказаний:

$$
a_1 = X_1w_1 = XAA^{-1} w = XEw
$$

Если домножить матрицу признаков на обратимую квадратную матрицу, ответы регрессионной модели, а следовательно и ее качество не изменятся.


## Вывод

Умножение матрицы признаков на обратимую матрицу не влияет на качество линейной регрессии.

<a id='part3'></a>
## 3. Алгоритм преобразования

Как было показано выше, домножение матрицы признаков на квадратную обратимую матрицу с порядком, равным количеству признаков, не будет влиять на качество линейной регрессии.

Таким образом, для шифрования данных достаточно всего лишь домножить матрицу признаков на созданную матрицу, которая будет "ключом" шифрования.
Для расшифровывания матрицы следует умножить зашифрованную матрицу на матрицу, обратную ключу.

$$
AB = C  \\
ABB^{-1} = CB^{-1} \\
A = CB^{-1}
$$
Если же ключ неизвестен, то расшифровать матрицу будет невозможно.

In [3]:
a = np.random.normal(size=(5,5))
b = np.random.normal(size=(5,5))

# Проверка на обратимость
while not np.linalg.inv(a)[0][0]:
    a = np.random.normal(size=(5,5))
while not np.linalg.inv(b)[0][0]:
    b = np.random.normal(size=(5,5))

print('Исходная матрица')
display(a)
print('Матрица ключ')
display(b)
print('Зашифрованная матрица')
c = a @ b
display(c)
print('Расшифрованная матрица')
z= c @ np.linalg.inv(b)
display(z)

Исходная матрица


array([[-1.04923718,  0.24609903, -1.99448411, -0.77504877, -0.9366324 ],
       [ 0.89751353, -0.16893534,  0.09388291,  0.72863908,  0.27027126],
       [ 0.78618014, -0.90366879,  1.53263655,  0.28866132,  0.8424062 ],
       [ 1.22724072,  0.19245018,  0.13590168, -1.23018673,  0.83381299],
       [ 0.60089269,  1.5011607 ,  0.53977807,  0.38359703,  1.47698724]])

Матрица ключ


array([[ 1.70295923, -0.24524179,  0.47143919,  0.60692521,  1.20655044],
       [ 0.48898593, -0.73286424,  1.78883429,  0.01559896,  1.4532781 ],
       [-1.16927431,  2.17462857, -0.03117306, -0.37341893, -1.33054088],
       [-1.30028014, -0.22517881,  0.45925804, -1.41436508, -0.47111198],
       [-0.36246878,  1.43737262,  0.65007273, -0.38736815, -0.06250372]])

Зашифрованная матрица


array([[ 2.01291039, -5.43206771, -0.95707353,  1.57083199,  2.16911315],
       [ 0.29064726,  0.33226572,  0.62832844, -0.62822543,  0.35230672],
       [-1.57580767,  4.94822874, -0.61345922, -0.84385307, -2.59259697],
       [ 3.32249619,  1.32903706,  0.89566032,  2.11403766,  2.10702802],
       [ 0.09204822,  1.96290891,  4.08810471, -0.92813393,  1.91538018]])

Расшифрованная матрица


array([[-1.04923718,  0.24609903, -1.99448411, -0.77504877, -0.9366324 ],
       [ 0.89751353, -0.16893534,  0.09388291,  0.72863908,  0.27027126],
       [ 0.78618014, -0.90366879,  1.53263655,  0.28866132,  0.8424062 ],
       [ 1.22724072,  0.19245018,  0.13590168, -1.23018673,  0.83381299],
       [ 0.60089269,  1.5011607 ,  0.53977807,  0.38359703,  1.47698724]])

## Вывод
В результате, алгоритм преобразования для защиты данных будет выглядеть следующим образом:

1. Выделить из исходных данных матрицу признаков
2. Создать квадратную обратимую матрицу-ключ с порядком, равным количеству признаков
3. Умножить матрицу признаков на матрицу-ключ
4. Для расшифровки данных умножить зашифрованную матрицу, на матрицу, обратную матрице-ключу.

<a id='part4'></a>
# 4. Проверка алгоритма

Проверим алгоритм на примере и домножим исходную матрицу признаков размера $(5000 \times 4)$ на случайную обратимую матрицу размера $(4 \times 4)$

In [4]:
features_orig = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

key = np.random.normal(size=(features_orig.shape[1],features_orig.shape[1]))
while not np.linalg.inv(key)[0][0]:
    key = np.random.normal(size=(features_orig.shape[1],features_orig.shape[1]))

print('Матрица-ключ')
display(key)
features_mod = features_orig @ key

print('Преобразованная матрица признаков:')
display(features_mod)

Матрица-ключ


array([[ 0.70189818,  0.22812614, -0.15114597,  0.69253909],
       [-0.50409892,  0.69505709, -0.86672806,  1.38421158],
       [-0.66732461, -0.03994842,  0.42180619,  1.27729498],
       [-0.44449281,  1.2155262 , -0.96272716,  0.74346672]])

Преобразованная матрица признаков:


Unnamed: 0,0,1,2,3
0,-33119.711516,-1951.500886,20884.937290,63412.019634
1,-25381.968384,-1484.851997,15987.802994,48601.626398
2,-14028.435768,-818.760269,8832.794872,26863.336693
3,-27838.911476,-1648.822071,17569.191370,53293.755997
4,-17430.585303,-1022.964168,10984.722022,33376.849413
...,...,...,...,...
4995,-23838.492483,-1404.266121,15032.287135,45639.675604
4996,-34985.393642,-2068.450002,22072.212863,66978.063555
4997,-22633.275387,-1337.919413,14279.969818,43329.470950
4998,-21833.236642,-1287.147536,13770.955061,41800.921404


In [5]:
z=0
for features in [features_orig,features_mod]:
    model = LinearRegression()
    model.fit(features, target)
    predictions = model.predict(features)
    if z==0:
        txt='оригинальных'
    else:
        txt='преобразованных'
    print('R2 модели на', txt,'данных: {:.5f}'.format(r2_score(target, predictions)))
    print('Веса модели на', txt,'данных::', model.coef_)
    print('Сдвиг модели на', txt,'данных:', model.intercept_)
    print()
    z+=1

R2 модели на оригинальных данных: 0.42495
Веса модели на оригинальных данных:: [ 7.92580543e-03  3.57083050e-02 -1.70080492e-07 -1.35676623e-02]
Сдвиг модели на оригинальных данных: -0.9382355041528402

R2 модели на преобразованных данных: 0.42495
Веса модели на преобразованных данных:: [ 0.00076589 -0.08136278 -0.07222529  0.02170656]
Сдвиг модели на преобразованных данных: -0.9382355041506504



<a id='part5'></a>
# Общий вывод

В результате работы были изучены данные клиентов страховой компании о выплатах.  
Доказано предположение о том, что при умножении матрицы признаков линейной регрессии на обратимую матрицу, качество регрессии не ухудшается.  
Предложен и опробован алгоритм шифрования данных, не ухудшающий качества модели.  
