# Защита персональных данных клиентов

Требуется защитить данные клиентов страховой компании.

Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

data = pd.read_csv('/datasets/insurance.csv')
display(data)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

***Пояснение***

Метрика качества модели не изменится(т.е. метрика при чистой матрицы = метрике при зашифрованной матрице), поскольку предказания построенные по модели ленейной регрессии будут идентичными. Предсказания будут идентичными, поскольку при обучении модель находит такой коэффициент к параметрам, чтобы при умножении на него результат был как можно ближе к значению таргета. При умножеyнии на матрицу в строке параметров получаются другие данные к которым модель подбирает соответствующий коэффициент, и в результате получаются значения так же как и в первый раз, максимально близкие к таргету

## Алгоритм преобразования

**Алгоритм**
Будет следующая последовательность действий:
 - 1) Разобъем датасет на признаки и целевой признак, преобразуем их в матрицу и вектор
 - 2) Введём рандомную матрицу
 - 3) Проверим рандомную матрицу на обратимость
 - 4) Введем модель и получим предсказания
 - 5) Создаём новую матрицу данных
 - 6) Ищем метрики качества на исходных данных и на преобразованных
 - 7) делаем вывод

**Обоснование**
В одно действие получается закодировать данные, ключем будет матрица размером 4х4, значения которой можно будет менять сколь угодно часто, без потери качества итоговых данных

## Проверка алгоритма

In [2]:
#Разобъем датасет на признаки и целевой признак, преобразуем их в матрицу и вектор
#data.columns
features = data.drop(['Страховые выплаты'],axis = 1).values
target = data['Страховые выплаты']

#Узнаем, изменится ли качество линейной регрессии - введем модель и получим предсказания
model = LinearRegression()
model.fit(features,target)
predictions = model.predict(features)

#Введем колонку случайных цифр для сравнения результата с ними и получения какого нибудь значения метрики
check = pd.Series(2, index = target.index)
print('метрика r2 на необработанных фичах: ', r2_score(predictions,check))
print()
#Умножим признаки на обратимую матрицу
matrix = np.linalg.inv(features.T @ features)
print('проверка матрицы на обратимость (обратная к начальной матрица):', np.linalg.inv(matrix))

features_new = features @ matrix
model.fit(features_new,target)
predictions_new = model.predict(features_new)
print()
print('метрика r2 на закодированных фичах: ', r2_score(predictions_new,check))

метрика r2 на необработанных фичах:  -37.62959372906759

проверка матрицы на обратимость (обратная к начальной матрица): [[2.49500000e+03 7.72710000e+04 9.99603000e+07 2.95500000e+03]
 [7.72710000e+04 5.14654400e+06 6.16963980e+09 1.84511000e+05]
 [9.99603000e+07 6.16963980e+09 8.45653924e+12 2.36704200e+08]
 [2.95500000e+03 1.84511000e+05 2.36704200e+08 1.30850000e+04]]

метрика r2 на закодированных фичах:  -37.62959372907797


## Вывод

Поскольку метрика качества предсказаний модели с использованием оригинальных и "тюнингованных" данных практически одинакова (разница начинается с 11го знака после запятой(видимо из-за округлений в калькуляции), данный способ подходит для использования. Домножением на обратимую матрицу легко, быстро и эффективно шифруются пользовательские данные, и это доказано в т.ч. на практике