# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
#df = pd.read_csv('C:/Users/VovAz/Desktop/Проект/Линал/insurance.csv')
df = pd.read_csv('/datasets/insurance.csv')
df.info()
print(df.head())
print(df.duplicated().value_counts())
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB
   Пол  Возраст  Зарплата  Члены семьи  Страховые выплаты
0    1     41.0   49600.0            1                  0
1    0     46.0   38000.0            1                  1
2    0     29.0   21000.0            0                  0
3    0     21.0   41700.0            2                  0
4    1     28.0   26100.0            0                  0
False    4847
True      153
dtype: int64


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


Данные прочитаны и изучены: пропусков нет, обнаружено 153 дубликата. Поскольку задачи предобработки данных не стоит, игнорируем данный факт. 

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Нет, не изменится

**Обоснование:** 
Вспомним формулу для вычисления весов параметров
$$
w = (X^T X)^{-1} X^T y
$$ 
Заменяем матрицу X произведением матриц X и P:
$$
w1 = ((X P)^T X P)^{-1} (X P) ^T y
$$
Поскольку предполагается, что произведение матриц X и P определено, воспользуемся свойством транспонированных матриц
$
(AB)^T=B^T A^T
$ для раскрытия скобок:
$$
w1 = (P^T X^T X P)^{-1} P^T X^T y
$$

Воспользуемся свойством ассоциативности произведения матриц 
$
(A · B) · C= A · (B · C)
$

$$
w1 = (P^T (X^T X) P) ^{-1} P^T X^T y
$$

Используем свойство для раскрытия скобок при обращении 
$
(AB)^{–1}=B^{–1}A^{–1}
$

$$
w1 = P^{-1} (X^T X)^{-1} P^T^{-1} P^T X^T y
$$
Умножение матрицы
$
P
$
на обратную матрицу
$P^{-1}
$
дает единичную матрицу 
$
E
$
$$
AE = A
$$

$$
w1 = P^{-1} (X^T X)^{-1} X^T y
$$
Замечаем, что 
$
X^T X^{-1} X^T y
$ является формулой для вычисления веса w

$$
w1 = P^{-1} w
$$
Формула для вычисления предсказаний: 
$$
a= Xw
$$
Следовательно,
$$
a1 = XPP^{-1} w 
$$
$$
a1 = Xw
$$

$$
a = a1
$$

## Алгоритм преобразования

**Алгоритм**

Для защиты информации предлагается : 
1. Сгенерировать случайную обратимую матрицу $P$ с учетом того чтобы матрица с преобразованными признаками $Z$ имела одинаковую размерность с матрицей признаков $X$.
2. Получить преобразованные признаки $Z = XP$


**Обоснование**
Поскольку, во втором пункте проекта мы доказали, что умножение признаков на обратимую матрицу не влияет на предсказания, алгоритм шифрования данных подходит для использования в рамках обучения и применения линейной регрессии.

## Проверка алгоритма

In [3]:
features = df.drop('Страховые выплаты',axis=1)#разделяем данные на признаки и целевые значения
target = df['Страховые выплаты']
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=123456)
model = LinearRegression()
model.fit(features_train, target_train)
raw_data_r2 =  r2_score(target_test, model.predict(features_test))
print("Значение R2 для незашифрованных данных", raw_data_r2)

Значение R2 для незашифрованных данных 0.41921160370427357


Получаем значение метрики R2 для линейной регрессии на незашифрованных данных.

In [4]:
def cipher_features(features):#создаем фунцию для шифрования признаков. На вход фунция принмает признаки
    crypted_features = features
    n = features.shape[1]#выделяем значение ширины матрицы признаков
    np.random.seed(12345)
    cipher_matrix = np.random.randint(0, 10, (n,n))#генерируем матрицу с высотой и шириной исходя из ширины исходной матриы
    det = np.linalg.det(cipher_matrix)# находим определитель матрицы чтобы убедиться, что матрица обратимая
    print("Определитель сгенерированной матрицы:", det)
    if det == 0:# если определитель равен 0, матрица необратимая, нужно сгенерировать новую. Шанс сгенерировать необратимую матрицу очень мал, поэтому одной проверки достаточно.
        np.random.seed(123456)
        cipher_matrix = np.random.randint(0, 10, (n,n))
        det = np.linalg.det(cipher_matrix)
        print("Определитель сгенерированной матрицы:",det)
    crypted_features = crypted_features @ cipher_matrix
    return crypted_features, cipher_matrix

In [5]:
features_crypted, cipher_matrix = cipher_features(features)
features_train, features_test, target_train, target_test = train_test_split(
    features_crypted, target, test_size=0.25, random_state=123456)
model = LinearRegression()
model.fit(features_train, target_train)
print("Значение R2 для незашифрованных данных", raw_data_r2)
print("Значение R2 для зашифрованных данных", r2_score(target_test, model.predict(features_test)))
print('Матрица шифрования\n', cipher_matrix)

Определитель сгенерированной матрицы: -2895.9999999999995
Значение R2 для незашифрованных данных 0.41921160370427357
Значение R2 для зашифрованных данных 0.41921160370430766
Матрица шифрования
 [[2 5 1 4]
 [9 5 2 1]
 [6 1 9 7]
 [6 0 2 9]]


In [6]:
features_crypted.head()
raw2 = features_crypted @ np.linalg.inv(cipher_matrix) 
raw2

Unnamed: 0,0,1,2,3
0,1.000000e+00,41.0,49600.0,1.000000e+00
1,-2.792891e-12,46.0,38000.0,1.000000e+00
2,-2.909201e-13,29.0,21000.0,2.417858e-12
3,-8.620465e-13,21.0,41700.0,2.000000e+00
4,1.000000e+00,28.0,26100.0,2.438438e-12
...,...,...,...,...
4995,-2.631090e-12,28.0,35700.0,2.000000e+00
4996,-1.855585e-12,34.0,52400.0,1.000000e+00
4997,-1.278394e-12,20.0,33900.0,2.000000e+00
4998,1.000000e+00,22.0,32700.0,3.000000e+00


Удалось сгенерировать матрицу шифрования, умножить признаки на нее и получить результат R2 не уступающий данным без шифрования.