# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [None]:
import pandas as pd
import sklearn
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [None]:
data = pd.read_csv('/datasets/insurance.csv')

In [None]:
data.head(10)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
5,1,43.0,41000.0,2,1
6,1,39.0,39700.0,2,0
7,1,25.0,38600.0,4,0
8,1,36.0,49700.0,1,0
9,1,32.0,51700.0,1,0


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [None]:
data.duplicated().sum()

153

In [None]:
data.drop_duplicates().reset_index(drop= True)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4842,0,28.0,35700.0,2,0
4843,0,34.0,52400.0,1,0
4844,0,20.0,33900.0,2,0
4845,1,22.0,32700.0,3,0


##### Вывод

    Датасет состоит из 5000 строк и 5 столбцов
    Целевой признак: Страховые выплаты
    Признаки: Пол, Возраст, Зарплата, Члены семьи
    Аномальных значений нет
    Дубликаты удалены.

In [None]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [None]:
data.corr()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
Пол,1.0,0.002074,0.01491,-0.008991,0.01014
Возраст,0.002074,1.0,-0.019093,-0.006692,0.65103
Зарплата,0.01491,-0.019093,1.0,-0.030296,-0.014963
Члены семьи,-0.008991,-0.006692,-0.030296,1.0,-0.03629
Страховые выплаты,0.01014,0.65103,-0.014963,-0.03629,1.0


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Качество линейной регресии не изменится.

**Обоснование:** 

Признаки умножаем на обратимую матрицу $P$ :

$$
w_1 = ((XP)^T XP)^{-1} (XP)^T y
$$

Транспонированное произведение матриц равно произведению транспонированных матриц, взятых в обратном порядке

$$
w_1 = (P^T X^T XP)^{-1} P^T X^T y
$$

Раскроем скобки $(P^T X^T XP)$

$$
w_1 = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$

Так как $P$ по условию обратимая, то произведение  равно единичной матрице $E$

$$
w_1 = P^{-1} (X^T X)^{-1} E X^T y
$$

Умножение любой матрицы на единичную матрицыу равно этой матрице

$$
w_1 = P^{-1} (X^T X)^{-1} X^T y
$$

Подставим в формулу $a = Xw$ значение $w_1$, чтобы вычислить предсказания модели $a_1$:

$$
a_1 = XPw_1
$$

$$
a_1 = XP P^{-1} (X^T X)^{-1} X^T y
$$

Так как $P$ по условию обратимая, то произведение $PP^{-1}$ снова равно $E$:

$$
a_1 = X (X^T X)^{-1} X^T y
$$

$$
a_1 = Xw
$$

## Алгоритм преобразования

**Алгоритм**

Запишем в переменные признаки и целевой признак

Создадим случайную матрицу размерностью n, где n- ширина матрицы признаков

Проверим матрицу на обратимость.

Обучим модель без преобразования

Получим метрику R2 на модели без преобразования

Умножим матрицу признаков на случайную обратимую матрицу

Обучим модель на преобразованных данных

Получим мерику R2 на преобразованных данных

Сравним метрики

**Обоснование:** 

Мы умножим наши признаки на квадратную рандомную матрицу и сравним качество линейной регресии на двух матрицах. 

## Проверка алгоритма

In [None]:
features = data.drop('Страховые выплаты', axis=1).values
target = data['Страховые выплаты'].values

In [None]:
matrix_rnd = np.random.normal(size =(4,4))
print(matrix_rnd)

[[ 0.13100901 -0.25180398 -0.49672563  0.79170771]
 [ 1.27331382  0.33379016  0.4944544  -0.73047373]
 [ 2.22062515 -0.72885595  0.13042786  0.2965803 ]
 [-0.61000713  0.39058548  0.52020235 -0.1118882 ]]


In [None]:
matrix_inv = np.linalg.inv(matrix_rnd)
print(matrix_inv)

[[ 0.52695384  0.60416701  0.04984234 -0.08358745]
 [ 2.07815993  1.76803839 -0.98508928  0.55083186]
 [-0.63273192 -0.60064594  0.84263374  1.67779894]
 [ 1.43987364  0.08550067  0.20712011  1.24169323]]


In [None]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
print(r2_score(target, predictions))

0.42494550286668


In [None]:
matrix_new = features @ matrix_rnd

In [None]:
model.fit(matrix_new, target)
predictions = model.predict(matrix_new)
print(r2_score(target, predictions))

0.4249455028666739


##### Вывод:

Качество линейной регрессии практически не изменилось. Алгоритм преобразования данных работает.