# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
df

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
df.duplicated().sum()

153

В качестве предобработки можно сделать: привести два столбца к int64 (возможно масштабировать столбец с зарплатой), названия к snake_case и избавиться от явных дубликатов.

Но, думаю, для нашей задачи это лишнее.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Ответьте на вопрос и обоснуйте решение. 
 Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
 a. Изменится. Приведите примеры матриц.
 b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Вопрос:** Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?

**Ответ:** Не изменится.

**Обоснование:** В исходной задаче параметры линейной регрессии будут заданы в базисной системе признаков. После преобразования параметры линейной регрессии будут заданы в новой базисной системе признаков. Однако значения параметров не изменятся, потому что признаки не изменились

## Алгоритм преобразования

**Алгоритм**
* Обучение линейной регрессии на исходных данных для вычисления R2
* Создадание обратимой матрицы 4 на 4 с рандомными значениями
* Преобразование исходных признаков путем умножнения матриц и сравнение R2 до и после

**Обоснование**

Умножение признаков на обратимую матрицу не изменяет качество линейной регрессии, потому что оно не изменяет признаки. Обратимая матрица просто преобразует признаки в другую систему не изменяя их значения. Например, если мы имеем два признака x1 и x2, то обратимая матрица преобразует их в другие признаки y1 и y2, но значения этих признаков остаются прежними. Таким образом, качество линейной регрессии не изменится, потому что признаки по сути не изменились.

## Проверка алгоритма

Нужно запрограммировать алгоритм применив матричные операции. Проверить отличается ли качество линейной регрессии до и после преобразования метрикой R2.

Обучим линейную регрессию на исходных данных и посчитаем R2:

In [5]:
features = df.drop(['Страховые выплаты'], axis=1)
target = df['Страховые выплаты']

features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.2, random_state=1984)

model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
score_before = r2_score(target_test, predictions)
print(score_before)

0.43728159584810344


Создадим матрицу 4 на 4 с рандомными значениями и посмотрим что получилось:

In [6]:
random_matrix = np.random.normal(size=(4,4))
random_matrix

array([[-2.28934611,  0.1412175 , -0.01142909, -1.32346136],
       [ 0.02583293, -0.56543539,  0.1454064 , -1.70795115],
       [ 0.76959793, -0.74113603, -1.50936221,  0.05244329],
       [ 1.5389832 ,  1.01243797,  1.78061174,  0.81304166]])

С помощью функции `np.linalg.inv()` проверим обратимость рандомной матрицы:

In [7]:
random_matrix_inverse = np.linalg.inv(random_matrix)
random_matrix_inverse

array([[ 0.16370522,  0.1582753 ,  0.66965742,  0.555771  ],
       [ 2.16299487, -0.62600983,  2.34698491,  2.05446092],
       [-1.00638759,  0.37614236, -1.50461089, -0.75097697],
       [-0.7992852 , -0.34383282, -0.89496072, -0.73567947]])

Преобразуем исходные признаки путем умножнения матриц и сравним R2 до преобразования и после:

In [8]:
features_after = features @ random_matrix
target = df['Страховые выплаты']

features_train, features_test, target_train, target_test = train_test_split(
    features_after, target, test_size=0.2, random_state=1984)

model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
score_after = r2_score(target_test, predictions)
print('R2 до   ', score_before)
print('R2 после', score_after)

R2 до    0.43728159584810344
R2 после 0.43728159584821724


Можно считать значения не изменились.

--------------------

Для интереса посмотрим как изменились признаки после преобразования:

In [9]:
features

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0
...,...,...,...,...
4995,0,28.0,35700.0,2
4996,0,34.0,52400.0,1
4997,0,20.0,33900.0,2
4998,1,22.0,32700.0,3


In [10]:
features_after

Unnamed: 0,0,1,2,3
0,38172.366091,-36782.376522,-74856.634943,2530.650881
1,29247.448619,-28188.166913,-57347.294806,1915.092396
2,16162.305675,-15580.254357,-31692.389697,1051.778555
3,32095.854118,-30915.221919,-62933.789544,2152.644398
4,20084.939936,-19359.341482,-39390.293821,1319.623835
...,...,...,...,...
4995,27478.447372,-26472.363758,-53876.598418,1826.028986
4996,40329.348809,-38853.740589,-79083.855557,2690.771219
4997,26092.964435,-25133.795412,-51160.909685,1745.294669
4998,25168.748223,-24244.409386,-49347.615034,1678.436396


<div class="alert alert-block alert-success">
<b>Комментарий ревьюера👍:</b> Дополнительно можно попробовать декодировать данные обратно
</div>

Декодируем с помощью обратной матрицы, округлим значения и посмотрим на результат:

In [11]:
features_final = features_after @ random_matrix_inverse
target = df['Страховые выплаты']

features_train, features_test, target_train, target_test = train_test_split(
    features_final, target, test_size=0.2, random_state=1984)

model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
score_final = r2_score(target_test, predictions)
print('R2 до  ', score_before)
print('R2 test', score_final)
features_final = np.round(features_final) 
features_final

R2 до   0.43728159584810344
R2 test 0.4372815958481273


Unnamed: 0,0,1,2,3
0,1.0,41.0,49600.0,1.0
1,0.0,46.0,38000.0,1.0
2,0.0,29.0,21000.0,-0.0
3,0.0,21.0,41700.0,2.0
4,1.0,28.0,26100.0,-0.0
...,...,...,...,...
4995,0.0,28.0,35700.0,2.0
4996,-0.0,34.0,52400.0,1.0
4997,0.0,20.0,33900.0,2.0
4998,1.0,22.0,32700.0,3.0


Данные не испортились после преобразования.