<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов компании. Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

Импортируем необходимые библиотеки.

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

Прочитаем предоставленные данные.

In [2]:
insurance = pd.read_csv('/datasets/insurance.csv')
display(insurance.head())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
insurance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
insurance = insurance.astype({'Возраст':'int', 'Зарплата':'int'})
insurance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Пол                5000 non-null   int64
 1   Возраст            5000 non-null   int64
 2   Зарплата           5000 non-null   int64
 3   Члены семьи        5000 non-null   int64
 4   Страховые выплаты  5000 non-null   int64
dtypes: int64(5)
memory usage: 195.4 KB


In [5]:
insurance.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.3594,1.1942,0.148
std,0.500049,8.440807,9900.082063,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Удалим явные дубликаты.

In [6]:
insurance = insurance.drop_duplicates()

## Умножение матриц

Выделим из выборки целевой признак.

In [7]:
features = insurance.drop(['Страховые выплаты'], axis=1)
target = insurance['Страховые выплаты']

Обучим модель на нешифрованных признаках.

In [8]:
model_linear_regression = LinearRegression()
model_linear_regression.fit(features, target)
predict = model_linear_regression.predict(features)
display(r2_score(target, predict))

0.4302010046633359

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

**Обоснование:** 

Предположим, что качество модели не изменится, если умножить признаки на обратную матрицу. Для этого возьмем формулу обучения и прировняем ее к формуле обучения с добавленной к ней обратимой матрицей. Далее попробуем раскрыть скобки и сократить лишнее:

Известно, что для линейной регрессии верны следующие выражения:

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Умножим матрицу признаков X на обратимую матрицу P:

$$
a' = (XP)w'
$$


$$
w' = ((XP)^T XP)^{-1} (XP)^T y
$$

Одно из войств транспонированных матриц: Транспонированное произведение матриц равно произведению транспонированных матриц, взятых в обратном порядке.

$$
(AB)^T = B^T A^T 
$$

Следовательно:

$$
w' = (P^T X^T XP)^{-1} (XP)^T y
$$
$$
w' = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$
Поскольку:
$$
(P^T)^{-1} P^T = E 
$$
Получаем:
$$
w' = P^{-1} (X^T X)^{-1} X^T y
$$
$$
w' = P^{-1} w
$$

$$
a' = (XP)P^{-1} w
$$
$$
a' = Xw = a
$$
**Вывод:** Качество модели не изменится.

## Алгоритм преобразования

**Алгоритм**

1. Находим квадратную обратимую матрицу шифрования, для этого случайным образом генерируем квадратную матрицу, размером равную количеству признаков.
2. Проверяем нашу матрицу на оборачиваемость.
3. По-векторно умножаем таблицу с признаками на матрицу шифрования.
4. Обучаем модель.
6. Пробуем предсказать.

**Обоснование**

Качество линейной регрессии не поменяется, так как мы рассуждали об этом выше. Тем не менее, если взять формулу линейной регрессии и пропорционально увеличить обе части, то логично, что вектор весов не изменится.

## Проверка алгоритма

Выделим матрицу признаков.

In [9]:
features_new = insurance.drop(['Страховые выплаты'], axis=1)
features_new = np.array(features_new)

Сгенерируем случайным образом квадратную матрицу и проверим на обратимость.

In [10]:
p = np.random.normal(size=(len(features_new[0]), len(features_new[0])))
p_inverse = np.linalg.inv(p)

По-веторно умножим матрицу признаков на матрицу шифрования.

In [11]:
list_insurace_new = []
for i in features_new:
    list_insurace_new.append(np.dot(i, p))
features_new = np.array(list_insurace_new)
features_new

array([[ 21408.24941853, -18941.18938132,  -6009.68747635,
         29480.19203243],
       [ 16396.04801735, -14503.08140559,  -4613.29232788,
         22564.74352909],
       [  9060.24824159,  -8012.38650726,  -2552.89993872,
         12464.46211474],
       ...,
       [ 14633.71689201, -12951.37021825,  -4099.36461358,
         20161.59524494],
       [ 14112.9702768 , -12491.93380643,  -3954.28378046,
         19443.84340771],
       [ 17525.502776  , -15507.6447836 ,  -4915.20563391,
         24139.12010968]])

Обучим модель и сравним ошибку с нешифрованной моделью.

In [12]:
model_linear_regression = LinearRegression()
model_linear_regression.fit(features_new, target)
predict_new = model_linear_regression.predict(features_new)
display(f'R2 до шифрования:   {r2_score(target, predict)}')
display(f'R2 после шифрования:{r2_score(target, predict_new)}')

'R2 до шифрования:   0.4302010046633359'

'R2 после шифрования:0.4302010046633292'

**Вывод**

Судя по результатам величина R2 изменилась незначительно.