<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
df = pd.read_csv('/datasets/insurance.csv')

In [3]:
target = df.iloc[:,-1:]
features = df.iloc[:,:4]
features.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


In [4]:
key_matrix = np.random.normal(size=(df.shape[1]-1,df.shape[1]-1))

In [5]:
key_matrix

array([[-1.62067527, -0.8607633 ,  1.59580758, -0.64536447],
       [-0.03769814, -0.09216966,  0.27399728, -1.12274309],
       [-2.27768546,  1.72090736,  0.38706058,  0.20089411],
       [ 1.22953786,  0.07193213,  0.74677453,  0.62143728]])

In [6]:
np.linalg.det(key_matrix)

8.47604120513331

In [7]:
pd.DataFrame(features.values @ key_matrix).head()

Unnamed: 0,0,1,2,3
0,-112975.135459,85352.437426,19211.781483,9918.291331
1,-86552.551966,65390.311928,14721.652876,7582.951335
2,-47832.487856,36136.381707,8136.218204,4186.216705
3,-94977.816167,71760.045346,16147.673883,8354.949547
4,-59450.266667,44912.240665,10111.548998,5211.254031


In [8]:
pd.DataFrame(features.values @ key_matrix @ np.linalg.inv(key_matrix)).head()

Unnamed: 0,0,1,2,3
0,1.0,41.0,49600.0,1.0
1,-1.571342e-12,46.0,38000.0,1.0
2,-8.982294e-13,29.0,21000.0,3.069785e-13
3,1.220854e-12,21.0,41700.0,2.0
4,1.0,28.0,26100.0,-3.45107e-13


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:**

- $X'_{enc} = X' * М_{4x4}^{key}$ (Данные без целевого признака умножаем на ключевую матрицу (обязательно обратимую))
- $X' = X'_{enc} * (М_{key})^{-1}$ (Для расшифровки умножаем данные на обратную ключевой матрицу)

**Обоснование:**

- Подобный способ хорошо шифрует данные (подобрать ключевую матрицу очень сложно)
- Умножение матриц не должно сильно повлиять качество обучения модели потому что данные умножаются на одни те же числа из ключевой матрицы

## Алгоритм преобразования

**Алгоритм**

- [x] Выделяем из датафрейма `features`
- [x] Создаем рандомную квадратную матрицу `key martix` размером = `кол-во столбцов в датафрейме - 1` ("-1" потому что данные без целевого признака)
- [x] Убеждаемся, что `key martix` является обратимой при помощи `np.linalg.det()`
- [x] Шифруем данные = `features.values` @ `key martix`
- [x] Для обратного преобразования зашифрованных данных - `шифрованные данные` @ `np.linalg.inv(key_matrix)` (обратную ключевую матрицу)

**Обоснование**

- Подобный способ хорошо шифрует данные (подобрать ключевую матрицу очень сложно)
- Умножение матриц не должно сильно повлиять качество обучения модели потому что данные умножаются на одни те же числа из ключевой матрицы

Если: Матрица признаков - X Обратимая матрица - P Вектор целевого признака - y Вектор весов целевого признака - w

Предсказания в линейной регрессии:

$$a = X w$$

Формула вектора весов линейной регрессии:

$$w = (X^TX)^{-1}X^Ty$$

Преобразуем выражение для $w'$ - с зашифрованными признаками:

$$    w' = (Y^TY)^{-1} Y^Ty$$
$$    w'= ((XP)^T(XP))^{-1} (XP)^Ty$$
$$    w'= P^{-1}((XP)^{T}X)^{-1} (XP)^Ty$$
$$    w'= P^{-1}((XP)^{T}X)^{-1} P^TX^Ty$$
$$    w'= P^{-1}(P^TX^TX)^{-1} P^TX^Ty$$
$$   w'= P^{-1}(X^TX)^{-1}(P^T)^{-1} P^TX^Ty$$

Так как $(P^{T})^{-1} P^T = E$, а при умножениия матрицы на единичную, мтарица остается неизменной, можем просто убрать эту часть из уравнения.

Получится:

$$   w'= P^{-1}(X^TX)^{-1}X^Ty$$

Тогда заменим $(X^TX)^{-1}X^Ty$ на $w$:

$$w'= P^{-1}w$$

Подставим для $X'$ и $w'$ в формулу для расчета $a'$ - предсказания по зашифрованным признакам:

$$a'=X'w' = XPP^{-1}w = Xw = a$$

Выражения тождественны. Векторы предсказаний совпали.

## Проверка алгоритма

Создадим фукнцию для шибрования данных, на выходе из которой будем получать `target` и заширфованные `features`

In [9]:
features = df.iloc[:,:4]

det = 0

# Создаем рандомную матрицу
# Проверяем обратимая она или нет (если обратимая - det <> 0)
while det == 0:
    key_matrix = np.random.normal(size=(df.shape[1]-1,df.shape[1]-1))
    det = np.linalg.det(key_matrix)

features_enc = pd.DataFrame(features.values @ key_matrix, columns=features.columns)

Незашифрованные данные

In [10]:
features.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


Зашифрованные данные

In [11]:
features_enc.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,-54442.997129,-19729.05043,-23669.630942,38601.363812
1,-41732.656104,-15133.02991,-18154.133574,29570.19304
2,-23068.18454,-8366.587981,-10036.666312,16340.661568
3,-45751.843266,-16571.808679,-19882.058139,32455.188053
4,-28657.828815,-10388.776569,-12463.688632,20311.510723


Расшифрованные данные

In [12]:
fetures_decode = features_enc @ np.linalg.inv(key_matrix)
fetures_decode.head()

Unnamed: 0,0,1,2,3
0,1.0,41.0,49600.0,1.0
1,-3.055156e-12,46.0,38000.0,1.0
2,-7.084626e-12,29.0,21000.0,-2.021661e-12
3,-3.778042e-12,21.0,41700.0,2.0
4,1.0,28.0,26100.0,-3.843378e-12


Видим, что данные до шифрования и после расшифровки совпадают - алгоритм работает!

Пишем функцию шифрования

In [13]:
def features_enc(df):
    
    features = df.iloc[:,:4]
    
    det = 0
    
    # Создаем рандомную матрицу
    # Проверяем обратимая она или нет (если обратимая - det <> 0)
    while det == 0:
        key_matrix = np.random.normal(size=(df.shape[1]-1,df.shape[1]-1))
        det = np.linalg.det(key_matrix)
    
    features_enc = pd.DataFrame(features.values @ key_matrix, columns=features.columns)
        
    return features_enc

Разделим данные для обучения модели

In [14]:
target = df.iloc[:,-1:]
features = df.iloc[:,:4]
features_enc = features_enc(df)

In [15]:
model = LinearRegression()

Обучим модель на незашифрованных признаках

In [16]:
model.fit(features,target)

LinearRegression()

In [17]:
predictions = model.predict(features)

In [18]:
score = r2_score(target,predictions)
print('Качество модели (незашифрованные признаки):', score)

Качество модели (незашифрованные признаки): 0.4249455028666801


In [19]:
model.fit(features_enc,target)

LinearRegression()

In [20]:
predictions = model.predict(features_enc)

In [21]:
score = r2_score(target,predictions)
print('Качество модели (зашифрованные признаки):', score)

Качество модели (зашифрованные признаки): 0.4249455028666692


**Выводы**

- Метод шифрования данных работает
- Шифрование никак не влияет на качество обучаемой модели (значение предсказания $a$ не меняется, если умножать матрицу признаков на обратимую матрицу.)