**Содержание**

<a href='#part1'>***1. Загрузка данных***</a>

<a href='#part2'>***2. Умножение матриц***</a>

<a href='#part3'>***3. Алгоритм преобразования***</a>

<a href='#part4'>***4. Проверка алгоритма***</a>

<a href='#part5'>***5. Вывод***</a>

**Защита персональных данных клиентов**

Необходимо защитить данные клиентов страховой компании «Хоть потоп». Надо разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обосновать корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. 

<a id='part1'>***1. Загрузка данных***</a>

In [None]:
# импортируем библиотеки, прочитаем загруженный файл
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [11]:
df=pd.read_csv('/home/user/Рабочий стол/диск D/практикум/модуль 3/спринт 10. Линейная алгебра(матрицы)/insurance.csv')
df#.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


<a id='part2'>***2. Умножение матриц***</a>

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Ответ: не изменится

Обоснование: матрицы обладают следующими свойствами:
$$
1. (AB)^{-1} = B^{-1}A^{-1}
$$
$$
2. (AB)^T = B^TA^T
$$
$$
3. AA^{-1} = E
$$
будем использовать эти свойства в своих рассуждениях. Рассмотрим равенство матриц предсказаний без преобразований и с преобразованиями:



$$
X(X^T X)^{-1} X^T y = XP((XP)^TXP)^{-1}(XP)^T y
$$

сократим равенство на x и y. Получим:
$$
(X^T X)^{-1} X^T = P((XP)^TXP)^{-1}(XP)^T 
$$

расскроем скобки и произведем необходимые сокращения:
$$
X^{-1} (X^T)^{-1}X^T = P(XP)^{-1}((XP)^T)^{-1}P^TX^T 
$$

$$
X^{-1}E = PP^{-1}X^{-1}((XP)^T)^{-1}P^TX^T
$$

$$
X^{-1}E = EX^{-1}(P^TX^T)^{-1}P^TX^T
$$

$$
E = E(X^T)^{-1}(P^T)^{-1}P^TX^T
$$

$$
E = E(X^T)^{-1}X^T
$$

$$
E = E
$$
Ка видим, левая и правая части равенства одинаковы после всех преобразований

<a id='part3'>***3. Алгоритм преобразования***</a>

Алгоритм: в качестве преобразования предлагаю умножить исходную матрицу на обратную ей, состоящую из случайных чисел, воспользовавшись numpy.random.normal

Обоснование: в результате перемножения матриц данные клиентов приобретут вид случайного и несвязанного между собой набора цифр, что не позволит их интерпретировать, однако качество линейной регрессии не изменится (согласно п2) и модель по прежнему будет предсказывать целевой признак.

<a id='part4'>***4. Проверка алгоритма***</a>

In [2]:
# выделим признаки и таргет
target = df['Страховые выплаты']
features = df.drop('Страховые выплаты', axis=1)


# обучим модель и получим предсказания, посчитаем метрику r2
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
r2 = r2_score(target, predictions)
print('Предсказание модели на исходных данных:', r2)

Предсказание модели на исходных данных: 0.42494550286668


In [3]:
# создадим матрицу из случайных чисел 
P = np.random.normal(1, size=(4, 4))
print(P)

[[ 0.46122975  2.05006657  0.3329491   0.59586654]
 [ 0.77008111  1.48949916  1.53393416  2.10199387]
 [ 1.14702236  2.1147705   1.87022344 -0.94547972]
 [ 0.94163402 -0.11559972  1.30384218  0.35561523]]


In [4]:
# проверим, обратима ли эта матрица
try:
    P_1 = np.linalg.inv(P)
    print('всё отлично, матрица обратима!')
except:
    print('упссс!!! ошибочка вышла.')

всё отлично, матрица обратима!


In [5]:
# умножим исходную матрицу на сгенерированную случайную матрицу 
features_p = features @ P


# посмотрим "глазами" на обновленные данные клиентов
print(features_p.head())

              0              1             2             3
0  56925.285191  104955.620831  92827.610732 -46808.661061
1  43623.215004   80429.680437  71140.355546 -35831.182164
2  24109.801889   44453.376018  39319.176338 -19794.116374
3  47848.887338   88216.978216  78023.137763 -39381.651373
4  29959.307068   55239.266145  48856.114898 -24617.569092


 Теперь личные данные клиентов плохо интерпретируются

In [6]:
# обучим модель, получим предсказания и посчитаем метрику r2 на преобразо-
# ванной матрице
model = LinearRegression()
model.fit(features_p, target)
predictions_p = model.predict(features_p)
r2_p = r2_score(target, predictions_p)
print('Предсказание модели на измененных данных:', r2_p)

Предсказание модели на измененных данных: 0.424945502866671


<a id='part5'>***5. Вывод***</a>

 Согласно теоретическому обоснованию в п.2 качество модели не должно было ухудшиться, что и подтвердилось на практике. Метрика R2 не изменилась, а личные данные клиентов защищены.

In [10]:
# обратное преобразование (умножение на обратную матрицу)
(features_p @ P_1).round().astype(int)

Unnamed: 0,0,1,2,3
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0
...,...,...,...,...
4995,0,28,35700,2
4996,0,34,52400,1
4997,0,20,33900,2
4998,1,22,32700,3
