# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Вывод:" data-toc-modified-id="Вывод:-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод:</a></span></li></ul></li></ul></div>

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


df = pd.read_csv('/Users/alex/Desktop/питон/тетрадки jupiter notebook/Проект по линейной алгебре/insurance.csv')
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


## Умножение матриц

Формула предсказания модели:

$$
a = Xw
$$

Формула для нахождения вектора весов:
$$
w = (X^T X)^{-1} X^T y
$$


Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $R$ - рандомная обратимая матрица

- $y$ — вектор целевого признака

- $P$ — обратимая квадратная матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания модели домноженные на обратимую матрицу:
$${a}' = XR{w}'$$

Вектор весов домноженный на обратимую матрицу:
$$
{w}' = ((XR)^T (XR))^{-1} (XR)^T y = $$

$$(R^TX^TXR)^{-1} R^TX^T y = $$

$$R^{-1}(X^TX)^{-1}(R^T)^{-1} R^TX^T y =$$

(R^T)^{-1} и R^T сокращаются,так как являются обратными друг другу

$$R^{-1}(X^TX)^{-1} X^T y$$

*Подставляем полученный вектор весов в формулу предсказания модели помноженную на обратимую матрицу:*

$${a}' = XR{w}'= $$

$$XRR^{-1}(X^TX)^{-1} X^T y = $$

$$X(X^TX)^{-1} X^T y$$

Итого: 

$$a = {a}'$$


**Ответ:** Результаты преобразований показали, что качество предсказания модели после умножения на обратимую матрицу не изменится.

## Алгоритм преобразования

**Алгоритм такой**

- 1. Обучаем модель на исходном датасете
- 2. Предсказываем таргет на обучающих данных
- 3. Снимем метрику R2
- 4. Сгенерируем обратимую(определитель не равен нулю) матрицу при помощи np.random.sample() и проверим её на обратимость при помощи np.linalg.inv()
- 5. Умножим фичи на рандомную обратимую матрицу 
- 6. Снова предскажем таргет и снимем метрику
- 7. Сравниваем метрики и делаем выводы относительно нашей гипотезы


## Проверка алгоритма

In [2]:
#Запишем фичи и таргет для сравнения в виде таблиц в переменные и выведем
features = df.drop(['Страховые выплаты'], axis=1)
target = df['Страховые выплаты']
print(features.head())
print(target.head())

   Пол  Возраст  Зарплата  Члены семьи
0    1     41.0   49600.0            1
1    0     46.0   38000.0            1
2    0     29.0   21000.0            0
3    0     21.0   41700.0            2
4    1     28.0   26100.0            0
0    0
1    1
2    0
3    0
4    0
Name: Страховые выплаты, dtype: int64


In [3]:
#Запишем фичи и таргет в виде массивов в переменные и выведем для ознакомления
features_X = np.array(df.drop(['Страховые выплаты'], axis=1))
target_y = np.array(df['Страховые выплаты'])
print(features_X[:-10])
print(target_y[:-10])

[[1.00e+00 4.10e+01 4.96e+04 1.00e+00]
 [0.00e+00 4.60e+01 3.80e+04 1.00e+00]
 [0.00e+00 2.90e+01 2.10e+04 0.00e+00]
 ...
 [0.00e+00 2.80e+01 5.13e+04 1.00e+00]
 [0.00e+00 3.20e+01 3.25e+04 1.00e+00]
 [1.00e+00 2.80e+01 4.09e+04 1.00e+00]]
[0 1 0 ... 0 0 0]


- **В виде массивов опознать данные уже непросто, пеперь посмотрим как данные будут выглядеть после умножения на обратимую матрицу и как изменится качество модели после преобразования фич**

In [4]:
#Создадим обратимую квадратную матрицу с количеством строк равным количеству столбцов в features_X и выведем для ознакомления
R = np.random.sample([features_X.shape[1],features_X.shape[1]])
display(R)
#Проверим получившуюся матрицу на обратимость
display(np.linalg.inv(R))

array([[0.10392036, 0.25570617, 0.27751921, 0.92966219],
       [0.7456977 , 0.43353655, 0.01044546, 0.45215144],
       [0.4520888 , 0.34682784, 0.77799184, 0.85838344],
       [0.72402161, 0.26579167, 0.59116691, 0.13026917]])

array([[ 15.27231795,  -4.77463741, -16.18216046,  14.21104644],
       [-37.60896014,  14.07919248,  38.32933685, -33.03595917],
       [ -4.21278482,   0.27115085,   4.82789548,  -2.68920134],
       [ 10.97050834,  -3.4197409 , -10.17490604,   8.30084991]])

- **Отлично, матрица обратима, можно преобразовывать фичи!**

In [5]:
#Домножим исходную матрицу с фичами на нашу новую обратимую матрицу
features_X_new = features_X.dot(R)
display(features_X_new)

array([[22455.00580189, 17220.95728942, 38589.69209685, 42595.41698857],
       [17214.40034282, 13199.66633867, 29564.76148831, 32639.50012711],
       [ 9515.4899377 ,  7295.95716996, 16338.13150874, 18039.16472664],
       ...,
       [15342.17216291, 11766.6660418 , 26375.31453897, 29108.50233637],
       [14801.98494575, 11351.86120646, 25442.61391084, 28080.40643718],
       [18376.51257277, 14093.87076712, 31587.62976713, 34864.08801919]])

- **Вид даных, конечно, изменился до неузнаваемости, "сотрудники сбербанка" таким данным думаю нестрашны:)!**

Ну всё, в бой!!!!
Обучаем, прдсказываем, снимаем метрики до и после преобразования и сравниваем что получилось на выходе.

In [6]:
model_1 = LinearRegression()
model_1.fit(features_X, target_y)
predictions = model_1.predict(features_X)
print(r2_score(target_y, predictions))

0.4249455028666801


In [7]:
model_2 = LinearRegression()
model_2.fit(features_X_new, target_y)
predictions_2 = model_2.predict(features_X_new)
print(r2_score(target_y, predictions_2))

0.4249455028667112


### Вывод: 
Качество предсказаний модели после умнижения на обратимую матрицу не ухудшилось.