<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
try:
    df = pd.read_csv('/datasets/insurance.csv')
except:
    print('что-то пошло не так')

In [3]:
df.sample(3)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
1345,0,39.0,37400.0,0,0
1905,1,26.0,38000.0,2,0
3767,1,19.0,18700.0,2,0


In [4]:
df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Типы данных признаков корректны. Явных аномалий не видно. Так как целью задачи не является построить модель с хорошей предсказательной способность, на этом знакомство с данными можно завершить.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

---

Цель задачи: выяснить, как изменятся предсказания $a$ и вектор весов $w$ после умножение вектора признаков $X$ на обратимую матрицу $R$ (reversible) Стоить заметить, что матрица $R$ должна иметь корректную размерность, и должна быть исходя из условия обратимости, квадратной.

$$X_{R} = X*R$$ тогда формула расчета весов измениться: 

$$ w_R = ((X R)^T (X R))^{-1} (X R)^T y $$

Далее будем использовать свойства преобразований, про которые к слову сказать ничего не было сказано в обучающей части (при раскрытии скобок в произведении обратимости и транспонировании множители меняются местами!).
Следует сделать важное замечание. Изначально хотелось раскрывать скобки $(...X...)^{-1}$, но это будет ошибкой, так как матрица признаков у нас, да и как правило, всегда, не квадратная.  

Таким образом, выражение в скобках $(X^{T}X)^{-1}$, где матрица "заквадрачивается", нельзя подвергать преобразованиям. В свою очередь, с матрицей $R$, подобные преобразования допустимы, т.к. по условию она обратима.


$$ w_R = ((XR)^T X R)^{-1} * (X R)^T * y = ((XR)^T X R)^{-1} (XR)^T y = $$

$$ = (R^T X^T X R)^{-1} R^T X^T * y $$

Воспользуемся свойством $A^{-1} B^{-1} = (B A)^{-1} $ и перенесем правую $R^T$ внутрь скобки обратимости:

$$ = ((R^T)^{-1} R^T X^T X R)^{-1}  X^T * y $$

$(R^T)^{-1} R^T$ "сокращаются", давая едbничный вектор в операции умножения

$$ = (X^T X R)^{-1}  X^T * y $$

Используем вышеупомянутое правило, но в другом направлении $(B A)^{-1} = A^{-1} B^{-1}$, вынесем за скобки $R$: 

$$ = R^{-1} (X^T X)^{-1}  X^T * y $$


То есть получаем:

$$ w_R = R^{-1}*(X^{T}X)^{-1}  X^T  y $$

Учитывая что $ (X^T X)^{-1} X^T y = w$ 

$$ w_R = R^{-1}w  $$

то есть "закодированные" матрицы можно "декодировать" путем умножения на матрицу R:
$$ w_R = R^{-1}w  $$
$$ w = R * w_R  $$


тогда формула предсказаний $ a_R = X_R * w_R$  c учетом $ w_R = R^{-1}w $ примет вид:
$$ a_R = X_R * w_R = (X*R) * (R^{-1}w)$$ 

учитывая свойство ассоциативности произведения матриц:

$$ a_R = X (R  R^{-1})  w  = X E w = Xw = a $$

--
Т.к. $(R^T)^{-1} * R^T = E$ (единичная матрица не влияющая не результат произведения), перепишем результат:

$$ R^{-1} * X^{-1}(X^T)^{-1} * X^T * y $$



Таким образом доказано, что вектор предсказаний модели линейной регрессии при умножении признаков на обратимую матрицу не изменяется. Соотвественно не будут и изменяться метрики качества предсказаний.  

Декодировать закодированную матрицу признаков легко, достаточно умножить ее слева на обратную к обратимой матрице.

## Алгоритм преобразования

**Алгоритм**

    1. Сгенерировать обратимую матрицу, которая поддерживает умножение X справа (соотв-щая размерность).
    2. Умножить на признаки.
    3. Находим метрики моделей на преобразованных и исходных данных.
    4. Сравниваем метрики. В случае равенства метрик считаем задачу решенной.


## Проверка алгоритма

Выделяем фичи и целевой признак:

In [6]:
X = df.drop('Страховые выплаты', axis=1)
y = df['Страховые выплаты']

In [7]:
def encode(X):
    R = np.random.rand(X.shape[1], X.shape[1])
    try:
        decode = np.linalg.inv(R)
        return X@R, decode
    except:
        print('сгенерирована необратимая матрица')
    

In [9]:
def decode(X_encode_, decode_):
    return X_encode_@decode_

In [10]:
def get_score(X, y):
    reg = LinearRegression()
    reg.fit(X, y)
    y_pred = reg.predict(X)
    return r2_score(y, y_pred)    

In [11]:
get_score(X, y)

0.4249455028666801

In [12]:
get_score(encode(X)[0], y)

0.42494550286663757

Вывод: результаты r2-score можно считать идентичными (с учетом несущественной погрешности), следовательно, алгоритм указан верно.

Теперь "закодируем-раскодируем" признаки:

In [56]:
(X_encode, decode) = encode(X)

In [57]:
X_encode@decode

Unnamed: 0,0,1,2,3
0,1.000000e+00,41.0,49600.0,1.000000e+00
1,5.972440e-11,46.0,38000.0,1.000000e+00
2,1.559322e-11,29.0,21000.0,-1.344869e-11
3,5.780795e-13,21.0,41700.0,2.000000e+00
4,1.000000e+00,28.0,26100.0,9.504885e-12
...,...,...,...,...
4995,1.172243e-11,28.0,35700.0,2.000000e+00
4996,3.828506e-11,34.0,52400.0,1.000000e+00
4997,-6.993545e-12,20.0,33900.0,2.000000e+00
4998,1.000000e+00,22.0,32700.0,3.000000e+00


Матрица без названия колонок и имеет погрешности, но видно, что данные восстановлены.

In [58]:
X_encode

Unnamed: 0,0,1,2,3
0,46047.265108,13070.518213,42824.436779,19871.247025
1,35282.249101,10015.069234,32818.481542,15238.497144
2,19499.053545,5534.756871,18138.451508,8424.407583
3,38709.171303,10986.958566,35995.158450,16693.756602
4,24232.421804,6878.756292,22538.726400,10462.435420
...,...,...,...,...
4995,33142.458364,9407.589630,30822.877044,14301.899673
4996,48643.756035,13806.179632,45235.138966,20983.700688
4997,31469.507316,8932.463949,29264.497061,13574.354293
4998,30356.692752,8618.197708,28231.807655,13097.366074


In [59]:
decode

array([[ 2.77279127,  3.21223333,  0.04629571, -4.5478918 ],
       [ 3.40123439,  2.71111136, -1.20954257, -3.23795505],
       [-4.98353393, -6.01749552,  2.04663377,  7.34460846],
       [ 2.07750842,  3.7434322 , -1.22631363, -3.15974086]])

In [63]:
(X_encode_1, decode_1) = encode(X)

In [64]:
def decode(X_encode_, decode_):
    return X_encode_@decode_

In [65]:
decode(X_encode_1, decode_1)

Unnamed: 0,0,1,2,3
0,1.000000e+00,41.0,49600.0,1.000000e+00
1,-2.377580e-12,46.0,38000.0,1.000000e+00
2,-2.169601e-13,29.0,21000.0,1.967806e-12
3,-1.482111e-12,21.0,41700.0,2.000000e+00
4,1.000000e+00,28.0,26100.0,-1.039084e-12
...,...,...,...,...
4995,-5.548213e-13,28.0,35700.0,2.000000e+00
4996,-2.347607e-12,34.0,52400.0,1.000000e+00
4997,-1.791695e-12,20.0,33900.0,2.000000e+00
4998,1.000000e+00,22.0,32700.0,3.000000e+00


<b>Общий вывод:</b>

- Было доказано, что умножая матрицу признаков на обратимую матрицу, предсказания линейной регресии не меняются. Это связано с тем, что веса меняются соотвественно.

- Показан рабочий алгоритм преобразования признаков с пом. обратимой матрицы

- Алгоритм позволяет дешифровать данные в любой момент (если, конечно, известна исходная "шифровальная" матрица)

