# Защита персональных данных клиентов

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li></ul></div>

Методом преобразования данных защитить личную информацию клиентов страховой компании. 

## Загрузка данных

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
df.columns = ['sex', 'age','salary', 'family', 'payments']
df.head()

Unnamed: 0,sex,age,salary,family,payments
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
df.describe()

Unnamed: 0,sex,age,salary,family,payments
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Пропусокв и ошибок в данных нет.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** При умножении матрицы признаков на какую-либо другую обратимую матрицу, предсказания остаются постоянными и качество линейной регрессии не меняется.

**Обоснование:** 
Перепишем формулу обучения, учитывая умножение матрицы признаков $X$ на обратимую матрицу $B$:   

$$
w^* = ((XB)^TXB)^{-1}(XB)^Ty
$$

Задача обучения:


$$
w^* = \arg\min_{w^*} MSE(Xw^*, y)
$$

Докажем, что

$$ 
X(X^T X)^{-1} X^T = XB((XB)^TXB)^{-1}(XB)^T
$$ 

Доказательство:

$$
XB((XB)^T XB)^{-1} (XB)^T = XB(B^T X^T XB)^{-1}B^T X^T = XB B^{-1} (X^T X)^{-1} (B^T)^{-1} B^T X^T = XE (X^T X)^{-1} E X^T = X (X^T X)^{-1} X^T
$$
ч.т.д.

Из этого следует, что

$$ 
Xw = Xw^*
$$


Проверка (учитывается погрешность вычислений $10^{-10}$)

In [4]:
def check_invertable(matrices):
    for matrix in matrices:
        try:
            np.linalg.inv(matrix)
        except:
            return False
    return True

In [5]:
while True:
    m = 5000
    n = 4
    a = np.random.randint(1, 10, size=(m, n))
    b = np.random.randint(1, 10, size=(n, n))
    c = np.random.randint(1, 10, size=(m, 1))
    if check_invertable([b]):
        break

In [6]:
new_w = (a @ b) @ (np.linalg.inv(b.T @ a.T @ a @ b) @ (b.T @ a.T)) @ c
old_w = a @ np.linalg.inv(a.T @ a) @ (a).T @ c

new_w = new_w.reshape((m))
old_w = old_w.reshape((m))

threshold = 1e-10
for i in range(m):
    if (abs(new_w[i] - old_w[i]) > threshold):
        print('Значения значительно различаются')
        break
print('Значения равны')

Значения равны


## Алгоритм преобразования

**Алгоритм**

Можно умножить матрицу признаков на подходящую по размеру обратимую матрицу.
Эту матрицу нужно запомнить и при поступлении новых данных их вначале необходимо умножить на эту матрицу и уже затем предсказывать что-то. Аналогично тому, что делает объекта класса StandardScaller. Тоже преобразования, только без цели нормализации.
Восстановить данные можно умножив признаки на обратную матрицу.

## Проверка алгоритма

In [7]:
def combine_two_lists(a, b):
    a = np.array(a)
    b = np.array(b)
    return np.append(np.reshape(a, (len(a), 1)),
                     np.reshape(b, (len(b), 1)),
                     axis=1)

In [8]:
def experiments_history():
    results = []
    notes = []

    def test_model(features, target, note=''):
        features_train, features_test, target_train, target_test = train_test_split(
            features, target, test_size=0.25, random_state=12345)

        model = LinearRegression()
        model.fit(features_train, target_train)
        predictions = model.predict(features_test)
        r2s = r2_score(target_test, predictions)
        results.append(r2s)
        notes.append(note)
        print(f'Experiment #{len(results)}')
        print(f'r2_score: {r2s : .4f}')
        if (len(results) > 1):
            print(f'Deviation from initial: {(r2s - results[0]) : .4f}')
        combined = combine_two_lists(results, notes)
        return combined

    return test_model

In [9]:
def modify(df, shape=(4, 4), transform=True):
    assert shape[0] == 4, 'Rows in shape must be equal to 4'

    features = df.drop(['payments'], axis=1).values
    target = df['payments'].values

    if (transform):
        while True:
            trans_matrix = np.random.randint(0, 10, size=shape)
            
            """Из-за того, что в экспериментах используются не только квадратные матрицы,
            нужно обработать данный случай отдельно, так как неквадратная матрица всегда будет необратимой
            и цикл зависнет"""
            
            if(check_invertable([trans_matrix]) or shape[0] != shape[1]):
                break
                
        features = features @ trans_matrix
        return features, target, trans_matrix

    return features, target

In [10]:
linreg = experiments_history()
linreg(*modify(df, transform=False), note='No changes')
print('No changes\n\n')
for _ in range(0, 4):
    features, target, matrix = modify(df, shape=(4, _ + 1))
    note = f'Matmul on matrix:\n{matrix}'
    res = linreg(features, target, note=note)
    print(note + '\n\n')

Experiment #1
r2_score:  0.4352
No changes


Experiment #2
r2_score: -0.0001
Deviation from initial: -0.4353
Matmul on matrix:
[[0]
 [1]
 [7]
 [8]]


Experiment #3
r2_score:  0.4186
Deviation from initial: -0.0166
Matmul on matrix:
[[0 1]
 [7 5]
 [0 7]
 [8 8]]


Experiment #4
r2_score:  0.4363
Deviation from initial:  0.0011
Matmul on matrix:
[[3 0 1]
 [4 9 7]
 [0 2 4]
 [4 0 8]]


Experiment #5
r2_score:  0.4352
Deviation from initial:  0.0000
Matmul on matrix:
[[7 0 0 0]
 [9 9 3 0]
 [3 5 8 3]
 [4 1 8 2]]




Как видно из экспериментов, при умножении матрицы признаков на обратимую квадратную матрицу:
* Метрика $R^2$ не меняется;
* Благодаря обратимости у нас остается возможность восстановить данные.