<h1>Содержание<span class="tocSkip"></span></h1><br>

<div class="toc"><ul class="toc-item"><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><br><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span><br><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span><br><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span>

# Защита персональных данных клиентов

Необходимо защитить данные клиентов страховой компании. Для этого разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Однако этот метод не должен ухудшать качество моделей машинного обучения.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
df = pd.read_csv('insurance.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [3]:
df.head(),\
df.tail()

(   Пол  Возраст  Зарплата  Члены семьи  Страховые выплаты
 0    1     41.0   49600.0            1                  0
 1    0     46.0   38000.0            1                  1
 2    0     29.0   21000.0            0                  0
 3    0     21.0   41700.0            2                  0
 4    1     28.0   26100.0            0                  0,
       Пол  Возраст  Зарплата  Члены семьи  Страховые выплаты
 4995    0     28.0   35700.0            2                  0
 4996    0     34.0   52400.0            1                  0
 4997    0     20.0   33900.0            2                  0
 4998    1     22.0   32700.0            3                  0
 4999    1     28.0   40600.0            1                  0)

In [4]:
# Переименуем столбцы датафрейма.

df.columns = ['gender', 'age', 'salary', 'family_members', 'insurance_payments']
df.head()

Unnamed: 0,gender,age,salary,family_members,insurance_payments
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Имеющийся набор данных по клиентам представляет собой прямоугольную матрицу размерностью 5000 х 5, где:  
Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.  
Целевой признак: количество страховых выплат клиенту за последние 5 лет.
  
Нам необходимо придумать метод преобразования данных, чтобы по нему было сложно восстановить персональную информацию. Также следует учитывать, что предложенный метод не должен ухудшать качество моделей машинного обучения.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

- $Z$ — обратимая матрица, выбранная случайным образом

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** 
При умножении признаков на обратимую матрицу качество линейной регрессии не изменится.

**Обоснование:**  
  
  
1. Формула предсказания модели имеет следующий вид:
$$
a = X(X^T X)^{-1} X^T y
$$  
  
  
2. Проверим предположение о том, что умножение на обратимую матрицу $Z$ не изменит качество предсказания. Умножим все признаки (матрица $X$) на обратимую матрицу $Z$:

$$
a1 = (XZ)((XZ)^T (XZ))^{-1} (XZ)^T y
$$
  
Раскроим скобки:
  
$$
a1 = XZ(Z^T\cdot  X^T\cdot  X\cdot  Z)^{-1} X^TZ^T y
$$
  
$$
a1 = XZ (Z^T\cdot (X^T  X)\cdot  Z)^{-1} X^TZ^T y
$$ 

  
$$
 a1 = X\cdot Z\cdot Z^{-1} \cdot (X^T  X)^{-1} \cdot (Z^T)^{-1} X^T\cdot (Z^T)^{-1} y
$$
  
При умножении $Z$ на обратную матрицу получаем единичную матрицу - $E$, выражение $(X^T)^{-1}X^{-1}$ преобразуем в $(X^TX)^{-1}$
  
$$ 
a1 = X\cdot E\cdot (X^T  X)^{-1}\cdot X^T\cdot E\cdot y
$$
  
При умножении $X$ на единичную матрицу($E$), получаем $X$.
  
$$ 
a1 = X(X^TX)^{-1}X^T y
$$
  

В результате получили, что все обратимые матрицы $Z$ сокращаются, а исходные значения равны преобразованным: $a=a1$

## Алгоритм преобразования

**Алгоритм**
  
В нашем случае матрица признаков $X$ является прямоугольной матрицей, и она не имеет обратной. Чтобы проверить нашу гипотезу необходимо подобрать такую матрицу $Z$, чтобы она была обратимой и была правильной размерности.

**Обоснование**

In [5]:
# Создадим случайную квадратную матрицу Z:
Z = np.random.rand(4, 4)

# Проверим, что сгенерированная матрица обратима.
Y = np.linalg.inv(Z)

Z, Y

(array([[0.7665316 , 0.56193249, 0.7875241 , 0.48152532],
        [0.59788684, 0.62663908, 0.62983741, 0.88970828],
        [0.41169727, 0.35003553, 0.93966029, 0.67531537],
        [0.74349642, 0.30325547, 0.70713274, 0.93956704]]),
 array([[ 1.67024412, -1.31267611, -1.76691788,  1.65699808],
        [ 0.55793123,  2.40523653, -0.32806523, -2.32774171],
        [ 0.30421258, -1.10965824,  1.91591702, -0.48220312],
        [-1.73072792,  1.09757418,  0.06213186,  0.8673249 ]]))

In [6]:
# Матрица X - все признаки клиентов, кроме целевого.
X = df.drop('insurance_payments',axis = 1).values
# y - целевой признак
y = df['insurance_payments'].values

X, y

(array([[1.00e+00, 4.10e+01, 4.96e+04, 1.00e+00],
        [0.00e+00, 4.60e+01, 3.80e+04, 1.00e+00],
        [0.00e+00, 2.90e+01, 2.10e+04, 0.00e+00],
        ...,
        [0.00e+00, 2.00e+01, 3.39e+04, 2.00e+00],
        [1.00e+00, 2.20e+01, 3.27e+04, 3.00e+00],
        [1.00e+00, 2.80e+01, 4.06e+04, 1.00e+00]]),
 array([0, 1, 0, ..., 0, 0, 0], dtype=int64))

In [7]:
a = X@((X.T@X)**-1)@X.T@y
a

array([3.34846873, 2.08891221, 0.94954357, ..., 1.98480564, 3.68668524,
       2.92959115])

In [8]:
a1 = (X@Z)@((((X@Z).T)@(X@Z))**-1)@((X@Z).T)@y
a1

array([2.7419083 , 2.10167124, 1.16167153, ..., 1.8734669 , 1.80748545,
       2.24400781])

In [9]:
#check = pd.DataFrame((a.T, a1.T))
d =  {"a": a, "a1": a1}
check = pd.DataFrame(d)
check

Unnamed: 0,a,a1
0,3.348469,2.741908
1,2.088912,2.101671
2,0.949544,1.161672
3,2.133485,2.304239
4,2.186112,1.443280
...,...,...
4995,2.181323,1.973437
4996,2.074315,2.895944
4997,1.984806,1.873467
4998,3.686685,1.807485


## Проверка алгоритма

Проверим работу предложенного алгоритма на модели линейной регрессии. В качестве метрики для сравнения используем коэффициент детерминации R2.

In [10]:
X = df.drop('insurance_payments',axis = 1)
y = df['insurance_payments']
X_train = X.sample(frac=0.6,random_state=1)
X_test = X.drop(X_train.index)
y_train = y.sample(frac=0.6,random_state=1)
y_test = y.drop(y_train.index)

In [11]:
X_train.shape[0] // 30

100

In [12]:
model = LinearRegression()
model.fit(X_train,y_train)
predictions = model.predict(X_test)
r2_score(y_test, predictions)

0.42921630543761824

In [13]:
# Умножим матрицу признаков на случайную обратимую матрицу размерностью 4х4
X_train_mod = X_train@Z
X_test_mod = X_test@Z

In [14]:
model = LinearRegression()
model.fit(X_train_mod,y_train)
predictions = model.predict(X_test_mod)
r2_score(y_test, predictions)

0.42921630543785794

В результате умножения матрицы с признаками клиентов на случайную обратимую матрицу получили массив данных, из которого не определить исходные данные клиентов.  
Мы провели проверку модели линейной регрессии на основе имеющихся данных и после их преобразования. В результате сравнения моделей получили значения коэффициентов детерминации, которые практически ничем не отличаются друг от друга (вплоть до 12 знака после запятой).  
Это свидететельсвует о том, что данные клиентов успешно защищены, при этом на защищённых данных можно строить модели, которые  не отличаются от моделей, построенных на исходных данных.