<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score, mean_squared_error
from sklearn import linear_model
from sklearn.preprocessing import StandardScaler

In [2]:
try:
    data = pd.read_csv('/datasets/insurance.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/insurance.csv')

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Данные без пропусков, все столбцы содержат числа.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Вопрос:** Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?

**Ответ:** Качество линейной регрессии не изменится.

**Обоснование:**   
Свойства матриц: 
$$ 
A(BC) = (AB)C \\
(AB)^T = B^T A^T \\
(AB)^{-1} = B^{-1} A^{-1}
$$
Пусть $X_P$ это изменённые признаки.

$$
X_P = XP   \\
w_P = \left( X_P^T X_P \right) ^{-1} X_P^T y = \left( \left( XP\right)^T \left( XP\right) \right)^{-1} \left( XP\right)^T y \\
a_P = X_P w_P = 
XP \left( \left( XP\right)^T \left( XP\right) \right)^{-1} \left( XP\right)^T y = \\
$$
$$
= XP \left( P^T X^T X P\right)^{-1} P^T X^T y = 
XP \left( P^T \left(X^T X\right) P\right)^{-1} P^T X^T y = \\
$$
$$
= X \underbrace{P P^{-1}}_{E} \left(X^T X\right)^{-1} \underbrace{P^{T^{-1}} P^T}_{E} X^T y = \\
$$
$$
= X \left(X^T X\right)^{-1} X^T y = Xw = a \\
\Rightarrow a_P = a
$$

Предсказания изменённых признаков не отличаются от ориинальных предсказаний, значит и качество регрессии не изменится.

Проверим вывод экспериментально

В первую очередь нужно проверить, что столбцы $X$ линейно независимы. Для этого построим матрицу корреляции и проверим, что там нет значений близких к единице.

In [6]:
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

In [7]:
features.corr().round(2).style.background_gradient(cmap='coolwarm',axis=0)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
Пол,1.0,0.0,0.01,-0.01
Возраст,0.0,1.0,-0.02,-0.01
Зарплата,0.01,-0.02,1.0,-0.03
Члены семьи,-0.01,-0.01,-0.03,1.0


Все значения близки к нулю, проблем с псевдообратными $\left(X^+ = \left(X^T X\right)^{-1} X^T\right)$ не возникнет.

In [8]:
# Зафиксируем значения рандома
np.random.seed(12345)

In [9]:
# Создадим класс линейной регрессии по нашей формуле
class LinearRegression:
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T @ X) @ X.T @ y
        self.w = w[1:]
        self.w0 = w[0]

    def predict(self, test_features):
        return test_features.dot(self.w) + self.w0

In [10]:
# Обучим модель и выведем её R2
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
score = r2_score(target, predictions)
print('R2:', score)

R2: 0.42494550286668


In [11]:
# Теперь обучим модель с изменённым Х
P = np.random.normal(size=(features.shape[1], features.shape[1]))
while np.linalg.det(P) == 0:
    P = np.random.normal(size=(features.shape[1], features.shape[1]))
    
features_p = features @ P

model_p = LinearRegression()
model_p.fit(features_p, target)
predictions_p = model_p.predict(features_p)
score_p = r2_score(target, predictions_p)
print('R2:', score_p)

R2: 0.4249455028666389


In [12]:
# Посмотрим, что предсказания и правда получились одинаковыми
df = pd.DataFrame([predictions, predictions_p])
df.loc[:,:10]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,0.511727,0.684316,0.093734,-0.222589,0.065084,0.571039,0.428427,-0.098438,0.333169,0.189995,-0.057395
1,0.511727,0.684316,0.093733,-0.222589,0.065084,0.571039,0.428427,-0.098438,0.333169,0.189995,-0.057395


In [13]:
np.abs(score_p - score)

4.107825191113079e-14

Разница практически равна нулю и обусловлена особенностями вычисления на Python.  
Кроме того наша R2 метрика больше 0, а значит модель адекватная.

## Алгоритм преобразования

Как я поняла, в этом разделе надо предложить какое-то своё преобразование данных, которое также не повлияет на метрику. 

Рассмотрим довольно простой вариант, часто встречающийся в машинном обучении - нормализация данных. 
Я буду использовать стандартизацию данных. Однако любое масштабирование можно записать следующей формулой:
$$ 
X^{sc} = \cfrac{X - A}{\lambda}
$$
Где $A$ это матрица того же размера что и $X$, заполненная неким константным значением.  
Для обоснования нам неважно, будут ли $A$ и $\lambda$ медианой и стандартным отклонением или чем-то другим. Поэтому будем рассматривать именно эту формулу далее.

Заметим, что в плане защиты данных этот алгоритм гораздо хуже предыдущего. Если у нас $n$ параметров в таблице, то при домножении для взлома данных надо узнать $n^2$ коэфиициентов, то здесь всего $n$.

**Алгоритм**

Признаки масштабируются по любому алгоритму, например методом стандартизации. 
$$ 
X^{sc} = \cfrac{X - A}{\lambda}
$$

**Обоснование**
Будем обозначать за $X$ матрицу признаков без единичного столбца.  
$$a = Xw + w_0$$
Пусть $w$ и $w_0$ являются решением задачи линейной регрессии, то есть минимизируют MSE.
$$ 
X^{sc} = \cfrac{X - A}{\lambda} \\
a^{sc} = X^{sc}w^{sc} + w_0^{new}
$$
Пусть $w^{sc}$ и $w_0^{sc}$ являются решением задачи линейной регрессии для новой матрицы $X^{new}$.  

$$
a^{sc} = X^{sc}w^{sc} + w_0^{sc} = \cfrac{X - A}{\lambda} w^{sc} + w_0^{sc} =  
X \cfrac{w^{sc}}{\lambda} - \cfrac{A}{\lambda}w^{sc} + w_0^{sc}
$$
Обозначим новые вектора $w$ и $w_0$:
$$
w^{new} = \cfrac{w^{sc}}{\lambda} \\
w_0^{new} = - \cfrac{A}{\lambda}w^{sc} + w_0^{sc}
$$
Получим следующий результат:
$$a^{sc} = X w^{new} + w_0^{new} $$  
Предположим теперь, что преобразование повлияло на метрику модели. Тогда у одной из моделей метрика лучше, а значит для какой-то задачи значения $w$ и $w_0$ подобраны не оптимально, что является противоречием.  

Почти всегда совпадут не только метрики, но и значения предсказаний. Однако, например, если в $X$ всего три значения, находящиеся в вершинах равнобедренного треугольника, то прямую с минимальным MSE можно провести тремя способами, а значит предсказания могут и не совпасть.

## Проверка алгоритма

In [14]:
# Масштабирование данных
scaler = StandardScaler()
scaler.fit(features)
features_sc = scaler.transform(features)

In [15]:
# Обучение модели на масштабированных данных
model_sc = LinearRegression()
model_sc.fit(features_sc, target)
predictions_sc = model_sc.predict(features_sc)
score_sc = r2_score(target, predictions_sc)
print('R2:', score_sc)

R2: 0.4249455028666801


In [16]:
# Посмотрим, что предсказания снова получились одинаковыми
df = pd.DataFrame([predictions, predictions_sc])
df.loc[:,:10]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,0.511727,0.684316,0.093734,-0.222589,0.065084,0.571039,0.428427,-0.098438,0.333169,0.189995,-0.057395
1,0.511727,0.684316,0.093734,-0.222589,0.065084,0.571039,0.428427,-0.098438,0.333169,0.189995,-0.057395


In [17]:
np.abs(score_sc - score)

1.1102230246251565e-16

Здесь разница и вовсе получилась равна 0, хотя на самом деле значения предсказаний не идеально совпадают.  
Сравним насколько отличаются значения предсказаний без преобрзований с предсказаниями масштабированнных и домноженных значений.

In [18]:
for i in range(5):
    print(predictions[i] - predictions_sc[i], predictions[i] - predictions_p[i])

-1.2212453270876722e-15 -4.551387533524576e-08
-7.771561172376096e-16 6.948197350808982e-08
1.1102230246251565e-16 2.197581414620231e-07
-1.1102230246251565e-16 3.371292078835353e-08
-2.220446049250313e-16 1.6133063018841654e-07


Как видно, масштабирванные значения отличаются от обычных в 16м знаке после запятой, тогда как домноженные в 7-8м знаке.  
Это связано с тем, что при домножении производится гораздо больше вычислений и точность вычислений меньше.   
Так как масштабированные предсказания настолько близки к обычным, то и метрики у них совпали с высокой точностью.