# Защита персональных данных клиентов

# Protection of personal data of clients

В этом проекте необходимо придумать как зашифровать личные данные клиентов, но при этом ссохранить возможность работы с этими данными в моделях машинного обучения. Подбирать наилучшую модель не требуется.

In this project, you need to figure out how to encrypt the personal data of customers, but at the same time preserve the ability to work with this data in machine learning models. There is no need to select the best model.

# Оглавление.
- [Шаг 1. Загрузка данных.](#Step_1)
- [Шаг 2. Умножение матриц.](#Step_2)<br />
- [Шаг 3. Алгоритм преобразования.](#Step_3)<br />
- [Шаг 4. Проверка алгоритма.](#Step_4)<br />

# Table of contents.
- [Step 1. Loading data.](#Step_1)
- [Step 2. Matrix multiplication.](#Step_2)<br />
- [Step 3. Conversion algorithm.](#Step_3)<br />
- [Step 4. Checking the algorithm.](#Step_4)<br />

<a id='Step_1'></a>
## 1. Загрузка данных

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

In [None]:
df = pd.read_csv('/datasets/insurance.csv')

In [None]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


### Summary.
Библотеки загружены, файл открывается. Можно эксперементировать.

### Summary.
Libraries are loaded, the file is opened. You can experiment.

<a id='Step_2'></a>
## 2. Умножение матриц

## 2. Matrix multiplication

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Designations:

- $X$ - feature matrix (zero column consists of ones)

- $y$ — target feature vector

- $P$ is the matrix by which features are multiplied

- $w$ — vector of linear regression weights (zero element equals shift)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Predictions:

$$
a = Xw
$$

Learning objective:

$$
w = \arg\min_w MSE(Xw, y)
$$

Learning formula:

$$
w = (X^T X)^{-1} X^T y
$$

Обратимая матрица всегда квадратная.
1. Например, у нас есть единичная матрица. Она обратима. Матрица призакнов имеет размер - 5000 на 4. Значит, чтобы умножение матриц стало возможным, единичная матрица должна быть размера 4 на 4. В результате получится матрица 5000 на 4 с исходными значениями. Результат обучения не изменится.
2. Допустим у нас есть случайная квадратная обратимая матрица размером 4 на 4. Умножение будет возможным, а размерность исходной матрицы не изменится. Результат, как это показано ниже, не изменится. В этом случае каждый i-ый j-ый элемент новой матрицы признаков будет является скалярным произведением i-ой строки исходной матрицы признаков и j-ого столбца случайной обратимой матрицы.
3. Исходную матрицу нельзя умножить на матрицу размера отличного от 4 на 4, так как в этом случае умножение будет невозможным.

An invertible matrix is ​​always square.
1. For example, we have an identity matrix. She is reversible. The pattern matrix has a size of 5000 by 4. So, in order for matrix multiplication to be possible, the identity matrix must be 4 by 4. The result is a 5000 by 4 matrix with the original values. The learning outcome will not change.
2. Suppose we have a random square invertible matrix of size 4 by 4. Multiplication will be possible, and the dimension of the original matrix will not change. The result, as shown below, will not change. In this case, each i-th j-th element of the new feature matrix will be the scalar product of the i-th row of the original feature matrix and the j-th column of the random invertible matrix.
3. The original matrix cannot be multiplied by a matrix of size other than 4 by 4, since in this case the multiplication will be impossible.

## <div class="alert alert-info"> Математическое обоснование.</div>

##  <div class="alert alert-info"> Mathematical reasoning.</div>

- R - случаяная обратимая матрица.
- H - Зашифрованная матрица.

- R is a random invertible matrix.
- H - Encrypted matrix.

Предсказания после шифрования:
$a = XRw$ или $a = Hw$

Predictions after encryption:
$a = XRw$ or $a = Hw$

Задача обучения после шифрования:

$w = \arg\min_w MSE(XRw, y)$ или $w = \arg\min_w MSE(Hw, y)$

Learning task after encryption:

$w = \arg\min_w MSE(XRw, y)$ or $w = \arg\min_w MSE(Hw, y)$

Формула обучения после шифрования:
- сразу произведем замену $XR=H$
- $w = (H^T H)^{-1} H^T y$


Learning formula after encryption:
- immediately make the replacement $XR=H$
- $w = (H^T H)^{-1} H^T y$

Таким образом, обучение и предсказания модели будут происходить не по исходной матрице, а по произвдеению исходной матрицы на случайную обратную матрицу. Веса в этом случай также изменятся, таким образом, чтобы MSE было минимальным, но уже для зашифрованной матрицы.

Thus, the training and predictions of the model will occur not by the original matrix, but by the product of the original matrix by a random inverse matrix. The weights in this case will also change, so that the MSE is minimal, but for the encrypted matrix.

### Рассмотрим пункт 2 более подробно.

### Consider point 2 in more detail.

Обучим модель на имеющихся данных.

Let's train the model on the available data.

In [None]:
features = df.drop(['Страховые выплаты'] , axis=1)
target = df['Страховые выплаты']
features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.25, random_state=42)

model = LinearRegression()
model.fit(features_train, target_train)
prediction = model.predict(features_test)
print('R2 при исходных параметрах:', round(r2_score(target_test, prediction), 2))

R2 при исходных параметрах: 0.43


R2 at initial parameters: 0.43

Обучим модель умножив матрицу параметров на случайную обратимую матрицу.

We train the model by multiplying the parameter matrix by a random invertible matrix.

In [None]:
np.random.seed(1000)
rand_matrix = np.random.random_sample((features.shape[1], features.shape[1]))
features = features @ rand_matrix
features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.25, 
                                                                            random_state=42)

model = LinearRegression()
model.fit(features_train, target_train)
prediction = model.predict(features_test)
print('R2 при измененных параметрах:', round(r2_score(target_test, prediction), 2))

R2 при измененных параметрах: 0.43


R2 with changed parameters: 0.43

Результат R2 остался тем же.

The result of R2 remained the same.

<a id='Step_3'></a>
## 3. Алгоритм преобразования

## 3. Conversion algorithm

**Алгоритм**

1. <div class="alert alert-info"> Создадим случайную квадратную матрицу, предположив, что она обратима. Размер матрицы равен количеству столбцов исходной матрицы призанов.</div>
2. <div class="alert alert-info"> Выполним проверку обратимости матрицы.</div>
3. <div class="alert alert-info"> Умножим исходную матрицу на случайную.</div>
4. <div class="alert alert-info"> Получим результат: новая матрица с размерностью исходной и зашифрованными признаками.</div>

**Algorithm**

1. <div class="alert alert-info"> Let's create a random square matrix, assuming it's invertible. The size of the matrix is equal to the number of columns of the original prize matrix.</div>
2. <div class="alert alert-info"> Let's check the matrix invertibility.</div>
3. <div class="alert alert-info"> Multiply the original matrix by a random one.</div>
4. <div class="alert alert-info"> Get the result: a new matrix with the original dimension and encrypted features.</div>

**Обоснование**

Как указано в пунтке 2, результат обучения линейной регрессии не изменится, при этом понять, что именно обозначает каждый столбец уже нельзя.

**Rationale**

As indicated in paragraph 2, the result of learning linear regression will not change, while it is no longer possible to understand what exactly each column means.

<a id='Step_4'></a>
## 4. Проверка алгоритма

## 4. Checking the algorithm

<div class="alert alert-info"> Нам удалось предложить рабочий алгоритм для шифроваия признаков, описывающих клиентов страховой компании. Для этого используется случайная обратимая матрица размера равному количеству признаков. Как было показано выше, качество работы линейной регрессии при этом не изменится. Расшифорвка матрицы происходит с помощью умножения зашифрованной матрицы на матрицу обратную к случайной.</div>

<div class="alert alert-info"> We have been able to come up with a working algorithm for encrypting features that describe insurance company customers. For this, a random invertible matrix of size equal to the number of features is used. As shown above, the performance of linear regression will not change in this case. The matrix is deciphered by multiplying the encrypted matrix by the matrix inverse to the random one.</div>