<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span><ul class="toc-item"><li><span><a href="#Постановка-задачи" data-toc-modified-id="Постановка-задачи-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Постановка задачи</a></span></li><li><span><a href="#Описание-задачи" data-toc-modified-id="Описание-задачи-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Описание задачи</a></span></li><li><span><a href="#Решение-задачи" data-toc-modified-id="Решение-задачи-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Решение задачи</a></span></li></ul></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Выделение-признаков" data-toc-modified-id="Выделение-признаков-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Выделение признаков</a></span></li><li><span><a href="#Имплементация-алгоритма" data-toc-modified-id="Имплементация-алгоритма-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Имплементация алгоритма</a></span></li><li><span><a href="#Проверка-работы-алгоритма" data-toc-modified-id="Проверка-работы-алгоритма-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Проверка работы алгоритма</a></span></li></ul></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Нам нужно защитить данные клиентов страховой компании «Хоть потоп». Необходимо разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Необходимо обосновать корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd 
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

In [2]:
df = pd.read_csv('/datasets/insurance.csv')

In [3]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


В нашем распоряжении имеется датасет объемом 5000 объектов без пропусков. Датасет имеет 5 признаков. Тип всех признаков - целые и рациональные числа.

* Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
* Целевой признак: количество страховых выплат клиенту за последние 5 лет.

## Умножение матриц

Обозначения:

- $a$ — предсказания модели

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

### Постановка задачи

**Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?**

1. Изменится. В таком случае необходимо привести примеры матриц.
2. Не изменится. В таком случае необходимо указать, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

### Описание задачи

Нам нужно установить тождество между  a и a', где
    
$a = X w$ 
    
$a' = X P w'$ 
 
    
Модифицированный вектор весов вычисляется по следующей формуле:
    
$
w' = ((XP)^T XP)^{-1} (XP)^T y
$  


### Решение задачи

Раскроем скобки для формул предсказаний модели

$a = X w$

$a = X ((X^T X)^{-1} X^T y)$

$a = X   (X^T X)^{-1} X^T y$


$a' = X P w'$ 

$a' = X P (((XP)^T XP)^{-1} (XP)^T y)$ 

$a' = X P ((P^T(X^TX)P)^{-1} P^TX^T y)$ 

$a' = X P P^{-1} (X^TX)^{-1}(P^T)^{-1}P^TX^Ty$ 

$a' = X E (X^TX)^{-1}EX^Ty$ 


В результате мы можем утверждать, что $a = a'$, т.к. умножение на единичную матрицу $E$ возвращает ту же самую матрицу. 

## Алгоритм преобразования

**Алгоритм**

1. Исходная матрица может быть любого размера и должна быть обратимой.
2. Для шифрования используется класс `DataEncryption`.
3. Инициируем класс `DataEncryption` и передаём внутрь него матрицу признаков $X$.
4. Вызываем метод класса `encrypt_data()`.
    1. Метод генерирует матрицу $P$, на которую будут умножаться признаки. Матрица $P$ генерируется такого размера, который позволяет умножить её на матрицу $X$.
    2. Матрица $P$ проверяется на обратимость. Если матрица необратимая, то рекурсивно вызывается функция генерации матрицы с новым случайным зерном.
5. Получаем зашифрованную матрицу признаков.

**Обоснование**

В результате вычисления математического уравнения в п.2.3 доказано, что умножение матрицы признаков на другую матрицу не приводит к изменению предсказаний модели $a$.

## Проверка алгоритма

### Выделение признаков

In [6]:
# выделим целевой признак и признаки для обучения
features = df.drop('Страховые выплаты', axis=1)
target = df['Страховые выплаты']

In [7]:
X = features.values
X

array([[1.00e+00, 4.10e+01, 4.96e+04, 1.00e+00],
       [0.00e+00, 4.60e+01, 3.80e+04, 1.00e+00],
       [0.00e+00, 2.90e+01, 2.10e+04, 0.00e+00],
       ...,
       [0.00e+00, 2.00e+01, 3.39e+04, 2.00e+00],
       [1.00e+00, 2.20e+01, 3.27e+04, 3.00e+00],
       [1.00e+00, 2.80e+01, 4.06e+04, 1.00e+00]])

In [8]:
y = target.values
y

array([0, 1, 0, ..., 0, 0, 0])

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=123456)

### Имплементация алгоритма

In [10]:
# Напишем класс для шифрования данных
class DataEncryption:
    def __init__(self, X_train, X_test):
        self.X_train = X_train
        self.X_test = X_test
        
    def generate_random_normal(self):
        np.random.seed(np.random.randint(1, 100000))
        
        self.random_matrix = np.random.normal(
            np.random.randint(1, 10), 
            np.random.randint(1, 5), 
            size=(self.X_train.shape[1], 
                  self.X_train.shape[1])
        ).round(1)
        
        try:
            np.linalg.inv(self.random_matrix)
        except LinAlgError:
            self.generate_random_normal()
        
    def encrypt_data(self):
        self.generate_random_normal()
        self.X_encrypted_train = self.X_train @ self.random_matrix
        self.X_encrypted_test = self.X_test @ self.random_matrix

### Проверка работы алгоритма

In [11]:
# Обучим модель на оригинальных признаках и проверим R2 метрику
model = LinearRegression()

model.fit(X_train, y_train)
predictions = model.predict(X_test)

r2_score(y_test, predictions)

0.4192116037042798

In [12]:
# Обучим модель на преобразованных признаках и проверим R2 метрику
model = LinearRegression()

encrypter = DataEncryption(X_train, X_test)
encrypter.encrypt_data()

model.fit(encrypter.X_encrypted_train, y_train)
predictions = model.predict(encrypter.X_encrypted_test)

r2_score(y_test, predictions)

0.41921160370362653

**Вывод:**

Умножение признаков на обратимую матрицу помогает зашифровать данные и не влияет на значение метрики R2