<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Расшифровка-данных" data-toc-modified-id="Расшифровка-данных-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Расшифровка данных</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

## Загрузка данных

In [2]:
# Получим данные безопасным способом при помощи конструкции try-except
try:
    data = pd.read_csv('/datasets/insurance.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/insurance.csv')

In [3]:
data.sample(5)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
3142,0,26.0,30000.0,0,0
4138,1,41.0,30900.0,1,0
249,1,40.0,45300.0,5,0
1345,0,39.0,37400.0,0,0
498,0,33.0,24000.0,2,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $\tilde{X}$ — матрица признаков после преобразования

- $y$ — вектор целевого признака

- $P$ — матрица преобразования, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

- $\tilde{w}$ — вектор весов линейной регрессии после преобразования

- $a$ — вектор предсказаний линейной регрессии

- $\tilde{a}$ — вектор предсказаний линейной регрессии после преобразования

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Не изменится. Параметры линейной регрессии в исходной задаче и в преобразованной связаны следующим образом:  
$$
\tilde{w} = P^{-1}w
$$

**Обоснование:** Пусть $X$ имеет размер $n \times m$. По условию $P$ - обратимая матрица, а следовательно и квадратная размера $m \times m$.

Предсказания после преобразования:

$$
\tilde{a} = \tilde{X}\tilde{w}
$$

Задача обучения после преобразования:

$$
\tilde{w} = \arg\min_\tilde{w} MSE(\tilde{X}\tilde{w}, y)
$$

Формула обучения после преобразования:

$$
\tilde{w} = (\tilde{X}^{T}\tilde{X})^{-1}\tilde{X}^{T}y \\
\tilde{w} = ((XP)^{T}XP)^{-1}(XP)^{T}y
$$

Применим свойство транспонированного произведения матриц:

$$
\tilde{w} = (P^{T}X^{T}XP)^{-1}(XP)^{T}y \\
\tilde{w} = (P^{T}X^{T}XP)^{-1}P^{T}X^{T}y
$$

Можно заметить, что $P^{T}$, $X^{T}X$ и $P$ - квадратные обратимые матрицы размера $m \times m$. Применим свойство обратимой матрицы для произведения:

$$
\tilde{w} = P^{-1}(X^{T}X)^{-1}(P^{T})^{-1}P^{T}X^{T}y \\
\tilde{w} = P^{-1}(X^{T}X)^{-1}EX^{T}y \\
\tilde{w} = P^{-1}(X^{T}X)^{-1}X^{T}y \\
\tilde{w} = P^{-1}w
$$

Подставим полученное выражение в формулу для предсказания:

$$
\tilde{a} = \tilde{X}\tilde{w} \\
\tilde{a} = XPP^{-1}w \\
\tilde{a} = XEw \\
\tilde{a} = Xw \\
\tilde{a} = a \\
$$

Таким образом качество линейной регрессии не изменится.

## Алгоритм преобразования

**Алгоритм:** В качестве алгоритма преобразования предлагается умножение матрицы признаков на обратимую квадратную матрицу. Сгенерируем матрицу преобразований случайным образом так, что $P_{i,j} \sim \mathcal{N}(0, 1)$.

**Шаги:**  
1) Бесконечный цикл `while`, для которого единственным условием выхода будет успешная проверка случайно сгенерированной матрицы на обратимость  
2) На очередной итерации цикла сгенерируем матрицу `P` с размером равным ширине матрицы признаков случайным образом  
3) Проверим матрицу `P` на обратимость при помощи функции `np.linalg.inv`. Существуют и другие способы проверки матрицы на обратимость, например подсчёт детерминанта матрицы или числа обусловленности, но пока мы ограничимся способом, который был предложен в теории курса  
4) Если сгенерировалась необратимая матрица, тогда функция `np.linalg.inv` выдаст ошибку, на экран напечатается соответствующее сообщение и цикл продолжит свою работу  
5) Если сгенерировалась обратимая матрица, тогда функция `np.linalg.inv` успешно выполнится и цикл `while` будет прерван при помощи `break`  
6) Сформируем матрицу $\tilde{X}$ на основе сгенерированной матрицы $P$  
7) Подсчитаем вектор весов $\tilde{w}$ по соответсвующей формуле и сохраним его в качестве атрибута модели

In [6]:
class LinearRegression:
    """Класс линейной регрессии"""
    def __init__(self, encrypted=False):
        """Метод создания объекта линейной регрессии (с шифрованием)"""
        self._encrypted = encrypted
        
    def fit(self, X, y):
        """Метод обучения модели для матрицы признаков"""
        if self._encrypted:
            while True:
                try:
                    # Случайным образом формируем матрицу преобразований
                    self.P = np.random.normal(0, 1, (X.shape[1], X.shape[1]))
                    np.linalg.inv(self.P)
                    X = X @ self.P
                    break
                except np.linalg.LinAlgError:
                    print("Матрица преобразования необратима")
                
        # Формируем матрицу X с первым единичным полем
        X = np.concatenate((np.ones((X.shape[0], 1)), X), axis=1)
        # Найдём вектор весов по формуле
        self.w = np.linalg.inv(X.T @ X) @ X.T @ y

    def predict(self, X):
        """Метод получения прогноза для матрицы признаков"""
        if self._encrypted:
            X = X @ self.P
            
        X = np.concatenate((np.ones((X.shape[0], 1)), X), axis=1)
        return X @ self.w 

**Обоснование:** Необратимые матрицы встречаются редко. Если сгенерировать случайную матрицу функцией `numpy.random.normal`, то вероятность получить необратимую матрицу близка к нулю.
Найти обратную матрицу можно при помощи функции `numpy.linalg.inv`. Также она поможет проверить матрицу на обратимость: если матрица необратима, будет обнаружена ошибка.

## Проверка алгоритма

Убедимся, что качество моделей одинаково.

In [7]:
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.25)

model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)

encrypted_model = LinearRegression(encrypted=True)
encrypted_model.fit(features_train, target_train)
encrypted_predictions = model.predict(features_test)

with pd.option_context('display.float_format', '{:0.4f}'.format):
    display(pd.DataFrame(data=[r2_score(target_test, predictions), r2_score(target_test, encrypted_predictions)], 
                         columns=['R2 score'], 
                         index=['Линейная регрессия', 'Линейная регрессия c шифрованием']))

Unnamed: 0,R2 score
Линейная регрессия,0.4104
Линейная регрессия c шифрованием,0.4104


Метрики `R2` обеих моделей совпали. Это подтверждает наше утверждение, что умножение матрицы признаков на случайную квадратную матрицу для шифрования данных не влияет на качество оценки модели машинного обучения.

## Расшифровка данных

Убедимся, что после шифрования можно успешно восстановить изначальные данные. Для начала зашифруем матрицу признаков при помощи матрицы преобразования сгенерированной при обучении модели

In [8]:
encrypted_train = features_train @ encrypted_model.P

with pd.option_context('display.float_format', '{:0.4f}'.format):
    display(features_train)
    display(encrypted_train)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
4415,1,19.0000,46600.0000,2
1740,0,36.0000,41000.0000,1
2454,1,53.0000,50900.0000,1
3818,1,37.0000,30700.0000,1
475,1,23.0000,35500.0000,2
...,...,...,...,...
1823,1,25.0000,27900.0000,0
3219,0,37.0000,49200.0000,0
4502,1,22.0000,26800.0000,2
1954,0,26.0000,48700.0000,2


Unnamed: 0,0,1,2,3
4415,-27147.0391,20534.2935,57924.6737,16476.6381
1740,-23897.3473,18049.3469,50979.6771,14498.5289
2454,-29674.9969,22400.0216,63294.8662,17999.6473
3818,-17901.8402,13505.0591,38179.3645,10855.3259
475,-20686.3021,15634.2678,44133.5137,12550.7483
...,...,...,...,...
1823,-16264.3398,12282.8466,34690.4804,9867.3697
3219,-28673.8778,21666.8373,61170.8802,17401.0281
4502,-15619.6783,11797.6508,33321.0154,9473.7156
1954,-28373.1693,21453.9312,60540.8395,17219.6146


Можно заметить, что зашифрованные данные сильно отличаются от изначального набора данных. Теперь перейдём к расшифровке при помощи умножения на обратную матрицу

In [9]:
decrypted_train = encrypted_train @ np.linalg.inv(encrypted_model.P)

if np.allclose(features_train, decrypted_train):
    print('Тренировочный и расшифрованный наборы данных совпадают с достаточно большой точностью')
else:
    print('Тренировочный и расшифрованный наборы данных не совпадают')
    
with pd.option_context('display.float_format', '{:0.4f}'.format):
    display(features_train)
    display(decrypted_train)

Тренировочный и расшифрованный наборы данных совпадают с достаточно большой точностью


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
4415,1,19.0000,46600.0000,2
1740,0,36.0000,41000.0000,1
2454,1,53.0000,50900.0000,1
3818,1,37.0000,30700.0000,1
475,1,23.0000,35500.0000,2
...,...,...,...,...
1823,1,25.0000,27900.0000,0
3219,0,37.0000,49200.0000,0
4502,1,22.0000,26800.0000,2
1954,0,26.0000,48700.0000,2


Unnamed: 0,0,1,2,3
4415,1.0000,19.0000,46600.0000,2.0000
1740,-0.0000,36.0000,41000.0000,1.0000
2454,1.0000,53.0000,50900.0000,1.0000
3818,1.0000,37.0000,30700.0000,1.0000
475,1.0000,23.0000,35500.0000,2.0000
...,...,...,...,...
1823,1.0000,25.0000,27900.0000,-0.0000
3219,-0.0000,37.0000,49200.0000,-0.0000
4502,1.0000,22.0000,26800.0000,2.0000
1954,-0.0000,26.0000,48700.0000,2.0000


## Вывод

В ходе работы были проделаны следующие шаги:
- Загрузили данные и провели небольшой разведочный анализ данных. В данных отсутствуют пропуски и аномальные значения
- Строго доказали, что при умножении матрицы признаков на обратимую матрицу, качество линейной регрессии не изменится. А также показали как будут связаны параметры линейной регрессии в исходной задаче и в преобразованной ($\tilde{w} = P^{-1}w$)
- Предложили алгоритм преобразования по шагам при помощи изученной в теории функции `np.linalg.inv` и обосновали его. А также написали класс линейной регрессии, в который заложен данный алгоритм
- Разделили данные на обучающую и тестовую выборки. Обучили две модели линейной регресси (без шифрования и с шифрованием) и проверили их метрики качества на тестовой выборке. Как и было доказано в теории результаты совпадают
- Убедились, что после шифрования можно успешно восстановить изначальные данные

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные загружены
- [x]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [x]  Указан правильный вариант ответа
    - [x]  Вариант обоснован
- [x]  Выполнен шаг 3: предложен алгоритм преобразования
    - [x]  Алгоритм описан
    - [x]  Алгоритм обоснован
- [x]  Выполнен шаг 4: алгоритм проверен
    - [x]  Алгоритм реализован
    - [x]  Проведено сравнение качества моделей до и после преобразования