<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

Импорт библиотек

In [1]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

Прочитаем файл данных в переменную

In [2]:
data = pd.read_csv('.\\datasets\\insurance.csv',  sep=',')

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data['Страховые выплаты'].value_counts()

0    4436
1     423
2     115
3      18
4       7
5       1
Name: Страховые выплаты, dtype: int64

Разделим признаки и целевой признак на разные переменные:

In [5]:
X = data.copy()
y = X.pop('Страховые выплаты')

**Вывод по пункту**:

Данные загружены, предварительная обработка не требуется.

## Умножение матриц

Для начала - приведём формулы линейной регрессии:

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

, где

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

---

Заданный в рамках данного задания вопрос: "***Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?***"

В соответствии с самим определением обратимой матрицы, такая матрица может быть только ненулевой, квадратной матрицей.

К примеру, возьмём матрицу признаков *X* размерностью 𝑚×𝑛

$$
X_{m\times n}
$$

Так как умножение матриц возможно, если ширина первой матрицы X (𝑚×𝑛) равна высоте второй матрицы P (𝑛×r), то в случае обратимой (квадратной) матрицы, размерность второй матрицы представляет собой матрицу:

$$
P_{n\times n}
$$

Следовательно, предсказания будут равны, для изначального варианта:

$$
a = Xw
$$
и в случае умножения на обратимую матрицу **P**
$$
a' = XPw'
$$

Так как основной вопрос - изменится ли качество линейной регрессии, то очевидно, что результат предсказаний не должен измениться, т.е.:

$$
a = a'
$$
$$
Xw = (X P)w'
$$

Векторы весов в этом случае будут составлять:

$$
w = (X^T X)^{-1} X^T y
$$
и
$$
w' = ((XP)^T (XP))^{-1} (XP)^T y
$$

Раскроем скобки в уравнении вектора весов ***w'***.

Первым этапом раскроем скобки транспонирования произведения ($(AB)^T = B^T A^T$)

$$
w' = ((XP)^T (XP))^{-1} (XP)^T y = (P^T X^T X P)^{-1} P^T X^T y
$$

В соответствии со свойствами обратных матриц ($(AB)^{-1} = B^{-1} A^{-1}$), можно раскрыть и эти скобки, с учётом того, что обратная матрица от $X$ не может существовать, так как $X$ - прямоугольная, необратимая матрица: 

$$
w' = (P^T X^T X P)^{-1} P^T X^T y = (X^T X P)^{-1} (P^T)^{-1} P^T X^T y = P^{-1}(X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$

В результате данного раскрытия видны пары из прямых ($X$) и обратных ($X^{-1}$) матриц, произведение которых равно единичной матрице $E$ при условии обратимости данных матриц (так как в соответствии с условием матрица $P_{n\times n}$ - квадратная, обратимая) - заменим данные произведения на единичные матрицы того же размера:

$$
w' = P^{-1}(X^T X)^{-1} (P^T)^{-1} P^T X^T y = P^{-1}(X^T X)^{-1} E X^T y = P^{-1}(X^T X)^{-1} X^T y
$$

Но как известно:

$$
(X^T X)^{-1} X^T y = w
$$
, следовательно, заменим:

$$
w' = P^{-1}(X^T X)^{-1} X^T y = P^{-1}w
$$

Подставим полученное значение вектора весов в формулу предсказания линейно регрессии:

$$
a' = XPw' = XPP^{-1}w
$$

Также заменим пару из прямых и обратных матриц $P$ на единичную:

$$
a' = XEw = Xw = a
$$
, следовательно:
$$
a' = a
$$
Значения предсказаний идентичны.

**Следовательно:**

Результат предсказания **не изменился** при умножении признаков на обратимую матрицу, т.е. качество линейной регрессии не изменилось.

---

Для наглядности получим тот же результат на примере из прямоугольной матрицы исходных признаков, и квадратную обратимую матрицу, на которую производится умножение:

In [6]:
A = np.array([
    [0.2, 1.2, 8],
    [0.5, 0.8, 6],
    [0.8, 1.6, 8],
    [1.2, 1.1, 7],
    [1.8, 0.6, 3]])


B = np.array([
    [10, 5, 0],
    [4, 3, 6],
    [62, 1, 2]])

Произведём те же вычисления, как с умножение на матрицу **B**, так и без неё.

$$
A(A^T A)^{-1} A^T = AB((AB)^T (AB))^{-1} (AB)^T
$$

In [7]:
w1 = A @ np.linalg.inv(A.T @ A) @ A.T
w2 = A @ B @ np.linalg.inv(A.dot(B).T @ (A.dot(B))) @ A.dot(B).T

И сравним методом `numpy.allclose()` две полученных матрицы

In [8]:
np.allclose(w1, w2)

True

Что показывает идентичность решений, и **подтверждает** умозаключения.

## Алгоритм преобразования

**Алгоритм**

Исходя из выводов прошлого пункта, известно, что допустимо умножение матрицы исходных признаков на обратимую (т.е. квадратную, ненулевую) матрицу.

Для получения квадратной матрицы нужной размерности есть два пути:
- первый - генерация матрицы нужной размерности из случайных чисел методом `np.random.rand()`;
- второй - произведение исходной матрицы на транспонированную исходную матрицу $(X^T X)$.

***Этапы применения алгоритма:***

1. Создание квадратной матрицы "ключа" из случайных значений, размерами равной ширине матрицы исходных признаков;
2. Проверка матрицы "ключа" на обратимость;
3. Шифрование таблицы, содержашей исходные признаки с использование матрицы "ключа" путём умножения первого на второе;
4. Обучение модели линейной регрессии;
5. Шифрование таблицы, содержащей данные, подлежащие предсказанию;
6. Предсказание модели линейной регрессии.

**Обоснование**

Обоснование аналогично предыдущему:

$$
a = Xw
$$

$$
w = (X^T X)^{-1} X^T y
$$

$$
a = X (X^T X)^{-1} X^T y
$$

Домножим матрицу $X$ на некую квадратную ключ-матрицу $K_{n\times n}$

$$
a_k = XK((XK)^T (XK))^{-1} (XK)^T y = (K^T X^T X K)^{-1} K^T X^T y = XK(X^T X K)^{-1} (K^T)^{-1} K^T X^T y = XKK^{-1}(X^T X)^{-1} (K^T)^{-1} K^T X^T y = XE(X^T X)^{-1} E X^T y = X(X^T X)^{-1}X^T y = a
$$

Что опять же приводит к тому же предсказанию $a$, что не вызывало сомнений.

## Проверка алгоритма

***Этапы проверки работы алгоритма:***

1. Разделение данных на тренировочную и тестовые выборки;
2. Обучение модели на тренировочных и получение предсказаний на тестовых выборках;
3. Применение алгоритма к этим выборкам (см. раздел 3) с получнием предсказания на зашифрованной тестовой выборке;
4. Сравнение метрик качества $R^2$ в обоих предсказаниях.

Для начала разделим данные на разные выборки для проверки качества модели:

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.25,
                                                    random_state=13)

Создадим квадратную ключ-матрицу, размерами равную ширине исходной матрицы признаков: 

In [10]:
key_mx = np.random.rand(X.shape[1],X.shape[1])

Так как даже квадратная матрица может быть необратима, выполним дополнительную проверку на обратимость - инвертируем её и проверим на наличие ошибки `LinAlgError`.

In [11]:
while True:
    try:
        np.linalg.inv(key_mx)
        break
    except np.linalg.LinAlgError:
        print("The Matrix has you. Try again.")
        key_mx = np.random.rand(X.shape[1],X.shape[1])

Выведем полученную ключ-матрицу на экран:

In [12]:
print('"Ключ"-матрица')
print('===============================================')
print(key_mx)
print('===============================================')

"Ключ"-матрица
[[0.79350095 0.30109809 0.7625532  0.02262444]
 [0.82759327 0.1014893  0.87504892 0.30629033]
 [0.8819607  0.70666995 0.74639868 0.3345622 ]
 [0.47134411 0.61430795 0.17378467 0.00664123]]


Протестируем данный вид сокрытия данных:

Матрица **до**

In [13]:
X_train.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
1674,0,46.0,61800.0,1
4578,0,19.0,40800.0,0
3116,1,30.0,60900.0,2
585,1,45.0,54200.0,0
3882,1,38.0,50700.0,1


и матрица **после** умножения на ключ:

In [14]:
X_train_crypt = X_train @ key_mx
X_train_crypt.head()

Unnamed: 0,0,1,2,3
1674,54543.712011,43677.485984,46167.864661,20690.040015
4578,35999.720909,28834.062427,30469.692207,13655.957315
3116,53737.970732,43040.774603,45483.041401,20384.062655
585,47840.30524,38306.379633,40494.948387,18147.076981
3882,44748.120975,35832.938676,37876.601438,16973.971887


**Результат** - **достигнут**, данные нераспознаваемы, отсутствуют даже названия отдельных признаков.

Теперь протестируем работу данного способа шифрования на моделирование с использованием логистической регрессии.
Первым этапом проверим метрику $R^2$ на необработанных данных. (Отдельный вызов функции `r2_score()` не требуется, так как реализован в методе `LinearRegression.score()`)

In [15]:
model_normal = LinearRegression()
model_normal.fit(X_train, y_train)

print('Метрика R2 на необработанных данных:', model_normal.score(X_test, y_test))

Метрика R2 на необработанных данных: 0.43994910649131136


Для верного результата, тестовую выборку необходимо подвергнуть той же самой операции умножения на ключ-матрицу:

In [16]:
X_test_crypt = X_test @ key_mx

И проверим модель на зашифрованных данных:

In [17]:
model_encrypted = LinearRegression()
model_encrypted.fit(X_train_crypt, y_train)

print('Метрика R2 на зашифрованных данных:', model_encrypted.score(X_test_crypt, y_test))

Метрика R2 на зашифрованных данных: 0.4399491064900949


Т.е. модель продолжает выполнять свою работу несмотря на подобные изменения в данных. Проверим обратимость данного алгоритма, умножив зашифрованную таблицу на матрицу, обратную к ключ-матрице.

In [18]:
X_train_decrypt = X_train_crypt @ np.linalg.inv(key_mx)
X_train_decrypt.head()

Unnamed: 0,0,1,2,3
1674,-4.000488e-11,46.0,61800.0,1.0
4578,-1.617069e-11,19.0,40800.0,2.841817e-11
3116,1.0,30.0,60900.0,2.0
585,1.0,45.0,54200.0,-5.105676e-11
3882,1.0,38.0,50700.0,1.0


Визуально видно, что данные восстановились в почти полном объёме (утеряны лишь названия столбцов dataframe), что подтверждается и проверкой `numpy.allclose()`:

In [19]:
np.allclose(X_train, X_train_decrypt)

True

**Вывод**

Данный алгоритм шифрования выполняется свою работу с полным сокрытием персональных данных, не оказывая влияния на качество работы модели линейной регрессии.

Основной недостаток - данный алгоритм можно охарактеризовать как классическое шифрование, т.е. обратимое действие, данные можно восстановить с помощью ключа. Также данный ключ необходимо хранить, как обязательную часть по подготовке данных к работе модели.