<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Исследование-матричных-преобразований" data-toc-modified-id="Исследование-матричных-преобразований-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование матричных преобразований</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Разработка-алгоритма-преобразования" data-toc-modified-id="Разработка-алгоритма-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Разработка алгоритма преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

Необходимо разработать такой метод преобразования данных, при котором будет трудно восстановить изначальную информацию, а также не ухудшится качество полученной модели машинного обучения, подбирать наилучшую модель не требуется.

Данные представлены в формате `.csv` и предварительно подготовлены к обработки.
Проект будет выполнен в несколько этапов:
* Загрузка данных;
* Исследование матричных преобразований;
* Разработка алгоритма преобразования;
* Проверка алгоритма.

## Загрузка данных

In [1]:
import pandas as pd

import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

In [2]:
try:
    df = pd.read_csv('/datasets/insurance.csv')
except:
    df = pd.read_csv('insurance.csv')
display(df.head())
print(df.info())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB
None


### Вывод

* Данные представлены в таблице;
* Пропусков в данных нет;
* Данные готовы к решению задачи.

## Исследование матричных преобразований

Работа и обучение линейной регрессии описывается следующими матричными формулами:

Предсказания:

$$
a = Xw
$$



Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Модифицированная матрица будет находится следующим образом:

$$B=XP$$  
* $P$ - матрица, на которую мы будем домножать наши данные - модифицирующая матрица, примем её обратимой;
* $B$ - полученная модифицированная матрица признаков;
* $X$ - исходная матрица;

Рассмотрим предсказания, которые мы получим, используя модифицированные данные:

$$
a_1 = Bw_1
$$

* $a_1$ - новые предсказания;
* $w_1$ - новый вектор коэффициентов, который мы получим при обучении на новых данных;

Тогда, по определению найдём новый вектор $w_1$:

$$
w_1 = (B^T B)^{-1} B^T y
$$

Подставим $B$:

$$
w_1 = ((XP)^T (XP))^{-1} (XP)^T y 
$$

Совершим ряд преобразований:

$$
w_1 = (P^T X^T X P)^{-1} P^T X^T y
$$

$$
w_1 = ((P^T X^T X) P)^{-1} P^T X^T y
$$

$$
w_1 = P^{-1} (P^T X^T X)^{-1} P^T X^T y
$$

$$
w_1 = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$

$$
w_1 = P^{-1} (X^T X)^{-1} X^T y
$$

Заметим, что:

$$
(X^T X)^{-1} X^T y = w
$$

Сделаем замену и получим:

$$
w_1 = P^{-1} w
$$

Или:

$$
P w_1 = P^{-1} P w
$$

$$
w = P w_1
$$


**Таким образом, новый вектор коэффициентов линейной регрессии $w_1$, полученный на модифицированной матрице признаков равен произведению обратной модифицирующей матрицы $P^{-1}$ на вектор коэффициентов линейной регрессии полученный на первоначальной матрице признаков $w$. В свою очередь, чтобы получить изначальные коэффициенты $w$ необходимо модифицирующую матрицу $P$ умножить на модифицированные коэффициенты $w_1$.**

Теперь рассмотрим предсказания, которые мы получим при использовании нового вектора коэффициентов на модифицированной матрице признаков:

$$
a_1 = Bw_1
$$

$$
a_1 = XPw_1
$$

$$
a_1 = XPP^{-1} w
$$

$$
a_1 = X w
$$

$$
a_1 = a
$$

**Таким образом, предсказания полученные с помощью модифицированного вектора коэффициентов, и модифицированной матрице признаков, равны предсказаниям полученным с первоначальным вектором признаков и матрицей признаков.**

Для того, чтобы все эти преобразования возможно было выполнить, матрица должна обладать следующими свойствами:
* Обратимость;
* Размерность должна быть равна количеству признаков;


В свою очередь, чтобы матрица была обратима, она должна удовлетворять требованиям:
* Матрица должна быть квадратной;
* Строки матрицы должны быть линейно-независимы, то есть определитель такой матрицы не должен быть равен нулю.


Нулевой столбец с единицами при этом нет смысла модифицировать, коэффициент при нём получится равным в обеих регрессиях.

### Вывод

* Для того, чтобы зашифровать данные необходимо первоначальную матрицу умножить на любую обратимую матрицу, размер которой будет равен количеству столбцов признаков;
* Для получения корректных предсказаний, матрицу (вектор) тестовых или же рабочих признаков также необходимо умножать на ту же модифицурующую матрицу;
* Коэффициенты линейной регрессии, полученной на первоначальных данных и модифицированных данных связаны между собой, при этом, 
     новый вектор коэффициентов линейной регрессии $w_1$, полученный на модифицированной матрице признаков равен произведению обратной модифицирующей матрицы $P^{-1}$ на вектор коэффициентов линейной регрессии полученный на первоначальной матрице признаков $w$. В свою очередь, чтобы получить изначальные коэффициенты $w$ необходимо модифицирующую матрицу $P$ умножить на модифицированные коэффициенты $w_1$;
* Нулевой столбец с единицами при этом нет смысла модифицировать, коэффициент при нём получится равным в обеих регрессиях.

## Разработка алгоритма преобразования

Исходя из выводов прошлой главы, можно предложить следующий алгоритм преобразования:
* Генерируем случайную квадратную матрицу, размерностью, равной количеству признаков;
* Проверяем матрицу на обратимость;
* Если матрица необратима, генерируем новую;
* Сохраняем полученную обратимую матрицу, далее - модифицирующая матрица;
* Умножаем наши признаки на модифицирующую матрицу:

$$B_{train}=X_{train}P$$ 

* Решаем задачу регрессии с модифицированной матрицей признаков:

$$w_1 = (B_{train}^T B_{train})^{-1} B_{train}^T y_{train}$$

* Получаем модифицированные признаки:

$$B_{test}=X_{test}P$$ 

* Получаем ответы:
$$a_{test} = B_{test}w_1$$

* Исходя из выводов предыдущей главы, полученные ответы будут такие же, как если бы мы получили их на первоначальных данных, соответственно качество линейной регрессии останется таким же.
* Векторы коэффициентов будут связаны следующими отношениями:

$$
w_1 = P^{-1} w
$$

$$
w = P w_1
$$

## Проверка алгоритма

В этой главе мы реализуем предложенный алгоритм, а также проверим, изменится ли качество линейно регрессии, а также связь коэффициентов.

Выделим признаки и таргет:

In [3]:
features = df.drop('Страховые выплаты', axis=1)
target = df['Страховые выплаты']

Разделим выборку на обучающую и тестовую:


In [4]:
features_train, features_test, target_train, target_test = train_test_split(features,
                                                                           target,
                                                                           test_size=0.25,
                                                                           random_state=12345
                                                                           )

Сгенерируем модифицирующую матрицу:

In [5]:
flag = True

while flag:
    matr = np.random.normal(size=(features_train.shape[1],features_train.shape[1]))
    try:
        np.linalg.inv(matr)
        flag=False
        matr_mod = matr
    except:
        print('Пробуем заново')

In [6]:
matr_mod

array([[-0.33136925, -0.80543693,  0.07960193,  0.2265171 ],
       [-1.04940937, -0.38152356, -0.43471874, -0.06118619],
       [ 1.01000697,  1.21050046, -0.1355729 , -2.02113986],
       [-0.00870904,  0.05960226, -1.05652656,  0.29332601]])

Получим модифицированные матрицы:

In [7]:
features_train_mod = np.dot(features_train.values, matr_mod)
features_test_mod = np.dot(features_test.values, matr_mod)

Обучим модель на первоначальной матрице признаков, сделаем предсказания на первоначальной тестовой матрице признаков и посчитаем показатель $R^2$:

In [8]:
model_simple = LinearRegression()
model_simple.fit(features_train, target_train)
predictions_simple = model_simple.predict(features_test)
print(f'Показатель качества на первоначальных данных: {r2_score(target_test, predictions_simple):.2f}')

Показатель качества на первоначальных данных: 0.44


Обучим модель на модифицированной матрице признаков, сделаем предсказаний на модифицированной тестовой матрцие и посчитаем показатель $R^2$:

In [9]:
model_mod = LinearRegression()
model_mod.fit(features_train_mod, target_train)
predictions_mod = model_mod.predict(features_test_mod)
print(f'Показатель качества на первоначальных данных: {r2_score(target_test, predictions_mod):.2f}')

Показатель качества на первоначальных данных: 0.44


Таким образом, качество не ухудшилось.

In [10]:
predictions_simple

array([0.17494798, 0.80523476, 0.45599281, ..., 0.3129923 , 0.34926113,
       0.7886826 ])

In [11]:
predictions_mod

array([0.17494798, 0.80523476, 0.45599281, ..., 0.3129923 , 0.34926113,
       0.7886826 ])

Коэффициенты первоначальной регрессии:

In [12]:
coef_simple = model_simple.coef_
coef_simple

array([ 1.79258369e-02,  3.57228278e-02, -5.46000708e-07, -1.26186590e-02])

Коэффициенты модифицированной регрессии:

In [13]:
coef_mod = model_mod.coef_
coef_mod

array([-0.02816918, -0.01716852,  0.00436309, -0.0246517 ])

Проверим их связь, найдём коэффициенты изначальной регрессии через модифицирующую матрицу:

In [14]:
coef_simple_calc = np.dot(matr_mod, coef_mod)
coef_simple_calc

array([ 1.79258369e-02,  3.57228278e-02, -5.46000708e-07, -1.26186590e-02])

Полученные при умножении коэффициенты равны коэффициентам изначальной регрессии.

Коэффициент при свободном члене при этом оказывается равным в обеих регрессиях:

In [21]:
print(f'Коэффициент при свободном члене в первоначальной модели {model_simple.intercept_}')
print(f'Коэффициент при свободном члене в модифицированной модели {model_mod.intercept_}')

Коэффициент при свободном члене в первоначальной модели -0.9321366751688056
Коэффициент при свободном члене в модифицированной модели -0.9321366751682496


Найдем согласно формуле, полученной в 2 главе, коэффициенты модифицированной регрессии через коэффициенты изначальной:

In [15]:
coef_mod_calc = np.dot(np.linalg.inv(matr_mod), coef_simple)
coef_mod_calc

array([-0.02816918, -0.01716852,  0.00436309, -0.0246517 ])

In [16]:
pd.DataFrame([coef_simple, coef_simple_calc, coef_mod, coef_mod_calc],
             index=['coef_simple',
                   'coef_simple_calc',
                   'coef_mod',
                   'coef_mod_calc'])

Unnamed: 0,0,1,2,3
coef_simple,0.017926,0.035723,-5.460007e-07,-0.012619
coef_simple_calc,0.017926,0.035723,-5.460007e-07,-0.012619
coef_mod,-0.028169,-0.017169,0.004363087,-0.024652
coef_mod_calc,-0.028169,-0.017169,0.004363087,-0.024652


Расчётные коэффициенты при наших признаках совпадают с полученными при обучении, можно сделать вывод, что формулы верны.

### Вывод

* Реализация и проверка алгоритма, полученного в главе 3, подтвердила его корректность.
* Качество моделей полученных до и после преобразования - совпадают.
* Коэффициенты при свободных членах оказываются равны.

## Общий вывод

* Данные представлены в таблице;
* Пропусков в данных нет;
* Данные готовы к решению задачи.
* Теоретическое исследование показало:
    * Для того, чтобы зашифровать данные необходимо первоначальную матрицу умножить на любую обратимую матрицу, размер которой будет равен количеству столбцов признаков;
    * Для получения корректных предсказаний, матрицу (вектор) тестовых или же рабочих признаков также необходимо умножать на ту же модифицурующую матрицу;
    * Для того, чтобы зашифровать данные необходимо первоначальную матрицу умножить на любую обратимую матрицу, размер которой будет равен количеству столбцов признаков;
* Для получения корректных предсказаний, матрицу (вектор) тестовых или же рабочих признаков также необходимо умножать на ту же модифицурующую матрицу;
    * Коэффициенты линейной регрессии, полученной на первоначальных данных и модифицированных данных связаны между собой, при этом, 
      новый вектор коэффициентов линейной регрессии $w_1$, полученный на модифицированной матрице признаков равен произведению обратной модифицирующей матрицы $P^{-1}$ на вектор коэффициентов линейной регрессии полученный на первоначальной матрице признаков $w$. В свою очередь, чтобы получить изначальные коэффициенты $w$ необходимо модифицирующую матрицу $P$ умножить на модифицированные коэффициенты $w_1$
* Реализация и проверка алгоритма, полученного в главе 3, подтвердила его корректность. 
* Качество моделей полученных до и после преобразования совпадают.
* Коэффициенты при свободных членах оказываются равны.