<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Введение" data-toc-modified-id="Введение-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Введение</a></span></li><li><span><a href="#План-проекта" data-toc-modified-id="План-проекта-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>План проекта</a></span></li><li><span><a href="#Используемые-библиотеки" data-toc-modified-id="Используемые-библиотеки-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Используемые библиотеки</a></span></li><li><span><a href="#Загрузка-и-предобработка-данных" data-toc-modified-id="Загрузка-и-предобработка-данных-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Загрузка и предобработка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Общий вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

## Введение

Целью данного проекта является защитить данные клиентов страховой компании "Хоть потоп". Задача состоит в том, чтобы разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

## План проекта

Для достижения поставленной задачи, необходимо:

1) Загрузить и изучить данные.

2) Ответить на вопрос и обосновать решение:

- Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? 

3) Указать, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

4) Предложить алгоритм преобразования данных для решения задачи. Обосновать, почему качество линейной регрессии не поменяется.

5) Запрограммировать этот алгоритм, применив матричные операции. 

6) Проверить, что качество линейной регрессии из `sklearn` не отличается до и после преобразования. В качестве оценки качества модели применить метрику *R2*.

## Используемые библиотеки

В настоящем проекте используются следующие библиотеки:

- `pandas`;
- `numpy`;
- `sklearn`;
- `seaborn`.

## Загрузка и предобработка данных

Импортируем необходимые для работы библиотеки:

In [36]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_spd_matrix
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score
from sklearn.pipeline import Pipeline

Загрузим данные:

In [37]:
url = r'C:\Users\IVMitrofanov\Downloads\insurance.csv'

In [38]:
df = pd.read_csv(url)

Посмотрим на первые 5 объекетов датафрейма:

In [39]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Посмотрим информацию о датафрейме методом *info()*:

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Переименуем столбцы:

In [41]:
col_name = ['gender', 'age', 'salary', 'family_member', 'insurance_payments']
df.set_axis(col_name, axis = 'columns', inplace = True)

Изменим тип данных в колличественных признаках - `age` и `salary` на целочисленный (*int*).

In [42]:
df['age'] = df['age'].astype(int)
df['salary'] = df['salary'].astype(int)

Проверим на дубликаты:

In [43]:
df.duplicated().sum()

153

Удалим дубликаты:

In [44]:
df = df.drop_duplicates().reset_index(drop=True)

Посмотрим на первые 5 объектов датафрейма:

In [45]:
df.head()

Unnamed: 0,gender,age,salary,family_member,insurance_payments
0,1,41,49600,1,0
1,0,46,38000,1,1
2,0,29,21000,0,0
3,0,21,41700,2,0
4,1,28,26100,0,0


Посмотрим информацию о датафрейме методом *info()*:

In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4847 entries, 0 to 4846
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype
---  ------              --------------  -----
 0   gender              4847 non-null   int64
 1   age                 4847 non-null   int32
 2   salary              4847 non-null   int32
 3   family_member       4847 non-null   int64
 4   insurance_payments  4847 non-null   int64
dtypes: int32(2), int64(3)
memory usage: 151.6 KB


## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw \qquad \qquad (1)
$$



Задача обучения:

$$
w = \arg\min_w MSE(Xw, y) \qquad \qquad (2)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y \qquad \qquad (3)
$$

Для того, чтобы зашифровать матрицу $X$ мы должны умножить ее на обратимую матрицу $P$ (назовем ее ключ).

Зашифрованную матрицу $X$ обозначим $X_c$, тогда:
$$
X_c = XP \qquad \qquad (4)
$$ 

Для получения исходных данных необходимо умножить зашифрованную матрицу $X_c$ на матрицу $P^{-1}$ (обратная матрица ключа):
$$
X = X_c P^{-1} \qquad \qquad (5)
$$ 

Тогда формула предсказания модели и обучения для **зашифрованной матрицы признаков**:

$$
a_c = X_c w_c \qquad \qquad (6)
$$

$$
w_c = (X_c^T X_c)^{-1} X_c^T y \qquad \qquad (7)
$$

Качество модели с зашифрованными признаками будет равно качеству модели с исходными признаками, если выражения (1) и (6) будут равны, то есть: $ a = a_c $.

Заменим $X_c$ на соотношение (4):

$$
w_c = ((X P)^T X P)^{-1} (X P)^T y \qquad \qquad (8)
$$

Раскроем скобки:

$$
w_c = (P^T (X^T X) P)^{-1} P^T X^T  y \qquad \qquad (9)
$$

$$
w_c = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y  \qquad \qquad (10)
$$

$P (P)^{-1}$ схлопывается:

$$
w_c = P^{-1} (X^T X)^{-1} X^T y  \qquad \qquad (11)
$$

Здесь $(X^T X)^{-1} X^T y$ является правой частью выражения (3), то есть:

$$
w_c = P^{-1} w  \qquad \qquad (12)
$$

Тогда получается что предсказания с зашифрованными признаками равны предсказаниям с исходными признаками:

$$
a_c = X_c P^{-1} w = X w = a \qquad \qquad (13)
$$

Таким образом, соотношение (13) доказывает, что умножение матрицы признаков на обратимую матрицу не приводит к снижению качества модели линейной регрессии.

$$
w' = ((XP)^T XP)^{-1} (XP)^T y
$$
$$
w' = (P^T (X^T X) P)^{-1} (XP)^T y
$$
$$
w' = (P^T (X^T X) P)^{-1} P^T X^T y
$$
$$
.............
$$

## Алгоритм преобразования

Этапы алгоритма преобразования:

1) Создать матрицу признаков $X$ из признаков датафрейма;

2) Придумать матрицу ключ -  $P$, такую матрицу мы будем генирировать с помощью генератора псевдослучайных чисел в `numpy`. Матрица ключ должна быть квадратной, а ее размер должен совпадать с числом признаков:

\begin{equation*}
X_{m,n} = 
\begin{pmatrix}
x_{1,1} & x_{1,2} & \cdots & x_{1,n} \\
x_{2,1} & x_{2,2} & \cdots & x_{2,n} \\
\vdots  & \vdots  & \ddots & \vdots  \\
x_{m,1} & x_{m,2} & \cdots & x_{m,n} 
\end{pmatrix}
\end{equation*}

\begin{equation*}
P_{m,n} = 
\begin{pmatrix}
p_{1,1} & p_{1,2} & \cdots & p_{1,n} \\
p_{2,1} & p_{2,2} & \cdots & p_{2,n} \\
\vdots  & \vdots  & \ddots & \vdots  \\
p_{n,1} & p_{n,2} & \cdots & p_{n,n} 
\end{pmatrix}
\end{equation*}

3) Матрица ключ должна быть обратимой, необходимо выполнить проверку на обратимость матрицы. Матрица обратима тогда и только тогда, когда она невырождена, то есть её определитель не равен нулю. Вычислим определитель матрицы ключа и убедимся, что он не равен нулю.

$$
det|P| \neq 0 
$$

4) Если у матрицы ключа есть обратная матрица (определитель матрицы ключа не равен нулю), произвести шифрование признаков путем умножения матрицы признаков на матрицу ключ:
$$
X_c = XP
$$

Теперь $X_c$ - зашифрованная матрица признаков. Для получения исходных данных, необходимо умножить зашифрованную матрицу признаков на матрицу обратную матрице ключу:
$$
X = X_c P^{-1}
$$

Убедимся в надежности такого метода шифрования в нашем конкретном случае (будем рассматривать только метод грубой силы (brute force), то есть перебор всех возможных вариантов). Для начала вычислим размер исходной матрицы признаков и матрицы ключа (так как один из признаков целевой, а к остальным признакам мы добавляем нулевой столбец размер датафрейма совпадает с размерами матриц):

In [47]:
df.shape

(4847, 5)

При генерации матрицы ключа для каждого элемента матрицы будем генерировать псевдослучайное число. Посчитаем число их возможных размещений в матрице ключе. Пусть $A$ - множество из $n$ возможных чисел в каждом элементе матрицы ключа. Тогда мы имеем множество из $n$ элементов, которые собираемся разместить по $k$ элементам матрицы. 

Так как для каждого элемента матрицы генерируется случайное число из множества $A$ - это размещение с повторениями. По правилу умножения количество размещений с повторениями из $n$ по $k$, обозначаемое ${\displaystyle {\bar {A}}_{n}^{k}}$, равно:
$$
{\displaystyle {\bar {A}}_{n}^{k}=n^{k}}
$$

Посчитаем $k$:

In [48]:
df.shape[1] ** 2

25

Очевидно, что перебор числа комбинаций $n^{25}$ методом грубой силы займет крайне длительное время при больших $n$, к тому же полученную матрицу необходимо скалярно умножить на матрицу зашифрованных признаков, что еще больше увеличивает время подбора.

При $n$ = 10 (множество случайных чисел в пределах от 0 до 9) мы имеем $10^{25}$ комбинаций. Ограничимся таким уровнем надежности. 

## Проверка алгоритма

Для воспроизводимости результатов зафиксируем случайность:

In [49]:
SEED = 12345

Запишем признаки и целевой признак в соответствующие фреймы:

In [50]:
features = df.drop('insurance_payments', axis=1).copy()
target = df['insurance_payments'].copy()

Проктонтролируем размеры фреймов:

In [51]:
features.shape, target.shape

((4847, 4), (4847,))

Напишем функцию, которая реализует алгоритм шифрования:

In [52]:
def encryption(features, SEED):
    # Шаг 1. Создаем матрицу Х из исходных признаков 
    X = features.copy()
    # Шаг 2. Генерируем матрицу ключ P (в каждый элемент матрицы будем генерировать случайное число от 0 до 9)
    np.random.seed(SEED)
    p_matrix = np.random.randint(0,10, (X.shape[1], X.shape[1]))
    det = np.linalg.det(p_matrix)
    # Шаг 3. Проверям матрицу ключ на вырожденность. Генерируем новые матрицы ключи, если наша получилась вырожденной
    # изменяя SEED
    while det == 0:
        SEED += 1
        p_matrix = np.random.randint(0,10, X.shape)
        det = np.linalg.det(p_matrix)
    # Шаг 4. Производим шифрование 
    encryption_features = X @ p_matrix
    encryption_features.columns = features.columns
    return encryption_features, p_matrix, SEED
    

In [53]:
encryption_features, p_matrix, SEED = encryption(features, SEED)

Посмотрим была ли матрица вырожденная при исходном значении `SEED`:

In [54]:
SEED

12345

Значение `SEED` не изменилось, значит мы сразу успешно нашли невырожденную матрицу ключ.

Посмотрим на матрицу ключ:

In [55]:
p_matrix

array([[2, 5, 1, 4],
       [9, 5, 2, 1],
       [6, 1, 9, 7],
       [6, 0, 2, 9]])

In [56]:
features

Unnamed: 0,gender,age,salary,family_member
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0
...,...,...,...,...
4842,0,28,35700,2
4843,0,34,52400,1
4844,0,20,33900,2
4845,1,22,32700,3


Посмотрим на первые 5 объектов зашифрованных признаков:

In [57]:
encryption_features.head()

Unnamed: 0,gender,age,salary,family_member
0,297977,49810,446485,347254
1,228420,38230,342094,266055
2,126261,21145,189058,147029
3,250401,41805,375346,291939
4,156854,26245,234957,182732


Попробуем получить исходные данные путем умножения на обратную матрицу ключ:

In [58]:
(encryption_features @ np.linalg.inv(p_matrix)).astype(int).head()

Unnamed: 0,0,1,2,3
0,0,40,49600,1
1,0,45,38000,1
2,0,28,21000,0
3,0,20,41700,2
4,0,27,26100,0


Сравним с матрицей признаков до ширования:

In [59]:
features.head()

Unnamed: 0,gender,age,salary,family_member
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0


Значения после дешифрации соответствуют исходным данным.

Перейдем к моделям. Создадим отложенную выборку (25%) для контроля качества линейной регрессии. Для исходных признаков:

In [60]:
features_train, features_test, target_train, target_test = train_test_split(features,
                                                                           target,
                                                                           random_state=SEED,
                                                                           test_size=0.25)

И для зашифрованных:

In [61]:
encr_features_train, encr_features_test, target_train, target_test = train_test_split(encryption_features,
                                                                           target,
                                                                           random_state=SEED,
                                                                           test_size=0.25)

Проктонтролируем размеры фреймов:

In [62]:
features_train.shape, target_train.shape

((3635, 4), (3635,))

In [63]:
features_test.shape, target_test.shape

((1212, 4), (1212,))

In [64]:
encr_features_train.shape, encr_features_test.shape

((3635, 4), (1212, 4))

Линейная регрессия чувствительна к масштабу признаков. Масштабировать признаки будем с помощью стандартизации:

In [65]:
scaler = StandardScaler()

Инициализируем модель линейной регрессии:

In [66]:
liner_regression = LinearRegression()

Создадим пайплайн для масштабирования признаков и обучения линейной регрессии:

In [67]:
pipeline = Pipeline([
    ('scaler', scaler,),
    ('linearregression', liner_regression)
    ])

In [68]:
pipeline.fit(features_train, target_train)

Pipeline(steps=[('scaler', StandardScaler()),
                ('linearregression', LinearRegression())])

Посчитаем средний коэффциент детерминации на 5-ти кратной кросс-валидации:

In [69]:
cross_val_score(pipeline, features_test, target_test, scoring='r2', cv=5).mean()

0.4229423092181288

Теперь для зашифрованных признаков:

In [None]:
pipeline.fit(encr_features_train, target_train)

In [70]:
cross_val_score(pipeline, encr_features_test, target_test, scoring='r2', cv=5).mean()

0.4229423092181256

Есть отличие лишь в 15 знаке после запятой в пользу модели на исходных признаках, что находится в пределах погрешности и скорее всего связано с кросс-валидацией.

## Общий вывод

В ходе выполнения проекта данные были загружены и предобработаны. При предобработке:

1) Названия признаков приведены в унифицированный вид: латиница в нижнем регистре;

2) Удалено 153 дубликата;

3) Признаки с возрастом и зарплатой приведены к целочисленному типу.

Был предложен и обоснован алгоритм шифрования исходных данных путем умножения на обратимую матрицу ключ. Надежность такого метода заключается в том, что при подборе матрицы ключа необходимо перебрать $10^{25}$ вариантов матриц ключей и скалярно умножить каждую на зашифрованные признаки. Стоит отметить, что число матриц ключей для подбора можно увеличить путем увеличения диапазона случайных чисел в элементах матрицы ключа (в работе 10 вариантов). Причем увеличение диапазона на порядок влечет за собой увеличение числа вариантов матриц ключей на 25 порядков.

Алгоритм был реализован на исходных признаках, после чего были построены модели линейной регрессии для исходных и зашифрованных признаков (данные предварительно были масштабированы с помощью стандартизации). 

Модель обучалась на 75% датасета, выбранного в качестве тренировочных данных. Качество моделей линейной регрессии оценивалось на основе коэффициента детерминации ($R^{2}$) на предварительно отложенных данных (25% от всего датасета) с 5-ти кратной кросс валидацией.

Коэффициенты детерминации для моделей представлены в таблице:

|Признаки|Метрика $R^{2}$|
|--------|---------------|
|Исходные|0.42294230921812**88**|
|Зашифрованные|0.42294230921812**56**|

Отличие качества моделей по коэффициенту детерминации наблюдается лишь в 15 знаке после запятой, что находится в пределах погрешности и скорее всего связано с кросс-валидацией.
