# Разработка алгоритма для защиты персональных данных клиентов

**Заказчик** - страховая компания «Хоть потоп».

**Задача** - защитить данные клиентов.

Нужно защитить данные, чтобы при их преобразовании качество моделей машинного обучения не ухудшилось.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Обзор-данных" data-toc-modified-id="Обзор-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Обзор данных</a></span></li><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

## Обзор данных

Для начала импортируем необходимые в работе библиотеки.

In [1]:
import pandas as pd
import numpy as np

from IPython.display import display

from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression


Сохраним данные в таблицу.

In [2]:
df = pd.read_csv('/datasets/insurance.csv')

#/datasets/insurance.csv

Посмотрим общую информацию об исходных данных.

In [3]:
print('Первые 5 строк таблицы:')
display(df.head())
print('Минимальные и максимальные значения параметров:')
display(df.agg(['min','max']))
print('Общая информация:')
display(df.info(memory_usage='deep'))

Первые 5 строк таблицы:


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Минимальные и максимальные значения параметров:


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
min,0,18.0,5300.0,0,0
max,1,65.0,79000.0,6,5


Общая информация:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

Таблица с исходными данными **df** содержит 5000 строк и 5 столбцов: 2 столбца типа `float` и 3 типа `int`, пропуски в данных отсутствуют. По минимальным и максимальным значениям данные выглядят корректными.

Всего таблица занимает 195.4 KB памяти.


## Подготовка данных

Для начала изменим названия столбцов.

In [4]:
df.columns = ['gender', 'age', 'salary', 'family', 'insurance_claim']
df.columns

Index(['gender', 'age', 'salary', 'family', 'insurance_claim'], dtype='object')

In [5]:
print('Количество дубликатов в таблице', df.duplicated().sum())

Количество дубликатов в таблице 153


In [6]:
df[df.duplicated()==True].sort_values(by='salary').head(10)

Unnamed: 0,gender,age,salary,family,insurance_claim
2988,1,32.0,21600.0,0,0
2869,0,50.0,24700.0,1,2
4230,0,32.0,25600.0,1,0
2723,0,36.0,26400.0,0,0
1140,1,34.0,26900.0,0,0
2565,1,31.0,27900.0,1,0
3315,1,30.0,28200.0,0,0
2501,0,25.0,28300.0,0,0
4189,1,31.0,28400.0,1,0
3333,0,36.0,29700.0,2,0


С точки зрения персональных данных, представленные параметры могут быть идентичными для двух и более клиентов и это нормальная ситуация, а не дубли. Но в данной работе требуется обучить модели для защиты информации, поэтому такие совпадения удалим.

In [7]:
df = df.drop_duplicates().reset_index(drop=True)
print('Количество дубликатов в таблице', df.duplicated().sum())
print('Количество строк в таблице:',len(df))

Количество дубликатов в таблице 0
Количество строк в таблице: 4847


## Умножение матриц

Перед нами стоит вопрос: "Что будет, если признаки умножить на обратимую матрицу. Изменится ли качество линейной регрессии?". 

Для начала запишем формулы для линейной регрессии.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу) 

- $P$ — обратимая матрица, на которую умножаются признаки

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Предположим, что у нас есть некая случайная обратимая матрица P, на которую умножается исходная матрица признаков. Тогда формула для предсказания линейной регрессии будет выглядеть следующим образом. 

$$
a_p = XPw_p
$$

$$
w_p = ((XP)^T (XP))^{-1} (XP)^T y
$$

Для начала рассмотрим отдельно формулу для определения весов $w_p$.

Согласно свойству транспонированных матриц - **"Транспонированное произведение матриц равно произведению транспонированных матриц, взятых в обратном порядке."**: $ (AB)^T = B^T A^T $, преобразуем формулу:

$$
w_p = (P^T X^T (XP))^{-1}  P^T X^T y
$$

Согласно ассоциативному свойству: $ (AB)C = A(BC) $, также преобразуем нашу формулу:

$$
w_p = ( P^T (X^T X) P)^{-1} P^T X^T y
$$

Далее произведем преобразование формулы, основываясь на свойстве $ (АВ)^{-1} = В^{-1} А^{-1} $:

$$
w_p =  P^{-1}  (X^TX)^{-1} (P^T)^{-1} P^T X^T y
$$

Получили единичную матрицу: $ (P^T)^{-1} P^T $, а зная, что при умножении матрицы на единичную матрицу, получим ту же матрицу, то уберем ее из формулы и получившееся выражение подставим в формулу для предсказания.

$$
w_p =  P^{-1} (X^TX)^{-1} X^T  y = P^{-1}  w
$$

$$
a_p =  XP P^{-1} w
$$

Снова получили обратимую матрицу: $ P^{-1} P $. Итоговая формала для предсказания при умножении признаком на случайную обратимую матрицу выглядит:

$$
a_p =  X w
$$

Таким образом получили, что умножение матрицы признаков на случайную обратимую матрицу не изменит качество линейной регрессии.

## Алгоритм преобразования

Напишем алгоритм преобразования исходных данных в зашифрованный вид.

**Алгоритм**:
1. Создаем квадратную случайную матрицу, ее размер равен ширине матрицы исходных признаков.
2. Проверяем случайную матрицу на обратимость.
3. Получаем новые закодированные признаки, умножив случайную матрицу на исходные признаки.
4. Обучаем модель линейной регрессии на исхродных и преобразованных данных, после чего определяем метрику R2 и сравниваем.



Выделим признаки и целевой признак.

In [8]:
features = df.drop('insurance_claim', axis=1)
target = df['insurance_claim']

#проверка
display(features.shape)
display(target.shape)

(4847, 4)

(4847,)

Напишем функцию для создания случайной квадратной матрицы, которая так же проверяет матрицу на обратимость.

In [9]:
def random_matrix(array):
    '''Возвращает случайную квадратную матрицу, размер которой соответствует ширине входящего массива'''
    np.random.seed(13)
    m = array.shape[1]
 
    matrix = np.random.normal(size = (m,m))
    
    print('Размер матрицы:', matrix.shape,
          '\n',
         '\n Матрица:', 
          '\n', matrix,
          '\n',
         '\n Обратная матрица:', 
          '\n', np.linalg.inv(matrix))
    
    return matrix

Сохраним случайную матрицу для исходных признаков.

In [10]:
matrix = random_matrix(features)


Размер матрицы: (4, 4) 
 
 Матрица: 
 [[-0.71239066  0.75376638 -0.04450308  0.45181234]
 [ 1.34510171  0.53233789  1.3501879   0.86121137]
 [ 1.47868574 -1.04537713 -0.78898902 -1.26160595]
 [ 0.56284679 -0.24332625  0.9137407   0.31735092]] 
 
 Обратная матрица: 
 [[ -4.13171828   1.55404149  -1.33761592  -3.65255313]
 [ 13.59530389  -2.57028117   5.41159321   9.13287874]
 [ 15.02284232  -3.85029879   5.93026449  12.63608275]
 [-25.50288423   6.35911368 -10.55320246 -19.75102566]]


Мы получили случайную матрицу размером (4,4). Полученная матрица обратима. Получим новые зашифрованные признаки.

In [11]:
encrypted_features = features @ matrix

print('Размер матрицы новых признаков:', encrypted_features.shape,
      '\n',
      '\n Зашифрованные признаки:',
      '\n', encrypted_features)

Размер матрицы новых признаков: (4847, 4) 
 
 Зашифрованные признаки: 
                  0             1             2             3
0     73397.812203 -51828.369381 -39077.628696 -62539.576058
1     56252.495548 -39700.086744 -29918.560564 -47901.092848
2     31091.408436 -21937.481943 -16529.614075 -26468.749722
3     61690.568081 -43581.533900 -32870.660913 -52590.247779
4     38630.648204 -27268.683880 -20554.852793 -32903.349442
...            ...           ...           ...           ...
4842  52827.869368 -37305.544752 -28127.275448 -45014.583628
4843  77529.428947 -54759.905478 -41296.204778 -66078.552997
4844  50155.474227 -35428.124620 -26717.896706 -42750.582617
4845  48383.592001 -34172.096947 -25767.540263 -41234.163897
4846  60072.154244 -42426.895599 -31994.279914 -51196.318298

[4847 rows x 4 columns]


Как выше уже доказали, данный алгоритм не изменит качество линейной регрессии, так как предсказания модели не изменятся:

$$
a_p =  XP P^{-1} w =   X w = a
$$


## Проверка алгоритма

Создадим модель линейной регрессии, обучим ее на исходных данных и посмотрим на метрику R2.

In [12]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
r2 = r2_score(target, predictions)
print('R2 для исходных признаков: {:.3f}'.format(r2))

R2 для исходных признаков: 0.430


Теперь проверим наш алгоритм.

In [13]:
model_encrypt= LinearRegression()
model_encrypt.fit(encrypted_features, target)
predictions = model_encrypt.predict(encrypted_features)
r2_encrypt = r2_score(target, predictions)
print('R2 для признаков, умноженных на обратимую матрицу: {:.3f}'.format(r2_encrypt))

R2 для признаков, умноженных на обратимую матрицу: 0.430


Как и ожидали, качество модели не изменилось. В обоих случаях метрика R2 равна **0.430**.

## Вывод

1. Теоритически доказали, что при умножении исходных признаков на случайную обратную матрицу, качество предсказаний модели линейной регрессии не изменится.


2. Сформировали алгоритм шифровки персональных данных, основанный на доказанной выше теории.


3. Проверили алгоритм на практике, сравнив метрики R2 на исходных и зашифрованных данных. Полученные метрики идентичны.

Таким образом, мы получили алгоритм для защиты персональных данных.