# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

## Загрузка данных

In [20]:
import pandas as pd
import os.path
from sklearn.linear_model import LinearRegression
#from sklearn.model_selection import train_test_split
#from sklearn.metrics import r2_score
import numpy as np
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 29)
file_name = 'insurance.csv'
local_path = os.path.join('C:', os.sep, 'Users', 'timpu', 'Desktop', 'Data Science(Проекты и шпаргалки)',
                          'Проекты', '9 Золотодобыча', 'data')
web_dir_path = os.path.join(os.sep, 'datasets' + os.sep)
from IPython.display import display, HTML
display(HTML("<style>.container { width:80% !important; }</style>"))
%config InlineBackend.print_figure_kwargs={'facecolor' : "w"}

In [21]:
try:
    data_full  = pd.read_csv(web_dir_path + file_name)
except FileNotFoundError:
    data_full = pd.read_csv(local_path + file_name)
else:
    print(f'Общая информация о данных датасета ', file_name, ':', sep='')
    data_full.info()
    print(f'\nОбзор данных датасета:', sep='')
    display(data_full)
    print(f'Минимальные значения в данных датасета ', file_name, ':', sep='')
    print(data_full.min(), '\n')
    print(f'Максимальные значения в данных датасета ', file_name, ':', sep='')
    print(data_full.max(), '\n')
    print(f'Количество дубликатов в данных датасета ', file_name, ':', sep='')
    print(data_full.duplicated().sum(), '\n')
    print(f'Колонки с пропущенными значениями в данных датасета ', file_name, ':\n', sep='')
    print(data_full.isna().sum(), '\n')
    print(f'Параметры распределения данных в колонках датасета ', file_name, ':\n', sep='')
    print(data_full.describe(), '\n')
    print(f'Корреляция колонок в данных датасета ', file_name, ':\n', sep='')
    print(data_full.corr())

Общая информация о данных датасета insurance.csv:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB

Обзор данных датасета:


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


Минимальные значения в данных датасета insurance.csv:
Пол                     0.0
Возраст                18.0
Зарплата             5300.0
Члены семьи             0.0
Страховые выплаты       0.0
dtype: float64 

Максимальные значения в данных датасета insurance.csv:
Пол                      1.0
Возраст                 65.0
Зарплата             79000.0
Члены семьи              6.0
Страховые выплаты        5.0
dtype: float64 

Количество дубликатов в данных датасета insurance.csv:
153 

Колонки с пропущенными значениями в данных датасета insurance.csv:

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64 

Параметры распределения данных в колонках датасета insurance.csv:

               Пол      Возраст      Зарплата  Члены семьи  Страховые выплаты
count  5000.000000  5000.000000   5000.000000  5000.000000        5000.000000
mean      0.499000    30.952800  39916.360000     1.194200           0.148000
std       0.

## Умножение матриц

In [22]:
def X_modified(X, seed=12345):
    try:
        state = np.random.RandomState(seed=seed)
        rand_matrix = state.normal(size=(X.shape[1], X.shape[1])) # Квадратная матрица P
        inv = np.linalg.inv(rand_matrix) # Проверка на обратимость
        x_modified = X @ rand_matrix # Умножаем признаки на обратимую матрицу
        return x_modified, inv
    except np.linalg.LinAlgError:
        X_modified(X, seed+seed) # Если возникла ошибка, заново запускаем нашу функцию

In [23]:
features = data_full.drop('Страховые выплаты', axis=1) 
target = data_full['Страховые выплаты']

features_new, inv_P = X_modified(features)
model = LinearRegression()
model.fit(features, target)
print('R2 по признакам исходной выборки:\n', model.score(features, target))
model.fit(features_new, target)
print('\nR2 по преобразованным умножением на обратимую матрицу признакам:\n', model.score(features_new, target))

R2 по признакам исходной выборки:
 0.4249455028666801

R2 по преобразованным умножением на обратимую матрицу признакам:
 0.42494550286667687


**Вывод**   
Экспериментально подтверждается ответ на вопрос задачи - качество модели линейной регрессии не меняется при умножении матрицы признаков обучения модели на обратимую матрицу. То есть такой метод кодирования персональных данных может применяться в практике работы страховой компании "Хоть потоп". Далее проведём матемитические действия с формулами, которые обоснуют вывод о сохранении качества модели при применнии такого способа кодирования.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Основные формулы преобразования матриц:   

$(AB)^T = B^T A^T$   
$(AB)^{-1} = B^{-1} A^{-1}$   
$AA^{-1} = A^{-1}A = E$   
$AE = EA = A$

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула расчёта параметра модели линейной регрессии w (веса) для получения минимальной MSE выглядит следующим образом:   

$$w = (X^T\bullet X)^{-1}\bullet X^T\bullet y$$

По условиям задачи изменим указанную формулу в соотвествии с поставленной задачей, когда исходная матрица умножается на обратимую - P:
$$a = X\bullet P\bullet w $$   

$$w_1 = ((X\bullet P)^T \bullet (X \bullet P))^{-1}\bullet (X\bullet P)^T \bullet y$$

Транспонированное произведение матриц равно произведению транспонированных матриц, взятых в обратном порядке, поэтому получаем следующую формулу:
$$w_1 = (P^T\bullet X^T \bullet X \bullet P)^{-1}\bullet P^T\bullet X^T \bullet y$$

Применим правило преобразования по формуле $(AB)^{-1} = B^{-1} A^{-1}$, поэтому получим следующую формулу:

$$w_1 = P^{-1}\bullet(P^{T}\bullet X^{T} \bullet X)^{-1}\bullet P^{T} \bullet X^{T}\bullet y$$

$$w_1 = P^{-1}\bullet(X^{T} \bullet X)^{-1}\bullet P^{T-1} \bullet P^{T} \bullet X^{T}\bullet y$$

Применим правило преобразования по формуле $AA^{-1} = A^{-1}A = E$,тогда формула предсказаний будет выглядеть следующим образом:

$$a_1 = X\bullet P\bullet P^{-1}\bullet(X^{T} \bullet X)^{-1}\bullet P^{T-1} \bullet P^{T} \bullet X^{T}\bullet y$$

$$a_1 = X\bullet (X^{T} \bullet X)^{-1}\bullet X^{T}\bullet y = Xw = a$$

Что и требовалось доказать.   

**Вывод**   
Математически доказано, что результат предсказаний не изменяется при умножении признаков на обратимую матрицу.

## Алгоритм преобразования

In [24]:
display(features)
display(features_new)
inv_P

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0
...,...,...,...,...
4995,0,28.0,35700.0,2
4996,0,34.0,52400.0,1
4997,0,20.0,33900.0,2
4998,1,22.0,32700.0,3


Unnamed: 0,0,1,2,3
0,38224.186641,61881.000420,49961.234837,-64280.684721
1,29313.558467,47428.845564,38278.822267,-49242.555394
2,16206.481556,26215.538233,21153.670838,-27212.472653
3,32110.072445,52006.047856,42004.453110,-54044.730722
4,20126.326163,32571.440926,26289.724215,-33824.037786
...,...,...,...,...
4995,27509.697503,44537.193278,35961.967320,-46265.431844
4996,40363.894074,65360.784898,52781.234122,-67911.520319
4997,26109.730637,42282.463506,34148.283213,-43934.487817
4998,25190.905401,40790.236490,32940.675278,-42378.128295


array([[-1.31136747,  0.3921804 ,  0.18868055, -0.67088287],
       [ 1.75872714,  0.14106138, -0.17773045,  0.79787127],
       [-0.41702659, -0.22854768,  0.3550602 ,  0.33039819],
       [ 0.58912996,  0.19073027, -0.5545481 ,  0.6259302 ]])

**Вывод**   
Мы сделали преобразование признаков таким образом, что полученные значения признаков теперь не представляются возможным для анализа и восприятия человеком, они закодированы. Теперь эти признаки можно отправить внешним пользователям для использования для предсказаний линейной регрессией без риска быть раскрытыми и использованными во вред отправителю.

**Алгоритм**
1. Возьмём исходные признаки датасета и обучим на них модель линейной регрессии. Получим предсказания и посчитаем метрику R2.
2. Преобразуем признаки умножением на случайную квадратную обратимую матрицу.
3. Обучим модель линейной регрессии на преобразованных данных и проверим метрику R2.
4. Убедимся, что метрики R2 до и после преобразования совпадают или близки до разности равной погрешности вычислений и хранения данных.
5. Примем даннный алгоритм для использования при направлении данных внешним пользователям, так как результаты использования линейной регрессии на исходных и преобразованных данных не отличаются.

**Обоснование**
Мы использвали случайную матрицу умножения, что значительно усложняет подбор и дешифровку, также математически доказали равенство результатов до и после преобразования признаков, что подтверждает применимость алгоритма при направлении данных внешним пользователям.

## Проверка алгоритма

In [27]:
model = LinearRegression()
model.fit(features, target)
print('R2 по признакам исходной выборки признаков:\n', model.score(features, target))
model.fit(features_new, target)
print('\nR2 по преобразованным умножением на обратимую матрицу признакам:\n', model.score(features_new, target))

R2 по признакам исходной выборки признаков:
 0.4249455028666801

R2 по преобразованным умножением на обратимую матрицу признакам:
 0.42494550286667687


**Общий вывод**   
Нами проведено исследовавние и получены данные о практической применимости преобразования признаков для обучения линейной регрессии умножением их матрицы на случайную квадратную обратимую матрицу. Исследование показало математическую верность такого подхода по результатам доказывания с использованием формул математических преобразований матриц и подтверждено экспериментальными расчётами на датасете страховой компании "Хоть потоп", случаность использованной матрицы множителя исходных признаков датасета для целей кодирования является средством противодействия подбору ключа для восстановления исходных признаков датасета. Алгоритм может применяться при организации доступа к данным внешним пользоватлелям с ограниченным допуском к конфиденциальной информации о признаках датасета, используемого в работе страховой компании "Хоть потоп".

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные загружены
- [x]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [x]  Указан правильный вариант ответа
    - [x]  Вариант обоснован
- [x]  Выполнен шаг 3: предложен алгоритм преобразования
    - [x]  Алгоритм описан
    - [x]  Алгоритм обоснован
- [x]  Выполнен шаг 4: алгоритм проверен
    - [x]  Алгоритм реализован
    - [x]  Проведено сравнение качества моделей до и после преобразования