<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Выводы</a></span></li></ul></div>

# Защита персональных данных клиентов

Необходимо защитить данные клиентов страховой компании. Нужно разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обосновать корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
#загружаем нужные библиотеки

import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
#загружаем датасет
try:
    df = pd.read_csv('/Users/amirk/Downloads/insurance.csv')
except:
    df = pd.read_csv('/datasets/insurance.csv')

In [3]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [6]:
df.duplicated().sum()

153

In [7]:
df.drop_duplicates(inplace=True, ignore_index=True)

In [8]:
df.shape

(4847, 5)

С данными ознакомились, удалили дубликаты! Приступаем к дальнейшей обработке.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:**  При умножении признаков на обратимую матрицу качество линейной матрицы **не изменится**. Параметры линейной регрессии в исходной задаче и в преобразованной связаны следующей соотношением $w_1 = P^{-1}w$.

**Обоснование:**     
В ходе нашего решения нам необходимо доказать, что предсказаниие  $a$, равно предсказанию $a_1$, в котором первичная матрица признаков $X$ умножена на случайную обратимую матрицу $P$.    
Напишем формулы предсказания модели:

$$
a = Xw
$$

$$
a_1 = XPw_1
$$

Заспишем значения $w$ и $w_1$:

$$
w = (X^T X)^{-1} X^T y
$$

$$
w_1 = ((XP)^T XP)^{-1} (XP)^T y
$$

Раскроем скобки для показателя $w_1$, учитывая свойства матриц $(AB)^{-1} = B^{-1}A^{-1}$ и $(AB)^T = B^T A^T$:

$$
w_1 = ((XP)^T XP)^{-1} (XP)^T y = (P^T X^T XP)^{-1} P^T X^T y
$$

Применяя ассоциативность умножения заключим в скобки $(X^T X)$:

$$
w_1 = (P^T (X^T X) P)^{-1} P^T X^T y = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$

Учитывая свойство обратимой матрицы $A A^{-1} = E$, сократим выражение:

$$
w_1 = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y = P^{-1} (X^T X)^{-1} E X^T y = P^{-1} (X^T X)^{-1} X^T y 
$$

Подставим полученное значение $w_1$ в формулу $a_1$:

$$
a_1 = XPP^{-1} (X^T X)^{-1} X^T y = X(X^T X)^{-1} X^T y = Xw = a
$$

Что и следовало доказать!

Теперь докажем, что параметры линейной регрессии в исходной задаче и в преобразованной связаны следующей соотношением $w_1 = P^{-1}w$.   
В вышеизложенном доказательстве мы вывели формулу $w_1 = P^{-1} (X^T X)^{-1} X^T y$. При этом мы знаем, что $w = (X^T X)^{-1} X^T y$. Поэтому мы приходим к выводу, что:

$$
w_1 = P^{-1} (X^T X)^{-1} X^T y = P^{-1}w
$$   


## Алгоритм преобразования

**Алгоритм**

Мы доказали, что умножение матрицы признаков на случайную обратимую матрицу не приведет к изменению качества линейной регрессии. Реализуем данный алгоритм:   
- создадим функцию, которая на вход получает исходный датафрейм
- выделяем фичи и таргет
- создаем случайную обратимую матрицу с размерами равными количеству столбцов в таблице с фичами
- проверяем обратимость созданной матрицы, если необратимая, то сознаем новую и проверяем опять.
- умножаем фичи на созданную матрицу.
- так как наша задача заключается в зашифровывании первичных данных, собираем итоговую таблицу из преобразованных фичей и таргета и подаем ее на выход.

**Обоснование**

Качество модели будет прежним так-как данные подаваемые для расчета $MSE$ и $R2$ будут одинаковыми. Для рассчеты данных метрик нам нужен таргет (он не меняется) и предсказание модели  - $a$. Выше мы уже доказали, что $a = a_1$. Следовательно данные, поступающие в функцию расчета метрики одинаковые, поэтому и значения метрик будут одинаковыми.

## Проверка алгоритма

In [9]:
# кодируем исходные данные
def codding_features(data, target):
    features = data.drop(target, axis=1)
    target = data[target]
    # будем создавать случайную матрицу, пока она не будет обратимой
    matrix = np.random.random((features.shape[1], features.shape[1]))
    flag = False
    while flag == False:
        try:
            np.linalg.inv(matrix)
            flag = True
        except:
            matrix = np.random.random((features.shape[1], features.shape[1]))
            flag = False
    features = pd.DataFrame(np.dot(features.values, matrix), columns = features.columns)
    data = pd.merge(features, target, left_index=True, right_index=True)
    return data, np.linalg.inv(matrix)

In [10]:
data, decodding_matrix = codding_features(df, 'Страховые выплаты')

In [11]:
data

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,24482.426940,25270.562991,247.690228,16905.081127,0
1,18771.070118,19360.471945,200.572894,12959.008591,1
2,10376.966964,10699.076063,113.383771,7163.288183,0
3,20569.753619,21245.503493,197.412074,14205.280749,0
4,12889.220889,13297.703618,135.585878,8899.125061,0
...,...,...,...,...,...
4842,17620.002277,18188.807547,177.008271,12166.840564,0
4843,25855.213878,26696.599658,253.307597,17853.844253,0
4844,16725.101988,17271.677893,162.963735,11549.881403,0
4845,16135.918181,16661.039220,160.812094,11143.366637,0


In [12]:
#функция для декодирования данных
def decodding_features(data, target, matrix):
    features = data.drop(target, axis=1)
    target = data[target]
    features = pd.DataFrame(np.dot(features.values, matrix), columns = features.columns)
    data = pd.merge(features, target, left_index=True, right_index=True)
    return data

In [13]:
decod_data = decodding_features(data, 'Страховые выплаты', decodding_matrix)

In [19]:
decod_data.round(1).head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1.0,41.0,49600.0,1.0,0
1,0.0,46.0,38000.0,1.0,1
2,0.0,29.0,21000.0,0.0,0
3,0.0,21.0,41700.0,2.0,0
4,1.0,28.0,26100.0,0.0,0


In [15]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Данные закодированы! Данные пользователей надежно защищены! Проверим качество модели на исходных и закодированных данных!

In [16]:
# функция, которая сравнивает значения R2
def compare_metrics(data, codd_data, target):
    features = data.drop(target, axis=1)
    codd_features = codd_data.drop(target, axis=1) 
    target = data[target]
    model = LinearRegression()
    model.fit(features, target)
    predict = model.predict(features)
    model.fit(codd_features, target)
    codd_predict = model.predict(codd_features)
    r2 = r2_score(target, predict).round(5)
    codd_r2 = r2_score(target, codd_predict).round(5)
    if r2 == codd_r2:
        print(f'Значение метрики R2 на исходных и закодированных данных одинаковое и равно {r2}')
    else:
        print('Значение метрик разное!')    

In [17]:
compare_metrics(df, data, 'Страховые выплаты')

Значение метрики R2 на исходных и закодированных данных одинаковое и равно 0.4302


## Выводы

В ходе исследования мы доказали, что умножение матрицы признаков на обратимую матрицу не изменяет качество модели линейной регрессии. На основе данной закономерности был предложен метод кодировки пользовательских данных. Работоспособность алгоритма была оценена путем сравнения метрики R2 для модели логистической регрессии на исходных и закодированных данных. Значение R2 не изменилось после кодирования данных!