<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Защитить данные клиентов страховой компании, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Обосновать преобразования.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_spd_matrix
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


pd.options.display.float_format = '{:,.4f}'.format

df = pd.read_csv('/datasets/insurance.csv')



In [2]:
display(df)
display(df.info())
display(df.describe())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0000,49600.0000,1,0
1,0,46.0000,38000.0000,1,1
2,0,29.0000,21000.0000,0,0
3,0,21.0000,41700.0000,2,0
4,1,28.0000,26100.0000,0,0
...,...,...,...,...,...
4995,0,28.0000,35700.0000,2,0
4996,0,34.0000,52400.0000,1,0
4997,0,20.0000,33900.0000,2,0
4998,1,22.0000,32700.0000,3,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.5,8.4408,9900.0836,1.0914,0.4632
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Данные не требуют дополнительной пред обработки

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Вопроc:**

Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)

**Ответ:** 

Не изменится

**Обоснование:** 

$$
a = Xw = a' = XPw'
$$

$$
((XP)^T XP)^{-1} (XP)^T y = (P^T X^T XP)^{-1} P^T X^T y = P^{-1}(X^T X)^{-1}(P^T)^{-1} P^T X^T y =
P^{-1}(X^TX)^{-1} X^T y = P^{-1}w
$$

Таким образом веса нашей новой модели также будут умножены на обратную матрицу P, и мы получим такие же результаты как и раньше( мы видим что важным условием является обратимость матрицы P)


## Алгоритм преобразования

**Алгоритм**

1. Создадим случайную, обратимую матрицу P
2. Умножим признаки матрицы X на матрицу P

**Обоснование**
$$
XPP^{-1} = X
$$

Таким образом с помощью матрицы P мы можем как кодировать так и декодировать признаки

## Проверка алгоритма

In [3]:
features = df.drop('Страховые выплаты', axis=1)
target = df['Страховые выплаты']

Отделили целевой признак

Создадим случайную квадратную матрицу, и проверим ее на обратимость

In [4]:
p_matrix = make_spd_matrix(n_dim=4, random_state=42)
try:
    np.linalg.inv(p_matrix)
    print('Матрица обратима')
except:
    print('Матрица не обратима')

Матрица обратима


Умножим матрицу признаков на матрицу P

In [5]:
features_p = features @ p_matrix

Проверим новую матрицу на возможность восстановления данных

In [6]:
display(features)
display(features_p @ np.linalg.inv(p_matrix))

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0000,49600.0000,1
1,0,46.0000,38000.0000,1
2,0,29.0000,21000.0000,0
3,0,21.0000,41700.0000,2
4,1,28.0000,26100.0000,0
...,...,...,...,...
4995,0,28.0000,35700.0000,2
4996,0,34.0000,52400.0000,1
4997,0,20.0000,33900.0000,2
4998,1,22.0000,32700.0000,3


Unnamed: 0,0,1,2,3
0,1.0000,41.0000,49600.0000,1.0000
1,-0.0000,46.0000,38000.0000,1.0000
2,0.0000,29.0000,21000.0000,-0.0000
3,0.0000,21.0000,41700.0000,2.0000
4,1.0000,28.0000,26100.0000,-0.0000
...,...,...,...,...
4995,0.0000,28.0000,35700.0000,2.0000
4996,0.0000,34.0000,52400.0000,1.0000
4997,0.0000,20.0000,33900.0000,2.0000
4998,1.0000,22.0000,32700.0000,3.0000


In [7]:
def train_test_splitting(features, target): # разбивает на обучающие и тестовые выборки
    features_train, features_test, target_train, target_test = train_test_split(features, target,
                                                                     test_size=0.25, random_state=42)
    return features_train, features_test, target_train, target_test

Разобьем на обучающие и тестовые выборки оба df

In [8]:
features_train, features_test, target_train, target_test = train_test_splitting(features, target)
features_p_train, features_p_test, target_p_train, target_p_test = train_test_splitting(features_p, target)

Обучим две модели на оригинальных и преобразованных данных

In [9]:
model = LinearRegression()
model.fit(features_train, target_train)
prediction = model.predict(features_test)
print('R2 scor : {:.4f}'.format(r2_score(target_test, prediction),'\n'))
print('Веса:  пол  {:.4f}, возраст {:.4f}, зарплата {:.4f}, члены семьи {:.4f}'.format(*model.coef_))

R2 scor : 0.4255
Веса:  пол  0.0049, возраст 0.0352, зарплата -0.0000, члены семьи -0.0149


In [10]:
model = LinearRegression()
model.fit(features_p_train, target_p_train)
prediction_p = model.predict(features_p_test)
print('R2 scor : {:.4f}'.format(r2_score(target_p_test, prediction_p),'\n'))
print('Веса:  пол  {:.4f}, возраст {:.4f}, зарплата {:.4f}, члены семьи {:.4f}'.format(*model.coef_))

R2 scor : 0.4255
Веса:  пол  0.0222, возраст 0.0706, зарплата -0.0083, члены семьи -0.0530


Мы видим что значение метрик не поменялось

## Вывод

С помощью умножения на обратимую матрицу P мы смогли зашифровать данные пользователей, что не повлияло на качество модели.
Также умножение на обратную матрицу P позволяет восстановить исходные данные.