<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Цель работы -  защитить данные клиентов страховой компании. Необходимо разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию и обосновать корректность его работы.
Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

## Загрузка данных

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from scipy import stats as st
pd.options.display.max_columns = None
pd.set_option('display.float_format', lambda x: '%.3f' % x)
np.set_printoptions(precision=3,suppress=True)

In [2]:
try:
    data = pd.read_csv('/datasets/insurance.csv')

except:
    data = pd.read_csv("C:/Users/Lantana/Documents/data_science/10_algebra/insurance.csv")

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.953,39916.36,1.194,0.148
std,0.5,8.441,9900.084,1.091,0.463
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


## Умножение матриц

Докажем, что при умножении признаков на обратимую матрицу качество линейной регрессии не изменится.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** 

При умножении признаков на обратимую матрицу качество линейной регрессии не изменится.

**Обоснование:**

Задача: доказать, что $a' = a$ при умножении $X P$, где P - любая обратимая матрица подходящего размера

Решение:

Подставим новую матрицу $X P$ в формулу $w$:

$$
w' = ((X P)^T (X P))^{-1} (X P) ^T y
$$

Используя свойство матриц: $(X P)^T = P^T X^T$, раскроем скобки:

$$
w' = (P^T X^T X P)^{-1} P^T X^T y
$$

$$
w' = (P^T)^{-1} (X^T X)^{-1} P^{-1} P^T X^T y
$$

Используя свойство обратных матриц $(P^T)^{-1} P^T = E$ , сократим выражение:

$$
w' = E (X^T X)^{-1} P^{-1} X^T y
$$

Т.к. любую матрицу можно умножить на единичную и получить эту же матрицу. И т.к. $w = (X^T X)^{-1} X^T y$:

$$
w' = P^{-1} w
$$

Подставим полученные значения $w$ в формулу $a = Xw$, получим:

$$
a' = X P P^{-1} w
$$

Опять используем свойства обратных матриц и единичных матриц, произведём сокращения:

$$
a' = X E w
$$

$$
a' = X w
$$

А значит:

$$
a' = a
$$

Что и требовалось доказать.

***Вывод***

При умножении признаков на обратимую матрицу качество линейной регрессии не изменится. При этом параметры линейной регрессии в исходной задаче и в преобразованной будут связаны следующим образом: $w' = P^{-1} w$

## Алгоритм преобразования

**Алгоритм**

1. Извлечём признаки для обучения: целевой - target, остальные - features.

In [6]:
features = data.drop(['Страховые выплаты'], axis=1)
target = data['Страховые выплаты']

In [7]:
features

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.000,49600.000,1
1,0,46.000,38000.000,1
2,0,29.000,21000.000,0
3,0,21.000,41700.000,2
4,1,28.000,26100.000,0
...,...,...,...,...
4995,0,28.000,35700.000,2
4996,0,34.000,52400.000,1
4997,0,20.000,33900.000,2
4998,1,22.000,32700.000,3


In [8]:
features.columns

Index(['Пол', 'Возраст', 'Зарплата', 'Члены семьи'], dtype='object')

2. Создадим матрицу из признаков

In [9]:
features_matrix = features.values

In [10]:
features_matrix

array([[    1.,    41., 49600.,     1.],
       [    0.,    46., 38000.,     1.],
       [    0.,    29., 21000.,     0.],
       ...,
       [    0.,    20., 33900.,     2.],
       [    1.,    22., 32700.,     3.],
       [    1.,    28., 40600.,     1.]])

In [11]:
print('Размер:', features_matrix.shape)

Размер: (5000, 4)


In [12]:
features_matrix.shape[0]

5000

In [13]:
features_matrix.shape[1]

4

3. Сгенерируем случайную матрицу размерностью (features_matrix.shape[1] x features_matrix.shape[1]), чтобы в преобразованная матрица оказалась той же размерности, что и изначальная.

In [14]:
P = np.random.normal(loc =1, scale =0.5, size=(features_matrix.shape[1],features_matrix.shape[1]))

In [15]:
print('Размер:', P.shape)

Размер: (4, 4)


In [16]:
P

array([[1.611, 1.095, 1.432, 0.881],
       [0.988, 0.962, 0.82 , 0.363],
       [0.713, 0.991, 0.798, 0.454],
       [0.714, 0.208, 0.9  , 1.763]])

4. Хотя вероятность получить необратимую матрицу стремится к нулю, проверим, есть ли у матрицы P обратимая.

In [17]:
np.linalg.inv(P)

array([[ -1.156,   5.598,  -4.268,   0.523],
       [ -2.188,   2.966,   0.474,   0.36 ],
       [  4.701, -10.139,   4.97 ,  -1.539],
       [ -1.674,   2.56 ,  -0.865,   1.099]])

5. Проверка проведена - обратимая матрица к матрице P найдена. Домножим матрицу признаков на матрицу P

In [18]:
features_matrix_protected = features_matrix @ P
features_matrix_protected

array([[35399.358, 49178.854, 39617.292, 22538.392],
       [27133.821, 37690.591, 30363.033, 17272.355],
       [14998.148, 20832.339, 16782.008,  9545.575],
       ...,
       [24186.233, 33603.968, 27070.769, 15403.068],
       [23335.133, 32418.37 , 26117.128, 14861.579],
       [28971.016, 40250.159, 32424.534, 18447.224]])

In [19]:
print('Размер:', features_matrix_protected.shape)

Размер: (5000, 4)


6. Создадим датафрейм преобразованных признаков из полученной изменённой матрицы

In [20]:
features_protected = pd.DataFrame(features_matrix_protected,  columns=['Пол', 'Возраст', 'Зарплата', 'Члены семьи'])
features_protected

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,35399.358,49178.854,39617.292,22538.392
1,27133.821,37690.591,30363.033,17272.355
2,14998.148,20832.339,16782.008,9545.575
3,29747.320,41332.294,33296.074,18945.016
4,18634.220,25884.979,20852.476,11861.744
...,...,...,...,...
4995,25477.236,35394.902,28513.749,16223.264
4996,37386.765,51944.950,41844.551,23806.306
4997,24186.233,33603.968,27070.769,15403.068
4998,23335.133,32418.370,26117.128,14861.579


**Обоснование**

Обоснование данного алгоритма преобразования приведено в разделе 2.

## Проверка алгоритма

Проверим, отличается ли качество линейной регрессии до и после преобразования.

1. Разделим данные изначального датафрейма на обучающую (train) и валидационную (valid) выборки в соотношении 75% - 25%. Обучим модель линейной регрессии, сохраним предсказания на валидационной выборке. Рассчитаем R2 полученной модели.

In [21]:

features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)

In [22]:
model = LinearRegression()
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
r2 = r2_score(target_valid, predicted_valid)
print("R2 до преобразования", r2)

R2 до преобразования 0.435227571270266


2. Разделим данные преобразованного датафрейма на обучающую (train) и валидационную (valid) выборки в соотношении 75% - 25%. Обучим модель линейной регрессии, сохраним предсказания на валидационной выборке. Рассчитаем R2 полученной модели.

In [23]:
features_train_protected, features_valid_protected, target_train_protected, target_valid_protected = train_test_split(
    features_protected, target, test_size=0.25, random_state=12345)

In [24]:
model_protected = LinearRegression()
model_protected.fit(features_train_protected, target_train_protected)
predicted_valid_protected = model_protected.predict(features_valid_protected)
r2_protected = r2_score(target_valid_protected, predicted_valid_protected)
print("R2 после преобразования", r2_protected)

R2 после преобразования 0.43522757126883527


3. Рассчитаем разницу метрик R2 моделей после преобразования и до

In [25]:
difference = r2_protected/r2 - 1
print('Разница r2 до и после преобразования: {:_.10f}'.format(difference))

Разница r2 до и после преобразования: -0.0000000000


***Вывод***

Качество линейной регрессии до и после преобразования не отличается, что и требовалось доказать.

## Общий вывод

1. Мы доказали, что при умножении признаков на обратимую матрицу качество линейной регрессии не изменится. При этом параметры линейной регрессии в исходной задаче и в преобразованной будут связаны следующим образом: $w' = P^{-1} w$

2. В связи с этим был предложен алгоритм защиты персональных данных клиентов, при котором качество линейной регресси не будет отличаться.

3. Кратко предложенный алгоритм заключается в генерации случайной обратимой матрицы необходимой размерности и умножении её на исходный датафрейм.

4. Путём сравнения метрик R2 до и после преобразований была проведена проверка того, что качество линейной регрессии после преобразований не изменится.

5. Таким образом, данный алгоритм можно внедрять в практику. Что позволит компании "Хоть потоп" корректно предсказывать количество страховых выплат, избегая утечки персональных данных клиентов.