<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Знакомство-с-данными" data-toc-modified-id="Знакомство-с-данными-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Знакомство с данными</a></span></li><li><span><a href="#Разделение-на-выборки" data-toc-modified-id="Разделение-на-выборки-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Разделение на выборки</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span><ul class="toc-item"><li><span><a href="#Создание-случайной-квадратной-матрицы" data-toc-modified-id="Создание-случайной-квадратной-матрицы-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Создание случайной квадратной матрицы</a></span></li><li><span><a href="#Преобразование-обучающей-выборки" data-toc-modified-id="Преобразование-обучающей-выборки-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Преобразование обучающей выборки</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

В этом проекте нам нужно защитить данные клиентов страховой компании «Хоть потоп». 
Задача: разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. 

Нужно защитить данные так, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель в этом проекте не требуется.

In [57]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

RS=17

## Подготовка данных

### Знакомство с данными

In [58]:
df = pd.read_csv('/datasets/insurance.csv')
df.head(3)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0


In [59]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [60]:
df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [61]:
df.duplicated().sum()

153

In [62]:
# поменяем тип призака возраст на целочисленный
df['Возраст'] = df['Возраст'].astype('int')

In [63]:
# переименуем столбцы
df.rename(columns={
    'Пол': 'sex',
    'Возраст': 'age',
    'Зарплата': 'salary',
    'Члены семьи': 'family_members',
    'Страховые выплаты': 'payouts'
}, inplace=True)

### Разделение на выборки

In [64]:
features = df.drop('payouts', axis=1)
target = df['payouts']

In [65]:
X_train, X_test, y_train, y_test = train_test_split(features, target, 
                                                    test_size=0.2, random_state=RS)

In [66]:
X_train.shape, y_train.shape

((4000, 4), (4000,))

In [67]:
X_test.shape, y_test.shape

((1000, 4), (1000,))

### Вывод

* Данные представлены в виде матрицы числовых значений: 5000 наблюдений и 5 признаков;
* Судя по описательным статистикам данные распределены нормально: не замечено выбросов и других аномалий;
* Соблюден почти идеальный баланс между мужчинами и женщинами; 
* Средний возраст застрахованного составляет 31 год, при этом медиана составляет 30; 
* Границы возраста застрахованных приводят к выводу, что компания не занимается страхованием лиц, чей возраст составляет менее 18 и старше 65 лет;
* Также интересно взглянуть на уровень заработной платы застрахованных - медиана составляет чуть более 40 000 рублей. В целом, в компании скорее представлен средний экономический класс, чем слишком бедные или слишком богатые граждане.
* Полные дубликаты в данных присутствуют, но это и не удивительно - ведь в нашей популяции вполне могут быть 2 человека одинакового возраста и пола, с одинаковой зарплатой и составом семьи, поэтому оставим их;
* Для чистоты кода и оптимизации использования памяти исправили названия столбцов и типы данных в датафрейме;
* Подготовили данные для дальнейшего обучения алгоритмов.

## Умножение матриц

В этом пункте нам необходимо ответить на вопрос: изменится ли качество линейной регрессии при умножении матрицы признаков на обратимую матрицу.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — **обратимая** матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** при умножении матрицы признаков на случайную обратимую матрицу предсказание линейной регрессии не изменится.

**Обоснование:**

Предположим, что наша матрица признаков теперь равна произведению исходной матрицы на случайную обратимую матрицу.

$$X_{mod} = XP$$  
*("mod". от англ modified - модицифированная).*

теперь перепишем формулу обучения линейной регрессии с учетом этого предположения:
$$w_{mod} = (X_{mod}^T X_{mod})^{-1} X_{mod}^T y$$
$$w_{mod} = ((XP)^T(XP))^{-1}(XP)^Ty = $$
Воспользуемся свойством транспонированных матриц: *транспонированное произведение матриц равно произведению транспонированных матриц, взятых в обратном порядке.*
$$ = ((P^TX^TXP))^{-1}(P^TX^T)y = $$

Подобное свойство существует и для обратных матриц: $(AB)^{-1}=B^{-1}A^{-1}$. Воспользуемся им:

$$ = ((X^TX)P)^{-1}(P^T)^{-1}(P^TX^T)y = $$
$$ = P^{-1}(X^TX)^{-1}((P^T)^{-1}(P^T))X^Ty = $$

Произведение матрицы на обратную ей даст единичную матрицу, поэтому $((P^T)^{-1}(P^T))$ у нас взаимно уничтожаются.

$$ = P^{-1}(X^TX)^{-1}X^Ty = $$

Выражение $(X^TX)^{-1}X^Ty$ является исходной формулой для нахождения $w$ при обучении модели, поэтому: 
$$ = P^{-1}w $$

Подставим полученный результат в формулу предсказания:

$$ a_{mod} =X_{mod}w_{mod} =XPw_{mod} = XPP^{-1}w = Xw$$

И видим, как снова случайная матрица $P$ взаимно уничтожается со своей обратной матрицей $P^{-1}$, а результат нашего предсказания остаётся неизменным и зависящим только от исходной матрицы признаков и исходного вектора весов.

## Алгоритм преобразования

**Алгоритм**

1. Сгенерируем случайную обратимую матрицу $P$ размером (4, 4) и вычислим обратную к ней матрицу $P_{inv}$
2. Умножим нашу матрицу обучающих признаков (4000, 4) на $P$ и получим новую матрицу $X_{mod}$ (4000, 4).
3. Умножением модифицированной матрицы $X_{mod}$ на $P_{inv}$ восстановим нашу исходную матрицу признаков $X$.
4. Проверим равенство восстановленной матрицы с исходной.

**Обоснование в коде:**

### Создание случайной квадратной матрицы

In [68]:
P = np.random.rand(4,4)
P

array([[0.67328629, 0.19126957, 0.08116769, 0.50020216],
       [0.68327584, 0.38662984, 0.31676824, 0.49534029],
       [0.82412668, 0.74798789, 0.96705011, 0.60062442],
       [0.91030074, 0.93993819, 0.20861669, 0.27970666]])

Создаем к ней обратную матрицу (заодно и проверяем на обратимость).

In [69]:
P_inv = np.linalg.inv(P)
P_inv

array([[ 22.50341153, -35.25464901,   9.07706806,   2.69884173],
       [-16.69194819,  25.43939599,  -6.80506599,  -0.58818852],
       [  8.16292215, -14.52792698,   5.04257886,   0.30195979],
       [-23.23289047,  40.08356816, -10.43409689,  -3.45680219]])

Убедимся, что это действительно две взаимно обратные матрицы. Перемножим их:

In [70]:
P @ P_inv

array([[ 1.00000000e+00, -7.07379811e-16,  5.14478824e-16,
        -8.74777209e-17],
       [-3.76016986e-15,  1.00000000e+00, -9.51157988e-18,
        -5.84368996e-17],
       [-1.57522185e-15,  8.29744972e-16,  1.00000000e+00,
         3.32455365e-16],
       [-1.87427795e-15,  4.05443620e-15,  1.26946771e-15,
         1.00000000e+00]])

На диагонали единицы, остальные числа близки к нулю (не нули, потому что есть особенности обработки чисел с плавающей точки в памяти компьютера).

### Преобразование обучающей выборки
Приступим к модификации нашей признаковой матрицы `X_train`.

In [71]:
X_mod = X_train @ P
X_mod

Unnamed: 0,0,1,2,3
1926,25812.473959,23422.240035,30276.479426,18811.712311
805,17822.544832,16169.077274,20897.993991,12988.627450
1674,50963.369722,46244.376560,59778.476613,37141.654697
81,42546.335198,38608.518636,49909.261622,31007.365000
2266,24326.759095,22073.953274,28534.711479,17729.322825
...,...,...,...,...
2800,34882.640364,31652.617882,40916.012389,25422.053207
1337,34794.998503,31575.474723,40816.900681,25357.807547
406,34061.703039,30906.009832,39950.654274,24824.121119
2191,26553.494704,24094.847147,31146.272155,19351.783813


Как видим, данные исказились до неузнаваемости - то, что нам и нужно для защиты от злоумышленников.

Попробуем теперь восстановить исходный вид.

In [72]:
X_mod @ P_inv

Unnamed: 0,0,1,2,3
1926,8.444711e-11,24.0,31300.0,1.000000e+00
805,1.926207e-11,30.0,21600.0,1.000000e+00
1674,-2.296520e-10,46.0,61800.0,1.000000e+00
81,1.000000e+00,29.0,51600.0,1.000000e+00
2266,1.000000e+00,21.0,29500.0,1.882709e-12
...,...,...,...,...
2800,1.000000e+00,30.0,42300.0,1.000000e+00
1337,-3.195501e-11,22.0,42200.0,2.000000e+00
406,1.000000e+00,36.0,41300.0,-2.856924e-12
2191,1.000000e+00,22.0,32200.0,1.000000e+00


Данные приобрели более менее узнаваемый вид, смущают только искаженные значения в области около нуля. Для достоверности наших выводов проверим сходство матриц специальной функцией из библиотеки `NumPy` - `allclose` - она сравнивает два массива и возвращает булево значение.

В аргумент `rtol` укажем уровень различия, на которые мы можем закрыть глаза при сравнении, например, `1e-8`.

In [73]:
np.allclose(X_train, (X_mod @ P_inv), rtol=1e-08)

True

### Вывод

1. Мы сгенерировали случайную квадратную матрицу размера 4х4 и убедились в её обратимости.
2. Выполнили матричное умножение обучающей выборки на полученную случайную матрицу.
3. С помощью матрицы, обратной к полученной случайной - восстановили исходную обучающую выборку и убедились в её эквивалентности исходной выборке.

## Проверка алгоритма

Настало время обучить линейную регрессию на исходной и модифицированной выборке и сверить результаты. 
По теоретичским выводам предсказания, а соответственно, и метрики двух моделей должны совпасть.


Создаем два экземпляра класса линейной регрессии для параллельного их обучения.

In [74]:
linreg = LinearRegression()
linreg_mod = LinearRegression()

* Преобразуем обучающую и тестовую выборку путём умножения на случайную квадратную матрицу $P$.
* Обучаем на них наши линейные регрессоры.

In [75]:
X_train_mod = X_train @ P
X_test_mod = X_test @ P

In [76]:
linreg.fit(X_train, y_train)
linreg_mod.fit(X_train_mod, y_train);

Создаем массивы с предсказаниями - результатом работы линейной регрессии.

In [77]:
predictions = linreg.predict(X_test)
predictions_mod = linreg_mod.predict(X_test_mod)

Считаем метрику R2

In [78]:
print('Метрика R2 для модели, обученной на исходной матрице признаков %.6f' % r2_score(y_test, predictions))
print('Метрика R2 для модели, обученной на модифицированной матрице признаков %.6f' % r2_score(y_test, predictions_mod))

Метрика R2 для модели, обученной на исходной матрице признаков 0.417308
Метрика R2 для модели, обученной на модифицированной матрице признаков 0.417308


**Вывод:**
* Самое главное - метрики R2 получились одинаковыми, вне зависимости от вида исходных выборок для обучения (исходная или модифицированная);
* Не главное - качество работы модели получилось очень посредственное.

## Общий вывод

* Аналитически обосновали предположжение о том, что умножение матрицы признаков на случайную квадратную матрицу не влияет на качество работы алгоритма линейной регрессии;
* Проверили работу этого приёма обезличивания данных на имеющейся обучающей выборке: получилось как преобразовать данные, так и восстановить исходный вид;
* Наконец, обучили две модели линейной регрессии на исходных данных (открытых) и на модифицированных данных (зашифрованных);
* Сравнили предсказания этих двух моделей используя метрику R2 и получили идентичные показатели;
* Таким образом, нам удалось теоретически и практически обосновать применение такого простого алгоритма защиты персональных данных как умножение на случайную квадратную матрицу.
 