<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Необходимо защитить данные клиентов страховой компании «Хоть потоп». Для этого разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Также привести обоснование корректности его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось (без подбора наилучшей модели).

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
STATE = 1

In [3]:
df = pd.read_csv('/datasets/insurance.csv')

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
df.sample(5, random_state=STATE)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
2764,0,26.0,24500.0,0,0
4767,0,24.0,32100.0,1,0
3814,0,33.0,17800.0,3,0
3499,1,22.0,65100.0,4,0
2735,1,22.0,41300.0,1,0


In [6]:
df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** качество предсказаний линейной регрессии не изменится.

**Обоснование:**

Докажем, что при умножении признаков (исходной матрицы) на любую обратимую матрицу качество предсказаний регрессии не изменится.

Для этого приравняем обе части уравнений, взяв за основу формулу предсказаний регресиии.

Если:
$$
a = X(X^T X)^{-1} X^T y
$$

Тогда:

$$
a' = XP((XP)^T XP)^{-1} (XP)^T y
$$

Докажем что:

$$
a = a'
$$

-----------------------------------------------------------

$$
a' = XP((XP)^T XP)^{-1} (XP)^T y
$$

Раскрываем скобки по свойству транспонированных матриц: 

$$
(AB)^T =  B^TA^T
$$

$$
a' = XP(P^TX^T XP)^{-1} P^TX^T y
$$

Раскрываем скобки по свойству обратных матриц: 
$$
(AB)^{-1}=B^{-1}A^{-1}
$$

$$
a' = XPP^{-1} (X^TX)^{-1} (P^T)^{-1} P^T X^T y
$$

Далее, по свойству обратной матрицы, заменяем матрицы единичной матрицей E:

$$
AA^{-1} = E
$$

По свойству единичной матрицы, сокращаем  E:
$$
AE = A
$$

$$
a' = XE (X^TX)^{-1} E X^T y
$$

$$
a' = X(X^TX)^{-1}X^T y
$$

$$
a = a'
$$

## Алгоритм преобразования

Разделим целевой признак и признаки для обучения по разным таблицам.

In [8]:
target = df['Страховые выплаты']

In [9]:
target.shape

(5000,)

In [10]:
features = df.drop('Страховые выплаты', axis=1)

In [11]:
features.shape

(5000, 4)

In [12]:
features_train, features_test, target_train, target_test = train_test_split(features, target, 
                                                                            test_size=.25, 
                                                                            random_state=STATE)

**Алгоритм**

Для преобразования признаков будем использовать умножение на случайную обратимую матрицу.

In [13]:
# функкция для проверки обратимости случайной матрицы по её определителю
def matrix(n):
    random_matrix  = np.random.normal(size=(n, n))
    if np.linalg.det(random_matrix ) == 0:
        print('Матрица необратима, попробовать другую')
    return random_matrix

In [14]:
# умножаем признаки на случайную матрицу
features_encoded = features @ matrix(4)
features_encoded.shape

(5000, 4)

In [15]:
# делаем новое разделение закодированных признаков
features_train_en, features_test_en, target_train, target_test = train_test_split(features_encoded, target, 
                                                                                  test_size=.25, 
                                                                                  random_state=STATE)

## Проверка алгоритма

Проверям, что качество регрессии не изменится при применении кодирования с помощью умножения на случайную обратимую матрицу.

Для этого обучим две модели - с закодированными признаками и с исходными и посчитаем их метрику R2.

In [16]:
model = LinearRegression()
model.fit(features_train_en, target_train)
predictions = model.predict(features_test_en)
r2_encoded = r2_score(target_test, predictions)
r2_encoded

0.3237732279269677

In [17]:
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
r2 = r2_score(target_test, predictions)
r2

0.3237732279242751

In [18]:
print('Метрика R2 на закодированных данных', r2_encoded)
print('Метрика R2 на исходных данных      ', r2)

Метрика R2 на закодированных данных 0.3237732279269677
Метрика R2 на исходных данных       0.3237732279242751


Метрика R2 значимо не различается.

## Вывод

Было доказано, что метрика линейной регрессии не изменится после кодирования данных, т.е. качество предсказаний модели не ухудшится после умножения исходных признаков на случайную обратимую матрицу.