<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

### Подключение необходимых модулей

In [5]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

## Загрузка данных

In [2]:
df = pd.read_csv('...')
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Формируем разделяем набор признаков на входные (`X`) и целевой (`y`), обучаем на всём наборе линейную регрессию, оцениваем её качество на этом же наборе данных по метрике коэффициента детерминации $R^2$:

In [71]:
X = df.drop('Страховые выплаты', axis=1)
y = df['Страховые выплаты']

model = LinearRegression()
model.fit(X, y)
r2_on_x = r2_score(y_true=y, y_pred=model.predict(X))
print(f'Коэффициент R2 равен: {r2_on_x:{2}.{8}}')

Коэффициент R2 равен: 0.4249455


Теперь генерируем из равномерного распределения некоторую матрицу `P`, такую, чтобы нашу матрицу признаков `X` можно было бы домножить справа на матрицу `P`.

Т.е. чтобы число столбцов в матрице `X` - `4` - совпадало с числом строк в матрице `P`. Что касается числа столбцов в матрице `P`, то оно должно равняться числу строк в ней, чтобы матрица в итоге получилась квадратной, поскольку обратную можно найти только для квадратной матрицы:

In [58]:
P = np.random.rand(X.shape[1], X.shape[1])
display(P)
print(f'P.shape = {P.shape}')
print(f'X.shape = {X.shape}')

array([[0.70120129, 0.61965221, 0.4077608 , 0.33502312],
       [0.09905129, 0.68069709, 0.82164036, 0.10930768],
       [0.59833186, 0.14558155, 0.74510062, 0.58923758],
       [0.2488312 , 0.23223693, 0.54432328, 0.13011107]])

P.shape = (4, 4)
X.shape = (5000, 4)


Убедимся теперь, что наша сгенерированная матрица `P` обратима, т.е. что мы можем найти для неё обратную:

In [72]:
P_inv = np.linalg.inv(P)
print('Матрица P:')
display(P)
print('\nМатрица inv(P):')
display(P_inv)

is_correct_inv = np.allclose(np.dot(P, P_inv), np.eye(P_inv.shape[0]))
print(f'\nОбратная матрица корректна:\n\t {is_correct_inv}')

Матрица P:


array([[0.70120129, 0.61965221, 0.4077608 , 0.33502312],
       [0.09905129, 0.68069709, 0.82164036, 0.10930768],
       [0.59833186, 0.14558155, 0.74510062, 0.58923758],
       [0.2488312 , 0.23223693, 0.54432328, 0.13011107]])


Матрица inv(P):


array([[ 1.28529101, -2.38659586, -1.24820291,  4.34827807],
       [ 0.97153923,  1.601528  , -0.22210484, -2.84122555],
       [-0.9068161 , -0.1103395 , -0.0808098 ,  2.79362455],
       [-0.3984802 ,  2.16727085,  3.12163621, -7.24599855]])


Обратная матрица корректна:
	 True


Теперь попробуем домножить матрицу признаков на нашу матрицу `P` (т.е. домножение делаем <u>справа</u>):

In [60]:
XP = np.dot(X, P)
print(f'XP.shape = {XP.shape}')

XP.shape = (5000, 4)


<a id='paragraph0'></a>
Вновь обучим модель линейной регрессии, на этот раз используя в качестве входного набора признаков матрицу `XP`:

In [65]:
model = LinearRegression()
model.fit(XP, y)
r2_on_xp = r2_score(y_true=y, y_pred=model.predict(XP))
print(f'Коэффициент R2 равен: {r2_on_xp:{2}.{8}}')

Коэффициент R2 равен: 0.4249455


Наконец, убеждаемся, что коэффициент $R^2$ не изменился:

In [70]:
print(f'Коэффицинт R2 не изменился в результате домножения X на обратимую матрицу P?\n\t {np.allclose(r2_on_x - r2_on_xp, 0)}')

Коэффицинт R2 не изменился в результате домножения X на обратимую матрицу P?
	 True


## Умножение матриц
<a id='paragraph1'></a>

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

---------

**Ответ:** 

<u>Коэфициент $R^2$ не изменится.</u>

**Обоснование:** 

Посставим в формулу для предсказаний выражение весов из формулы обучения:
$$
a = Xw = X (X^T X)^{-1} X^T y = X X^{-1} (X^T)^{-1} X^T y
$$

Поскольку:

$$
X X^{-1} = I
$$

То, получаем:

$$
a = I (X^T)^{-1} X^T y = (X^T)^{-1} X^T y
$$

Далее, поскольку:

$$
(X^T)^{-1} X^T = I
$$

То имеем:

$$
a = (X^T)^{-1} X^T y = I y = y
$$
$$
a = y
$$
---------------
Теперь проделаем те же действия, но в качестве матрицы `X` теперь будем рассматриваеть её же, домноженную справа на `P`, т.е. матрицу `XP`:

$$
\widetilde{a} = X P w
$$
$$
w = ((XP)^T (XP))^{-1} (XP)^T y
$$
$$
\widetilde{a} = XP ((XP)^T (XP))^{-1} (XP)^T y = (XP) (XP)^{-1} ((XP)^T)^{-1} (XP)^T y
$$
$$
\widetilde{a} = I ((XP)^T)^{-1} (XP)^T y
$$
$$
\widetilde{a} = I I y
$$
$$
\widetilde{a} = y
$$

Мы получили то же самое выражение для предсказаний, что может рассматриваться как обоснование допустимости домножения матрицы признаков на обратимую матрицу без искажения получаемых результатов.

--------

## Алгоритм преобразования

**Алгоритм**

Необходимо домножить вхожную матрицу признаков `X` справа на некоторую <u>обратимую</u> матрицу `P`.

**Обоснование**

<u>Было дано [выше](#paragraph1).</u>

## Проверка алгоритма

<u>Была сделана [выше](#paragraph0).</u>

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные загружены
- [ ]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [ ]  Указан правильный вариант ответа
    - [ ]  Вариант обоснован
- [ ]  Выполнен шаг 3: предложен алгоритм преобразования
    - [ ]  Алгоритм описан
    - [ ]  Алгоритм обоснован
- [ ]  Выполнен шаг 4: алгоритм проверен
    - [ ]  Алгоритм реализован
    - [ ]  Проведено сравнение качества моделей до и после преобразования