<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

Импортируем необходимые библиотеки, модели, метрики:

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

Изучим данные:

In [2]:
data = pd.read_csv('/datasets/insurance.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [3]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [4]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


**Вывод:**
Аномалии отсутствуют, данные не требуют дополнительной предобработки.

<div class="alert alert-block alert-success">
<b>Комментарий ревьюера👍:</b> Хорошо
</div>

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Качество линейной регрессии не изменится при умножении признаков на обратимую матрицу.

**Обоснование:** Представим новую матрицу $C$ как произведение матрицы $X$ на $P$ (обратимую матрицу):

$$C = XP$$



Заменим матрицы $X$ на $C$ и вычислим предсказание и векторы весов:

$$a_1 = Сw_1$$
$$w_1 = (С^T С)^{-1} С^T y$$

Подставим в уравнение $w_1$ вместо $C$  произведение $X$ на $P$:


$$w_1 = ((XP)^T (XP))^{-1} (XP)^T y$$

Также будем использовать следущее свойство обратной матрицы $(AB)^{-1} = B^{-1} A^{-1}$ и транспортированной матрицы $(AB)^{T} = B^{T} A^{T}$:

Раскроем скобки в формуле $w_1 $:

$$w_1 = ((XP)^T (XP))^{-1} (XP)^T y = (P^T X^T X P)^{-1} P^T X^T y = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y$$

Поскольку по условию $P$ обратимая, то согласно теории произведение $(P^T)^{-1} P^T = E$ (единичная матрица). Произведение на единичную матрицу ничего не меняет.


$$w_1 = P^{-1} (X^T X)^{-1} E X^T y = P^{-1} (X^T X)^{-1} X^T y$$

$$w_1 = P^{-1} (X^T X)^{-1} X^T y = P^{-1}w$$




Подставим получившееся значения в формулу $a_1 = Cw_1$:

$$a_1 = XPP^{-1} w$$

Произведение $PP^{-1}$ тоже будет равно $E$. Продолжим:

$$a_1 = XPP^{-1} w = X E w = X w = a$$


**Вывод:**
Значение предсказания $a$ не меняется, что и следовало доказать.

## Алгоритм преобразования

**Алгоритм**

1. Создадим случайную  матрицу, проверим ее на обратимость;
3. Умножим признаки на созданную нами матрицу;
4. Найдем метрики обученной модели на исходных признаках и на признаках умноженных на нашу матрицу;
5. Сравнить показатели качества моделей. Если они будут равны, то поставленная задача выполнена

**Обоснование**

У созданной обратимой матрицы должна быть необходимая размерность $(nxn)$, в которой $n$ - количество признаков для регрессии, то есть случайная обратимая матрица будет иметь туже размерность, что и матрица признаков $X$.

## Проверка алгоритма

Выделим признаки и целевой признак:

In [5]:
features = data.drop('Страховые выплаты',axis=1)
target = data['Страховые выплаты']

Создадим рандомную матрицу:

In [6]:
random_matrix = np.random.randint(100,size = (4, 4))
random_matrix

array([[41, 56, 45, 29],
       [59, 35, 57, 41],
       [92, 46, 39, 95],
       [52,  4,  3, 33]])

Проверим на обратимость:

In [7]:
inv_matrix = np.linalg.inv(random_matrix)
inv_matrix

array([[ 0.01117079,  0.00160241, -0.01839702,  0.04115347],
       [ 0.03505333, -0.02778759, -0.00015366,  0.00416188],
       [-0.01858433,  0.03460407, -0.00184936, -0.02133733],
       [-0.02016187, -0.00230265,  0.02917599, -0.03310958]])

Опираясь на основное свойство обратной матрицы, проверим правильность результата:

In [8]:
np.allclose(np.dot(random_matrix, inv_matrix), np.eye(random_matrix.shape[0]))

True

In [9]:
np.allclose(np.dot(inv_matrix, random_matrix), np.eye(random_matrix.shape[0]))

True

Масштабируем признаки:

In [10]:
scaler = StandardScaler()
scaler.fit(features)
features_sc = scaler.transform(features)

Создадим модель линейной регрессии для исходных данных и вычислим r2:

In [11]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
r2 = r2_score(target, predictions)
print('R2 =', r2.round(3))

R2 = 0.425


Создадим модель линейной регрессии для преобразованных данных с использованием рандомной матрицы  и вычислим r2:

In [12]:
features_m = features_sc @ random_matrix
model.fit(features_m, target)
predictions_m = model.predict(features_m)
r2 = r2_score(target, predictions_m)
print('R2 =', r2.round(3))

R2 = 0.425


Показатели r_2 совпадают, что говорит о правильности работы алгоритма преобразования.

<div class="alert alert-block alert-success">
<b>Комментарий ревьюера👍:</b> Верно, таким образом в случае домножения матрицы признаков на случайную обратимую матрицу можно обеспечить защиту данных, не потеряв в качестве модели. 
</div>

<div class="alert alert-block alert-success">
<b>Комментарий ревьюера👍:</b> Дополнительно можно попробовать декодировать данные обратно
</div>

## Общий вывод
1. Загружены и изучены данные, аномалии не были выявлены;
2. Обосновано, почему качество линейной регрессии не изменится при умножении признаков на обратимую матрицу;
3. Создан алгоритм преобразования и проверена  R2 для исходных и преобразованных данных;
4. Данные защищены и сохранены, качество модели не изменилось.

<div class="alert alert-block alert-success">
<b>Комментарий ревьюера V.2👍:</b> Дополнительные материалы:

Обзоры по применению криптографии в машинном обучении: https://arxiv.org/pdf/1902.04109.pdf, https://www.researchgate.net/publication/342746786_Some_Applications_of_Machine_Learning_in_Cryptography

Небольшой обзор на Шифр Хилла: https://habr.com/ru/post/595281/
    
Ещё пара статей на эту тему:
    
-	https://medium.com/intuit-engineering/machine-learning-on-encrypted-data-no-longer-a-fantasy-58e37e9f31d7
-	https://towardsdatascience.com/cryptography-crash-course-for-the-intimidated-892b7889528a
-	https://towardsdatascience.com/homomorphic-encryption-machine-learning-new-business-models-2ba6a4f185d

   
Примеры использования линейной алгебры в машинном обучении:
https://machinelearningmastery.com/examples-of-linear-algebra-in-machine-learning/
    
Для чего нужна математика в машинном обучении?
https://proglib.io/p/dlya-chego-nuzhen-matematicheskiy-analiz-v-mashinnom-obuchenii-2021-02-15

Большая статья по векторам:
https://neptune.ai/blog/understanding-vectors-from-a-machine-learning-perspective  

Можно ещё дополнительно посмотреть лекции от МФТИ https://www.youtube.com/playlist?list=PLk4h7dmY2eYHHTyfLyrl7HmP-H3mMAW08
    
Классная серия роликов по линейной алгебре на английском (можно включить автоматические русские субтитры): https://www.youtube.com/playlist?list=PLRDl2inPrWQW1QSWhBU0ki-jq_uElkh2a


Удачи в будущих проектах и работе, всё обязательно получится!
</div>
