|  |  |  |
| ---: | :--- | :--- |
| Курс:| Линейная алгебра | 09 |
| Срок обучения на момент сдачи: | 4,5 месяца |

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

# Содержание

1  [Вводные данные](#1)

2  [Изучение и подготовка данных](#2)

3  [Умножение матриц](#3)

4  [Алгоритм преобразования](#4)

5  [Проверка алгоритма](#5)

<a name="1"></a>
## Вводные данные

**Описание данных**

Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.  
Целевой признак: количество страховых выплат клиенту за последние 5 лет.

**Инструкция по выполнению проекта**

*    Загрузите и изучите данные.
*    Ответьте на вопрос и обоснуйте решение.
*    Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
*      a. Изменится. Приведите примеры матриц.
*      b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.
*    Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.
*    Запрограммируйте этот алгоритм, применив матричные операции. Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.

<a name="2"></a>
## Изучение и подготовка данных

In [1]:
import pandas as pd
import numpy as np

from IPython.display import display

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
data = pd.read_csv('insurance.csv')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
display(data.sample(6))

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
3028,0,35.0,25300.0,1,0
4695,1,34.0,26000.0,2,0
2071,0,24.0,46500.0,0,0
3558,1,33.0,40600.0,3,0
2445,0,37.0,36700.0,2,0
2052,1,49.0,39500.0,0,2


In [5]:
features = data.drop(['Страховые выплаты'], axis='columns').values
target = data['Страховые выплаты'].values

<a name="3"></a>
## Умножение матриц

Ответим на **вопрос**: изменится ли качество линейной регрессии от умножения признаков на обратимую матрицу.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

После умножения признаков на матрицу $P$ получим:

Задача обучения:

$$
w2 = \arg\min_w2 MSE(XPw2, y)
$$

Формула обучения:

$$
w2 = ((XP)^T (XP))^{-1} (XP)^T y = (P^T X^T (XP))^{-1} P^T X^T y = (X^T (XP))^{-1} (P^T)^{-1} P^T X^T y = P^{-1} (X^T X)^{-1} X^T y = P^{-1} w
$$

Предсказания:

$$
a2 = X P w2 = X P P^{-1} w = X w = a
$$

**Ответ:** Не изменится при ненулевых столбцах матрицы Р

**Обоснование:** Формулы предсказания для линейных регрессий на начальных и преобразованных данных совпадают.

Вектор весов линейной регресии для преобразованной задачи можно получить умножив обратную матрицу $P^{-1}$ на вектор весов линейной регрессии обученной на начальных данных.

<a name="4"></a>
## Алгоритм преобразования

Для решения задачи защиты данных можно использовать следующий **алгоритм**:

Для шифрования данных можно использовать преобразование признаков (данных клиентов) умножая матрицу признаков на обратимую матрицу соответствующего размера.

**Обоснование**

При этом предсказанные значения совпадут с предстказаниями на начальных данных.

<a name="5"></a>
## Проверка алгоритма

Запрограммируйте этот алгоритм, применив матричные операции. Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.

In [6]:
features.shape

(5000, 4)

In [7]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
print('r2 на первоначальных данных:', r2_score(target, predictions))

r2 на первоначальных данных: 0.42494550286668


In [8]:
P_matrix = np.random.RandomState(123).normal(size = [4, 4])
P_matrix_inv = np.linalg.inv(P_matrix)

features_P = features@P_matrix

In [9]:
model.fit(features_P, target)
predictions_P = model.predict(features_P)
print('r2 на преобразованных данных:', r2_score(target, predictions_P))

r2 на преобразованных данных: 0.42494550286668764


Как и ожидалось метрика почти не отличается. Алгоритм жизнеспособный.

**Чек-лист проверки**

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные загружены
- [x]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [x]  Указан правильный вариант ответа
    - [x]  Вариант обоснован
- [x]  Выполнен шаг 3: предложен алгоритм преобразования
    - [x]  Алгоритм описан
    - [x]  Алгоритм обоснован
- [x]  Выполнен шаг 4: алгоритм проверен
    - [x]  Алгоритм реализован
    - [x]  Проведено сравнение качества моделей до и после преобразования