## Описание проекта

Нам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. 

## Загрузка данных

Импорт библиотек

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

import warnings
warnings.filterwarnings('ignore')

Чтение и вывод фрейма

In [2]:
df = pd.read_csv("/Users/sirena0789/Downloads/insurance.csv")

df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Разделение признаков и целевого признака

In [3]:
X = df.drop("Страховые выплаты", axis=1)
y = df["Страховые выплаты"]

X.shape, y.shape

((5000, 4), (5000,))

Создание функции для проверки r2

In [4]:
def r2_score(x, y):
    model = LinearRegression()
    model.fit(x, y)
    r2 = model.score(x, y)
    return r2

Создание рандомной матрицы

In [5]:
MATRIX = np.random.rand(4,4)

Проверим обратимость данной матрицы

In [6]:
np.linalg.det(MATRIX)

-0.08025089132240792

Определитель нашей матрицы не равен нулю, значит у нее есть обратная.

Проверка r2 на наших признаках

In [7]:
r2_score(X, y)

0.4249455028666801

Проверка r2 с умножением на рандомную матрицу

In [8]:
X_inv = X @ MATRIX
r2_score(X_inv, y)

0.4249455028666751

**Вывод:**  
r2 не меняется при умножении матрицы признаков справа на квадратную рандомную матрицу.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Обратимая рандомная матрица:
$$
A
$$

**Ответ:** Метрика качества не меняется.

**Обоснование:** 
$$
a = (XA)w =(XA)((XA)^T (XA))^{-1} (XA)^T y = (XA)(A^T X^T X A)^{-1} (XA)^T y= (XA)(A)^{-1} (X^T X)^{-1} (A^T)^{-1} (XA)^T y = X(X^T X)^{-1} (A^T)^{-1} A^T X^T y= X(X^T X)^{-1} X^T y = Xw = a
$$

## Алгоритм преобразования

**Алгоритм**  
1. Умножим на число 123
2. Вычтем из элементов 321
3. Умножим 231
4. Умножим на рандомную обратимую матрицу

**Обоснование**

При таких манипуляциях данные будут достаточно хорошо зашифрованны, но при этом качество линейной регрессии не изменится.

## Проверка алгоритма

In [9]:
X_1 = ((X*123 - 321) * 231) @ MATRIX

X_1.head()

Unnamed: 0,0,1,2,3
0,1231317000.0,793371100.0,1281742000.0,1356163000.0
1,943462000.0,607988900.0,982224300.0,1039130000.0
2,521361000.0,335961800.0,542819100.0,574193200.0
3,1035060000.0,666824000.0,1077325000.0,1139969000.0
4,647930400.0,417485000.0,674526300.0,713602300.0


In [10]:
r2_score(X_1, y)

0.42494550286667654

**Вывод:**  
Качество линейной регрессии не изменилось.

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные загружены
- [x]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [x]  Указан правильный вариант ответа
    - [x]  Вариант обоснован
- [x]  Выполнен шаг 3: предложен алгоритм преобразования
    - [x]  Алгоритм описан
    - [x]  Алгоритм обоснован
- [x]  Выполнен шаг 4: алгоритм проверен
    - [x]  Алгоритм реализован
    - [x]  Проведено сравнение качества моделей до и после преобразования

<font color='blue'><b>Итоговый комментарий ревьюера</b></font>
<div class="alert alert-success">
<b>Комментарий ревьюера ✔️:</b>Яна, получился хороший проект! 
    
Если есть  если есть какие либо вопросы я с удовольствием на них отвечу:) <br> Исправь, пожалуйста, замечания и жду проект на следующую проверку:) </div>


<div class="alert alert-info"> <b>Комментарий студента:</b> Спасибо за замечания!</div>

<div class="alert alert-success">
<b>Комментарий ревьюера V3✔️:</b> Удачи в следующих проектах!!!
</div>