<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Работа-с-данными" data-toc-modified-id="Работа-с-данными-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Работа с данными</a></span></li><li><span><a href="#Ответ-на-вопрос" data-toc-modified-id="Ответ-на-вопрос-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Ответ на вопрос</a></span></li><li><span><a href="#Обучение-модели" data-toc-modified-id="Обучение-модели-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Обучение модели</a></span></li><li><span><a href="#Доказательство" data-toc-modified-id="Доказательство-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Доказательство</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

Подключаем необходимые библиотеки

In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

Прочитаем файл в переменную df

In [3]:
df = pd.read_csv('/datasets/insurance.csv')

Посмотрим на первые 5 строк исходного файла

In [4]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Посмотрим на информацию о всей таблице

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


## Работа с данными

Создадим случайную квадратную матрицу 4 на 4 (т.к. столбцов всего 4 и матрица должна быть квадратной)

In [7]:
INV = np.random.randint(9999,size=(4,4))

Проверим, является ли матрица обратимой

In [8]:
np.linalg.inv(INV)

array([[ 8.56125942e-06, -7.40467738e-05, -6.77074730e-05,
         1.61716701e-04],
       [-1.91445527e-04,  2.93450931e-04,  1.20960622e-04,
        -1.03931305e-04],
       [ 2.62061642e-04, -6.27118052e-04, -5.45760205e-05,
         3.06079771e-04],
       [-1.43851801e-04,  6.35645715e-04,  8.10902202e-05,
        -3.88893703e-04]])

Матрица обратима,значит с ней можно работать

# Вопрос

Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)

* a. Изменится. Приведите примеры матриц.


* b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

## Ответ на вопрос

Не изменится. Так как наша задача это преобразовать данные только для конфиденциальности качество линейной регрессии не должно поменяться, так как все зависимости и закономерности должны сохраниться и после преобразования. Если используемый алгоритм не может сохранить исходные взаимосвязи данных, этот алгоритм нам не подходит, он просто изменит структуру данных и выявленные закономерности и, как следствие, построенная модель не будут достоверной. 

## Обучение модели

Выделим из датафрейма X и y

In [9]:
X = df.drop("Страховые выплаты", axis=1)
y = df["Страховые выплаты"]

Создадим функцию для предсказания которая вернёт предсказанные значения

In [10]:
def predict(x, y):
    clf = LinearRegression()
    clf.fit(x, y)
    y_pred = clf.predict(x)
    return y_pred

Обучим модель на изначальных данных и изменённых данных

In [11]:
y_pred = predict(X, y)

In [16]:
X_inv = X @ INV
y_pred_inv = predict(X_inv, y)

Посмотрим на метрику R2 на изначальных данных и изменённых данных

In [18]:
r2_score(y, y_pred)

0.4249455028666801

In [20]:
r2_score(y, y_pred_inv)

0.42494550286666755

Метрика никак не изменилась

## Доказательство 

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** $R^2$ не поменяется

Для начала выведем формулу для неизменённой матрицы:

$a_1 = X_1w=X_1(X_1^TX_1)^{-1}X_1^{T}y$

Теперь учтем, что $X_1 = XP$:

$a_1 = XPw = XP((XP)^{T}(XP))^{-1}(XP)^{T}y$

Рассмотрим по действиям. Для начала рассмотрим выражение в скобках.

1) $((XP)^{T}(XP))^{-1}=(P^T X^TX P)^{-1}=P^{-1}(X^{T}X)^{-1} (P^T)^{-1}$ - раскрыв скобки благодаря свойству $(XP)^T = P^T X^T$

2) Теперь получившееся выражение домножим на $(XP)^{T}$

$a_1 = XP P^{-1}(X^{T}X)^{-1} (P^T)^{-1} P^T X^T y = X(X^{T}X)^{-1} X^T y = Xw = a$, значит $a_1 = a$ Наши предсказания не изменились:)


## Алгоритм преобразования

**Алгоритм**

Умножим матрицу признаков на  123 523 5

Прибавим к матрице 4364

Умножим на 42

Умножим на случайную обратимую матрицу A

**Обоснование**

Наши преобразования никак не изменили взаимосвязи в данных и их закономерности. Если столбец X1 для линейной регрессии был более значит чем столбец Xn, то при прибавлении к ним обоим любого числа и умножении на любое число эта закономерность сохраниться, поэтому качество линейной регрессии не ухудшилось.

## Проверка алгоритма

Теперь поменяем наш исходный датафрейм умножив на случайное число и прибавив к получившемуся случайное число и так же обучим модель и посмотрим на R2

In [40]:
x_test = ((X*1235235+4364)*42) @ INV

In [41]:
y_test = predict(x_test,y)

In [42]:
r2_score(y, y_test)

0.4249455028666942

## Вывод

R2 снова не поменялась