<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод-по-исследованию" data-toc-modified-id="Общий-вывод-по-исследованию-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод по исследованию</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [None]:
import os.path
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

In [8]:
try:
    if os.path.isfile('datasets/insurance.csv'):
        df = pd.read_csv('datasets/insurance.csv')
    else:
        df = pd.read_csv('/datasets/insurance.csv')
except FileNotFoundError:
    df = pd.read_csv('https://code.s3.yandex.net/datasets/insurance.csv')

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Качество линейной регрессии не изменится, если признаки умножают на обратимую матрицу. Параметры линейной регрессии в исходной задаче и в преобразованной будут связаны линейно, и изменение признаков не повлияет на точность модели.

**Обоснование:**

Используемые свойства:
$$
(AB)^T=B^T A^T
$$
$$
(AB)^{-1} = B^{-1} A^{-1}
$$
$$
A A^{-1} = A^{-1} A = E
$$
$$
AE = EA = A
$$
Доказательство:
$$
a = Xw = XEw = XPP^{-1}w = (XP)(P^{-1}w) = (XP)w' = X'w' = a'
$$

где P - обратимая квадратная матрица размерности $n,n$,
\
если размерность исходной матрицы $Xm,n$.
\
Требуется доказать, что предсказания не изменятся, имеем  $a =  Xw$,   $a' = X'w'$
\
\
$$
    w = (X^T X)^{-1} X^T y
$$
\
$$
w' = ((XP)^T XP)^{-1} (XP)^T y
$$
\
$$
w' = (P^T (X^T X) P)^{-1} (XP)^T y
$$
\
$$
w' = (P^T (X^T X) P)^{-1} P^T X^T y
$$
\
\
$$
w' =  ((X^T X) P)^{-1}(P^T)^{-1} P^T X^T y
$$
\
$$
w' =  ((X^T X) P)^{-1}E X^T y
$$
\
$$
w' =  ((X^T X) P)^{-1}X^T y
$$
\
$$
w' =  P^{-1}(X^T X)^{-1}X^T y
$$
\
Из условия, что
$a' = X'w' = X(Pw')$
\
\
$$
a' = XPP^{-1}(X^T X)^{-1}X^T y
$$
\
$$
a' = XE(X^T X)^{-1} X^T y
$$
\
$$
a' = X(X^T X)^{-1} X^T y
$$
\
$$
a' = Xw
$$
\
$$
a' = a
$$

## Алгоритм преобразования

**Алгоритм**

Алгоритм преобразования данных для решения задачи:

1. Сгенерировать случайную обратимую матрицу размерности nxn.
2. Умножить матрицу признаков на обратимую матрицу.
3. Обучить линейную регрессию на преобразованных данных.
4. Проверить точность модели на тестовых данных.

**Обоснование**

Этот алгоритм гарантирует, что изменение признаков не повлияет на точность модели, и при необходимости можно вернуться к исходным признакам, умножив их на обратную матрицу.

## Проверка алгоритма

Выделим признаки, с которыми нам предстоит работать.

In [9]:
features = df.drop('Страховые выплаты', axis='columns')
target = df['Страховые выплаты']

Создадим квадратную матрицу с использованием случайных чисел размерностью n, n.

In [10]:
np.random.seed(42)
A = np.random.randint(0, 100, (4, 4))
A_inv = np.linalg.inv(A)
new_features = np.dot(features.values, A)

Создав матрицу мы провели проверку на ее обратимость. Обратная матрица была присвоена переменной `A_inv`.

In [11]:
new_features[:5]

array([[3672934., 3671314., 4318597., 4914049.],
       [2814783., 2812922., 3309793., 3766008.],
       [1555740., 1554580., 1829378., 2081494.],
       [3087106., 3086224., 3629664., 4130210.],
       [1933131., 1932052., 2273010., 2586379.]])

В результате преобразования получили полностью обезличенные данные. Проверим, отличается ли метрика r2_score при использовании изначальных данных от использования преобразованных данных.
Для оценки метрики будем использовать кроссвалидацию с параметром cv=10 с выводом полученного среднего значения.

In [12]:
print(
    f'Полученное среднее значение r2_score на 10 кроссвалидационных'
    f" выборках при использовании исходных данных: "
    f"{cross_val_score(LinearRegression(), features, target, cv=10, scoring='r2').mean():.3f}"
)
print(
    f'Полученное среднее значение r2_score на 10 кроссвалидационных'
    f" выборках при использовании преобразованных данных: "
    f"{cross_val_score(LinearRegression(), new_features, target, cv=10, scoring='r2').mean():.3f}"
)

Полученное среднее значение r2_score на 10 кроссвалидационных выборках при использовании исходных данных: 0.415
Полученное среднее значение r2_score на 10 кроссвалидационных выборках при использовании преобразованных данных: 0.415


---
## Общий вывод по исследованию

<div style="border:solid orange 2px; padding: 5px">

<div class="alert alert-info"> <b>При проведении исследования (на основе полученных данных) выполнено:</b></div>

- Дан ответ на поставленный вопрос, что: Качество линейной регрессии не изменится, если признаки умножают на обратимую матрицу. Параметры линейной регрессии в исходной задаче и в преобразованной будут связаны линейно, и изменение признаков не повлияет на точность модели.
- Приведено обоснование, что изменение признаков X на X' связано с изменением вектора весов w на вектор весов w'. Однако эти веса связаны линейно, и минимизация функции потерь при обучении модели приведет к нахождению нового вектора весов w', который дает ту же точность модели, что и в исходной задаче.
- Составлен алгоритм преобразования данных для решения задачи, он включил в себя четыре пункта:
    1. Сгенерировать случайную обратимую матрицу размерности nxn.
    2. Умножить матрицу признаков на обратимую матрицу.
    3. Обучить линейную регрессию на преобразованных данных.
    4. Проверить точность модели на тестовых данных.
- Дано обоснование, что изменение признаков не повлияет на точность модели, и при необходимости можно вернуться к исходным признакам, умножив их на обратную матрицу.
- С использованием кроссвалидации проведено сравнение исходной матрицы признаков с матрицей преобразованных (обезличенных) признаков по метрике R2_score.
    1. Среднее значение r2_score при использовании исходных данных: 0.415.
    2. Среднее значение r2_score при использовании при использовании преобразованных данных: 0.415.
- Сделан вывод о полном совпадении значений R2_score. Качество линейной регрессии не отличается до и после преобразования, предсказательная способность данной модели не изменяется.