<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Заключение" data-toc-modified-id="Заключение-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Заключение</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

Загрузим и посмотрим на данные

In [2]:
ds = pd.read_csv('/datasets/insurance.csv')
ds.info()
display(ds.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Данные содержат персональную информацию о клиентах страховой компании. Признаки: Пол, Возраст, Зарплата, Члены семьи. Целевой признак: Страховые выплаты.

## Умножение матриц

Ответим на вопрос и обоснуем решение.
Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Предположим, качество линейной регрессии не изменится

**Обоснование:** 

Проверим, повлияет ли на предсказания умножение признаков на обратимую матрицу.
$$
a = Xw = X(X^T X)^{-1} X^T y
$$

Рассчитаем предсказания если умножить признаки $X$ на обратимую матрицу $P$:
$$
a_p = XPw = XP((XP)^T XP)^{-1} (XP)^T y
$$

Преобразуем выражение, используя свойство транспонирования матриц: 
$$
(AB)^T = B^TA^T
$$

$$
a_p = XP(P^T X^T XP)^{-1} P^T X^T y
$$

Преобразуем выражение, используя свойство: 
$$
(AB)^{-1} = B^{-1}A^{-1}
$$

$$
a_p = X P P^{-1} (P^T X^T X)^{-1} P^T X^T y
$$

Еще раз применим то же свойство:
$$
a_p = X P P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$

Преобразуем выражение, используя свойство для обратимой матрицы:
$$
AA^{-1} = A^{-1}A = E
$$
где $E$ - единичная матрица

$$
a_p = X E (X^T X)^{-1} E X^T y
$$

Используем свойство умножения на единичную матрицу:
$$
AE = EA = A
$$

Получим:
$$
a_p = X (X^T X)^{-1} X^T y
$$

Таким образом:
$$
a = a_p = X (X^T X)^{-1} X^T y
$$

**Вывод:** Значения предсказаний не меняются при умножении признаков на обратимую матрицу и значит качество линейной регрессии не изменится.

## Алгоритм преобразования

**Алгоритм**

Для решения задачи по защите персональных данных клиентов страховой компании используем метод умножения значений признаков на обратимую матрицу, значения которой сгенерированы случайным образом.
Для преобразования выполним алгоритм:
* сгенерируем случайную обратимую матрицу $P$ размерностью $nxn$ функцией $numpy.random.normal()$, где $n$ - количество столбцов в матрице признаков
* проверим матрицу $P$ на обратимость, для этого функцией $numpy.linalg.inv()$ найдем ее обратную матрицу, если матрица необратима, будет обнаружена ошибка 
* умножим матрицу признаков $X$ на обратимую матрицу $P$

**Обоснование**

Такой метод преобразования данных не должен изменить качество линейной регрессии, и при таком преобразовании (обратимая матрица генерируется случайным образом) будет сложно восстановить персональную информацию. То, что умножение признаков на обратимую матрицу не влияет на качество предсказаний, мы теоретически доказали в предыдущем пункте. Осталось проверить это практически.

## Проверка алгоритма

Создадим функцию для шифрования матрицы признаков.

In [3]:
def dt_encrypt(features):
    n = features.shape[1]
    d = 0
    while d == 0:   
        try:
            P = np.random.normal(loc=0, scale=1, size=(n, n))
            #print(P)
            invert = np.linalg.inv(P)
        except LinAlgError:
            continue
        else:
            break   
    return features @ P

Подготовим данные для обучения и тестирования.

In [4]:
features = ds.drop('Страховые выплаты',axis=1)
target = ds['Страховые выплаты']
display(features.head())
display(target.head())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


0    0
1    1
2    0
3    0
4    0
Name: Страховые выплаты, dtype: int64

Зашифруем признаки 

In [5]:
features_encrypted = dt_encrypt(features)
display(features_encrypted.head())

Unnamed: 0,0,1,2,3
0,51782.822911,-90237.258819,64708.784445,-17586.29862
1,39660.364991,-69130.48635,49569.843393,-13447.355686
2,21914.402438,-38202.844126,27392.492856,-7425.578459
3,43547.775074,-75868.628783,54406.388913,-14809.491571
4,27242.537314,-47481.832874,34048.536865,-9242.394801


Данные зашифрованы, персональные данные клиентов не видны. 

Проверим качество линейной регрессии до и после шифрования признаков, для этого создадим функцию

In [6]:
def quality_check(features, target):
    features_train, features_test, target_train, target_test = train_test_split(
                                    features, target, test_size=0.25, random_state=12345)
    
    model = LinearRegression()
    model.fit(features_train, target_train)
    r2 = r2_score(target_test, model.predict(features_test))
    return r2
    

In [7]:
print('Значение R2 при незашифрованных признаках:', quality_check(features, target))
print('Значение R2 при зашифрованных признаках:', quality_check(features_encrypted, target))

Значение R2 при незашифрованных признаках: 0.435227571270266
Значение R2 при зашифрованных признаках: 0.4352275712695145


Значения метрик R2 не отличаются, метрика не ухудшилась. Разница после 13 знака после запятой связана вероятно с накопительной погрешностью хранения данных в памяти.

## Заключение

В ходе выполнения проекта были исследованы данные  клиентов страховой компании. Для решения задачи по защите персональных данных клиентов был использован метод умножения значений признаков на обратимую матрицу, значения которой сгенерированы случайным образом. Теоретичские расчеты и практическая проверка качества линейной регрессии показали, что такой метод шифрования не влияет на результаты машинного обучения, метрика R2 не ухудшилась.