# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

### Импортируем необходимые библиотеки

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

### Читаем csv файл, выводим данные на экран, смотрим общую информацию

In [2]:
data = pd.read_csv('/datasets/insurance.csv')
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [4]:
data.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

После выгрузки данных видим, что пропусков в данных нет, типы данных корректные. Данные готовы к проведению исследования.

## Проверим как изменится  качество линейной регрессии при умножении признаков на обратимую матрицу.

### Извлекаем признаки и целевой признак.

In [5]:
features = data.drop("Страховые выплаты", axis=1)
target = data["Страховые выплаты"]

### Создаем обратимую матрицу 

In [6]:
matrix = np.random.rand(4,4)
matrix

array([[0.9911943 , 0.37994457, 0.50784513, 0.97428195],
       [0.939882  , 0.1980527 , 0.85321382, 0.26358327],
       [0.95449386, 0.64103791, 0.95907633, 0.772192  ],
       [0.75396431, 0.84390997, 0.76600394, 0.53402918]])

Проверим, обратима ли созданная матрица.

In [7]:
np.linalg.inv(matrix)

array([[ 1.73159824,  1.93073982, -4.19508469,  1.95389177],
       [ 0.11172524, -0.35823613, -1.81498234,  2.59740114],
       [-2.01773809, -0.36712607,  4.1781891 , -2.17918823],
       [ 0.27291768, -1.63318764,  2.79781813, -1.86482434]])

Ошибок нет, созданная матрица обратима.

### Проверим качество линейной регрессии.

In [8]:
def r2_score(x, y):
    lr = LinearRegression()
    lr.fit(x, y)
    r2 = lr.score(x, y)
    return r2

Качество до умножения на обратимую матрицу.

In [9]:
r2_orig = r2_score(features, target)
r2_orig

0.42494550286668

Качество после умножения на обратимую матрицу.

In [10]:
new_features = features @ matrix
r2_score(new_features, target)

0.4249455028666851

Качество линейной регрессии при умножении признаков на обратимую матрицу практически не меняется.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** При умножении признаков на обратимую матрицу$ R^2 $ не поменяется

**Обоснование:** ... $ a =X_1w = X_1\cdot (X^T X)^{-1}\cdot X^T\cdot y $


$ a_1 = (X_1 P) ((X P)^T X P)^{-1} (X P)^T y =  (X_1 P) (P^T\cdot  X^T\cdot  X\cdot  P)^{-1} (X P)^T y = X_1\cdot P\cdot (P^T)^{-1}\cdot (X^TX)^{-1}\cdot P^{-1}\cdot X^T\cdot P^T\cdot y = X_1\cdot (X^T X)^{-1}\cdot X^T\cdot y $

## Алгоритм преобразования

**Алгоритм**
- Умножим на случайную обратимую матрицу 

**Обоснование**

- Производим умножение на обратимую матрицу, для того, чтобы в случае необходимости можно было расшифровать данные, умножив их на обратную матрицу.
- Размерность случайной матрицы выбираем (4,4), т.к умножение матрицы на матрицу возможно, если ширина первой матрицы (ширина матрицы признаков = 4) равна высоте второй матрицы (высота случайной матрицы должна быть = 4). Так как нам необходима обратимая матрица, а обратимые матрицы - это **квадратные** матрицы, для которых можно найти обратные, то и ширина случайной матрицы должна быть = 4

## Проверка алгоритма

### Преобразовываем данные.

In [11]:
features_coding = features @ matrix
features_coding.head()

Unnamed: 0,0,1,2,3
0,47383.175617,31804.82445,47606.441716,38313.038481
1,36314.755094,24369.39499,36484.914481,29355.954902
2,20071.627571,13467.53968,20165.346187,16223.675938
3,39823.639279,26737.127857,40012.93257,32207.009754
4,24939.597552,16737.014923,25056.290114,20162.565843


### Проверим качество линейной регрессии после преобразования данных.

In [12]:
print('R2 после преобразования',r2_score(features_coding, target))

R2 после преобразования 0.4249455028666851


In [13]:
print('R2 до преобразования',r2_orig)

R2 до преобразования 0.42494550286668


## Вывод.

 Качество линейной регрессии не отличается до и после преобразования.