# Защита персональных данных клиентов
## Описание проекта
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Инструкция по выполнению проекта

1. Загрузите и изучите данные.
2. Ответьте на вопрос и обоснуйте решение.
3. Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.
4. Запрограммируйте этот алгоритм, применив матричные операции. Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.

## Описание данных
**Признаки**: пол, возраст и зарплата застрахованного, количество членов его семьи.

**Целевой признак**: количество страховых выплат клиенту за последние 5 лет.

## 1. Загрузите и изучите данные.

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

try:
    data = pd.read_csv('insurance.csv')
except:
    data = pd.read_csv('/datasets/insurance.csv')

data

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


In [2]:
display(data.info())
data.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Мы видим, что данные изначально полностью готовы к дальнейшему исследованию 

## 2. Ответьте на вопрос и обоснуйте решение.
**Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)**

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Качество линейной регрессии не поменяется

**Обоснование:** 
В преобразованной задаче допустим, что новые предсказания следующие: 

$$
a_1 = X_1w_1, 
$$

где $X_1 = X*P$, которая получится той же размерности, что и матрица $X$

Задача обучения теперь следующая:

$$
w_1 = \arg\min_w MSE(X_1w_1, y)
$$

Формула обучения теперь:

$$
w = (X_1^T X_1)^{-1} X_1^T y
$$

При подстановке $w$ и $w_1$ в $а$ и $а_1$, соответственно, мы получим, что $a1=a=y$. Далее считаем $R^2$ и получаем равные значения

## 3. Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.

1. Умножим справа матрицу признаков с размерностью (m х n+1) на рандомную обратимую матрицу с размерностью (n+1 x n+1):
$X_1 = X * P$. $X_1$ получится с размерностью такой же, как и у исходной матрицы $X$ (m х n+1)
2. Докажем, что $a_1 = a$:
$$
a_1 = a => X_1(X_1^T X_1)^{-1} X_1^T y = X (X^T X)^{-1} X^T y => (X_1^T X_1)^{-1} (X_1^T X_1)y = (X^T X)^{-1} (X^T X)y => Ey = Ey => y= y
$$

$$
ЧТД
$$

## 4. Запрограммируйте этот алгоритм, применив матричные операции. 
## Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.
Итак, **для начала** мы обучим модель и посчитаем качество модели с помощью MSE и R^2. 

**Далее**, проведем шифрование персональных данных(features) путем умножения на обратимую (должна быть квадратная и невырожденная) матрицу. 

**Наконец**, нужно вновь посмотреть на качество модели и сделать выводы.

Выделим features и target:

In [3]:
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

Обучим модель до шифрования и оценим ее качество:

In [4]:
model = LinearRegression()
model.fit(features,target)
predictions = model.predict(features)
print(r2_score(target,predictions))

0.4249455028666801


Для того чтобы найти обратимую матрицу, удовлетворяющую условиям, напишем следующую функцию

In [5]:
def get_invertible_random_matrix(n):
    random_matrix = np.random.normal(size=(n, n))
    np.linalg.det(random_matrix) != 0
    return random_matrix

In [6]:
p = get_invertible_random_matrix(features.shape[1])
p

array([[-1.76387473,  2.58445931,  1.09549861, -0.35966903],
       [ 1.95206739, -0.33469851, -0.41727028, -1.1451354 ],
       [ 1.45798748, -0.57697084,  0.5689765 , -0.51014572],
       [-0.40828845,  0.78164482,  0.52749393,  0.8989817 ]])

Проверим полученную матрицу с помощью умножения обратной ей матрицы, а также посмотрим на определитель матрицы

In [7]:
pp = np.linalg.inv(p)
pp

array([[-0.11740548,  0.51951766,  0.02429458,  0.62858311],
       [ 0.1798293 ,  0.63262907, -0.45612418,  0.61896163],
       [ 0.19343805, -0.63650149,  1.04726651, -0.13909982],
       [-0.32318271,  0.05936994, -0.20687899,  0.94129766]])

In [8]:
print(np.linalg.det(p))
print(np.linalg.det(pp))

-4.654768488406792
-0.21483345573267706


In [9]:
p.dot(pp).round()

array([[ 1., -0., -0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [-0.,  0.,  1., -0.],
       [ 0., -0.,  0.,  1.]])

Теперь умножим матрицу признаков на обратимую матрицу (р) => заново переобучим модель => рассчитаем R^2

In [10]:
features1 = features.dot(p)

model1 = LinearRegression()
model1.fit(features1, target)
predictions1 = model1.predict(features1)
print(r2_score(target, predictions1))

0.42494550286667776


Отлично, как и полагалось, качество модели не изменилось!