# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

In [2]:
df = pd.read_csv('/Users/admin/Desktop/Rudra PRACTICUM/Projects/my_project/Datasets/insurance.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
df[['Возраст', 'Зарплата']] = df[['Возраст', 'Зарплата']].astype('int')
df

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41,49600,1,0
1,0,46,38000,1,1
2,0,29,21000,0,0
3,0,21,41700,2,0
4,1,28,26100,0,0
...,...,...,...,...,...
4995,0,28,35700,2,0
4996,0,34,52400,1,0
4997,0,20,33900,2,0
4998,1,22,32700,3,0


In [5]:
df.shape

(5000, 5)

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** 
b

**Обоснование:** 
$$
a = Xw = XPw' = a';
$$
$$
a = Xw = XP * ((XP)^T * XP)^{-1} * (XP)^T * y = a';
$$
$$
a = Xw = XP * (P^T * X^T * XP)^{-1} * P^T * X^T * y = a';
$$
$$
a = Xw = XP * (P^T * (X^TX)P)^{-1} * P^T * X^T * y = a';
$$
$$
a = Xw = XP * P^{-1} * (P^T(X^TX))^{-1} * P^T * X^T * y = a';
$$
$$
a = Xw = XP * P^{-1} * (X^TX)^{-1} * P^{-T} * P^T * X^T * y = a';
$$
$$
P^{-T} * P^T - сокращаем, уравнение (X^TX)^{-1} * X^T * y = w
$$
$$
a = Xw = XP * P^{-1} * w = a'; 
$$
$$
P * P^{-1} - сокращаем
$$
$$
a = Xw = Xw = a'
$$
$$
a = a'
$$

## Проверка алгоритма

**Алгоритм**

использую простое умножение признаков на обратимую матрицу

**Обоснование**

Обоснование смотрите в предыдущем пункте

## Проверка алгоритма

In [6]:
features = df.drop('Страховые выплаты', axis=1)
target = df['Страховые выплаты']
invertible_matrix = np.array(
    np.random.normal(size=(features.shape[1], features.shape[1])), np.random.seed(42)
)
new_features = np.dot(features, invertible_matrix)

In [15]:
invertible_matrix.shape

(4, 4)

In [7]:
model = LinearRegression()
model.fit(features, target)
predicted  = model.predict(features)
R2_norm = r2_score(target, predicted)

In [8]:
model = LinearRegression()
model.fit(new_features, target)
predicted  = model.predict(new_features)
R2_encoded = r2_score(target, predicted)

In [18]:
if (R2_norm / R2_encoded) <= 1:
    print(f'Качество линейной регрессии из sklearn не отличается до и после преобразования.\
          \nОтношение равно {R2_norm / R2_encoded}')
else:
    print('Качество линейной регрессии из sklearn отличается до и после преобразования.')

Качество линейной регрессии из sklearn не отличается до и после преобразования.          
Отношение равно 1.0


# Вывод

Кодирование с использованием умножения матрицы признаков на обратимую матрицу корректен так как качество моделей машинного обучения не ухудшилось.