# Оглавление

# 1. Описание проекта

Необходимо защитить данные клиентов страховой компании. 

Разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию и при этом качество моделей машинного обучения (в данном случае -- модели LinearRegression) не ухудшилось. Обосновать корректность его работы. Подбирать наилучшую модель не требуется.

## Описание данных
Набор данных находится в файле /data/insurance.csv. Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.Целевой признак: количество страховых выплат клиенту за последние 5 лет.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

# 1. Загрузка данных

In [3]:
data = pd.read_csv('data/insurance.csv')
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


В таблице данные о 5000 клиентов. Пропусков нет, типы данных подобраны корректно.

# 2. Алгоритм преобразования

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

**Алгоритм**

1) Выделить столбец с целевым признаком y

2) Выделит столбцы с признаками X

3) составить случайную матрицу P[n,n] (n=4 -- количество признаков), проверить ее обратимость (пересоставлять, пока она окажется необратимой)

4) разделить исходные признаки и целевой признак на тренировочный и тестовый наборы

5) перемножить тренировочный и тестовый наборы признаков на созданную матрицу P, чтобы получить зашифрованные данные

Далее обучим модели на исходных и зашифрованных признаках и проведем сравнение их результатов

**Обоснование корректности**

1. Безопасность и восстанавливаемость. Для того, чтобы восстановить исходные данные X из зашифрованных X', достаточно вычислить произведение X'P^-1. Без знания шифрующей матрицы P, узнать обратную матрицу невозможно.

2. Сохранение качества моделей.
Принцип работы линейной регрессии:

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$



Можно показать, что вектор весов w' линейной регресси, обученной на зашифрованных данных, равен произведению обратной к P матрице на вектор весов w линейной регресси, обученной на исходных данных. И предсказания модели, обученной на зашифрованных данных, совпадут с предсказаниями модели, обученной на исходных данных

$$
a=XEw=XPP^{-1}w=(XP)P^{-1}w=(XP)w'
$$

# 3. Проверка алгоритма

In [4]:
target = data['Страховые выплаты']
features0 = data[['Пол', 'Возраст','Зарплата','Члены семьи']]

P = np.random.normal(size = [4, 4])

Z = np.eye(4) 
eps = 1e-6

while (np.dot(P, np.linalg.inv(P)) - Z).sum() > eps:
    P = np.random.normal(size = [4, 4])

target_train, target_test, features0_train, features0_test = train_test_split(
    target, features0, test_size = 0.25, random_state = 123)
features1_train = np.dot(features0_train, P)
features1_test = np.dot(features0_test, P)

model0 = LinearRegression()
model0.fit(features0_train, target_train)
print('R2 на исходных данных:', r2_score(target_test, model0.predict(features0_test)))

model1 = LinearRegression()
model1.fit(features1_train, target_train)
print('R2 на зашифрованных данных:', r2_score(target_test, model1.predict(features1_test)))

R2 на исходных данных: 0.4301846999093345
R2 на зашифрованных данных: 0.43018469990939734


Как и предполагалось, качество модели не ухудшилось.