Необходимо защитить данные клиентов страховой компании. Задача разработать метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.  

Важно: 
- обосновать корректность его работы;
- после преобразования качество моделей машинного обучения не ухудшилось. 


Подбирать наилучшую модель не требуется.

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

from numpy.linalg import inv

from sklearn.model_selection import train_test_split

## 1. Загрузка данных

In [3]:
data = pd.read_csv('datasets/insurance.csv')
data

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


Разделим данные на:   
- признаки (пол, возраст, зарплата застрахованного, количество членов семьи);
- целевой признак (количество страховых выплат клиенту за последние 5 лет).

In [13]:
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

#### Вопрос: Изменится ли качество линейной регрессии при умножении признаков на обратимую матрицу?  
#### Ответ:  
При умножении признаков на обратимую матрицу качество линейной регресии ~практически~ не изменится, т.к. полученная матрица с изменёнными значениями оригинальных признаков будет состоять из скалярных произведений строк первой матрицы (оригинальных признаков) на столбцы второй (обратимой матрицы). Другими словами, обратимая матрица будет являться своего рода коэффициентом, преобразующим наши исходные признаки. А так как график линейной регрессии задается уравнением
$$
y = wX + w_0
$$,  
где $w_0$ - это величина сдвига, то в нашем случае, при использовании преобразованных признаков, прямая либо поднимется, либо опустится относительно исходных данных и целевого (неизменяемого) признака. При обучении модели, на новых (преобразованных) признаках, классификатор будет расчитывать новые расстояния до целевого признака. Соответственно, качество модели не изменится.

Цель линейной регрессии — поиск линии, которая наилучшим образом соответствует признакам, другими словами, решение линейной регрессии определить значения для $w$ и $w_0$.

Матрица $M$ (*сгенерированная*), на которую мы умножаем нашу матрицу признаков (обозначим её $X$), выступает в роли своего рода коэффициента в уравнении регрессии. Соответственно, он (коэффициент $M$) повлияет и на параметры новой модели, новый весовой вектор $ω′$, который будет решать новую задачу регрессии для матрицы $MX$, будет отличаться от исходного вектора $ω$ на величину обратную коэффициенту $M$, т.е. $$w'= w\frac{1}{M}$$

Таким образом, новая модель будет иметь вид: $$
y = wM^{-1}MX + w_0
$$   
и, соответственно, будет обладать таким же качеством, как и исходная модель. 

#### Перед нами стоит задача защитить данные клиентов страховой компании, чтобы по новым (преобразованным) данным было сложно восстановить исходную персональную информацию. 

Предлагаем преобразовать исходные данные умножив на согласованную матрицу. Данную матрицу сгенерим при помощи функции `np.random.randn()`. Чтобы эта матрица согласовывалась с исходными признаками (в которых 4 столбца) необходимо, чтобы в ней было 4 строки. 


### Генерация обратимой матрицы


Выполним следующие действия:  
- создадим обратимую матрицу;
- преобразуем в обратную;
- проверим формулу $ AA^{-1} = E$

In [14]:
np.random.seed(1234) # генерируем одинаковую последовательность
matrix = np.random.randn(4, 4) 
matrix_1 = inv(matrix) # обратная матрица
print(matrix, '\n')
print(matrix_1)
E = matrix @ matrix_1 # при произведении матриц должна получиться единичная
np.around(E)

[[ 4.71435164e-01 -1.19097569e+00  1.43270697e+00 -3.12651896e-01]
 [-7.20588733e-01  8.87162940e-01  8.59588414e-01 -6.36523504e-01]
 [ 1.56963721e-02 -2.24268495e+00  1.15003572e+00  9.91946022e-01]
 [ 9.53324128e-01 -2.02125482e+00 -3.34077366e-01  2.11836468e-03]] 

[[ 1.26041766 -1.57539745 -0.61203537 -0.75505498]
 [ 0.47492638 -0.6923832  -0.29299538 -0.75338654]
 [ 0.72465835 -0.31392082  0.02823802 -0.59610415]
 [ 0.21366412 -1.1765249   0.32263417 -1.00027213]]


array([[ 1.,  0.,  0.,  0.],
       [-0.,  1., -0., -0.],
       [-0.,  0.,  1.,  0.],
       [ 0., -0.,  0.,  1.]])

Наглядно видно, что произведение матриц равно единичной матрице. Соответственно, сгенерированная матрица обратимая. 


---

Для автоматизации процесса подготовки данных для обучения и проверки модели, напишем 2 функции:    

- для деления данных на обучающую и валидационную выборки в соотношении 75:25;  
- для обучения, предсказывания и определения качества модели (метрика R2).

In [15]:
def splitting(features):
    
    X_train, X_valid, y_train, y_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)

    return X_train, X_valid, y_train, y_valid

In [16]:
def lr_test(X_train, X_valid, y_train, y_valid):
    model = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_valid)

    r2 = r2_score(y_valid, y_pred)
      
    return print('R2 =', r2)

### Исходные данные

Подготовим данные, обучим модель и определим метрику качества модели на исходных данных.

In [17]:
X_train0, X_valid0, y_train0, y_valid0 = splitting(features)
lr_test(X_train0, X_valid0, y_train0, y_valid0)

R2 = 0.435227571270266


## 2. Умножение матриц

### Преобразование исходных данных

Умножаем исходные признаки на подготовленную матрицу и посмотрим, как после преобразования выглядят персональные данные.

In [18]:
features_mod = features @ matrix
features_mod

Unnamed: 0,0,1,2,3
0,750.420678,-111204.012278,57078.113701,49174.114711
1,564.268383,-85183.240019,43740.564529,37664.670886
2,308.726741,-47070.656313,24175.678283,20812.407288
3,641.313002,-93505.374677,47973.872923,41350.786375
4,389.970263,-58510.427718,30041.433598,25871.655873
...,...,...,...,...
4995,542.090648,-80043.054812,41079.675693,35394.654576
4996,798.943206,-117488.549314,60290.763904,51956.331890
4997,519.601888,-76013.319198,39002.734682,33614.243924
4998,500.749824,-73323.535157,37625.509618,32422.325117


Как видим, персональная информация "зашифровалась". Определить пол, возраст, зарплату и количество членов семьи по полученным данным невозможно (что и требовалось).


## 3. Проверка алгоритма


Проверим, изменилось ли качество модели. Обучим и спрогнозируем модель на преобразованных признаках.

In [19]:
X_train_mod, X_valid_mod, y_train_mod, y_valid_mod = splitting(features_mod)
lr_test(X_train_mod, X_valid_mod, y_train_mod, y_valid_mod)

R2 = 0.43522757127027234


Качество модели не изменилось (т.е. модель не хуже прогнозирует целевой признак), а изменённые данные не раскрывают персональную информацию клиентов страховой компании.  

Кстати, в случае, если надо будет расшифровать преобразованные данные и получить исходные, можно зашифрованные умножить на обратную сгенерированную матрицу. Таким образом, сгенерированная матрица является ключём шифрования.  

Убедимся, что наш ключ (в данном случае это обратная изначально сгенерированной матрице) работает и восстановим исходные данные.

In [20]:
features_decrypted = features_mod @ matrix_1
features_decrypted.columns = ['Пол', 'Возраст', 'Зарплата', 'Члены семьи']
np.around(features_decrypted)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1.0,41.0,49600.0,1.0
1,-0.0,46.0,38000.0,1.0
2,-0.0,29.0,21000.0,0.0
3,-0.0,21.0,41700.0,2.0
4,1.0,28.0,26100.0,0.0
...,...,...,...,...
4995,-0.0,28.0,35700.0,2.0
4996,-0.0,34.0,52400.0,1.0
4997,-0.0,20.0,33900.0,2.0
4998,1.0,22.0,32700.0,3.0
