# Защита персональных данных клиентов

- Нужно защитить данные клиентов страховой компании. Необходимо разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Нужно обосновать корректность его работы.

- Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from numpy import linalg as LA
from sklearn.linear_model import LinearRegression

In [2]:
try:
    data=pd.read_csv('C:/Users/kaz-106/YandexDisk/Py-projects/02_Practicum projects/08_Linear_algebra/insurance.csv')
except:
    data=pd.read_csv('/datasets/insurance.csv')
    
print(data.dtypes)
print(data.info())
display(data.head())
    

Пол                    int64
Возраст              float64
Зарплата             float64
Члены семьи            int64
Страховые выплаты      int64
dtype: object
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB
None


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


## Загрузка данных

1. Данные не содержат пропусков

In [3]:
print((data['Страховые выплаты'].sum())/(len(data['Страховые выплаты'])))

0.148


In [4]:
display(data.corr()) 


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
Пол,1.0,0.002074,0.01491,-0.008991,0.01014
Возраст,0.002074,1.0,-0.019093,-0.006692,0.65103
Зарплата,0.01491,-0.019093,1.0,-0.030296,-0.014963
Члены семьи,-0.008991,-0.006692,-0.030296,1.0,-0.03629
Страховые выплаты,0.01014,0.65103,-0.014963,-0.03629,1.0


## Теоретическое обоснование и умножение матриц

Свойства обратных матриц

- Матрица $А$ является обратной, если существует матрица $A^{-1}$, удовлетворяющая выражению:
$ AA^{1} = A^{-1}A = E $,
где $E$ - единичная матрица.
- Обратная матрица обозначается как $A^{-1}$ 
- $А$ и $A^{-1}$ называются взаимно обратными
- Если матрица $А$ обратима, то для нее существует только **одна** матрица обратная к $А$. 
- Если матрица $А$ обратима , то матрица $A^-1$ также является обратимой  
- Определитель необратимой матрицы $= 0$, определитель обратимой матрицы $\not= 0$  

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

- $w*$ - вектор весов линейной регрессии матрицы полученной домножением исходной матрицы на обратимую (нулевой элемент равен сдвигу)

- $\hat{y}$ - предсказания по исходной матрице признаков

- $\hat{y}*$ - предсказания по матрице полученной домножением на обратимую матрицу

**Что нужно доказать:** При умножении признаков на обратимую матрицу качество модели линейной регрессии не изменится

**Доказательство:**
 
1. Основные свойства обратной матрицы 
   $$ det(A)=1/det(A)$$
2. Основные свойства единичной матрицы 
   $$AE=EA=A $$
   $$AA^{-1}=E$$
3. Сочетательное свойство матриц, ассоциативность: 
   $$A(BC)=(AB)C$$


Рассмотрим исходную матрицу признаков $X$

Предсказания:

$$
\hat{y} = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Формула предсказания:

$$
\hat{y} = X(X^TX)^{-1} X^Ty
$$

Раскроем скобки:

$$
\hat{y} = X(X)^{-1}(X^T)^{-1} X^Ty
$$

Используем свойство единичной матрицы:

$$
\hat{y} = EEy
$$

Иначе

$$
\hat{y} = y
$$

Рассмотрим новую матрицу признаков $XP$

Предсказания:

$$
\hat{y}* = XPw*
$$

Формула обучения:

$$
w* = ((XP)^T XP)^{-1} (XP)^T y
$$

Раскроем транспонирование матриц:
$$
w* = (P^T X^T XP)^{-1} P^TX^T y
$$

Раскроем скобки для произведения обратных матриц:
$$
w* = (XP)^{-1}(P^T X^T)^{-1} P^TX^T y
$$

Еще раз раскроем скобки:
$$
w* = P^{-1}X^{-1}(X^T)^{-1}(P^T)^{-1}P^TX^T y
$$

Сократим произведение матриц $(P^T)^{-1}P^T$ по свойству единичной матрицы. Получим $E$ или $1$;
$$
w* = P^{-1}X^{-1}(X^T)^{-1}X^T y
$$
или
$$
w* = P^{-1}(X^TX)^{-1}X^T y
$$

Запишем предсказания по новым признакам с учетом полученной формулы для $w*$:

$$
\hat{y}* = XPP^{-1}(X^TX)^{-1}X^T y
$$

Сократим произведение матриц $P(P)^{-1}$ по свойству единичной матрицы. Получаем $E$ или $1$;
$$
\hat{y}* = X(X^TX)^{-1}X^T y
$$

В итоге
$$ 
\hat{y} =\hat{y}* = X(X^TX)^{-1}X^T y 
$$

Соотношение между векторами весов исходной и домноженной матрицы

$$
w* = P^{-1}w
$$


 **Доказательство rev 2**

$$ 
\hat{y} =Xw=\hat{y}*=XPw* 
$$

$$
w* = ((XP)^T XP)^{-1}(XP)^T y = (P^T X^T XP)^{-1}P^TX^Ty = P^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty = P^{-1}(X^TX)^{-1}X^Ty=P^{-1}w
$$

Из преобразований выходит что нужно умножать на $P^{-1}$, значит $P$ должна быть обратимой

## Алгоритм преобразования

**Алгоритм**
1. Запишем признаки и целевой признак
2. Создадим произвольную обратимую нормальную матрицу
    - обратимая матрица должна квадратной
    - обратимая матрица должна иметь размер равный длине вектора признаков, в данном случае 4
3. Обучим модель
4. Получим метрику R2 модели
5. Умножим обратную матрицу на признаки
6. Обучим модель на новых данных
7. Получим метрику R2 на новой модели
8. Сравним метрики

**Обоснование**

1. Для проверки качества модели после умножения на произвольную квадратную нормальную матрицу будем сравнивать качество линейной регрессии для двух матриц (с умножением и без умножения)

## Проверка алгоритма

### Запись признаков

In [5]:
features = data.drop('Страховые выплаты', axis=1).values
target = data['Страховые выплаты'].values

In [6]:
n =len(features[0])
print(n)

4


### Создание произвольной матрицы

In [7]:
random_c = np.random.normal(size=(n,n))
display(random_c)

array([[-1.46454482, -0.02629502,  0.06894974, -0.75895875],
       [ 2.97510428,  0.24959776, -0.52128918,  0.0523694 ],
       [ 0.71129757, -0.69237197, -0.26072352, -0.8312422 ],
       [-1.51603176,  0.56023374,  0.49772997, -0.59434147]])

### Проверка обратимости

In [8]:
random_c=LA.inv(random_c)
display(random_c)

array([[-0.72042864,  0.09207398,  0.38069216,  0.39564813],
       [ 0.99405844,  0.83877447, -1.00719513,  0.21317689],
       [-3.66528875, -1.02131342,  1.63506271,  2.30369968],
       [-0.29482426, -0.29951741, -0.55117536, -0.56157258]])

### Обучение модели

In [9]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
print('R2 исходной модели:',r2_score(target, predictions))

new_matrix = features @ random_c
model.fit(new_matrix, target)
predictions = model.predict(new_matrix)
print('R2 преобразованной модели:',r2_score(target, predictions))

R2 исходной модели: 0.4249455028666801
R2 преобразованной модели: 0.424945502866677


### Вывод

**Выводы**

1. Проведена выгрузка и проверка входных данных, проверка корреляции признаков
2. Выполнено теоретическое обоснование задачи, проверена возможность умножения признаков на обратимую матрицу, доказана независимость метрик линейной регрессии от использования зашифрованных таким образом данных. Доказано соотношение между исходными и преобразоваными векторам коэффициентов
3. Разработан алгоритм преобразования данных и обучения моделей на исходных и зашифрованных данных. Создана произвольная матрица для шифрования данных
4. Проведено обучение моделей и сравнение метрик R2
5. Метрики R2 не отличаются в пределах погрешности, результаты экперимента соотвествуют теоретическому обоснованию