# Защита персональных данных клиентов

# Введение

### Описание проекта 
Проект нацелен на защиту данных клиентов страховой компании «Хоть потоп».
### Цель проекта
Разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.
### Описание данных
**Нам предоставили данные клиентов страховой компании «Хоть потоп».**   


В таблице данных представлены следующие параметры:  

**Признаки:**
- Пол — пол клиента;
- Возраст — возраст клиента;
- Зарплата — размер зарплаты клиента;
- Члены семьи — количество членов семьи клиента.

**Целевой признак:**
- Страховые выплаты — количество страховых выплат клиенту за последние 5 лет.

### Инструкция по выполнению 


1. Загрузить и изучить данные.
2. Ответить на вопрос и обосновать решение.   
Признаки умножаются на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
 - a. Изменится. Приведите примеры матриц.
 - b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.
3. Предложить алгоритм преобразования данных для решения задачи. Обосновать, почему качество линейной регрессии не поменяется.
4. Запрограммировать этот алгоритм, применив матричные операции. Проверить, что качество линейной регрессии из sklearn не отличается до и после преобразования. Применить метрику R2.

### План работы
1. [Загрузка и подготовка данных](#section_1)
2. [Умножение матриц](#section_2)  
3. [Алгоритм преобразования](#section_3)  
4. [Проверка алгоритма](#section_4)
5. [Общий вывод](#section_5)

<a id='section_1'></a>
## Загрузка данных

Загрузим необходимые библиотеки.

In [1]:
# анализ данных
import pandas as pd
import numpy as np

# модель машинного обучения
from sklearn.linear_model import LinearRegression

# вспомогательные средства 
from sklearn.metrics import r2_score

Загрузим файл с данными.

In [2]:
try:
    data = pd.read_csv(r'D:\projects_data\insurance.csv')
except:
    data = pd.read_csv('/datasets/insurance.csv')

Посмотрим на общую информацию о данных.

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
data.sample(10)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
196,0,18.0,39800.0,4,0
3530,1,24.0,45600.0,3,0
2880,1,27.0,37900.0,0,0
1296,0,20.0,32800.0,3,0
1553,0,33.0,18400.0,0,0
3008,0,44.0,35800.0,1,1
368,0,40.0,29700.0,0,0
4803,0,38.0,53000.0,3,0
1230,1,32.0,46500.0,0,0
2484,1,31.0,38700.0,4,0


In [5]:
data.isna().mean()

Пол                  0.0
Возраст              0.0
Зарплата             0.0
Члены семьи          0.0
Страховые выплаты    0.0
dtype: float64

<a id='section_2'></a>
## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** качество линейной регрессии не изменится.

**Обоснование:** 


Формула предсказания в матричном виде:

$$
a = Xw= X(X^T X)^{-1} X^T y 
$$

Необходимые формулы:
$$
(AB)^{-1} = B^{-1}A^{-1}\tag 1
$$

$$
(AB)^{T} = B^{T}A^{T}\tag 2
$$

$$
A^{-1}A = AA^{-1} = E\tag 3
$$

$$
AE = EA = A\tag 4
$$

Запишем новые предсказания в матричном виде домножив матрицу $X_{mxn}$ на квадратную матрицу $P_{nxn}$ :

$$
a' = XP((XP)^T XP)^{-1} (XP)^T y 
$$

Используя свойства упростим формулу:
+ Свойство №2
$$
a' = XP (P^T X^T XP)^{-1} P^T X^T y 
$$
+ Свойство №1
$$
a' = XP P^{-1} (X^TX)^{-1} (P^T)^{-1} P^T X^T  y 
$$
+ Свойство №3
$$
a' = X E (X^TX)^{-1} E X^T y 
$$
+ Свойство №4
$$
a' = X (X^TX)^{-1} X^T y = Xw
$$

$$
a' = a
$$

<a id='section_3'></a>
## Алгоритм преобразования

**Алгоритм**

1. Подготовка признаков для обучения и целевого признака.
2. Создание обратомой квадратной матрицы размерности n со случайными значеними.
3. Умножение матрицы признаков на матрицу со случайными значениями.
4. Обучение моделей на исходных и преобразованных признаках.
5. Сравнение качества моделей с помощью метрики R2.

**Обоснование**

Исходя из пункта №2 шифрование не изменит качества линейной регрессии, следовательно, такой алгоритм можно использовать для кодировки данных.

<a id='section_4'></a>
## Проверка алгоритма

Разделим датасет на признаки объектов и целевые признаки.

In [6]:
X = data.drop('Страховые выплаты', axis = 1)
y = data['Страховые выплаты']

Создадим функцию преобразования признаков путём домножения на невырожденную квадратную матрицу размером с количество объектов. Для создадим специальную матрицу, на которую будет производиться домножение. Она же будет являться уникальным ключом для восстановления преобразованных данных.

In [7]:
def transform(X):
    matrix_size = X.shape[1]
    np.random.seed(12345)
    Z = np.random.normal(size=(matrix_size, matrix_size))
    try:
        inv = np.linalg.inv(Z)
    except np.linalg.LinAlgError:
        pass
    else:    
        return X.dot(Z)

Преобразуем признаки.

In [8]:
X_transformed = transform(X)

In [9]:
# проверка размеров
X.shape, X_transformed.shape

((5000, 4), (5000, 4))

Модель, обученная на исходных данных.

In [10]:
model = LinearRegression()
model.fit(X, y)
predicted_1 = model.predict(X)
r2_score_1 = r2_score(y, predicted_1).round(10)

Модель, обученная на преобразованных данных.

In [11]:
model = LinearRegression()
model.fit(X_transformed, y)
predicted_2 = model.predict(X_transformed)
r2_score_2 = r2_score(y, predicted_2).round(10)

In [12]:
if r2_score_1 == r2_score_2:
    print('R2 обеих моделей равна:', r2_score_1)
else:
    print('R2 моделей отличаются:', r2_score_1, r2_score_2)

R2 обеих моделей равна: 0.4249455029


Метрики обеих моделей совпадают, что подтверждает изначальную гипотезу.

<a id='section_5'></a>
## Общий вывод

В ходе исследования был предложен метод кодировки данных с помощью операций линейной алгебры. 

**После проделанного исследования можно сделать следующие выводы:**
1. Умножение матрицы MxN на квадратную матрицу размером NxN не приводит к изменению качества линейной регрессии.
2. Алгоритм преобразования данных с использованием матрицы в качестве ключа целесообразно применять для шифровки данных.