<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

# Описание данных

Набор данных содержит: 
1. `Признаки`: пол, возраст и зарплата застрахованного, количество членов его семьи.
2. `Целевой признак`: количество страховых выплат клиенту за последние 5 лет.

## Загрузка данных

In [1]:
# загрузим необходимые библиотеки
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
# откроем файл с данными и выведем на экран 5 строк
data = pd.read_csv("/datasets/insurance.csv")
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [5]:
# проверим данные на наличие дубликатов
print('Количество дубликатов:', data.duplicated().sum())

Количество дубликатов: 153


In [6]:
# удаленим найденые дубликаты в данных

data = data.drop_duplicates().reset_index(drop = True)

In [7]:
# проверим данные на наличие дубликатов
print('Количество дубликатов:', data.duplicated().sum())

Количество дубликатов: 0


**Вывод:**
- таблица содержит 5000 строк без пропусков
- нашли и удалили дубликаты в данных
- данные готовы для работы

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$
$$
a_1 = XPw_1
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$
$$
w_1 = ((XP)^T (XP))^{-1} (XP)^T y
$$

**Задание:**
<br> Ответьте на вопрос и обоснуйте решение.
<br> Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
<br> a. Изменится. Приведите примеры матриц.
<br> b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

**Ответ:** качество линейной регрессии не изменится при умножении признаков на обратимую матрицу

**Обоснование:** 

$$
a = Xw = X(X^T X)^{-1}X^T y
$$

$$
a_1 = XPw_1 = XP((XP)^T (XP))^{-1} (XP)^T y
$$

для решения понадобятся следующие свойства умножения матриц:
$$
(AB)^T = B^TA^T
$$
$$
AA^{-1} = E
$$
$$
AE = EA = A
$$

$$
a_1 = XPw_1 = XP((XP)^T (XP))^{-1} (XP)^T y = XPP^{-1}((XP)^TX)^{-1}(XP)^Ty = XPP^{-1}((XP)^TX)^{-1}(P)^T(X)^T y = XPP^{-1}(P^TX^TX)^{-1}(P)^T(X)^T y = XPP^{-1}(X^TX)^{-1}(P^T)^{-1}(P^T)(X)^T y = XE(X^TX)^{-1}E(X)^T y = X(X^TX)^{-1}(X)^T y = Xw = a
$$

**Вывод:** получили из формулы предсказания $a_1$ формулу предсказания $a$, что говорит о том, что линейная регрессия не изменится при умножении признаков на обратимую матрицу $P$

## Алгоритм преобразования

**Задание:**
Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.

**Алгоритм**
<br> Для решения задачи по защите информации предлагается использовать следующие этапы:

1. Выделить в наборе данных признаки
2. Разделить данные на выборки
3. Составить случайную квадратную матрицу $P$
4. Провести проверку матрицы $P$ на обратимость
5. Рассчитать матрицу преобразованных признаков $R = features*P$
6. Применить предложенный алгоритм на преобразованных признаках $R$
7. Рассчитать качество моделей на признаках без преобразований и приобразованных

**Обоснование**
<br> Матрица $P$ должна иметь необходимую размерность с $(n*n)$, $n$ - количество признаков для регрессии. 
<br> Соответственно, матрица $R$ будет иметь туже размерность, что и матрица признаков.
<br> Исходя из теоретического доказательства выше, предсказания не должны будут различаться. 
<br> Проверим данную теорию на практике ниже:

## Проверка алгоритма

**Задание:**

Запрограммируйте алгоритм, применив матричные операции. 
<br>Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2

In [8]:
# запишем признаки:
features = data.drop('Страховые выплаты',axis=1)
target = data['Страховые выплаты']

In [9]:
# разделим данные на обучающую и тестовую выборки
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=12345)

In [10]:
# создадим матрицу по кол-ву признаков - 4х4
P = np.random.rand(4,4)

In [11]:
# проверим, является ли созданная матрица обратимой
np.linalg.inv(P)

array([[ 2.39830795,  7.72386665, -0.93667607, -6.64436028],
       [ 0.71475219, -0.63511053,  3.61407107, -3.46605069],
       [-1.08451793,  3.88501911, -4.54399415,  3.97467668],
       [-0.54757351, -5.57480944,  0.39303037,  4.62012233]])

In [12]:
# рассчитаем матрицу преобразованных признаков
R = features @ P

In [13]:
# посмотрим как выглядят данные в оригинальном виде и в зашифрованном
display(features.head())
display(R.head())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


Unnamed: 0,0,1,2,3
0,960.908537,41793.781993,23230.073853,12751.384619
1,736.539577,32026.545239,17802.907812,9770.230733
2,407.156705,17700.339018,9839.598136,5399.499225
3,806.738698,35130.868503,19525.229945,10718.581474
4,506.224547,21995.306012,12226.24875,6710.860872


In [14]:
# обучим модель на оригинальных данных
model = LinearRegression()
model.fit(features_train, target_train)
r2_origin = r2_score(target_test, model.predict(features_test))
print("R2 =", r2_origin.round(5))

R2 = 0.42308


In [15]:
# разделим данные на обучающую и тестовую выборки
r_train, r_test, target_r_train, target_r_test = train_test_split(
    R, target, test_size=0.25, random_state=12345)

In [16]:
# обучим модель на преобразованных данных
lr = LinearRegression()
lr.fit(r_train, target_r_train)
r2_new_data = r2_score(target_r_test, lr.predict(r_test))
print("R2 =", r2_new_data.round(5))

R2 = 0.42308


**Вывод:** качество моделей на обычных и преобразованных данных не изменилось

# Вывод

В ходе работы было сделано следующее:

1. Загружены и изучены данные, в них выявлены дубликаты и удалены. Других аномалей не было выявлено
2. Качество линейной регресии никак не меняется от применения исходных признаков и признаков, умноженных на обратимую случайную матрицу
3. Создали алгоритм преобразования - зашифровки персональных данных
4. Проверили работу алгоритма на оригинальных и преобразованных данных, проверили метрику R2 на обоих наборах данных (с преобразованием и без)

На выходе получили модель для работы с зашифрованными данными посредством применения матричных операций.