<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Предобработка" data-toc-modified-id="Предобработка-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Предобработка</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler 
from sklearn.metrics import r2_score

In [None]:
data = pd.read_csv('/datasets/insurance.csv')

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [None]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


### Предобработка

In [None]:
features = data.drop(['Страховые выплаты'], axis=1)
target = data['Страховые выплаты']

In [None]:
features['Зарплата'].describe()

count     5000.000000
mean     39916.360000
std       9900.083569
min       5300.000000
25%      33300.000000
50%      40200.000000
75%      46600.000000
max      79000.000000
Name: Зарплата, dtype: float64

In [None]:
target.unique()

array([0, 1, 2, 3, 5, 4])

Разделим на выборки

In [None]:
features_train, features_valid, target_train, target_valid = train_test_split(features,target, test_size=0.25, random_state=12345)

Применим скалирование для зарплаты.

In [None]:
pd.options.mode.chained_assignment = None
numeric = ['Зарплата']
scaler = StandardScaler()
scaler.fit(features_train[numeric])
features_train[numeric] = scaler.transform(features_train[numeric])
features_valid[numeric] = scaler.transform(features_valid[numeric]) 

In [None]:
def lineReg(features_train,target_train):
    model = LinearRegression()
    model.fit(features_train,target_train)
    r2 = model.score(features_train, target_train)
    return r2

In [None]:
lineReg(features_train,target_train)

0.4213920242579371

Создадим рандомную матрицу.

In [None]:
inv_matrix = np.random.rand(4,4)

In [None]:
inv_matrix

array([[0.98900511, 0.65389309, 0.11890318, 0.86893309],
       [0.45733328, 0.60237123, 0.60763633, 0.39967452],
       [0.43443924, 0.16631156, 0.72004593, 0.74670465],
       [0.012316  , 0.05402612, 0.09188834, 0.88265106]])

Проверим на обратимость

In [None]:
np.linalg.inv(inv_matrix)

array([[ 1.16343938, -1.46869416,  1.2427494 , -1.53165635],
       [-0.19264769,  2.36352415, -2.07429646,  0.87423493],
       [-0.73186929,  0.52575738,  1.12597139, -0.47012288],
       [ 0.07174901, -0.17890941, -0.00759434,  1.14975352]])

Умножим наши признаки на случайную матрицу.

In [None]:
lineReg(features_train@inv_matrix,target_train)

0.4213920242579372

Качество не изменилось.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

- $y$ - предсказания по исходной матрице признаков

- $y_1$ - предсказания по матрице полученной домноженной на обратимую матрицу

- $w_1$ - вектор весов линейной регрессии матрицы полученной домножение исходной на обратимую матрицу(нулевой элемент равен сдвигу)



Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** b

**Обоснование:** Качество модели не должно измениться. Так как обратная матрица это та же матрица только инвертированая.

<br>$w_1 = (P^T X^T XP)^{-1} P^TX^T y$
<br>$w_1 = (X^T XP)^{-1} (P^T)^{-1} P^TX^T y$.
<br>$w_1 = (P)^{-1}(X^T X)^{-1}(P^T)^{-1} P^TX^T y$.
<br>$w_1 = (P)^{-1}(X^T X)^{-1}X^T y$. -  тут мы это сокращаем получается $(P^T)^{-1} P^T$ -
<br>$w_1 = P^{-1}(X^T X)^{-1}X^T y$ - у нас остается $(P)^{-1}$ можно убрать скобки. Это формула обучения.
<br> Подставляя формулу обучения в формулу предсказаний:
$$a_1 = XPP^{-1}(X^T X)^{-1}X^T y$$
$$XPP^{-1} = X$$
$$y_1 = X(X^TX)^{-1}X^T y$$

## Алгоритм преобразования

**Алгоритм**

...

**Обоснование**
C матрицей признаков можно проделать различные математические операции несколько раз а потом умножить на обратную рандомную матрицу.

## Проверка алгоритма

In [None]:
new_feature = ((features_train * 5000 - 100 * 10 - 400) * 10) @ inv_matrix

In [None]:
new_feature.head()

Unnamed: 0,0,1,2,3
3369,998612.605442,1306676.0,1281801.0,892185.27981
1441,839285.267696,1050934.0,1081815.0,749133.767574
571,708410.979869,946804.9,959525.6,647449.388633
225,808679.211984,1070649.0,1095641.0,742512.249904
2558,752797.188806,987627.1,1029148.0,747494.567219


In [None]:
features.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


In [None]:
lineReg(new_feature,target_train)

0.4213920242579372

In [None]:
back = features_train @ inv_matrix
back

Unnamed: 0,0,1,2,3
3369,20.502318,26.546972,26.066785,18.655135
1441,17.315772,21.432132,22.067071,15.794105
571,14.698286,19.349546,19.621284,13.760418
225,16.703650,21.826419,22.343587,15.661675
2558,15.586010,20.165990,21.013733,15.761321
...,...,...,...,...
3497,18.863232,25.167609,24.949306,16.193754
3492,12.096156,16.792154,16.124321,13.417901
2177,19.961719,25.485430,25.471496,18.498724
3557,10.557972,13.639536,14.477040,13.092384


Данные изменились а вот метрика нет.

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные загружены
- [x]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [x]  Указан правильный вариант ответа
    - [x]  Вариант обоснован
- [x]  Выполнен шаг 3: предложен алгоритм преобразования
    - [x]  Алгоритм описан
    - [x]  Алгоритм обоснован
- [x]  Выполнен шаг 4: алгоритм проверен
    - [x]  Алгоритм реализован
    - [x]  Проведено сравнение качества моделей до и после преобразования