<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Делим-на-train-test" data-toc-modified-id="Делим-на-train-test-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Делим на train-test</a></span></li><li><span><a href="#Модель-на-исходный-данных" data-toc-modified-id="Модель-на-исходный-данных-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Модель на исходный данных</a></span></li><li><span><a href="#Модель-на-преобразованных-данных" data-toc-modified-id="Модель-на-преобразованных-данных-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Модель на преобразованных данных</a></span></li></ul></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

Нужно защитить данные клиентов страховой компании «Хоть потоп». Разрабатываем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. 

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

In [1]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

## Загрузка данных

In [2]:
insurance_df = pd.read_csv('/datasets/insurance.csv')

In [3]:
insurance_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
insurance_df.head(3)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0


In [5]:
insurance_df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Вопрос:** Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)

**Ответ:** Не изменится

<span style="color: white">. </span>

**Обоснование:** 

- $M = XP$ — новая матрица признаков, полученная путем умножения X на P
- $a_n$ — новые предсказания

<span style="color: white">. </span>

Для преобразований нам понадобятся несколько свойств матриц:
- $(AB)^{-1} = B^{-1} A^{-1}$
- $(AB)^T = B^T A^T$
- $A^T (A^T)^{-1} = E$

<span style="color: white">. </span>

Преобразования:

$a = Xw; M=XP$
    
$
a_n =
$

$
= M (M^T M)^{-1} M^T y = ~~
$

$
= XP ((XP)^T (XP))^{-1} (XP)^T y = 
$

$
= XP (P^T X^T XP)^{-1} P^T X^T y = 
$

$
= XP (X^T XP)^{-1} (P^T)^{-1} P^T X^T y = 
$

$
= XP P^{-1} (X^T X)^{-1} E X^T y = 
$

$
= X (X^T X)^{-1} X^T y = 
$

$
= Xw = a
$

    




<span style="color: white">. </span>

Видим, что $a_n = a$. Предсказания не изменились

$
= Xw = a
$


$a' = XP(P^T X^T XP)^{-1}  P^T X^T y $, Пусть $A = P^T$, $B = X^T X$, $C = P$. Тогда мы получим: $a' = X P P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y$

## Алгоритм преобразования

**Алгоритм**
- генерация случайной матрицы
- проверка сгенерированной матрицы на обратимость
- получение новой матрицы признаков путем умножения исходной матрицы признаков на сгенерированную
- обучение и тестирование модели на новой матрице признаков

**Обоснование**

Умножение исходной матрицы признаков на случайную обратимую матрицу позволит защитить данные страховой компании

## Проверка алгоритма

### Делим на train-test

In [6]:
features = insurance_df.drop(['Страховые выплаты'], axis=1)
target   = insurance_df['Страховые выплаты']

In [7]:
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=123)

### Модель на исходный данных

In [8]:
model = LinearRegression()
model.fit(features_train, target_train)
predict_orig = model.predict(features_test)
score_orig = r2_score(target_test, predict_orig)
print(score_orig)

0.43018469990933306


### Модель на преобразованных данных

In [9]:
features_train.shape

(3750, 4)

<div style="border:solid gray 2.0px; padding: 10px"> 
    
Сгенерируем случайную матрицу и проверим ее на обратимость

<div>

In [10]:
P = [[np.random.normal() for i in range(4)]    for j in range(4)]
P = np.array(P)
print(P)

[[ 0.79058454  0.982222    0.48370816  0.16115818]
 [-1.63305592 -1.64286113 -1.46535984 -0.03019158]
 [ 1.55557552  0.77150317  0.39576258 -0.35660662]
 [ 0.27616132  1.25590901 -1.69365889 -0.05922331]]


In [11]:
np.linalg.inv(P)

array([[ 3.03500859,  1.99636364,  1.29520426, -0.55780966],
       [-2.02405152, -1.7060546 , -0.88506262,  0.69120116],
       [-1.26669588, -1.07337672, -0.45982138, -0.13096385],
       [ 7.45446636,  3.82624843,  0.42057359, -1.08321534]])

<div style="border:solid gray 2.0px; padding: 10px"> 
    
Преобразуем данные и проверим качество модели

<div>

In [12]:
features_train_rec = np.dot(features_train, P)
features_test_rec = np.dot(features_test, P)

In [13]:
model = LinearRegression()
model.fit(features_train_rec, target_train)
predict_rec = model.predict(features_test_rec)
score_rec = r2_score(target_test, predict_rec)
print(score_rec)

0.4301846999101382


In [14]:
print(max(predict_orig - predict_rec),min(predict_orig - predict_rec))

1.5373924355799318e-11 3.1941116418465754e-12


<div style="border:solid gray 2.0px; padding: 10px"> 
   
Видим, что до и после преобразований:
- качество модели идентичное
- пресказания совпадают

<div>

## Вывод

<div style="border:solid gray 2.0px; padding: 10px"> 
    
**Вывод:**

Мы выяснили, что умножение признаков на обратимую матрицу не влияет на качетво модели линейной регрессии.
    
Таким образом, умножив матрицу признаков на случайную обратимую матрицу, мы защитим данные клиентов, не потеряв в качетве модели.
    
    
    
<div>