<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

Импортируем необходимые библиотеки

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

Откроем наш датасет и посмотрим информацию по нему

In [2]:
INSURANCE = pd.read_csv('/datasets/insurance.csv')
INSURANCE.info()
INSURANCE.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


В нашем датасете 5 столбцов и 5000 строк без пропусков в данных. Переведем столбцы "Возраст" и "Зарплата" в численный формат

In [3]:
INSURANCE['Возраст'] = INSURANCE['Возраст'].astype('int')
INSURANCE['Зарплата'] = INSURANCE['Зарплата'].astype('int')

Проверим датасет на наличие дубликатов

In [4]:
INSURANCE.duplicated().sum()

153

Дубликаты составляют менее 5 процентов, поэтому просто удалим их

In [5]:
INSURANCE = INSURANCE.drop_duplicates()
INSURANCE.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4847 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Пол                4847 non-null   int64
 1   Возраст            4847 non-null   int64
 2   Зарплата           4847 non-null   int64
 3   Члены семьи        4847 non-null   int64
 4   Страховые выплаты  4847 non-null   int64
dtypes: int64(5)
memory usage: 227.2 KB


Теперь наши данные готовы к дальнейшей работе

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Задание:**

Ответьте на вопрос и обоснуйте решение.

Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)

- a. Изменится. Приведите примеры матриц.
- b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

**Ответ:** 
Качество линейной регрессии не меняется!

**Обоснование:** 

Новая матрица признаков X1 появляется при умножении старой матрицы признаков X на обратимую матрицу P:

$$X1 = XP$$

Подставим значение новой матрицы признаков в формулу w1:

$$w1 =  ((XP)^TXP)^{-1} (XP)^Ty$$

Далее раскрываем скобки:

$$w1 = (P^TX^TXP)^{-1}P^TX^Ty$$

$$w1  =  (P^T X^T XP)^{-1}  P^T X^T y$$

$$w1 =   P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y$$

$(P^T)^{-1} P^T$ равно единичной матрице E, так как P обратима, из этого следует:

$$w1 = P^{-1} (X^T X)^{-1} E X^T y = P^{-1} (X^T X)^{-1} X^T y$$

Таким образом так как $w = (X^T X)^{-1} X^T y$ мы получаем формулу для w:

$$w1 = P^{-1} (X^T X)^{-1} X^T y = P^{-1} w$$

Предсказания расчитываются формулой a = Xw. Подставим в данную формулу нашу формулу для w и вычислим a1:

$$a1 = X1w1 = XP P^{-1} w$$

Так как у нас обратимая матрица, то $P P^{-1}$ равна E(то есть единичной матрице, а мы помним что умножение на единичную матрицу возвращает матрицу):

$$a1 = XP P^{-1} w = XEw = Xw$$

А как мы знаем **Xw = a**. Соответственно мы приходим к выводу, что **a1 = a**!

## Алгоритм преобразования

**Алгоритм**
Для решения нашей задачи нам потребуется сделать следующие шаги:

- чтобы защитить данные клиентов страховой компании  «Хоть потоп», мы на основании предоставленных данных должны сформировать матрицу признаков и сгенерировать другую матрицу со схожими парамметрами;
- перемножить сгенерированную матрицу на исходную;
- расчитать качество модели матрицы исходных данных и сгенерированной матрицы.

**Обоснование**

Исходя из вышеизложенного нами в пункте 2 утверждения, предсказания на измененной и изначальной матрице не должно отличаться. Подведя итоги мы расчитаем метрику R2 и убедимся в правильности нашего утверждения...

## Проверка алгоритма

Из предоставленных данных выделим целевой признак и остальные признаки

In [6]:
features = INSURANCE.drop('Страховые выплаты', axis=1)
target = INSURANCE['Страховые выплаты']

На основании исходных данных создадим матрицу

In [7]:
matrix = features.values
matrix

array([[    1,    41, 49600,     1],
       [    0,    46, 38000,     1],
       [    0,    29, 21000,     0],
       ...,
       [    0,    20, 33900,     2],
       [    1,    22, 32700,     3],
       [    1,    28, 40600,     1]])

Сгенерируем матрицу 4х4 методом 

In [8]:
matrix_new = np.random.normal(size=(4,4))
matrix_new

array([[-1.06655954e+00, -4.78848718e-01, -7.95761900e-01,
        -4.70641180e-01],
       [ 1.13092715e+00, -5.45653587e-01, -1.14144081e+00,
         2.11314582e+00],
       [ 1.29012792e+00,  1.55318724e+00, -1.05593610e+00,
        -2.31008995e-02],
       [-1.25023828e-03, -6.77520546e-01, -1.00904382e+00,
         4.80831602e-01]])

Обратим сгенерированную матрицу и заодно проверим ее на обратимость. Хотя методом np.random.normal вероятность формирования необратимой матрицы близка к нулю

In [9]:
matrix_inv = np.linalg.inv(matrix_new)
matrix_inv

array([[-1.73149451, -0.89421539,  0.12971787,  2.24130753],
       [ 1.23860299,  0.78321938,  0.33524756, -2.21361212],
       [-0.31716383,  0.03385831, -0.29234086, -0.47328677],
       [ 1.07518305,  1.17233092, -0.14076748, -2.02676489]])

Перемножим исходную матрицу со сгенерированной и обращенной матрицей 

In [10]:
matrix_result = matrix @ matrix_inv

Теперь на основании новых признаков сформируем таблицу 

In [11]:
features_result = pd.DataFrame(matrix_result, columns=features.columns)
features_result

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,-15681.199664,1711.762085,-14486.372667,-23565.567227
1,-11994.174701,1323.816048,-11093.672145,-18088.750091
2,-6624.520989,733.737787,-6129.435928,-10003.216871
3,-13197.570772,1430.683627,-12183.855292,-19786.597593
4,-8245.026630,904.737713,-7620.579855,-12412.524466
...,...,...,...,...
4842,-11285.917558,1233.016327,-10427.463385,-16962.372272
4843,-16576.197120,1801.977022,-15307.403532,-24877.516199
4844,-10724.931484,1165.805621,-9903.931814,-16092.747194
4845,-10342.513991,1127.020208,-9552.463333,-15529.015754


Итак мы получили совсем новые данные, не раскрывающие данные клиентов страховой компании «Хоть потоп». Далее нам обучить модель для расчета метрики R2. Для начала на исходных данных

In [12]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
print(r2_score(target, predictions))

0.4302010046633359


Далее в качестве вводных используем данные из сгенерированной матрицы

In [13]:
model = LinearRegression()
model.fit(features_result, target)
predictions = model.predict(features_result)
print(r2_score(target, predictions))

0.4302010046633419


**Вывод**

По полученным результатам, мы можем видеть, что метрики качества практически не отличаются