<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

**Описание проекта**

Нужно защитить данные клиентов страховой компании. Разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обосновать корректность его работы.

**Цель работы**

Защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. 

*Примечание:* Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
# импорт библиотек
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
# загрузим данные
data = pd.read_csv('/datasets/insurance.csv')

# изучим файл
print(data.shape)
data.info()

data

(5000, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


In [3]:
# проверим дубликаты
data.duplicated().sum()

153

<div style="border:solid green 2px; padding: 20px">
    
Данные загружены и изучены.
Набор данных находится в файле /datasets/insurance.csv.
    
- Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
- Целевой признак: количество страховых выплат клиенту за последние 5 лет.  
    
Пропусков в данных не обнаружено.
Типы данных соответствуют признакам, которые они описывают. Не будем с ними ничего делать.
Присутствуют дубликаты, но мы не будем их удалять, у нас нет такой задачи.    
</div>     

Разделим данные на признаки и целевой признак и преобразуем в векторы NumPy.

In [4]:
X = data.drop('Страховые выплаты', axis=1).values
y = data['Страховые выплаты'].values
X, y

(array([[1.00e+00, 4.10e+01, 4.96e+04, 1.00e+00],
        [0.00e+00, 4.60e+01, 3.80e+04, 1.00e+00],
        [0.00e+00, 2.90e+01, 2.10e+04, 0.00e+00],
        ...,
        [0.00e+00, 2.00e+01, 3.39e+04, 2.00e+00],
        [1.00e+00, 2.20e+01, 3.27e+04, 3.00e+00],
        [1.00e+00, 2.80e+01, 4.06e+04, 1.00e+00]]),
 array([0, 1, 0, ..., 0, 0, 0]))

In [5]:
# проверим размер 
X.shape, y.shape

((5000, 4), (5000,))

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** качество линейной регрессии не изменится.

**Обоснование:** Вместо Х подставим XP

$$
a_1 = XPw_1
$$

$$
w_1 = ((XP)^T XP)^{-1} XP^T y
$$

подставим $w_1$ в $a_1$ и преобразуем:

$$
a_1 = XP((XP)^T XP)^{-1} XP^T y = XP(P^T X^T XP)^{-1} P^T X^T y = XP(X^T XP)^{-1} (P^T)^{-1} P^T X^T y = XPP^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y = XE(X^T X)^{-1} EX^T y = X(X^TX)^{-1} X^T y = Xw
$$

**Пояснение:**

- Раскрываем транспонирование по свойству: $(AB)^T = B^T A^T$
- $X^T X$ - квадратная обратимая матрица, $P$ - обратимая по определению, далее раскрываем скобки по свойству $(AB)^{-1} = B^{-1} A^{-1}$ 2 раза
- Используя ассоциативность умножения матриц и определение обратной матрицы получим ответ.

получаем: $a_1 = a$


## Алгоритм преобразования

**Алгоритм**

см. пункт 2

**Обоснование**

Чтобы зашифровать данные нужно выбрать ключ. Создадим рандомную матрицу размером 4x4.

In [6]:
# создаём рандомную матрицу
P = np.random.rand(4, 4)
P

array([[0.04091899, 0.91938707, 0.28632614, 0.6756833 ],
       [0.68137518, 0.43547856, 0.44897152, 0.18494155],
       [0.31374209, 0.4174525 , 0.70287982, 0.68383666],
       [0.42815772, 0.44375688, 0.7440147 , 0.63565332]])

In [7]:
# проверяем ее на обратимость (создаем единичную матрицу)
P_inv = np.linalg.inv(P)
P_inv

array([[ -1.6326885 ,   7.56806958,  26.48722781, -28.96139603],
       [  2.0642347 ,  -3.45134048, -18.90596804,  19.14899362],
       [  1.18996694,  -9.27537321, -38.51998424,  42.87358783],
       [ -1.73415767,   8.16835619,  40.44402227, -42.46974145]])

Чтобы найти обратную матрицу, вызовим функцию numpy.linalg.inv().
Также она поможет проверить матрицу на обратимость: если матрица
необратима, будет обнаружена ошибка. Наша матрица обратима.

В том числе, чтобы расшифровать данные, ключ – матрица должна иметь обратную матрицу. 

Шифруем данные, создаем новую матрицу.

In [8]:
# создаем новую матрицу данных
X_transformed = X @ P
X_transformed.shape

(5000, 4)

In [9]:
X_transformed[:5]

array([[15590.01334676, 20724.86184377, 34882.27738494, 33927.19217543],
       [11953.97100738, 15883.67083103, 26730.82997174, 25994.93596737],
       [ 6608.34386494,  8779.13141161, 14773.49645328, 14365.93312224],
       [13098.21053523, 17417.80187984, 29321.00504282, 28521.14371656],
       [ 8207.78809074, 10908.62307824, 18358.02090427, 17853.99081966]])

## Проверка алгоритма

In [10]:
# найдем метрики качества на исходных данных и на преобразованных
def predict_and_r2_score(x, y):
    lr = LinearRegression()
    lr.fit(x, y)
    r2 = lr.score(x, y)
    return r2

In [11]:
# r2 для исходной матрицы признаков
r2_1 = predict_and_r2_score(X, y)
r2_1

0.42494550286668

In [12]:
# r2 для преобразованной матрицы 
r2_2 = predict_and_r2_score(X_transformed, y)
r2_2

0.4249455028667841

In [13]:
# сравним исходные и преобразованные 
np.isclose(r2_1, r2_2)

True

<div style="border:solid green 2px; padding: 20px">

## Общий вывод
    
Для достижения цели выполнены следующие действия:
    
1. Создали рандомную матрицу для шифрования данных.
2. Проверили её на обратимость (создали единичную матрицу).
3. Создали новую матрицу (зашифровали данные).
4. Нашли метрики качества R2 на исходных и преобразованных данных.
    
После преобразования (шифровании) данных метрика качества R2 осталась без особых изменений. Следовательно, умножение признаков на обратимую матрицу не влияет на качество линейной регрессии, как мы ранее и доказали.
    
В итоге данные защищены, при преобразовании качество моделей машинного обучения не ухудшилось.    
</div> 