<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

Нам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. 

# Описание данных

* Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
* Целевой признак: количество страховых выплат клиенту за последние 5 лет.

## Загрузка данных

Импортируем необходимые библиотеки.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

Прочитаем и выведем первые пять строк данных.

In [17]:
data = pd.read_csv('/datasets/insurance.csv')

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Напишем функцию для основных характеристик данных.

In [3]:
start = '\033[1m' # start и end для жирности текста
end = '\033[0m'

def info(data_i):
    print(start + 'Посмотрим на первые пять строк данных' + end)
    display(data_i.head())
    print('______________________________________________________________')
    print('')
    print(start + 'Посмотрим на общую информацию' + end)
    display(data_i.info())
    print('______________________________________________________________')
    print('')
    print(start + 'Посмотрим на основные статистические данные' + end)
    display(data_i.describe())
    print('______________________________________________________________')
    print('')
    print(start + 'Посмотрим на пропуски' + end)
    display(data_i.isna().sum())

Применим функцию.

In [4]:
info(data)

[1mПосмотрим на первые пять строк данных[0m


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


______________________________________________________________

[1mПосмотрим на общую информацию[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

______________________________________________________________

[1mПосмотрим на основные статистические данные[0m


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


______________________________________________________________

[1mПосмотрим на пропуски[0m


Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

### Вывод

Итак, в таблице 4 признака (`Пол`, `Возраст`, `Зарплата`, `Члены семьи`) и один целевой признак (`Страховые выплаты`). Аномалий в данных нет, поэтому можно приступать к работе.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Вопрос:** Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?

**Ответ:** не изменится.

**Обоснование:** Запишем новую матрицу признаков $X1$ как произведение "старой" $X$ на обратимую матрицу $P$:
$$X1 = X*P$$

Подставим новое значение $X1$ в формулу $w1$:

$$w1 = ((XP)^T XP)^{-1}(XP)^Ty$$

Раскроем первое произведение $(XP)^T$:

$$w1 = (X^TP^T XP)^{-1}X^TP^Ty$$

Перегруппируем множители в скобках, чтобы это выглядело как произведение трех множителей:

$$w1 = (P^T(XX^T)P)^{-1}X^TP^Ty$$

Раскроем скобки $(P^T(XX^T)P)^{-1}$:

$$w1 = (P^T)^{-1}(XX^T)^{-1}P^{-1}X^TP^Ty$$

Так как $P$ по условию обратимая, то произведение $(P^T)^{-1}P^T$ равно единичной матрице $E$:

$$w1 = (XX^T)^{-1}P^{-1}EX^Ty = (XX^T)^{-1}P^{-1}X^Ty$$

Можно заметить, что справа получилась формула для $w$:

$$w1 = P^{-1}(XX^T)^{-1}X^Ty = P^{-1}w$$

Подставим новое значение $X1$ и $w1$ в формулу для предсказаний линейной регрессии:

$$a1 = X1w1 = XPP^{-1}w$$

Так как $P$ по условию обратимая, то произведение $PP^{-1}$ равно $E$:

$$a1 = XPP^{-1}w = XEw = Xw = a$$

Как видно, значение предсказания $a$ не меняется, если умножать матрицу признаков на обратимую матрицу.

## Алгоритм преобразования

**Алгоритм**

Для защиты информации на этапе поиска коэффициентов регрессии и предсказаний регрессии будем умножать матрицу признаков на обратимую матрицу $Y$, которая будет генерироваться случайным образом.

Этапы алгоритма:
1. Составление матрицы $Y$.
2. Проверка матрицы на обратимость. Вычисление детерминанта матрицы $Y$.
3. Получение матрицы преобразованных признаков $Z = XY$.
4. Применение алгоритма на преобразованных признаках $Z$.

**Обоснование**

Матрица $Y$ должна иметь необходимую размерность $(n*n)$, где n - количество признаков для регрессии.
Таким образом матрица $Z$ будет иметь туже размерность, что и матрица $X$. Обратная матрица $Y$ существует только для квадратных невырожденных матриц (определитель которых не равен нулю).

Пример:

$
X = \begin{pmatrix}
1 & 2 \\
2 & 3 \\
4 & 5  
\end{pmatrix}
\qquad 
Y = \begin{pmatrix}
1 & 0 \\
2 & 3 \\  
\end{pmatrix}
\qquad det  Y = 3 $

Найдем значние Z:

$
Z = \begin{pmatrix}
1 & 2 \\
2 & 3 \\
4 & 5  
\end{pmatrix} \begin{pmatrix}
1 & 0 \\
2 & 3 \\  
\end{pmatrix} = \begin{pmatrix}
1*1+2*2 & 1*0+2*3  \\
2*1+3*2 & 2*0+3*3  \\
4*1+5*2 & 4*0+5*3   
\end{pmatrix} = \begin{pmatrix}
5 & 6 \\
8 & 9 \\
14 & 15  
\end{pmatrix}$

После этого добавляем нулевой столбец и вводим данные в линейную регрессию.

## Проверка алгоритма

Разделим данные на обучающую и тестовую выборки.

In [8]:
features = data.drop('Страховые выплаты',axis=1)
target = data['Страховые выплаты']

features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=12345)

Применим линейную регрессию до преобразования данных.

In [9]:
model = LinearRegression()
model.fit(features_train, target_train) # обучим модель
predict = model.predict(features_test) # предсказываем 
r2_score_data = r2_score(target_test, predict)

print(f"Оценка R2 = {r2_score_data:.4}")

Оценка R2 = 0.4352


Создадим функцию преобразования матрицы признаков.

In [10]:
def data_protect(features):
    protect_features = features
    n = features.shape[1]
    np.random.seed(12345)
    protect_matrix = np.random.randint(1, 10, (n,n)) # создадим рандомную матрицу
    det = np.linalg.det(protect_matrix) # вычислим определитель
    while det == 0:
        np.random.seed(12345)
        protect_matrix = np.random.randint(1, 10, (n,n))
        det = np.linalg.det(protect_matrix)
    protect_features = protect_features @ protect_matrix
    return protect_features, protect_matrix

Выведем данные до преобразования и после.

In [11]:
display(features.head())
features, protect_matrix = data_protect(features)
display(features.head())
protect_matrix

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


Unnamed: 0,0,1,2,3
0,99452.0,396931.0,347287.0,49899.0
1,76279.0,304140.0,266095.0,38329.0
2,42174.0,168087.0,147058.0,21203.0
3,83532.0,333667.0,291948.0,41861.0
4,52371.0,208890.0,182758.0,26301.0


array([[3, 6, 2, 5],
       [6, 3, 2, 7],
       [2, 8, 7, 1],
       [3, 2, 3, 7]])

Разделим данные на обучающую и тестовую выборки после преобразованию.

In [12]:
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=12345)

Применим линейную регрессию после преобразования данных.

In [13]:
model = LinearRegression()
model.fit(features_train, target_train)
predict = model.predict(features_test)
r2_score_data_protect = r2_score(target_test, predict)

print(f"Оценка R2 после преобразования = {r2_score_data_protect:.4}")

Оценка R2 после защиты = 0.4352


## Вывод

При проверке качества моделей Линейной регрессии с помощью метрики R2 на данных - сначала на исходных, затем умноженных на обратимую матрицу метрики показали одинаковый результат. 

Объединим качество оценкок в таблицу:

In [14]:
pd.DataFrame(data= [r2_score_data,
                      r2_score_data_protect], 
                     columns=['R2'], 
                     index=['Линейная регрессия',
                            'Линейная регрессия на преобразованных признаках'])

Unnamed: 0,R2
Линейная регрессия,0.435228
Линейная регрессия на преобразованных признаках,0.435228
