<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

## Загрузка данных

Для начала произведем подгрузку необходимых библиотек.

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

Загрузим данные.

In [2]:
df = pd.read_csv('/datasets/insurance.csv')

Доготовим функцию вывода информации о датафрейме. Вызовем её и ознакомимся с данными.

In [3]:
def info_df(df):
    print(df.info())
    print()
    print(df.isna().sum() / df.shape[0])
    print()
    display(df.head())

In [4]:
info_df(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB
None

Пол                  0.0
Возраст              0.0
Зарплата             0.0
Члены семьи          0.0
Страховые выплаты    0.0
dtype: float64



Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


В данных нет пропусков, но два стобца имеют не оптимальный тип данных. Приведём их к целочисленному типу.

In [5]:
df['Возраст'] = df['Возраст'].astype('int64')
df['Зарплата'] = df['Зарплата'].astype('int64')

In [6]:
info_df(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Пол                5000 non-null   int64
 1   Возраст            5000 non-null   int64
 2   Зарплата           5000 non-null   int64
 3   Члены семьи        5000 non-null   int64
 4   Страховые выплаты  5000 non-null   int64
dtypes: int64(5)
memory usage: 195.4 KB
None

Пол                  0.0
Возраст              0.0
Зарплата             0.0
Члены семьи          0.0
Страховые выплаты    0.0
dtype: float64



Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41,49600,1,0
1,0,46,38000,1,1
2,0,29,21000,0,0
3,0,21,41700,2,0
4,1,28,26100,0,0


Теперь замечаний нет. С датафреймом можно работать.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

(1) Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

(2) Формула обучения:

$$
w = (X^T X)^{-1} X^Ty
$$

**Ответ:** не изменится

**Обоснование:**

Рассмотрим два случая:

- Обучение проходим на начальной матрице признаков;
- Обучение проходит на матрице признаков, домноженной на матрицу P;

В обоих случаях вектор целевых признаков **y** - одинаков. Это можно записать как:

$$
a_{1} = X𝑤_{1}
$$
$$
a_{2} = XP𝑤_{2}
$$

(3) Или, можем это переписать в виде подставив в формулу (1) формулу (2):

$$
a_{1} = X(X^{T}X)^{-1}X^{T}y
$$
$$
a_{2} = (XP)((XP)^{T}(XP))^{-1}(XP)^{T}y
$$


Далее, в явном виде выразим **y** из первого уравнения, домножив обе стороны слева на обратные матрицы:

$$
(X(X^{T}X)^{-1}X^{T})^{-1}a_{1} = (X(X^{T}X)^{-1}X^{T})^{-1}(X(X^{T}X)^{-1}X^{T})y
$$

Для удобстав поменяем части уравнения местами, умножение обратной матриы на начальную дает единичную матрицу:

$$
Ey = (X(X^{T}X)^{-1}X^{T})^{-1}a_{1}
$$

Умножение единичной матрицы на любую матрицу А дает матрицу А:

$$
y = (X(X^{T}X)^{-1}X^{T})^{-1}a_{1}
$$

Подставим полученное уравнение во вторую формулу в системе (3):

$$
a_{2} = (XP)((XP)^{T}(XP))^{-1}(XP)^{T}(X(X^{T}X)^{-1}X^{T})^{-1}a_{1}
$$

Применим свойства транспонирования матриц, получим:

$$
a_{2} = (XP)((P^{T}X^{T})(XP))^{-1}(P^{T}X^{T}))(X(X^{T}X)^{-1}X^{T})^{-1}a_{1}
$$

Примем:

$$
XP = C_{1}
$$
$$
P^{T}X^{T} = C_{2}
$$

Сделаем подстановку:

$$
a_{2} = C_{1}(C_{2}C_{1})^{-1}(C_{2}))(X(X^{T}X)^{-1}X^{T})^{-1}a_{1}
$$

Применим свойство обратных матриц, получим:

$$
a_{2} = (C_{1}C_{1}^{-1}C_{2}^{-1}C_{2})(X(X^{T}X)^{-1}X^{T})^{-1}a_{1}
$$

$$
a_{2} = EE(X(X^{T}X)^{-1}X^{T})^{-1}a_{1}
$$

Сократим еденичные матрицы, получим:

$$
a_{2} = (XX^{-1}X^{T,-1}X^{T})^{-1}a_{1}
$$
$$
a_{2} = (EE)^{-1}a_{1}
$$
$$
a_{2} = a_{1}
$$

Мы теоритические доказали, что домножение матрицы признаков не влияет на предсказания, ввиду того, что вектор целевых признаков в обоих ситуациях одинаков и изменения коснуться только вектора весов.

## Алгоритм преобразования

**Алгоритм**

1. Разделим исходную выборку на обучающую и тестовую (отделив целевой признак)
2. Создадим матрицу, размером 4х4 (для созранения возможности умножения и размерности обучающих данных), обратимую.
3. Преобразуем датафреймы в матрицы/вектора;
4. Домножим матрично обучающий и тестовый датафреймы признаков на созданную матрицу справо.
5. Обучим модель на обучающей матрице;
6. Рассчитаем метрику R2 на тестовой выборке;

**Обоснование**

В качестве обоснования, будем использовать выведенные формулы из пункта 2. В ходе преобразований, было доказано, что при условии постоянства вектора целевых признаков, предсказания линейной регрессии, использующей в качестве признаков изначальную матрицу признаков, и домноженную справа на дополнительную матрицу, будут одинаковы.

Следовательно, мы можем применить предложенный алгоритм.

## Проверка алгоритма

В соответствие с алгоритмом, разделим исходную выборку на обучающую и тестовую

In [7]:
features = df.drop('Страховые выплаты', axis=1)
target = df['Страховые выплаты']

In [8]:
train_f, test_f, train_t, test_t = train_test_split(features, target, test_size=0.25, random_state=12)

Создадим матрицу, размером 4х4.

In [9]:
B = np.random.randint(1, 10, (4,4))

Подготовим функцию обучения и рассчёта метрики модели.

In [10]:
def prediction(model, features, target, test_f, test_t):
    model.fit(features, target)
    predict = model.predict(test_f)
    score = r2_score(test_t, predict)
    return score

Далее, подготовим преобразованные матрицы признаков.

In [11]:
train_f_save_data = train_f.values @ B
test_f_save_data = test_f.values @ B
model = LinearRegression()

Используя подготовленные данные, обучим модель и рассчитаем метрику R2 для преобразованных признаков и не приобразованных признаков.

In [12]:
print('R2 без преобразования', prediction(model, train_f, train_t, test_f, test_t))
print('R2 с преобразованием:', prediction(model, train_f_save_data, train_t, test_f_save_data, test_t))

R2 без преобразования 0.4470952050844097
R2 с преобразованием: 0.4470952050839776


### Вывод

В работе теоритические доказали, а потом и на практике подтвердили (разработав алгоритм), что домножение исходной матрицы признаков на обратимую матрицу, не исзменяет метрики линейной регресси, что видно в предидущем пункте.

Алгоритм защиты данных разработан.