Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## 1. Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from numpy.linalg import inv
from sklearn.linear_model import LinearRegression 
from sklearn.metrics import r2_score

In [2]:
data=pd.read_csv('datasets/insurance.csv')
data

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
# все данные превратим в целые чила.
data = data.astype(int)

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Пол                5000 non-null   int64
 1   Возраст            5000 non-null   int64
 2   Зарплата           5000 non-null   int64
 3   Члены семьи        5000 non-null   int64
 4   Страховые выплаты  5000 non-null   int64
dtypes: int64(5)
memory usage: 195.4 KB


In [6]:
#выделим признаки и целевой признак
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']
print('Признаки', features.shape)
print('Целевой признак', target.shape)

Признаки (5000, 4)
Целевой признак (5000,)


<div class="alert alert-info" style="border:solid blue 2px; padding: 20px"> <b>Вывод:</b> Данные хорошего качества. В датасете 5 столбцов и 5000 строк. Все данные привели к int. Выделили признаки и целевой признак.</div>

## 2. Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** не изменится

**Обоснование:** Линейная регрессия это регрессионная модель линейной функцией зависимости одной переменной y от другой или нескольких других переменных x. В линейной регресси предполагается, что отсутствуют случайные ошибки модели. Т.е. присутствует одинаковая дисперсия. Поскольку матрица умноженная на обратимую матрицу дают в результате единичную матрицу. Соответственно мы получим теже предсказания и, соответственно, такое же качество.

## 3. Алгоритм преобразования

**Алгоритм**

если Х-матрица признаков, а P— матрица, на которую умножаются признаки, то перемножив эти матрицы мы получим матрицу ХР. Соответсвенно, формула обучения будет выглядеть так:  $$
w = (XP^T XP)^{-1} XP^T y
$$

**Обоснование**

учитывая формулу выше, вычислим предсказания,используя правила математики:$$
a = XPw
$$

$
a = XP((XP^T XP)^{-1} XP^T y)=XP(P^TX^TXP)^{-1}P^TX^Ty=XP(X^TXP)^{-1}(P^T)^{-1}P^TX^Ty=XPP^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty=X(X^TX)^{-1}X^Ty=Xw=>a
$

$PP^{-1},P^T(P^T)^{-1}$ -это матрицы и ее обратимые матрицы. Исключим, т.к. в результати перемножения они дают Е-единичную матрицу

<div class="alert alert-info" style="border:solid blue 2px; padding: 20px"> <b>Вывод:</b> Делая вывод из нашего решения: предсказания не изменятся. Вычислим качество модели с исходными данными и с новыми(перемножение матриц). Для этого превратим данные в матрицу, перемножим матрицы и обратно вернем данные в формат DataFrame. Обучим модели и сравним качество метрикой r2_score </div>

## 4. Проверка алгоритма

In [7]:
#превратим признаки в матрицу
matrix_features = features.values
print(matrix_features)

[[    1    41 49600     1]
 [    0    46 38000     1]
 [    0    29 21000     0]
 ...
 [    0    20 33900     2]
 [    1    22 32700     3]
 [    1    28 40600     1]]


In [8]:
# обратимой может стать только квадратная матрица(а у нас она не квадратная). и определитель не должен быть == 0
# поэтому транспонируем исходную матрицу(получим матрицу с 4 строками и 5000 столбцов), умножим на исходную матрицу
# и получим квадратную матрицу. Поскольку в условии задачи исходную матрицу надо умножить на обратимую, то 
# возведем произведение в степень (-1)
# допустим, что определитель != 0
matrix_inv = np.linalg.inv(matrix_features.T.dot(matrix_features))
print(matrix_inv)

[[ 7.79281208e-04 -5.06698571e-06 -5.24393614e-09 -9.67517664e-06]
 [-5.06698571e-06  1.63619393e-06 -1.05347762e-09 -2.87048239e-06]
 [-5.24393614e-09 -1.05347762e-09  1.01259380e-12 -2.27826976e-09]
 [-9.67517664e-06 -2.87048239e-06 -2.27826976e-09  1.60298184e-04]]


In [9]:
#умножим исходную матрицу на обратимую
matrix=matrix_features.dot(matrix_inv)
print(matrix)

[[ 3.01760385e-04  6.89399278e-06 -4.90135848e-10 -8.00689513e-05]
 [-4.42026093e-04  3.23622886e-05 -1.22596759e-08 -5.83182574e-05]
 [-2.57065245e-04  2.53265938e-05 -9.28638122e-09 -1.31087654e-04]
 ...
 [-2.98459503e-04 -8.72997767e-06  8.70083791e-09  1.85953375e-04]
 [ 4.67305281e-04 -1.21308848e-05 -2.14343580e-09  3.33569341e-04]
 [ 4.14826624e-04 -4.89522965e-06  4.09172903e-09 -2.22482523e-05]]


In [10]:
# получим формат таблицы
features_2=pd.DataFrame(matrix, columns = features.columns)
features_2

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,0.000302,0.000007,-4.901358e-10,-0.000080
1,-0.000442,0.000032,-1.225968e-08,-0.000058
2,-0.000257,0.000025,-9.286381e-09,-0.000131
3,-0.000344,-0.000015,1.554559e-08,0.000165
4,0.000501,0.000013,-8.312611e-09,-0.000150
...,...,...,...,...
4995,-0.000348,0.000002,2.095686e-09,0.000159
4996,-0.000457,-0.000002,1.496341e-08,-0.000057
4997,-0.000298,-0.000009,8.700838e-09,0.000186
4998,0.000467,-0.000012,-2.143436e-09,0.000334


In [11]:
#проверим, что у нас получился датафрейм с такой же структурой, как и исходные признаки
features_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Пол          5000 non-null   float64
 1   Возраст      5000 non-null   float64
 2   Зарплата     5000 non-null   float64
 3   Члены семьи  5000 non-null   float64
dtypes: float64(4)
memory usage: 156.4 KB


In [12]:
# проверим качество модели на исходных данных
model= LinearRegression(normalize=True)
model.fit(features,target)
predictions = model.predict(features)
print('R2_score исходных данных',r2_score(target, predictions))


R2_score исходных данных 0.42494550308169177


In [13]:
## проверим качество модели на закодированных данных
model= LinearRegression(normalize=True)
model.fit(features_2,target)
predictions_2 = model.predict(features_2)
print('R2_score закодированных данных', r2_score(target, predictions_2))

R2_score закодированных данных 0.42494550308169177


<div class="alert alert-info" style="border:solid blue 2px; padding: 20px"> <b>Вывод:</b> Используя матричные операции, мы получили закодированную таблицу с признаками. Чтобы вернутся к правильным данным достаточно умножить на обратимую матрицу, т.к. деления в матрицах нет. Обучив модель на исходных данных и на закодированных мы получили одно и тоже значение метрики r2_score. Таким образом считаем, что наш ответ - 'качество модели не изменится' - доказан.  </div>

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные загружены
- [ ]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [ ]  Указан правильный вариант ответа
    - [ ]  Вариант обоснован
- [ ]  Выполнен шаг 3: предложен алгоритм преобразования
    - [ ]  Алгоритм описан
    - [ ]  Алгоритм обоснован
- [ ]  Выполнен шаг 4: алгоритм проверен
    - [ ]  Алгоритм реализован
    - [ ]  Проведено сравнение качества моделей до и после преобразования