## Загрузка данных

In [5]:
import pandas as pd
import numpy as np
import seaborn as sns
np.random.seed(42)
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [6]:
data = pd.read_csv('/datasets/insurance.csv')

In [7]:
data.sample(5)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
1501,1,28.0,56100.0,0,0
2586,1,32.0,41900.0,2,0
2653,1,30.0,26300.0,0,0
1055,1,30.0,37300.0,2,0
705,0,44.0,30000.0,1,1


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Изменятся

**Обоснование:** Обучение модели заново позволит сохранить качество, поскольку если даже мы умножаем на обратимую матрицу, мы все равно можем обучить нашу линейную регрессию заново, либо умножить коэффициенты регрессии на обратную матрицу.

$w' = ((XP)^T XP)^{-1} (XP)^T y$

Вынесем P из траспонирования

$w' = (P^T (X^T X) P)^{-1} (XP)^T y$

И для второго P

$w' = (P^T (X^T X) P)^{-1} P^T X^T y$

Раскроем получение обратной матрицы

$w' = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y$

Умножение $(P^{-1})^T$ на $P^T$ даст нам единичную матрицу

$w' = P^{-1} (X^T X)^{-1} E X^T y$

Результат умножения матрицы на единичную - та же матрица. Единичная транспонированная матрица равна самой себе.

$w' = P^{-1} (X^T X)^{-1}X^T y$

Мы знаем, что $w = (X^T X)^{-1} X^T y$, получаем

$w' =  P^{-1}w$

Видим, что при умножении признаков на обратимую матрицу, для обновления весов линейной регресии, достаточно умножить веса на матрицу, обратную к матрице, на которую умножали признаки.

Пример такой обратимой матрицы:

In [8]:
np.random.seed(42)
matrix = np.random.rand(4, 4)
matrix

array([[0.37454012, 0.95071431, 0.73199394, 0.59865848],
       [0.15601864, 0.15599452, 0.05808361, 0.86617615],
       [0.60111501, 0.70807258, 0.02058449, 0.96990985],
       [0.83244264, 0.21233911, 0.18182497, 0.18340451]])

И теперь найдем обратную матрицу от созданной. И проверим что при умножении матриц друг на друга мы получим единичную матрицу.

In [9]:
inv_matrix = np.linalg.inv(matrix)
inv_matrix

array([[-0.32076901, -0.12766508,  0.06141427,  1.32518674],
       [ 0.35151041, -1.88500014,  1.65560045, -1.0003883 ],
       [ 1.14080312,  1.3467702 , -2.0407373 ,  0.70794071],
       [-0.08202687,  1.42666425, -0.17238177, -0.10600441]])

In [10]:
inv_matrix.dot(matrix).round(2)

array([[ 1.,  0.,  0.,  0.],
       [-0.,  1., -0.,  0.],
       [ 0., -0.,  1., -0.],
       [ 0., -0., -0.,  1.]])

При попытке найти обратную матрицу от матрицы с ЛЗ столбцами или строками мы получим ошибку

In [11]:
new_matrix = np.array([[1, 2, 4, 6],
                       [1, 2, 4, 6],
                       [1, 2, 4, 6],
                       [1, 2, 4, 6]])

In [12]:
np.linalg.inv(new_matrix)

## Алгоритм преобразования

**Алгоритм**

Для сокрытия персональных данных пользователя, мы можем произвести операцию сложения/деления/умножения/вычитания над матрицей признаков 

**Обоснование**
Произведение указанных операций над матрицей признаков не изменит зависимость признаков от друг друга

## Проверка алгоритма

Разделим данные на признаки и целевой призак

In [13]:
X = data.drop('Страховые выплаты', axis=1)
y = data['Страховые выплаты']
print(X.shape, y.shape)

(5000, 4) (5000,)


Создадим отдельную выборку с измененными признаками пользователей. Для этого умножим матрицу признаков на 3.14

In [14]:
new_X = X * 3.14
new_X.sample(5)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
4873,3.14,106.76,116494.0,3.14
1025,3.14,91.06,135648.0,6.28
3193,3.14,56.52,167676.0,9.42
2895,0.0,109.9,168618.0,3.14
4393,3.14,59.66,88548.0,3.14


И создадим обратимую матрицу для проверки влияния на качество регрессии при умножении этой матрицы на признаки

In [15]:
np.random.seed(42)
matrix = np.random.rand(4, 4)
matrix

array([[0.37454012, 0.95071431, 0.73199394, 0.59865848],
       [0.15601864, 0.15599452, 0.05808361, 0.86617615],
       [0.60111501, 0.70807258, 0.02058449, 0.96990985],
       [0.83244264, 0.21233911, 0.18182497, 0.18340451]])

Убедимся, что для неё существует обратная матрица

In [16]:
inv_matrix = np.linalg.inv(matrix)
inv_matrix

array([[-0.32076901, -0.12766508,  0.06141427,  1.32518674],
       [ 0.35151041, -1.88500014,  1.65560045, -1.0003883 ],
       [ 1.14080312,  1.3467702 , -2.0407373 ,  0.70794071],
       [-0.08202687,  1.42666425, -0.17238177, -0.10600441]])

Умножим матрицу признаков на созданную обратимую матрицу.

In [17]:
new_X_mult = X.dot(matrix)
new_X_mult.sample(5)

Unnamed: 0,0,1,2,3
4873,22307.878552,26275.959503,766.5734,36013.887567
1025,25974.732473,30594.634594,892.030222,41926.190189
3193,32105.221831,37815.471287,1101.534969,51809.926148
2895,32286.169226,38029.169575,1107.602095,52114.658631
4393,16955.614668,19971.773643,582.500147,27368.697241


И посмотрим на старую матрицу признаков

In [18]:
X.sample(5)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
482,1,37.0,41200.0,4
3127,0,47.0,49700.0,1
1712,0,26.0,35900.0,1
2178,0,18.0,43400.0,1
107,1,24.0,53900.0,2


Разобьем выборки на обучающие и тестовые

In [19]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [20]:
X_new_train, X_new_test, y_train, y_test = train_test_split(new_X, y, test_size=0.2, random_state=42)

In [21]:
X_new_train_mult, X_new_test_mult, y_train, y_test = train_test_split(new_X_mult, y, test_size=0.2, random_state=42)

Обучим модели Линейной регрессии без умножения признаков, с умножением на число и с умножением на обратимую матрицу.   
И сравним значение метрики $R^2$

In [22]:
model1 = LinearRegression()
model1.fit(X_train, y_train)
pred1 = model1.predict(X_test)
r2_score(y_test, pred1)

0.4368694923137991

In [23]:
model2 = LinearRegression()
model2.fit(X_new_train, y_train)
pred2 = model2.predict(X_new_test)
r2_score(y_test, pred2)

0.4368694923137998

In [24]:
model3 = LinearRegression()
model3.fit(X_new_train_mult, y_train)
pred3 = model3.predict(X_new_test_mult)
r2_score(y_test, pred3)

0.43686949231383965

## Выводы

Видим, что мы получили абсолютно одинаковые значения метрики $R^2$, следовательно, нам удалось скрыть данные пользователей и сохранить качество модели, также мы убедились что умножение признаков на обратимую матрицу и переобучение линейной регрессии не влияют на качество регрессии