## Загрузка данных

In [1]:
import pandas as pd
import numpy as np 
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
display(df.head())
display(df.info())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

In [3]:
display(df.describe())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Нет, не изменится.

**Обоснование:** 

Допустим $X_{1}$ = $X$ умножают на обратимую матрицу $Y$, тогда:

<br><center>$w_{1}=(X_{1}^TX_{1})^{-1}X_{1}^Ty$</center></br>
<br><center>$w_{1}=((XY)^TXY)^{-1}(XY)^Ty$</center></br>
<br><center>$w_{1}=(Y^TX^TXY)^{-1}Y^TX^Ty$</center></br>
<br><center>$w_{1}=Y^{-1} (X^TX)^{-1} (Y^{T})^{-1}      Y^TX^Ty$</center></br>
<br><center>$w_{1}=Y^{-1} (X^TX)^{-1}X^Ty$</center></br>
<br><center>$w_{1}=Y^{-1}w$</center></br>
<br><center>$a_{1}=XYY^{-1}w$</center></br>
<br><center>$a_{1}=Xw$</center></br>
<br><center>$a_{1}=a$</center></br>

## Алгоритм преобразования и проверка

**Алгоритм**

Умножаем признаки на обратимую матрицу

**Обоснование**

Обосновано в предыдущем пункте

**Проверка**

In [4]:
features = df.drop('Страховые выплаты', axis = 1)
target = df['Страховые выплаты']

In [5]:
print(features.shape)

(5000, 4)


In [18]:
rows = features.shape[1]
columns = features.shape[1]
np.random.seed(777)
r_matrix = np.random.randint(0,10000,size=(rows, columns))

In [19]:
r_matrix

array([[2982, 7767, 4017, 5789],
       [ 985, 3578, 9511, 8082],
       [6541, 6798, 3931, 2898],
       [8532, 7711, 3146, 6994]])

In [8]:
try:
    _ = np.linalg.inv(r_matrix)
except:
    print('Матица не обратима')
else:
    print('Матица обратима')

Матица обратима


**Обычная модель**

In [9]:
model = LinearRegression()
model.fit(features, target)
predict = model.predict(features)
r2 = r2_score(target,predict)
mse = mean_squared_error(target, predict)
print('MSE: {:.4f}'.format(mse))
print('Коэффициент детерминации: {:.4f}'.format(r2))

MSE: 0.1233
Коэффициент детерминации: 0.4249


**Модель с умножением на матрицу**

In [10]:
features_mod = features @ r_matrix

In [11]:
model = LinearRegression()
model.fit(features_mod, target)
predict = model.predict(features_mod)
r2 = r2_score(target,predict)
mse = mean_squared_error(target, predict)
print('MSE: {:.4f}'.format(mse))
print('Коэффициент детерминации: {:.4f}'.format(r2))

MSE: 0.1233
Коэффициент детерминации: 0.4249


## Вывод

Данные зашифрованы. 
Модель умноженная на матрицу и модель с исходными признаками имеют одинаковые результаты.