## Загрузка данных

In [6]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression


data = pd.read_csv('/datasets/insurance.csv')

print(data.head(10))
print(data.info())

   Пол  Возраст  Зарплата  Члены семьи  Страховые выплаты
0    1     41.0   49600.0            1                  0
1    0     46.0   38000.0            1                  1
2    0     29.0   21000.0            0                  0
3    0     21.0   41700.0            2                  0
4    1     28.0   26100.0            0                  0
5    1     43.0   41000.0            2                  1
6    1     39.0   39700.0            2                  0
7    1     25.0   38600.0            4                  0
8    1     36.0   49700.0            1                  0
9    1     32.0   51700.0            1                  0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** $$
w1 = ((XА)^T XА)^{-1} (XА)^Ty=(A^TX^TXA)^{-1}A^TX^Ty = (X^TXA)^{-1}(A^T)^{-1}A^TX^Ty=A^{-1}(X^TX)^{-1}EX^Ty=A^{-1}(X^TX)^{-1}X^Ty=A^{-1}w
$$


**Обоснование:**
$$
a1=XAw1=XAA^{-1}𝑤=Xw=a
$$


Признаки умножили на обратимую матрицу (ХА). Развернули формулу, использовали правило транспонирование произведений матриц и обратная матрица от произведения, с условием, что обратная матрица есть только для квадратной. Получилось что предсказания a равны предсказаниям a1. Качество линейной регрессии не изменится.

## Алгоритм преобразования

**Алгоритм**

Для преобразования данных умножим признаки на случайную обратимую матрицу. Таким образом не передавая информацию о клиентах, мы в итоге получим те же значения. 

**Обоснование**

При умножении признаков на обратную матрицу качество модели не меняется

## Проверка алгоритма

In [7]:
features = data.drop('Страховые выплаты',axis=1)
target = data['Страховые выплаты']

features_train, features_test, target_train, target_test = train_test_split(features,target, test_size=0.2, random_state=12345)


In [8]:
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
print(r2_score(target_test, predictions))

0.4117683956770434


In [9]:
A=np.random.random((features.shape[1], features.shape[1]))

features_new = features.dot(A)
features_train_new, features_test_new, target_train_new, target_test_new = train_test_split(features_new,target, test_size=0.2, random_state=12345)


model_new = LinearRegression()
model_new.fit(features_train_new, target_train_new)
predictions_new = model_new.predict(features_test_new)
print(r2_score(target_test_new, predictions))


0.4117683956770434


In [10]:
А1=np.linalg.inv(A)


In [12]:
А1

array([[ 0.87393399, -0.03860951, -2.85508099,  1.96413577],
       [-0.20234683,  1.74257058, -0.24545453, -1.07111409],
       [ 0.8738896 , -2.39791639,  4.40507322, -1.68827481],
       [-1.51939566,  1.31195261,  0.94244052,  0.11961716]])

In [13]:
A

array([[0.95493557, 0.77493124, 0.62996495, 0.15023446],
       [0.67901671, 0.71681829, 0.37122221, 0.50860821],
       [0.4912715 , 0.24773822, 0.45040611, 0.50863317],
       [0.81169835, 0.02940221, 0.38171029, 0.68250425]])

In [15]:
A @ (А1)

array([[ 1.00000000e+00,  3.39979862e-17, -3.92143924e-17,
         4.03635382e-17],
       [ 1.54601836e-16,  1.00000000e+00,  2.42747210e-17,
        -3.72795155e-17],
       [ 1.05972763e-16, -5.72329795e-17,  1.00000000e+00,
         1.41188337e-16],
       [ 2.97831879e-16, -1.86972513e-16, -5.27591408e-16,
         1.00000000e+00]])

<div style="background: #cceeaa; padding: 5px; border: 1px solid green; border-radius: 5px;">
    <font color='green'> <b><u>КОММЕНТАРИЙ РЕВЬЮЕРА</u></b>
</font>
<font color='green'><br>
ок, есть контакт. <br>
С единичной - всё входит.  Повторил за тобой - работает)))) 
А можно ещё в функцию одеть:

In [5]:
def generate_invertible_matrix(size):
    try:
        matrix = np.random.normal(size=(size, size))
        # проверим матрицу на обратимость, если нет, пробуем сгенерировать еще раз
        # таким образом гарантируем, что матрица стопроцентно будет обратимой
        np.linalg.inv(matrix)
    except np.linalg.LinAlgError:
        matrix = generate_invertible_matrix()
    
    return matrix

R2 на исходных данных 0.41
После умножения признаков на обратимую матрицу R2 не изменилось.