<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Применение-алгоритма" data-toc-modified-id="Применение-алгоритма-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Применение алгоритма</a></span></li><li><span><a href="#Проверка-качества-линейной-регрессии" data-toc-modified-id="Проверка-качества-линейной-регрессии-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Проверка качества линейной регрессии</a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
data = pd.read_csv('/datasets/insurance.csv')

In [3]:
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [5]:
data.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

In [6]:
data.corr(method='pearson')

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
Пол,1.0,0.002074,0.01491,-0.008991,0.01014
Возраст,0.002074,1.0,-0.019093,-0.006692,0.65103
Зарплата,0.01491,-0.019093,1.0,-0.030296,-0.014963
Члены семьи,-0.008991,-0.006692,-0.030296,1.0,-0.03629
Страховые выплаты,0.01014,0.65103,-0.014963,-0.03629,1.0


In [7]:
y = data['Страховые выплаты']
X = data.drop('Страховые выплаты', axis=1)
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=123)

**Вывод**

Представлены данные клиентов страховой компании: пол, возраст, зарплата застрахованного и количество членов его семьи.

Количество страховых выплат клиенту за последние 5 лет является целевым признаком.

Пропусков в данных не обнаружено.

Наблюдается небольшая корреляция между возрастом и совершением страховых выплат клиенту.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Качество линейной регрессии не изменится при умножении признаков на обратимую матрицу.

**Обоснование:**

$(XP)^{−1}=P^{−1}X^{−1}$  
$(XP)^{T}=P^{T}X^{T}$  
$(X^{T})^{-1}=(X^{-1})^{T}$  
$(P^{T})^{-1}P^{T}=E$


$$w'=((XP)^{T}XP)^{-1}(XP)^{T}y$$

$$w'=(P^{T}X^{T}XP)^{-1}P^{T}X^{T}y=(XP)^{-1}(X^{T})^{-1}(P^{T})^{-1}P^{T}X^{T}y$$

$$a' = XPw' = XP(XP)^{-1}(X^{T})^{-1}EX^{T}y=XwE=Xw=a$$

**Вывод**

Если умножить матрицу признаков на обратимую матрицу по формуле обучения, то предсказания не изменятся. Обратимая матрица имеет обратную к себе матрицу, при умножении на которую получается единичная матрица при умножении на которую исходная матрица не изменяется.

## Алгоритм преобразования

**Алгоритм**

1. Создать случайную матрицу.
2. Проверить матрицу на обратимость. Если матрица необратима создать новую матрицу.
3. Если матрица обратима умножить матрицу признаков на случайную обратимую матрицу.

**Обоснование**

Умножение матрицы признаков на случайную обратимую матрицу не изменяет предсказаний.

## Проверка алгоритма

### Применение алгоритма

In [8]:
P_size = len(X.columns)
print('Размерность матрицы:', P_size, 'x', P_size)

Размерность матрицы: 4 x 4


In [9]:
P = np.random.rand(P_size, P_size)
P

array([[0.18101152, 0.66991286, 0.39691883, 0.07590245],
       [0.70130903, 0.67797507, 0.08615114, 0.81536661],
       [0.50048135, 0.18645925, 0.33913074, 0.84899757],
       [0.81773443, 0.35844226, 0.07551434, 0.48466028]])

In [10]:
try:
    np.linalg.inv(P)
except np.linalg.LinAlgError:
    print('Матрица необратимая.')
    pass
else:
    print('Матрица обратимая.')

Матрица обратимая.


In [11]:
encoded_X = X @ P

In [12]:
encoded_X.head()

Unnamed: 0,0,1,2,3
0,24853.6273,9277.204168,16824.889545,42144.269952
1,19051.369191,7116.996822,12891.006749,32299.899097
2,10530.44628,3935.305542,7124.244013,17852.594553
3,20886.435189,7790.305115,14143.712238,35421.290593
4,13082.380859,4886.239658,8854.121576,22181.742685


In [13]:
encoded_X_train, encoded_X_valid = train_test_split(encoded_X, test_size=0.25, random_state=123)

### Проверка качества линейной регрессии

In [14]:
model = LinearRegression()

In [15]:
model.fit(X_train, y_train)
y_pred = model.predict(X_valid)
r2_X = r2_score(y_valid, y_pred)
print('R2 без кодирования:', '{:.7f}'.format(r2_X))

R2 без кодирования: 0.4301847


In [16]:
model.fit(encoded_X_train, y_train)
y_pred = model.predict(encoded_X_valid)
r2_encoded_X = r2_score(y_valid, y_pred)
print('R2 с кодированием:', '{:.7f}'.format(r2_encoded_X))

R2 с кодированием: 0.4301847


**Вывод**

Качество модели линейной регрессии не отличается до и после преобразования.

## Общий вывод

Кодирование признаков путем умножения их на любую обратимую матрицу не влияет на качество модели линейной регрессии.