In [1]:
import pandas as pd 
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Выводы:" data-toc-modified-id="Выводы:-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Выводы:</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

## Загрузка данных

In [2]:
try:

    df = pd.read_csv('insurance.csv', sep=',')
    
except:
    
    df = pd.read_csv('/datasets/insurance.csv', sep=',')
   
    
pd.options.display.max_columns = None

Напишем функцию для открытия и просмотра данных:

In [3]:
def intro(x):
    """
    принимает: x - датасет
       выдаёт: общую информацию, первые пять строк и последние пять строк таблицы, 
               описание данных и количество дубликатов.
             
     описание: Функция дает первичную информацию о данных в датасете.
    """
    print('\033[1m' + 'Общая информация:')
    print ('\033[0m')
    display(x.info())
    print('\033[1m' + 'Первые пять строк:')
    print ('\033[0m')
    display(x.head())
    print('\033[1m' + 'Последние пять строк:')
    print ('\033[0m')
    display(x.tail())
    print('\033[1m' + 'Описание данных:')
    print ('\033[0m')
    display(x.describe())  
    print('\033[1m' + 'Дубликаты:')
    print ('\033[0m')
    display(x.duplicated().sum())  



Применим функцию к данным:

In [4]:
intro(df)

[1mОбщая информация:
[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

[1mПервые пять строк:
[0m


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


[1mПоследние пять строк:
[0m


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0
4999,1,28.0,40600.0,1,0


[1mОписание данных:
[0m


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


[1mДубликаты:
[0m


153

В данных нет пропусков но есть, дубликаты удалим их  проверим

In [5]:
df = df.drop_duplicates()
df.duplicated().sum() 

0

Выводы:

Описание данных:
    
Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
    
Целевой признак: количество страховых выплат клиенту за последние 5 лет.
    
В данных нет пропусков были дубликаты мы их удалили можно приступать к их изменеию.

## Умножение матриц

Задание:

   Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
   
       a. Изменится.
       
       b. Не изменится. 

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$a = Xw

**Ответ:** 

    b. Не изменится.

**Обоснование:** 

Тогда:
 
$$
Z = XP
$$

$$
a'= Zw
$$

$$
w' = (Z^T Z)^{-1} Z^T y
$$

Нужнодоказать что:

$$
a = a'
$$




Заменим Z на XP в формуле w':

$$
w' = ((XP)^TXP)^{-1}(XP)^Ty
$$

Тогда:

$$
a' = XP((XP)^T(XP)^{-1}(XP)^Ty)
$$

Так как:

$$
(XP)^{-1} = X^{-1}P{-1}
$$

Тогда:

$$
a' = XP(XP)^{-1}((XP)^T)^{-1}(XP)^Ty = XPP^{-1}X^{-1}((XP)^T)^{-1}(XP)^Ty
$$ 

Так как:

$$
PP^{-1}=E
$$

$E$ - единичная матрица 

То:

$$ 
a' = XEX^{-1}((XP)^T)^{-1}(XP)^Ty 
$$

Используя свойство транспонированной матрицы:

$$
(XP)^T = X^TP^T
$$

Получим:
$$
a' = XEX^{-1}((XP)^T)^{-1}(XP)^Ty = XEX^{-1}(X^T)^{-1}(P^T)^{-1}X^TP^Ty
$$

Учитывая что:

$$
(P^T)^{-1}P^T = E
$$

То:
$$
a' = XEX^{-1}(X^T)^{-1}X^TEy
$$

Зная что единичная матрица при умножении не меняет умножаемую на неё матрицу,получим:

$$
a' = XX^{-1}(X^T)^{-1}X^Ty = X(X^TX)^{-1}X^Ty = Xw = a 
$$

Как видно, значение предсказаний $a$ не меняется, если умножать матрицу признаков на обратимую матрицу.

## Алгоритм преобразования

**Алгоритм**

1. Создадим обратимую матрицу P которая будет иметь размерность n * n, где n к
количество исходных признаков.
2. Умножим исходную матрицу Х на матрицу P
3. Получим веса на исходных данных
4. Получим веса на измененных признаках матрицы Z
5. Получим векторы предсказаний с исходных данных и с измененнных,они должны почти не отличаться

**Обоснование**

Допустим:

$ X = \begin{bmatrix}1 & 2 \\3 & 4 \\5 & 6\end{bmatrix}$

$ y = \begin{bmatrix}1\\0\\1\end{bmatrix}$

In [6]:
X = np.array([
    [1, 2],
    [3, 4],
    [5, 6]]) 

y = np.array([1,0,1])

Создадим обртимую матрицу:

$P = \begin{bmatrix}1 & 0 \\2 & 3 \end{bmatrix}$

In [7]:
P = np.array([
    [1, 0],
    [2, 3],]) 

Получим матрицу Z умножив исходные признаки на обратимую матрицу:

$Z = \begin{bmatrix}1 & 2 \\3 & 4 \\5 & 6\end{bmatrix} 
\begin{bmatrix}1 & 0 \\2 & 3 \end{bmatrix}$ = $\begin{bmatrix}1*1 + 2*2 & 1*0 + 2*3\\3*1 + 4*2 & 3*0 + 4*3\\5*1 + 6*2 & 5*0 + 6*3 \end{bmatrix}$ = $\begin{bmatrix}5 & 6 \\11 & 12 \\17 & 18\end{bmatrix}$ 

In [8]:
Z = X @ P

Тогда :

$w = (X^T X)^{-1} X^T y$

In [9]:
w = np.linalg.matrix_power(X.T @ X,-1)@X.T@y

$ w' = (Z^T Z)^{-1} Z^T y $

In [10]:
w1 = np.linalg.matrix_power(Z.T @ Z,-1)@Z.T@y

$a = Xw$

In [11]:
a = X @ w

$a'= Zw$

In [12]:
a1 = Z @ w

Проверим разницу:

In [13]:
print('\033[1m' + 'Вектор разниц между прогнозами :')
print ('\033[0m')
print(a-a1)

[1mВектор разниц между прогнозами :
[0m
[-1.06581410e-14 -2.13162821e-14 -3.28626015e-14]


Как видно из вектора выше разница между векторами предсказанй минимальна.

## Проверка алгоритма

Подготовим данные:

In [14]:
features = df.drop('Страховые выплаты',axis=1)
target = df['Страховые выплаты']

Напишем функцию которая будет возвращать R2 модели: 

In [15]:
def stage(features, target, label):
    """
    принимает: features - признаки; 
               target - целевой признак; 
               label  - сюда передаем название;
       выдаёт: печатет R2; 
               label - название; 
             
     описание: функция разделяет выборку на обучающую и тестовую, 
     обучает модель, считает, выводит на экран и возвращает метрику R2; 
   возвращает: R2 -метрику качества модели;
    """
    features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=18754)
    
    model = LinearRegression()
    model.fit(features_train, target_train)
    R2 = r2_score(target_test, model.predict(features_test))
    print('\033[1m' + label)
    print ('\033[0m')
    print(R2)
    return R2

Исследуем качество модели без преобразования:

In [16]:
R2_0 = stage(features,target,'R2 модели на данных без преобразованя:')

[1mR2 модели на данных без преобразованя:
[0m
0.4185270946395728


Напишем функцию для преобразования данных:

In [17]:
def stage_2(features):
    """
    принимает: features - признаки; 
   возвращает: ch_features - изменённые признаки;
             
     описание: функция создает обратимую матрицу M, 
     умножает на неё переданные ей признаки, 
     и возвращает получившиеся признаки; 
    """
    ch_features = features
    n = features.shape[1]
    np.random.seed(180790)
    M = np.random.randint(1, 10, (n,n))
    det = np.linalg.det(M)
    while det == 0:
        np.random.seed(180790)
        M = np.random.randint(1, 10, (n,n))
        det = np.linalg.det(M)
    ch_features = ch_features @ M
    return ch_features

Преобразуем наши признаки:

In [18]:
features_1 = stage_2(features)

Проверим что признаки изменились:

In [19]:
print('\033[1m' + 'Признаки до изменения:')
print ('\033[0m')
print(features.head())
print()
print('\033[1m' + 'Признаки после изменения:')
print ('\033[0m')
print(features_1.head())
    

[1mПризнаки до изменения:
[0m
   Пол  Возраст  Зарплата  Члены семьи
0    1     41.0   49600.0            1
1    0     46.0   38000.0            1
2    0     29.0   21000.0            0
3    0     21.0   41700.0            2
4    1     28.0   26100.0            0

[1mПризнаки после изменения:
[0m
          0         1         2         3
0  297732.0  446617.0  297654.0  297810.0
1  228146.0  342237.0  228054.0  228234.0
2  126087.0  189145.0  126029.0  126145.0
3  250279.0  375419.0  250237.0  250313.0
4  156685.0  235045.0  156633.0  156741.0


Как видим признаки изменились, проверим изменилось ли качество вычислений:

Получим R2 передав функции stage новые признаки:

In [20]:
R2_1 = stage(features_1,target,'R2 модели на данных после преобразованя:')

[1mR2 модели на данных после преобразованя:
[0m
0.41852709463986804


Проверим разницу:

In [21]:
print('\033[1m' + 'Разница в качестве полученных предсказаний по метрике R2:')
print ('\033[0m')
print(R2_0 -R2_1)

[1mРазница в качестве полученных предсказаний по метрике R2:
[0m
-2.952083022478291e-13


Как видно разница в метрике R2 не существенная

## Выводы:

* Загружены и изучены данные.
* Значение предсказаний ЛР не меняется, если умножать 
  матрицу признаков на обратимую матрицу.
* Создан алгоритм преобразования данных.
* Данные преобразованы, и проверено качество модели метрикой R2,
  на исходных и преобразованных данных. 
  Разница в значениях метрики R2 есть, но она не существенная.