# <a name="0.0"></a>Содержание:
* [Описание проекта](#0.)
    - [Описание данных](#0.1.)
* [Шаг 1. Загружаем файл и изучаем его](#1.)
* [Шаг 2. Умножаем признаки на обратимую матрицу](#2.)
    - [Вывод](#2.1.)
* [Шаг 3. Проверка алгоритма](#3.)

<a name="0."></a>
# Описание проекта

Необходимо защитить данные клиентов страховой компании путём использования метода преобразования данных. При этом метод должен быть способен восстановить исходную информацию о клиентах и качество модели линейной регрессии не должно слишком сильно измениться.

<br>

<font size="2">([к содержанию](#0.0))</font>

<a name="0.1."></a>
## Описание данных:

Входные данные:
- Пол
- Возраст
- Зарплата
- Члены семьи
Целевой признак:
- количество страховых выплат клиенту за последние 5 лет
<br>

<font size="2">([к содержанию](#0.0))</font>

<a name="1."></a>
# Шаг 1. Загружаем файл и изучаем его
<font size="2">([к содержанию](#0.0))</font> 

In [1]:
import numpy as np
import pandas as pd
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

In [2]:
data = pd.read_csv('./datasets/insurance.csv')

In [3]:
data.head(5)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


- Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
- Целевой признак: количество страховых выплат клиенту за последние 5 лет.

In [4]:
data['Страховые выплаты'].value_counts()

0    4436
1     423
2     115
3      18
4       7
5       1
Name: Страховые выплаты, dtype: int64

In [5]:
data['Члены семьи'].value_counts()

1    1814
0    1513
2    1071
3     439
4     124
5      32
6       7
Name: Члены семьи, dtype: int64

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


<a name="2."></a>
# Шаг 2. Умножаем признаки на обратимую матрицу
<font size="2">([к содержанию](#0.0))</font> 

In [7]:
train, test = train_test_split(data, shuffle=False,
                               random_state=0)

In [8]:
class Linear_Regression:
    def fit(self, X_train, y_train):
        X = np.concatenate((np.ones((X_train.shape[0], 1)), X_train), axis=1)
        y = y_train
        w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
        self.w = w[1:]
        self.w0 = w[0]
    def predict(self, X_test):
        return X_test@self.w + self.w0
    def score(self, X, y, set_name):
        print('r_2 на {} выборке: {:.3f}'.format(set_name,r2_score(y, self.predict(X))))

In [9]:
# Модель линейной регрессии
model_before = Linear_Regression()

# Выделим призники и цели
X_train = train.drop('Страховые выплаты', axis=1)
y_train = train['Страховые выплаты']
X_test = test.drop('Страховые выплаты', axis=1)
y_test = test['Страховые выплаты']

model_before.fit(X_train,y_train)
model_before.score(X_train, y_train, 'обучающей')
model_before.score(X_test, y_test, 'тестовой')

r_2 на обучающей выборке: 0.426
r_2 на тестовой выборке: 0.423


Умножение признаков на обратимую матрицу

$X$ — матрица признаков (нулевой столбец состоит из единиц)

$P$ — обратимая матрица, на которую умножаются признаки

$$
XP
$$

In [10]:
# Создаём рандомную матрицу
random_matrix = np.array([])
while True:
    #Создаём рандомную матрицу
    random_matrix = np.random.random((X_train.shape[1], X_train.shape[1]))
    #Проверяем наличие обратной матрицы:
    try:
        #Если матрица обратима, то выходим из цикла
        np.linalg.inv(random_matrix)
        break
    except:
        continue

In [11]:
# Модель линейной регрессии с изменёнными признаки
model_after=Linear_Regression()

X_train_changed = X_train@random_matrix
X_test_changed = X_test@random_matrix

model_after = Linear_Regression()
model_after.fit(X_train_changed, y_train)

model_after.score(X_train_changed, y_train, 'обучающей')
model_after.score(X_test_changed, y_test, 'тестовой')

r_2 на обучающей выборке: 0.426
r_2 на тестовой выборке: 0.423


<a name="2.1."></a>
## Вывод:

Качество линейной регресии не изменилось, так как параметры линейной регресии изменились в соответствии с   обратимой матрицей коэффициентов.

<font size="2">([к содержанию](#0.0))</font> 

<a name="3."></a>
# Шаг 3. Проверка алгоритма
<font size="2">([к содержанию](#0.0))</font> 

Используемые упрощения:

$$
(AB)^T=B^TA^T
$$

$$
((AB)^T)^{-1}=((AB)^{-1})^{T}
$$

$$
(AB)^{-1}=B^{-1}A^{-1}
$$

$$
A(A)^{-1}=(A)^{-1}A=E
$$

$$
EA=AE=A
$$

$$
\frac{d}{dX}X^Ta=a
$$

$$
\frac{d}{dX}X^TAX=(A+A^T)X
$$

где 
- $E$ - eдиничная матрица
- $A$ - симметричная матрица

Зависимость целевого показателя $y_i$ от регрессоров i-го наблюдения может быть выражена через уравнение линейной регрессии вида:

$$
f(w,x_i)=w_0+w_1x_{1,i}+...+w_kx_{k,i}
$$

где $x_i$ - i-ое значение регрессора от 1 до n

k - количество регрессоров

w - угловые коэффициенты, которые представляют величину, на которую изменится расчётный целевой показатель в среднем при изменении регрессора

Оценка качества апроксимирующей функции осуществляется методом наименьших квадратов:

$$
Err=\sum\limits_{i=1}^n{(y_i-f(x_i))^2} \rightarrow min
$$

Запишем уравнение в матричной форме:

$$
Err={(\overrightarrow{y}-X\overrightarrow{w})^2} \rightarrow min
$$

Аналогичным образом записывается уравнение, дополненное весовой матрицей
$$
Err={(\overrightarrow{y}-XA\overrightarrow{w})^2} \rightarrow min
$$

Размеры векторов и матриц:
$X:(n, k)$, $\overrightarrow{w}:(k, 1)$, $\overrightarrow{y}:(n, 1)$, $A:(k, k)$

При этом учитываем, что первый коэффициет $w_0$ в уравнении линейной регрессии не умножается ни на один регрессор. Чтобы можно было считать всё матрицами, каждое i-ое значение ргегрессора $w_0$ приравняем к единице.

Начнём раскрывать скобки на формуле с дополнительной матрицей:

$$
(\overrightarrow{y}-XA\overrightarrow{w})^2=
(\overrightarrow{y}-XA\overrightarrow{w})^T(\overrightarrow{y}-XA\overrightarrow{w})=
(\overrightarrow{y})^T\overrightarrow{y}-(\overrightarrow{y})^TXA\overrightarrow{w}-(XA\overrightarrow{w})^T\overrightarrow{y}+(XA\overrightarrow{w})^TXA\overrightarrow{w}
$$

Транспонирование обусловлено тем, что в скобках получается вектор

Подготовим уравнение к дифференцированию:

$$
(\overrightarrow{y})^TXA\overrightarrow{w}=((X\overrightarrow{w})^T\overrightarrow{y})^T=(XA\overrightarrow{w})^T\overrightarrow{y}=\overrightarrow{w}^TA^TX^T\overrightarrow{y}=const
$$

$$
(XA\overrightarrow{w})^T\overrightarrow{y}=\overrightarrow{y}^TXA\overrightarrow{w}=const
$$

$$
(XA\overrightarrow{w})^TXA\overrightarrow{w}=\overrightarrow{w}^TA^TX^TXA\overrightarrow{w}
$$

так как результат преобразований равен const, Т можно опустить и получаем:

$$
Err=(\overrightarrow{y})^T\overrightarrow{y}-2\overrightarrow{w}^TA^TX^T\overrightarrow{y}+\overrightarrow{w}^TA^TX^TXA\overrightarrow{w}
$$

Решение задачи минимизации достигается бутём поиска минимума ошибки по частной производной от весов:
$$
Err(X,\overrightarrow{y},\overrightarrow{w})\rightarrow min_{\overrightarrow{w}}\leftrightarrow \frac{dErr(X,\overrightarrow{y},\overrightarrow{w})}{d\overrightarrow{w}}=0
$$

$$
\frac{dErr(X,\overrightarrow{y},\overrightarrow{w})}{d\overrightarrow{w}}=\frac{d}{d\overrightarrow{w}}(\overrightarrow{y}^T\overrightarrow{y}-2\overrightarrow{w}^TA^TX^T\overrightarrow{y}+\overrightarrow{w}^TA^TX^TXA\overrightarrow{w})=\frac{\overrightarrow{y}^T\overrightarrow{y}}{d\overrightarrow{w}} - 
\frac{2\overrightarrow{w}^TA^TX^T\overrightarrow{y}}{d\overrightarrow{w}}+
\frac{\overrightarrow{w}^TA^TX^TXA\overrightarrow{w}}{d\overrightarrow{w}}
$$

Распишем каждую производную по отдельности:

$$
\frac{\overrightarrow{y}^T\overrightarrow{y}}{d\overrightarrow{w}}=0
$$

$$
\frac{2\overrightarrow{w}^TA^TX^T\overrightarrow{y}}{d\overrightarrow{w}}=2A^TX^T\overrightarrow{y}
$$

$$
\frac{\overrightarrow{w}^TA^TX^TXA\overrightarrow{w}}{d\overrightarrow{w}}=(A^TX^TXA+(A^TX^TXA)^T)\overrightarrow{w}=2A^TX^TXA\overrightarrow{w}
$$

Продолжим:
$$
\frac{dErr(X,\overrightarrow{y},\overrightarrow{w})}{d\overrightarrow{w}}=-2A^TX^T\overrightarrow{y}+2A^TX^TXA\overrightarrow{w}=0
$$


В итоге получаем:

$$
A^TX^TXA\overrightarrow{w}=A^TX^T\overrightarrow{y}
$$

С помощью аналогичных действия можно вывести формулу для линейной регрессии без матрицы для преобразования:

$$
\sum\limits_{i=1}^n{(y_i-f(x_i))^2} = \sum\limits_{i=1}^n{(\overrightarrow{y}-X\overrightarrow{w})^2}=(\overrightarrow{y}-X\overrightarrow{w})^T(\overrightarrow{y}-X\overrightarrow{w})=
\overrightarrow{w}^TX^TX\overrightarrow{w}-2\overrightarrow{w}^TX^T\overrightarrow{y}+\overrightarrow{y}^T\overrightarrow{y}
$$

Дифференцируем:
$$
\frac{d(\overrightarrow{w}^TX^TX\overrightarrow{w}-2\overrightarrow{w}^TX^T\overrightarrow{y}+\overrightarrow{y}^T\overrightarrow{y})}{d\overrightarrow{w}}=2X^TX\overrightarrow{w}-2X^T\overrightarrow{y}=0
$$

$$
X^TX\overrightarrow{w}=X^T\overrightarrow{y}
$$

Домножим слева выражение без использование матрицы преобразования на $A^T$ и приравняем две полученные матрицы

$$
A^TX^TXA\overrightarrow{w}_{до}=A^TX^TX\overrightarrow{w}_{после}
$$

Таким образом связь между матрица имеет следующий вид:

$$
A\overrightarrow{w}_{до}=\overrightarrow{w}_{после}
$$

Возврат к исходным данным возможен с использованием обратной матрицы

$$
\overrightarrow{w}_{до}=A^{-1}\overrightarrow{w}_{после}
$$