<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv('/datasets/insurance.csv')

In [3]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
df.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

In [6]:
df.duplicated().sum()

153

In [7]:
df = df.drop_duplicates()

In [8]:
features = df.drop(['Страховые выплаты'], axis=1)
target = df['Страховые выплаты']

**Выводы:**
* данные загружены
* удалены дубликаты
* проверены и подготовлены к работе

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Качество линейной регрессии не изменится при умножении признаков на обратную матрицу.

**Обоснование:** При умножении признаков на обратимую матрицу качество линейной регрессии не изменится, если определитель не равен нулю и матрица квадратная.  Матрица обратима тогда, когда её определитель не равен нулю и она является квадратной. 

$$
w' = ((XP)^T XP)^{-1} (XP)^T y
$$
$P^T$ выносим за скобки:

$$
w' = (P^T (X^T X) P)^{-1} (XP)^T y
$$
Так как $(XP)^T = P^T X^T$, производим замену:

$$
w' = P^T(X^T X) P)^{-1} P^T X^T y
$$
Вынесем $P^{-1}$ за скобки:

$$
w' = P^{-1}(X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$
Так как $(P^T)^{-1} P^T = E$ (единичную матрицу), заменяем:

$$
w' = P^{-1}(X^T X)^{-1} EX^T y
$$
При умножении матрицы на единичную матрицу получается та же самая матрица:

$$
w' = P^{-1}(X^T X)^{-1} X^T y
$$
Правая часть $(X^T X)^{-1} X^T y$ представляет собой формулу w:

$$
w' = P^{-1} w
$$

## Алгоритм преобразования

**Алгоритм**

Необходимо рассчитать параметр w (вектор весов линейной регрессии).
Далее необходимо рассчитать этот же пареметр, но в исходной формуле изменить параметр Х на ХР(исходные признаки умноженные на обратную матрицу).
В итоге, в обоих случаях параметры w должны совпадать.

**Обоснование**

Формула:

$$
w = ((XP)^T XP)^{-1} (XP)^T y
$$

In [9]:
features_train, features_test, target_train, target_test = train_test_split(features, target, 
                                                                            test_size=0.3, random_state=12345)

In [10]:
X = np.concatenate((np.ones((features_train.shape[0], 1)), features_train), axis=1)
y = target_train

In [11]:
#создаем матрицу-шифр для кодирования данных
def generate_invertible_matrix(size):
    try:
        matrix = np.random.normal(size=(size, size))
        # проверим матрицу на обратимость, если нет, пробуем сгенерировать еще раз
        # таким образом гарантируем, что матрица стопроцентно будет обратимой
        np.linalg.inv(matrix)
    except np.linalg.LinAlgError:
        matrix = generate_invertible_matrix()
    
    return matrix

In [12]:
# размер матрицы должен совпадать с шириной исходной матрицы признаков
matrix_random = generate_invertible_matrix(4)


In [13]:
# кодируем (умножаем) признаки на созданную матрицу
features_train_coded = features_train.values.dot(matrix_random)
features_test_coded = features_test.values.dot(matrix_random)

In [14]:
#проверим на возможность раскодировать данные, умножив закодированные признаки на обратную матрицу-шифр
print(features_train_coded.dot(np.linalg.inv(matrix_random)))

[[ 1.00000000e+00  2.20000000e+01  3.71000000e+04  1.00000000e+00]
 [ 8.52434373e-12  4.60000000e+01  4.21000000e+04  2.00000000e+00]
 [ 7.21591516e-12  2.30000000e+01  4.16000000e+04 -4.15962558e-12]
 ...
 [ 1.00000000e+00  2.00000000e+01  2.89000000e+04  1.00000000e+00]
 [ 1.00000000e+00  3.30000000e+01  3.88000000e+04  1.00000000e+00]
 [ 1.23057833e-11  4.10000000e+01  4.73000000e+04  2.00000000e+00]]


In [15]:
print(features_train.values)

[[1.00e+00 2.20e+01 3.71e+04 1.00e+00]
 [0.00e+00 4.60e+01 4.21e+04 2.00e+00]
 [0.00e+00 2.30e+01 4.16e+04 0.00e+00]
 ...
 [1.00e+00 2.00e+01 2.89e+04 1.00e+00]
 [1.00e+00 3.30e+01 3.88e+04 1.00e+00]
 [0.00e+00 4.10e+01 4.73e+04 2.00e+00]]


Матрица вернула первоначальный вид.

## Проверка алгоритма

In [16]:
# 1. Напишем функцию для проверки качества регрессии

def quality_check(features_train, target_train, features_test, target_test):
    model = LinearRegression() # модель - линейная регрессия
    model.fit(features_train, target_train) # обучаем модель
    predictions = model.predict(features_test) # строим предсказания на валидационной выборке
    return r2_score(target_test, predictions) # считаем R2
    

In [17]:
# 2. Проверяем исходную матрицу признаков

print('R2 исходный =', quality_check(features_train, target_train, features_test, target_test))

R2 исходный = 0.4328755262191937


In [18]:
# 3. Проверяем преобразованную матрицу признаков

print('R2 преобразованный =', quality_check(features_train_coded, target_train, features_test_coded, target_test))

R2 преобразованный = 0.43287552621923264


Качество модели линейной регрессии после умножения признаков на рандомную матрицу осталось таким же, как и на исходных данных.

**Выводы:**
Вектор весов линейной регрессии при умножении признаков на обратную матрицу не изенился.

**Выводы:**
Качество предсказаний в обоих случаях эквивалентно с учетом правил округления.