# Защита персональных данных клиентов

## Загрузка данных

In [53]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [54]:
data = pd.read_csv('/datasets/insurance.csv')
data

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


In [55]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [56]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


### Вывод:

- Информация о структуре данных - двумерная(DataFrame);
- таблица имеет 5000 строк и 5 столбцов;
- присутствуют названия столбцов и количество ненулевых значений;
- в таблице присутствуют значения типов float(2 столбца), int(3 столбца);
- использование памяти.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Обоснование:** 

Возьмем новую матрицу признаков X1 она будет равна произведению матрицы X на матрицу P(обратимую):

$$
X1 = X * P
$$

Подставим новое значение X1 в формулу w1:

$$
w1 = ((XP)^T XP)^{-1} (XP)^T y
$$

Раскроем первое произведение (XP)^T:

$$
w1 = (X^T P^T XP)^{-1} X^T P^T y
$$

Cгруппируем множители в скобках:

$$
w1 = (P^T(X^TX)P)^{-1} X^T P^T y
$$

Расскроем скобки:

$$
w1 = (P^T)^{-1}(X^TX)^{-1}P^{-1} X^T P^T y
$$

Видим, что у нас образовалась обратная матрица (P^T)^{-1}P^T, а она равна Е(единичная матрица), преобразуем формулу:

$$
w1 = P^{-1}(X^TX)^{-1}E X^T y
$$

Так как Е - единичная матрица, то можно убрать ее из формулы и увидим , что образовалась формула w:

$$
w1 = P^{-1}w
$$

Предсказания рассчитываются по формуле выше a = Xw, чтобы вычислить предсказания модели а1, подставим в формулу Х1 и w1:

$$
a1 = X1w1
$$

Так как Х1=ХР, а w1 = P^{-1}w, выражение получится следующим:

$$
a1 = XPP^{-1}w
$$

Cнова образовлась единичная матрица:

$$
a1 = EXw
$$

Видно, что:

$$
a1 = Xw = a
$$

### Вывод:

Отвечая на вопрос изменится ли качество линейной регрессии при умножении признаков на обратимую матрицу - нет, не изменится.

## Алгоритм преобразования

**Алгоритм:**
В качестве алгоритма преобразования предложим матрицу с рандомными величинами, у которой существует обратная к ней матрица.

**Обоснование:**

In [57]:
features = data.drop(['Страховые выплаты'], axis=1) #признаки
target = data['Страховые выплаты'] #целевой признак

Разделим признаки на обучающую и тестовую выборки:

In [58]:
features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.25, random_state=12345)

Мы будем работать с матрицами, поэтому преобразуем наши выборки в матрицы:

In [59]:
matrix_features_train = features_train.values
matrix_features_test = features_test.values

Проверим размер полученных матриц:

In [60]:
print(matrix_features_train.shape)
print(matrix_features_test.shape)

(3750, 4)
(1250, 4)


Чтобы сделать рандомную матрицу 4х4 можно воспользоваться функцией из библиотеки numpy - np.random.randn:

In [61]:
rand_matrix = np.random.randn(4, 4)
rand_matrix

array([[-0.85927937,  0.1908611 ,  1.59106281,  1.58688391],
       [ 0.75421354,  0.65902367, -2.03429892, -0.34384228],
       [ 1.43719853,  0.39287154,  1.04374992,  0.78005563],
       [-0.29024048, -0.62723663,  1.58410833, -1.28889225]])

Проверим матрицу на обратимость. Для этого умножим её на обратную ей матрицу функцией 

In [62]:
np.round(rand_matrix @ np.linalg.inv(rand_matrix))

array([[ 1., -0., -0., -0.],
       [ 0.,  1., -0.,  0.],
       [ 0., -0.,  1.,  0.],
       [-0.,  0.,  0.,  1.]])

Матрица получилась единичная, значит наша рандомная матрица является обратимой.

Для дальнейшего исследования перемножим тренировочную и тестовую матрицы на нашу рандомную обратимую матрицу:

In [63]:
rand_dot_matrix_features_train = matrix_features_train.dot(rand_matrix)
rand_dot_matrix_features_test = matrix_features_test.dot(rand_matrix)

## Проверка алгоритма

In [64]:
model = LinearRegression()
model.fit(matrix_features_train, target_train)
predicted_usual = model.predict(matrix_features_test)
r2_usual = model.score(matrix_features_test, target_test)

In [65]:
model.fit(rand_dot_matrix_features_train, target_train)
predicted_multiplied = model.predict(rand_dot_matrix_features_test)
r2_multiplied = model.score(rand_dot_matrix_features_test, target_test)

In [66]:
print(r2_usual)
print(r2_multiplied)

0.435227571270266
0.43522757127073264


### Вывод: 

Проверили качество модели (Линейная регрессия) с помощью метрики R2. Показатели метрик одинаковы, делаем вывод, что алгоритм работает.