# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

## Загрузка данных

In [None]:
# импортируем все необходимые библиотеки
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from numpy.random import RandomState
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

import matplotlib.pyplot as plt
import seaborn as sns

Откроем датасет

In [None]:
try:
    data = pd.read_csv('/datasets/insurance.csv')
except:
    data = pd.read_csv('C:/Users/goshe/OneDrive/Рабочий стол/Yandex_Praktikum/projects/Datasets/insurance.csv')

Изучим датасет

In [None]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [None]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Выделим целевой признак

In [None]:
features = data.drop(['Страховые выплаты'],axis=1)
target = data['Страховые выплаты']

Зафиксируем рэндом стейт

In [None]:
state = RandomState(12345)

Делим данные на тестовую и тренировочную выборки

In [None]:
train_features, test_features, train_target, test_target = train_test_split(features,target, test_size=0.25, random_state=state)

**Выводы:**

- Ознакомившись с данными можно сказать, что они не требуют какой-либо обработки
- Для решения задачи мы будем использовать матрицу признаков состоящую из 4-х колонок: "пол", "возраст", "зарплата", "члены семьи"
- "Страховые выплаты" являются целевым признаком, мы выделили его в таргет
- Разделили выборку на тестовую и тренировочную.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.*

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:**
При умножении признаков на обратимую матрицу качество линейной регрессии не изменится

**Обоснование:**
Воспользовавшись принципом ассоциативности матриц (A(BC)=(AB)C), а так же тем, что транспонированное произведение матриц равно произведению транспонированных матриц взятых в обратном порядке - перепишем формулу обучения:

$$
w1 = ((XP)^T XP)^{-1} XP^T y
$$
$$
=
$$
$$
w1 = (P^T(X^TX)P)^{-1} XP^T y
$$
$$
=
$$
$$
w1 = (P^T(X^TX)P)^{-1} P^TX^T y
$$
$$
=
$$
$$
w1 = P^{-1}(X^TX)^{-1}(PT)^{-1} P^TX^T y
$$
$$
=
$$
$$
w1 = P^{-1}(X^TX)^{-1}EX^T y
$$
$$
=
$$
$$
w1 = P^{-1}w
$$


Тоже самое, для формулы предсказаний:

$$
a1 = X1w1
$$


подставив получивщиеся значения X1 = XP и w1 = P^{-1}w, получим:

$$
a1 = XPP^{-1}w1
$$
$$
=
$$
$$
a1 = Xw
$$

## Алгоритм преобразования

**Алгоритм**

- Создаем случайную обратимую матрицу
- Умножаем признаки на матрицу в результате получаем новую матрицу признаков
- Вычисляем показатели R2 и RMSE для модели линейной регрессии на неизмененных признаках и на новой матрице признаков

**Обоснование**

- Если показатели R2 и RMSE признаков до умножения на случайную матрицу и после -  равны - значит данные надежно защищены.

## Проверка алгоритма

Создадим модель по исходным формулам для предсказания значений по неизменённым признакам

In [None]:
class LinearRegress:8
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = (np.linalg.inv(X.T.dot(X)).dot(X.T)).dot(y)
        self.w = w[1:]
        self.w0 = w[0]

    def predict(self, test_features):
        return test_features.dot(self.w) + self.w0

Модель без масштабирования признаков без преобразования

In [None]:
model = LinearRegress()
model.fit(train_features, train_target)
predict = model.predict(test_features)

R2_score = r2_score(test_target, predict)
MSE = mean_squared_error(predict,test_target)

print("R2_score неизмененной матрицы до масштибирования:", R2_score.round(2))
print("MSE неизмененной матрицы до масштибирования:", MSE.round(2))

R2_score неизмененной матрицы до масштибирования: 0.44
MSE неизмененной матрицы до масштибирования: 0.12


Модель с отмасштабированными признаками без преобразования

In [None]:
model_s = LinearRegress()
scaller = StandardScaler()
pipeline = Pipeline([("standard_scaller", scaller),("linear_regression", model_s)])
pipeline.fit(train_features, train_target)

scaled_r2_score = r2_score(test_target, pipeline.predict(test_features))
scaled_MSE = mean_squared_error(predict, test_target)

print("R2_score неизмененной матрицы после масштабирования:", scaled_r2_score.round(2))
print("MSE неизмененной матрицы после масштабирования:", scaled_MSE.round(2))

R2_score неизмененной матрицы после масштабирования: 0.44
MSE неизмененной матрицы после масштабирования: 0.12


**Проведем преобразование.**

Создадим случайную обратимую матрицу шириной 4, т.к. у нас в исходных данных 4 признака (не считая целевого).

In [None]:
matrix=np.random.normal(3, size=(4,4))
matrix

array([[3.04780896, 2.32737571, 2.83921641, 3.05973048],
       [2.15677504, 3.37228318, 2.21682663, 3.52953728],
       [2.59569182, 3.49072673, 1.45194717, 2.61531093],
       [0.8640486 , 2.8597487 , 3.70638679, 0.34087492]])

Проверим обратимость матрицы

In [None]:
np.linalg.inv(matrix)

array([[ 0.46309017, -0.77547682,  0.51695294, -0.09343437],
       [-0.42338034,  0.04875187,  0.41210166,  0.13372703],
       [ 0.22025639,  0.08258261, -0.39609639,  0.20685487],
       [-0.01679913,  0.65874147, -0.46085295, -0.20059567]])

Умножим признаки тренировочной выборки на случайную обратимую матрицу

In [None]:
train_matrix = train_features.dot(matrix)
train_matrix.columns = train_features.columns
train_matrix.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
3369,94060.697181,126514.502927,52662.356825,94829.426453
1441,149588.227172,201182.844651,83710.368509,150764.973691
571,106752.81478,143579.641413,59749.673665,107602.56538
225,117144.209173,157556.037466,65566.329665,118077.927258
2558,131414.907924,176747.77738,73549.095026,132451.889648


Умножим признаки тестовой выборки на случайную обратимую матрицу

In [None]:
test_matrix = test_features.dot(matrix)
test_matrix.columns = test_features.columns
test_matrix.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
3183,101306.610873,136261.06681,56713.920588,102114.964584
1071,111983.884426,150624.655719,62697.177278,112897.05979
2640,109365.787789,147093.441752,61216.271454,110245.301928
2282,90373.210946,121544.735867,50572.098166,91083.411185
1595,103919.556896,139778.771805,58183.602374,104758.511815


Проверим результат

In [None]:
# Модель без масштабирования признаков после преобразования
model_r = LinearRegression()
model_r.fit(train_matrix,train_target)
predictions_r = model_r.predict(test_matrix)

r2_score_r = r2_score(test_target, predictions_r)
MSE_r = mean_squared_error(predictions_r, test_target)

print("R2_score измененной матрицы до масштабирования:", r2_score_r.round(2))
print("MSE измененной матрицы до масштабирования:", MSE_r.round(2))

R2_score измененной матрицы до масштабирования: 0.44
MSE измененной матрицы до масштабирования: 0.12


Модель с отмасштабированными признаками после преобразования

In [None]:
model_sr = LinearRegression()
scaller = StandardScaler()
pipeline = Pipeline([("standard_scaller", scaller),("linear_regression", model_sr)])
pipeline.fit(train_features, train_target)

scaled_r2_score_r = r2_score(test_target, pipeline.predict(test_features))
scaled_MSE_r = mean_squared_error(predict, test_target)

print("R2_score измененной матрицы после масштабирования:", scaled_r2_score_r.round(2))
print("MSE измененной матрицы после масштабирования:", scaled_MSE_r.round(2))

R2_score измененной матрицы после масштабирования: 0.44
MSE измененной матрицы после масштабирования: 0.12


**Вывод:**
Метрики R2 и MSE остаются одинаковыми, что подтверждает возможность использования данного алгоритма для безопасного шифорвания данных.

**Общий вывод**
- Данные были загружены и проанализированы.
- Получен ответ в задаче об умножении матриц.
- Был разработал и применен алгоритм защиты данных клиентов страховой компании.