# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

# Инструкция по выполнению проекта

1. Загрузите и изучите данные.
2. Ответьте на вопрос и обоснуйте решение. 
 Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
- Изменится. Приведите примеры матриц.
- Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.
3. Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.
4. Запрограммируйте этот алгоритм, применив матричные операции. Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.

# Описание данных

- Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
- Целевой признак: количество страховых выплат клиенту за последние 5 лет.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import warnings
warnings.simplefilter(action='ignore', category=UserWarning)

In [2]:
try:
    df = pd.read_csv('/datasets/insurance.csv')
except:
    df = pd.read_csv('D:/Yandex/insurance.csv')

In [3]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [6]:
df.corr()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
Пол,1.0,0.002074,0.01491,-0.008991,0.01014
Возраст,0.002074,1.0,-0.019093,-0.006692,0.65103
Зарплата,0.01491,-0.019093,1.0,-0.030296,-0.014963
Члены семьи,-0.008991,-0.006692,-0.030296,1.0,-0.03629
Страховые выплаты,0.01014,0.65103,-0.014963,-0.03629,1.0


In [7]:
df.duplicated().sum()

153

In [8]:
df = df.drop_duplicates()

In [9]:
df.isnull().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

- Загрузили и изучили данные
- Пропусков в данных нет
- Удалили явные дубликаты

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** не изменится.

**Обоснование:** Изменение качества предсказания линейной регрессии не происходит при умножении признаков исходных данных, на обратимую матрицу, т.к. параметры линейной регрессии в исходной задаче и в преобразованной связаны между собой алгоритмом преобразования признаков, по результату работы которого предсказание вычисляется методом умножения признаков исходных данных на вектор по длине равный ширине таблицы признаков, который в свою очередь умножается на целевые признаки. По результату скалярного умножения создаётся число, на которое умножается тестовая выборка, и если эта выборка была преобразована умножением на ту же матрицу, то качество предсказания не изменится.

Таким образом, если изменить исходные данные методом умножения признаков на обратимую матрицу, не изменяя значений целевого признака, качество предсказания модели не изменится.

$$
AA^{-1} = A^{-1}A = E
$$
$$
AE = EA = A
$$
$$
w_{new} = ((XP)^T (XP))^{-1} (XP)^T y
$$
$$
w_{new} = (P^T X^T XP)^{-1} P^T X^T y
$$
$$
w_{new} = (P^T X^T XP)^{-1} P^T X^T y
$$
$$
w_{new} = (P^T (X^T X) P)^{-1} P^T X^T y
$$
$$
w_{new} = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$
$$
w_{new} = P^{-1} X^{-1} (X^T)^{-1} X^T y
$$
$$
w_{new} = P^{-1} (X^T X)^{-1} X^T y
$$
$$
w_{new} = P^{-1} w
$$
$$
a_{new} = X P w_{new} a_{new} = X P P^{-1} w a_{new} = X w = a
$$

$$ 
w_{new} = (X_{new}^T X_{new})^{-1} X_{new}^Ty
$$
$$
w_{new} = ((X P)^T (X P))^{-1} (X P)^T y
$$
$$
((XP)^T (XP))^{-1} (XP)^T y =
$$
$$
(P^T X^T X P)^{-1} P^T X^T y =
$$
$$
(P^T (X^T X) P)^{-1} P^T X^T y =
$$
$$
P^{-1} (P^T (X^T X))^{-1} P^T X^T y =
$$
$$
P^{-1} (X^TX)^{-1} (P^T)^{-1} P^T X^T y =
$$
$$
P^{-1} (X^TX)^{-1} E X^T y =
$$
$$
P^{-1} (X^TX)^{-1} X^T y
$$
$$
w_{new} = P^{-1} (X^T X)^{-1} X^T y
$$
$$
w_{new} = P^{-1}w
$$
$$
a_{new} = X_{new}w_{new}
$$
$$
a_{new} = XPP^{-1} (X^T X)^{-1} X^T y
$$
$$
a_{new} = XE(X^T X)^{-1} X^T y
$$
$$
a_{new} = X(X^T X)^{-1} X^T y
$$
$$
a_{new} = Xw = a
$$

## Алгоритм преобразования

**Алгоритм**

- Разобьём исходные данные, выделив целевой признак.
- Разделим данные на обучающую и тестовую выборки.
- Создадим класс модели машинного обучения LinearRegression и получим значение метрики R2.
- Сгенерируем случайную обратимую матрицу.
- Преобразовываем данные с помощью умножения матрицы.
- Получим значение метрики R2 для линейной регрессии после преобразования.

**Обоснование:** если мы произведём умножение признаков тренировочной и тестовой выборок на одну и ту же обратимую матрицу, то результатом предсказания будет произведение нашей изменённой таблицы с признаками на вектор, который был получен из той же таблицы с изменёнными данными увеличенную на ту же величину, что и признаки тренировочных данных.

## Проверка алгоритма

In [10]:
# Разобьём исходные данные, выделив целевой признак. Разделим данные на обучающую и тестовую выборки.
features = df.drop(columns='Страховые выплаты', axis=1)
target = df['Страховые выплаты']
features_train, features_test, target_train, target_test = train_test_split(features, target, 
                                                                            random_state=42, shuffle=True, test_size=0.25)

In [11]:
# Создадим класс модели машинного обучения LinearRegression и получим значение метрики R2.
class LinearRegression:
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w =  np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
        self.w = w[1:]
        self.w0 = w[0]

    def predict(self, test_features):
        return test_features.dot(self.w) + self.w0
    
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
print('Значение метрики R2 для линейной регрессии',r2_score(target_test, predictions))

Значение метрики R2 для линейной регрессии 0.44346330831611946


In [12]:
# Сгенерируем матрицу.
random_matrix = np.random.normal(size=(df.shape[1] - 1, df.shape[1] - 1))
display(random_matrix)

array([[-0.66031676,  0.76629148,  0.70688524, -1.85128135],
       [ 0.35816094, -0.11203008,  1.58740246, -1.2503016 ],
       [-0.99758324, -1.73262118, -1.71496034, -0.00283675],
       [ 0.70991419, -0.94265005, -1.98011614, -2.32976042]])

In [13]:
# Проверка обратимости матрицы.
display(np.round(random_matrix @ np.linalg.inv(random_matrix)))

array([[ 1., -0., -0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [-0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

In [14]:
# Получим значение метрики R2 для линейной регрессии после преобразования.
features_train = features_train.dot(random_matrix)
features_test = features_test.dot(random_matrix)
    
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
print('Значение метрики R2 для линейной регрессии после преобразования',r2_score(target_test, predictions))

Значение метрики R2 для линейной регрессии после преобразования 0.44346330860359207


Применив метрику R2, мы проверили, что качество линейной регрессии из sklearn не отличается до и после преобразования исходной матрицы.

Разработан такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

Входные данные - данные клиентов страховой компании «Хоть потоп».

Результаты исследования позволят защитить данные клиентов страховой компании «Хоть потоп».

Перед проведением исследования была сформулирована гипотеза:

Гипотеза: при умножении признаков на обратимую матрицу качество линейной регрессии не меняется.
В результате удалось получить следующие результаты.

Гипотеза подтверждена:

0.44 - значение метрики R2 модели для исходной матрицы;
0.44 - значение метрики R2 модели для преобразованной матрицы.

Можно применять разработанный метод преобразования данных - умножение матрицы признаков исходного датасета на случайную матрицу, так как при преобразовании качество моделей машинного обучения не ухудшается.