<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
from numpy.linalg import inv
from numpy.random import randn
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline

In [2]:
data = pd.read_csv("/datasets/insurance.csv")

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Нет, качество линейной регрессии не изменится.

**Обоснование:** Линейная регрессия — это метод моделирования связи между зависимой переменной (целевой) и одной или несколькими независимыми переменными (признаками). В модели предполагается, что связь между переменными является линейной, т. е. уравнение модели имеет вид:

$$
y=Xβ+ε
$$

где:

- y — целевой столбец,
- Х — матрица признаков,
- β — вектор параметров, которые модель пытается изучить,
- ε — смещение (или ошибка).

Если мы умножим признаки $X$ на обратимую матрицу $P$, мы получим новую матрицу признаков $X'$, где $X'=XP$. Вопрос в том, изменится ли качество линейной регрессии, если ее переобучить с помощью $X′$ вместо $X$.

Параметры линейной регрессии для $X'$ будут следующими: $β'=(X'^TX')^{-1}X'^Ty=(P^TX^TXP)^{-1}P^TX^Ty=P^{-1}β$, где $β$ - параметры исходной задачи.

Таким образом, хотя параметры линейной регрессии $β$ изменятся на $β′$, прогнозы, сделанные моделью, не изменятся. Это связано с тем, что когда мы делаем прогноз с помощью $X′$ и $β′$, мы получаем $X′β′=XP(P^{-1}β)=Xβ$, что является тем же прогнозом, который мы получили бы с $X$ и $β$.

## Алгоритм преобразования

**Алгоритм**

Задача требует от нас предложить алгоритм преобразования данных, затрудняющий восстановление личной информации. Один из способов добиться этого — использовать технику под названием «Матричное маскирование». Вот как это работает:

- **Шаг 1 - Сгенерируем обратимую матрицу $P$:** Для этого мы сначала инициализируем случайную квадратную матрицу того же размера, что и количество признаков в нашем наборе данных. Мы используем функцию random.rand numpy, чтобы заполнить эту матрицу случайными числами. Однако нам нужно убедиться, что эта матрица обратима. Квадратная матрица обратима тогда и только тогда, когда ее ранг равен количеству ее строк (или столбцов). Итак, мы проверяем ранг сгенерированной матрицы, используя функцию linalg.matrix_rank numpy. Если ранг меньше числа признаков, это означает, что матрица необратима. В этом случае мы генерируем новую случайную матрицу. *Мы повторяем этот процесс, пока не получим матрицу полного ранга, которая гарантированно будет обратимой.* **Этот процесс реализован в цикле while**, который продолжает генерировать новые матрицы до тех пор, пока не будет найдена обратимая. Вероятность того, что случайно сгенерированная квадратная матрица необратима, практически равна нулю, поэтому ожидается, что этот цикл будет выполняться только несколько раз, если вообще будет выполнен, прежде чем будет найдена обратимая матрица.

- **Шаг 2 - Умножаем матрицу признаков $X$ на матрицу $P$**: На этом шаге исходный набор данных преобразуется таким образом, что его трудно восстановить без знания матрицы $P$. Если мы сохраним $P$ в секрете, злоумышленнику будет трудно восстановить исходные данные из преобразованных данных.

Также существует несколько других способов создания обратимой матрицы:

1. **Единичная матрица**: самый простой пример — матрица идентичности. Это квадратная матрица, в которой все элементы главной диагонали равны единицам, а все остальные элементы — нулям. Единичная матрица любого размера всегда обратима.

2. **Диагональная матрица с ненулевыми диагональными элементами**: диагональная матрица (все недиагональные элементы равны нулю) со всеми ненулевыми диагональными элементами обратима. Обратная такой матрице - это просто диагональная матрица с обратной величиной каждого диагонального элемента исходной матрицы на ее диагонали.

3. **Ортогональные матрицы**: Ортогональная матрица — это тип квадратной матрицы, столбцы и строки которой являются ортогональными единичными векторами. Ортогональные матрицы всегда обратимы, и, что интересно, обратной ортогональной матрицей является ее транспонирование.

4. **Случайная матрица с полным рангом**: Как уже было сказано выше, мы можем сгенерировать квадратную матрицу со случайными числами. Пока матрица имеет полный ранг (т. е. все строки и столбцы линейно независимы), она обратима. На практике вероятность случайного создания квадратной матрицы, которая не имеет полного ранга, практически равна нулю.

<font color='green'>Для преобразования данных в этой задаче мы можем придерживаться метода генерации случайной квадратной матрицы. Это просто, с большой вероятностью получится обратимая матрица, а случайность добавляет дополнительный уровень безопасности для защиты данных.</font>

**Обоснование**

- Умножение матрицы признаков на обратимую матрицу приводит к преобразованию набора данных, которое трудно обратить вспять, не зная матрицы $P$. Если $P$ хранится в секрете, злоумышленнику становится трудно восстановить исходные данные из $X'$.

- Причина, по которой качество линейной регрессии не изменится, связана со свойствами моделей линейной регрессии. Как объяснялось в предыдущем ответе, когда мы умножаем признаки на обратимую матрицу, параметры модели линейной регрессии изменяются таким образом, что прогнозы, сделанные моделью, остаются прежними. Следовательно, производительность модели линейной регрессии (измеряемая такими показателями, как R2) не изменится.

- Это свойство моделей линейной регрессии позволяет нам использовать матричную маскировку в качестве механизма защиты данных, не жертвуя полезностью данных для целей машинного обучения.

## Проверка алгоритма

In [6]:
# Отделим признаки и целевую переменную
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

# Разделим данные на обучающие и тестовые наборы
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.2, random_state=42)

# Подгонка модели линейной регрессии к обучающим данным
model = LinearRegression()
model.fit(features_train, target_train)

# Сделаем прогнозы и вычислим метрику R2 на тестовом наборе
predictions = model.predict(features_test)
r2_before = r2_score(target_test, predictions)

# Создадим случайную квадратную матрицу, которая является обратимой
random_state = np.random.RandomState(42)
P = random_state.rand(features_train.shape[1], features_train.shape[1])
while np.linalg.matrix_rank(P) < features_train.shape[1]:
    P = random_state.rand(features_train.shape[1], features_train.shape[1])

# Преобразуем признаки, умножив их на матрицу P
transformed_features_train = features_train @ P
transformed_features_test = features_test @ P

# Подгонка модели линейной регрессии на преобразованных данных
transformed_model = LinearRegression()
transformed_model.fit(transformed_features_train, target_train)

# Сделаем прогнозы и вычислим метрику R2 на преобразованном тестовом наборе
transformed_predictions = transformed_model.predict(transformed_features_test)
r2_after = r2_score(target_test, transformed_predictions)

r2_before, r2_after

(0.43686949231379935, 0.4368694923138293)

**Оценка R2 модели линейной регрессии до преобразования данных составляла примерно 0.437. После преобразования данных путем умножения признаков на обратимую матрицу показатель R2 остался примерно таким же (0.437).**

**Этот результат подтверждает наш предыдущий теоретический анализ: преобразование пространства признаков путем умножения на обратимую матрицу не влияет на прогностическую эффективность модели линейной регрессии. Таким образом, предлагаемый алгоритм преобразования данных является допустимым методом защиты конфиденциальной информации в наборе данных без ущерба для полезности данных для задач машинного обучения.**

In [7]:
# Пользовательский трансформер для преобразования данных
class MatrixTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, feature_names):
        self.feature_names = feature_names
        self.P = None

    def fit(self, X, y=None):
        random_state = np.random.RandomState(42)
        self.P = random_state.rand(len(self.feature_names), len(self.feature_names))
        while np.linalg.matrix_rank(self.P) < len(self.feature_names):
            self.P = random_state.rand(len(self.feature_names), len(self.feature_names))
        return self

    def transform(self, X):
        return X @ self.P

# Конвейер для преобразования данных и линейной регрессии
pipe_crypto = Pipeline([
     ('transformer', MatrixTransformer(features.columns)),
     ('model', LinearRegression()),
])

# Подгонка конвейера к обучающим данным
pipe_crypto.fit(features_train, target_train)

# Сделаем прогнозы на тестовом наборе
pipeline_predictions = pipe_crypto.predict(features_test)

# Рассчитаем метрику R2
r2_pipeline = r2_score(target_test, pipeline_predictions)

r2_before, r2_after, r2_pipeline

(0.43686949231379935, 0.4368694923138293, 0.4368694923138293)