# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Создание-матрицы-шифрования" data-toc-modified-id="Создание-матрицы-шифрования-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Создание матрицы шифрования</a></span></li><li><span><a href="#Проверка-качества-модели-до-преобразования" data-toc-modified-id="Проверка-качества-модели-до-преобразования-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Проверка качества модели до преобразования</a></span></li><li><span><a href="#Проверка-качества-модели-после-преобразования" data-toc-modified-id="Проверка-качества-модели-после-преобразования-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Проверка качества модели после преобразования</a></span></li></ul></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
rs = 12345

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Проверим уникальные значения каждого столбца

In [3]:
for column in df.columns:
    print('Уникальные значения столбца', column)
    print(df[column].unique())

Уникальные значения столбца Пол
[1 0]
Уникальные значения столбца Возраст
[41. 46. 29. 21. 28. 43. 39. 25. 36. 32. 38. 23. 40. 34. 26. 42. 27. 33.
 47. 30. 19. 31. 22. 20. 24. 18. 37. 48. 45. 44. 52. 49. 35. 56. 65. 55.
 57. 54. 50. 53. 51. 58. 59. 60. 61. 62.]
Уникальные значения столбца Зарплата
[49600. 38000. 21000. 41700. 26100. 41000. 39700. 38600. 49700. 51700.
 36600. 29300. 39500. 55000. 43700. 23300. 48900. 33200. 36900. 43500.
 36100. 26600. 48700. 40400. 38400. 34600. 34800. 36800. 42200. 46300.
 30300. 51000. 28100. 64800. 30400. 45300. 38300. 49500. 19400. 40200.
 31700. 69200. 33100. 31600. 34500. 38700. 39600. 42400. 34900. 30500.
 24200. 49900. 14300. 47000. 44800. 43800. 42700. 35400. 57200. 29600.
 37400. 48100. 33700. 61800. 39400. 15600. 52600. 37600. 52500. 32700.
 51600. 60900. 41800. 47400. 26500. 45900. 35700. 34300. 26700. 25700.
 33300. 31100. 31500. 42100. 37300. 42500. 27300. 46800. 33500. 44300.
 41600. 53900. 40100. 44600. 45000. 32000. 38200. 33000. 38500

Все признаки имеют целочисленные значения. Столбцы "Возраст" и "Зарплата" можно перевести к целочисленному типу.

In [4]:
df[["Возраст","Зарплата"]] = df[["Возраст","Зарплата"]].astype(int)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Пол                5000 non-null   int64
 1   Возраст            5000 non-null   int64
 2   Зарплата           5000 non-null   int64
 3   Члены семьи        5000 non-null   int64
 4   Страховые выплаты  5000 non-null   int64
dtypes: int64(5)
memory usage: 195.4 KB


Выделим целевой признак

In [6]:
features = df.drop(['Страховые выплаты'] , axis=1)
target = df['Страховые выплаты']

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** не изменится.

**Обоснование:** 
$$
a_1 = XPw_1
$$

$$
w_1 = ((XP)^T (XP))^{-1} (XP)^T y 
$$

$$
a_1 = XP((XP)^T (XP))^{-1} (XP)^T y
$$

$$
a_1 = XP((P^T X^T XP)^{-1} P^T X^T y
$$

$$
a_1 = XP P^{-1}(X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$

$$
P P^{-1}=E, (P^T)^{-1} P^T=E 
$$

$$
a_1 = X(X^T X)^{-1} X^T y
$$

$$
a = Xw = X(X^T X)^{-1} X^T y
$$

$$
a_1 = a
$$

Значение предсказания не меняется, если умножать матрицу признаков на обратимую матрицу.

Уравнение связи между исходными весами  𝑤 и преобразованными  𝑤1:
$$
w_1 = P^{-1}(X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$

$$
w = (X^T X)^{-1} X^T y
$$

$$
w_1 = P^{-1} (P^T)^{-1} P^T w
$$

$$
(P^T)^{-1} P^T=E 
$$

$$
w_1 = P^{-1}  w
$$

## Алгоритм преобразования

**Алгоритм**

-Составление квадратной матрицы с размерностью эквивалентной количеству признаков 

-Проверка матрицы на обратимость.

-Получение матрицы преобразованных признаков 

-Применение алгоритма на преобразованных признаках 


**Обоснование**

При умножении каждого набора строк-векторов из исходной таблицы на одинаковые наборы столбцов-векторов  из случайной матрицы , итоговые веса каждого такого вектора будут примерно соотносится с весами набора признаков для каждого нового набора векторов в результирующей матрице.

## Проверка алгоритма

### Создание матрицы шифрования

Создадим случайную квадратную матрицу M с размерностью n равной количеству признаков.

In [7]:
n = features.shape[1]
M = np.random.randint(1, 10, (n,n))
determ = np.linalg.det(M)
display(M)
display(determ)

array([[4, 7, 5, 5],
       [8, 5, 1, 4],
       [4, 1, 7, 8],
       [8, 2, 1, 6]])

-395.99999999999966

Условие обратимости случайной матрицы:

In [8]:
while determ==0:
    matrix = np.random.randint(1, 10, (n,n))
    determ = np.linalg.det(M)
display(M)
display(determ)

array([[4, 7, 5, 5],
       [8, 5, 1, 4],
       [4, 1, 7, 8],
       [8, 2, 1, 6]])

-395.99999999999966

### Проверка качества модели до преобразования

Разделим на тренировочную и тестовую выборки

In [9]:
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=rs)

Обучим модель линейной регрессии и проверим R2 значение:

In [10]:
model = LinearRegression()
model.fit(features_train, target_train)
R2 = r2_score(target_test, model.predict(features_test))
print("R2 =", R2)

R2 = 0.4352275684083322


### Проверка качества модели после преобразования

Преобразуем features, с помощью умножения на матрицу M

In [11]:
features_X = features@M
features_X.head()

Unnamed: 0,0,1,2,3
0,198740,49814,347247,396975
1,152376,38232,266047,304190
2,84232,21145,147029,168116
3,166984,41809,291923,333696
4,104628,26247,182733,208917


Разделим на тренировочную и тестовую выборки

In [12]:
features_X_train, features_X_test, target_train, target_test = train_test_split(
    features_X, target, test_size=0.25, random_state=rs)

Обучим модель линейной регрессии и проверим R2 значение:

In [13]:
model = LinearRegression()
model.fit(features_X_train, target_train)
R2 = r2_score(target_test, model.predict(features_X_test))
print("R2 =", R2)

R2 = 0.43522756840828225


Вывод: Качество модели после преобразования идентично качеству модели после преобразовния, метрики R2 совпадают.