**Проект Защита данных клиентов страховой компании**

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span><ul class="toc-item"><li><span><a href="#Задание" data-toc-modified-id="Задание-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Задание</a></span></li></ul></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

In [1]:
# блок импорта
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from random import randint, random

## Загрузка данных

In [2]:
data = pd.read_csv('/datasets/insurance.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [3]:
# сводная таблица по датасету в целом
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [4]:
# сводная таблица по кол-ву выплат клиентам разных возрастов
counts = list(range(6))
columns=["Кол-во выплат", "Средний возраст", "Кол-во получивших выплаты"]
res = {"Средний возраст": [], "Кол-во получивших выплаты": []}
for count in counts:
    res["Средний возраст"].append(data.loc[data["Страховые выплаты"] == count]["Возраст"].mean())
    res["Кол-во получивших выплаты"].append(data.loc[data["Страховые выплаты"] == count]["Возраст"].count())
result = pd.DataFrame(res).reset_index()
result.columns = columns
result

Unnamed: 0,Кол-во выплат,Средний возраст,Кол-во получивших выплаты
0,0,28.970694,4436
1,1,44.706856,423
2,2,50.86087,115
3,3,55.833333,18
4,4,60.0,7
5,5,65.0,1


In [5]:
# корреляция по Пирсону возраста-выплат
data['Возраст'].corr(data['Страховые выплаты'])

0.6510300979467275

**Вывод:**
* данные прочитаны
* пустых значений нет
* формат данных числовой по всем признакам
* в связи с тем, что работать по анализу датасета не нужно, переименовывать столбцы не обязательно.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

### Задание

Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? 

**Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.**

**Ответ:**  
Покажем, что параметры линейной регрессии в исходной и преобразованной задачах связаны через линейную зависимость, что никак не влияет на суть функции.

**Обоснование:**

Пусть $P$ - обратимая матрица (квадратная), т.е. существует матрица $P^{-1}$ такая, что $PP^{-1}=E$ (1), где $Е$ - единичная матрица.  
Покажем, что при умножении матрицы признаков $X$ на произвольную обратимую матрицу $P$ вектор весов линейной регрессии $w$  изменяется линейно, т.е. происходит масштабирование вектора, но не его изменение.

Пусть при первоначальных условиях наш вектор весов линейной регрессии был  (0):
$$
w = (X^T X)^{-1} X^T y
$$

В новых условиях у нас изменяется матрица признаков, теперь она не просто $X$, а $XP$, т.е. все операции в формуле вычисления вектора весов линейной регрессии будут принимать в качестве аргумента матрицу, которая является произведением двух матриц одного размера, одна из которых обратима и выбрана произвольно.

Обзначим через $w'$ новый вектор весов для матрицы признаков $XP$ и вычислим его по формуле обучения.

Нам понадобятся:
* правило транспонирования приозведения матриц (2):  
$$ (AB)^T = B^T A^T $$
* наличие обратной матрицы у произведения матриц при условии, что **каждая из них обратима** (3):
$$ (AB)^{-1} = B^{-1} A^{-1} $$
* наличие обратной матрицы у транспонированной матрицы при условии, что **до транспонирования матрица тоже имела обратную** (4):
$$ (A^T)^{-1} = (A^{-1})^T $$

Наша матрица **Х** прямоугольная, т.е. у нее изначально нет обратной матрицы, поэтому до момента умножения ее на $X^T$ говорить о наличии обратной матрицы нет смысла.

Итак, **Р** - обратимая (квадратная) матрица (мы ее сами создаем), то ее размерность никак не влияет на размерность результирующей матрицы **ХP**, т.к. размер матрицы **Х** = (m, n), а размер матрицы **Р** = (n, n), размер матрицы **ХР** совпдает с размером матрицы **Х** и равен (m, n).  
  
Размер транспонированной матрицы $X^T$ равен (n, m) и размер транспонированной матрицы $(ХР)^T$ тоже (n, m), отсюда получаем, что в результате умножения прямой матрицы на транспонированную образуется квадратная матрица размером (m, m), для которой может существовать обратная матрица. Причем матрица $Х^T$ может быть умножена только на матрицу $Х$, а матрицы $P^T$ и $P$ умножаются только между собой, т.к. они уже не согласовываются с матрицей произведения $X X^T$

$$
w' = (P^T (X^T X) P)^{-1}(XP)^Ty
$$

Получили три квадратные матрицы, которые предположительно обратимы. Можно выполнить преобразования (3), а затем (2) и перегруппировку для умножения по согласованию размерностей:

$$
w'= (X^T X)^{-1} X^T P^{-1} (P^T)^{-1} P^T y
$$

Обозначим через **Р'** группу преобразований над матрицей **P**:

$$
P' = (P^{-1} (P^T)^{-1} P^T
$$

Вектор целевого признака имеет размерность n, т.е. он согласуется как с матрицей $(X^T X)^{-1} X^T$, так и с матрицей $P'$. Для получения вывода обособим выражение $w$ внутри нашей формулы. В итоге получаем:

$$
w' = (X^T X)^{-1} X^T y P'
$$

$$
w' = w P'
$$

**Вывод:**  
Матрица **Р** - это случайная числовая обратимая квадратная матрица, которая сравнима с константой. Фактически, мы получили линейную зависимость между векторами w' и w. Т.е. в итоге мы просто масштабируем в удобном нам виде коэффициенты нашей линейной регрессии исходной задачи. На вид функции масштабирование коэффициентов не влияет (прямая остается прямой, парабола - параболой и т.п.).

**Примеры обратимой случайной матрицы Р**

In [6]:
# n - размер матрицы
n = 5
matr = np.random.normal(size=(n, n))
print(f'Матрица {n} Х {n}')
matr

Матрица 5 Х 5


array([[-0.09885049,  0.84581563, -0.43091462, -0.48486282, -0.75979785],
       [-0.55859485,  1.52647557, -0.39874464,  1.0307636 , -0.0799968 ],
       [-1.58673123,  0.76530915,  0.5304898 ,  0.13246814,  1.13991707],
       [ 1.21442581,  0.12431285, -2.12549149,  0.18043669,  1.14834993],
       [-0.32976871,  1.21266813, -1.30852662, -0.37413662,  1.4861435 ]])

In [7]:
print('Обратная матрица:')
np.linalg.inv(matr)

Обратная матрица:


array([[-2.21138162,  0.67976368, -2.88281726, -2.0723072 ,  2.71850084],
       [-1.30598722,  0.74473609, -1.9643499 , -1.72884226,  2.21499613],
       [-2.02360812,  0.5458903 , -2.1846387 , -2.13745341,  2.32210942],
       [-0.14362495,  0.45760343,  0.43563905,  0.54883918, -0.80703575],
       [-1.2429458 ,  0.13899415, -0.85067678, -0.79295438,  1.31011685]])

## Алгоритм преобразования

**Алгоритм**

Для получения зашифрованных признаков достаточно задать случаную обратимую матрицу, размерность которой равна количеству признаков нашего датасета.
Можно пострить матрицу **Р** в пределах минимальных или максимальных значений матрицы признаков **Х**

Например:

In [8]:
# зададим случайную матрицу признаков размером m x n
m, n = 10, 4
minn, maxx = 2, 10
X = np.random.uniform(minn, maxx, (m, n))
X

array([[9.67108134, 7.78075645, 6.99203429, 8.68459465],
       [5.70230131, 7.1212805 , 7.15481569, 4.19450114],
       [9.01371123, 2.61226746, 4.83765946, 4.39860761],
       [5.71243015, 5.21407907, 7.22572478, 4.41538121],
       [2.78463528, 7.3126888 , 9.26801995, 7.66088148],
       [7.78222581, 6.51747882, 5.25014304, 6.75354061],
       [4.79800068, 2.54577278, 7.07890801, 2.36063511],
       [2.66913908, 6.39870442, 2.79601307, 5.26285545],
       [7.67128098, 7.6942294 , 7.41003243, 3.04334089],
       [7.3244064 , 5.77341211, 3.97882774, 4.22538004]])

Создаем матрицу **Р** - случайную обратимую матрицу размером n:

In [9]:
P = np.random.normal(minn, size=(n, n))
print(f'Матрица {n} Х {n}')
P

Матрица 4 Х 4


array([[2.48884366, 1.90244131, 1.22534126, 4.58258395],
       [2.39618754, 2.2556024 , 3.44591609, 1.7121108 ],
       [3.30134329, 2.42984936, 1.18291635, 2.38380742],
       [2.00661358, 2.41540746, 0.41444143, 1.98511837]])

Проверим существование обратной ей матрицы:

In [10]:
np.linalg.inv(P)

array([[-0.13168321, -0.20030005,  0.95440173, -0.6693428 ],
       [-0.19252913,  0.14311818, -0.56958236,  1.0049886 ],
       [ 0.0391223 ,  0.35895965, -0.17387447, -0.19111035],
       [ 0.35920261, -0.04661268, -0.23539212, -0.00258956]])

Построим матрицу **ХР**

In [11]:
XP = X.dot(P)
XP

array([[83.22369227, 73.91538233, 50.5324564 , 91.54767087],
       [63.29330586, 54.42762465, 41.72852369, 63.70597969],
       [53.4902812 , 45.41950673, 27.59203848, 66.04238504],
       [59.42581883, 50.85081981, 35.34430024, 61.09456248],
       [70.42243999, 62.81616622, 42.74931952, 62.58188965],
       [65.87011579, 58.57567783, 41.00399463, 72.74325643],
       [46.14841058, 37.77274166, 24.00380862, 47.90677955],
       [41.76668193, 39.01664438, 30.8085997 , 40.29939258],
       [68.09930573, 57.305455  , 45.94034111, 72.03314451],
       [53.67766189, 46.83074204, 35.32738403, 61.32206707]])

Создадим столбец из m значений целевого признака **y**:

In [12]:
y = np.random.random_sample(size=m)
y

array([0.22033864, 0.99476966, 0.2780899 , 0.12028114, 0.52507857,
       0.86993176, 0.14488308, 0.76100711, 0.97584408, 0.18968278])

In [13]:
# проверим наше предположение на стандартной модели линейной регрессии для матрицы признаков Х
model = LinearRegression()
model.fit(X, y)
predictions1 = model.predict(X)
r2_1 = r2_score(y, predictions1)
r2_1

0.4886877585717161

In [14]:
# проверим наше предположение на стандартной модели линейной регрессии для матрицы признаков ХР
model = LinearRegression()
model.fit(XP, y)
predictions2 = model.predict(XP)
r2_2 = r2_score(y, predictions2)
r2_2

0.48868775857171565

In [15]:
# расхождение метрик
e = 10 ** -10
if abs(r2_1 - r2_2) < e:
    print(0)
else:
    print('расхождение вне зоны епсилон-окрестности нуля')

0


**Вывод:**
Очевидно, что расхождение метрик на случайном примере можно считать равным нулю с точностью до 10 знаков после запятой.

**Обоснование**  
Таким образом, мы показали, что можно делать линейное преобразование матрицы признаков с использованием любой случайной обратимой матрици Р, что также может быть использовано для шифрования данных, но никак не влияет на результативность обучения линейной регрессии при одном и том же немасштабированном целевом признаке.

## Проверка алгоритма

Подготовим наши данные для проверки алгоритма

In [16]:
# наш датасет с целевым призаком "Страховые выплаты"
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [17]:
# выделеяем признаки 
features = data.drop('Страховые выплаты', axis=1)
features.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


In [18]:
# получение целевого признака
target = data['Страховые выплаты']
target.head()

0    0
1    1
2    0
3    0
4    0
Name: Страховые выплаты, dtype: int64

In [19]:
# делим признаки на обучающую и тестовую выборки
features_train, features_test, target_train, target_test = train_test_split(features, target, 
                                                    train_size=0.75, 
                                                    random_state=12345)
features_train, features_test, target_train, target_test

(      Пол  Возраст  Зарплата  Члены семьи
 3369    1     43.0   36200.0            1
 1441    1     34.0   57600.0            0
 571     0     32.0   41100.0            1
 225     0     36.0   45100.0            1
 2558    0     33.0   50600.0            2
 ...   ...      ...       ...          ...
 3497    0     42.0   32100.0            0
 3492    0     28.0   22700.0            4
 2177    1     41.0   44700.0            1
 3557    0     22.0   50100.0            4
 4578    0     19.0   40800.0            0
 
 [3750 rows x 4 columns],
       Пол  Возраст  Зарплата  Члены семьи
 3183    0     33.0   39000.0            4
 1071    0     50.0   43100.0            2
 2640    1     39.0   42100.0            0
 2282    0     20.0   34800.0            0
 1595    0     41.0   40000.0            4
 ...   ...      ...       ...          ...
 982     1     51.0   29000.0            2
 3820    1     33.0   57900.0            3
 3595    1     35.0   42300.0            0
 3513    1     36.0   4130

In [20]:
# получение матрицы признаков Х для обучающей и целевой выборок:
X_train = features_train.values
X_test = features_test.values
X_train, X_test

(array([[1.00e+00, 4.30e+01, 3.62e+04, 1.00e+00],
        [1.00e+00, 3.40e+01, 5.76e+04, 0.00e+00],
        [0.00e+00, 3.20e+01, 4.11e+04, 1.00e+00],
        ...,
        [1.00e+00, 4.10e+01, 4.47e+04, 1.00e+00],
        [0.00e+00, 2.20e+01, 5.01e+04, 4.00e+00],
        [0.00e+00, 1.90e+01, 4.08e+04, 0.00e+00]]),
 array([[0.00e+00, 3.30e+01, 3.90e+04, 4.00e+00],
        [0.00e+00, 5.00e+01, 4.31e+04, 2.00e+00],
        [1.00e+00, 3.90e+01, 4.21e+04, 0.00e+00],
        ...,
        [1.00e+00, 3.50e+01, 4.23e+04, 0.00e+00],
        [1.00e+00, 3.60e+01, 4.13e+04, 0.00e+00],
        [0.00e+00, 4.90e+01, 3.11e+04, 1.00e+00]]))

In [21]:
# параметры случайной матрицы Р
size = X_train.shape
ran_num = randint(0, 100) + random()
size, ran_num

((3750, 4), 78.76310591803697)

In [22]:
# обратимая матрица Р из случайных чисел
P = np.random.normal(ran_num, size=(size[1], size[1]))
P

array([[78.63678269, 79.01601947, 76.383521  , 79.40557413],
       [78.64584932, 77.80448822, 77.11090607, 78.90309116],
       [77.83743183, 77.84143872, 78.08801724, 80.89244469],
       [77.9974363 , 79.4806482 , 80.52571716, 77.10601148]])

In [23]:
# проверка наличия обратной матрицы
np.linalg.inv(P)

array([[-0.30128873,  0.8072522 , -0.35983568, -0.13828625],
       [ 0.6067863 , -0.68194235, -0.05664749,  0.13238266],
       [-0.3380375 ,  0.08735667,  0.1172979 ,  0.13566824],
       [ 0.03232813, -0.20487171,  0.29988767, -0.12529074]])

In [24]:
# шифрование данных обучающего и тествого датасетов с помощью случайной матрицы Р
XP_train = X_train.dot(P)
XP_test = X_test.dot(P)
XP_train, XP_test

(array([[2821253.43789641, 2821364.1713781 , 2830258.90224312,
         2931855.84243226],
        [4486188.66892526, 4486391.23897507, 4500567.94728114,
         4662166.92505434],
        [3201713.11272603, 3201852.3557233 , 3211965.58322531,
         3327281.48185653],
        ...,
        [3482714.31673174, 3482860.79153404, 3493852.82696058,
         3619283.81614989],
        [3901697.53298943, 3901885.70127878, 3914228.20646505,
         4054755.77122638],
        [3177261.48970025, 3177408.98511174, 3187456.21055756,
         3301910.90225176]]),
 array([[3038567.14404645, 3038701.58084107, 3048299.43508143,
         3157717.56912448],
        [3358881.59910522, 3359015.19460247, 3369610.13972936,
         3490563.73289708],
        [3280101.70484522, 3280237.9612336 , 3290589.23461045,
         3408728.5477514 ],
        ...,
        [3295354.60781342, 3295495.03102499, 3305898.39443391,
         3424591.42432559],
        [3217595.82183522, 3217731.39679176, 3227887.48810121,

**Проверка результата обучения модели Линейной регрессии на подготовленных данных:**

In [25]:
datas_train = [X_train, XP_train]
datas_test = [X_test, XP_test]
results = []
model = LinearRegression()
for i in range(len(datas_train)):
    model.fit(datas_train[i], target_train)
    predictions = model.predict(datas_test[i])
    res = r2_score(target_test, predictions)
    results.append(res)
print(results)    

[0.435227571270266, 0.435227571252207]


Воспользуемся сравнением результатов обучения нашей модели с помощью епсилон-окрестности нуля с заданной точностью 9 знаков.

In [26]:
e = 10 ** -9
print(0) if abs(results[0] - results[1]) < e else print('Сраванение вне заданной точности')    

0


**Вывод:**  
* результат обучения модели одинаков с точностью до 9 знаков после запятой
* данные были зашифрованы с помощью случайной обратимой матрицы Р размером, равным кол-ву признков