<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Неизмененные-признаки" data-toc-modified-id="Неизмененные-признаки-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Неизмененные признаки</a></span></li><li><span><a href="#Новые-признаки" data-toc-modified-id="Новые-признаки-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Новые признаки</a></span></li><li><span><a href="#Сравнение" data-toc-modified-id="Сравнение-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Сравнение</a></span></li></ul></li><li><span><a href="#Итог" data-toc-modified-id="Итог-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Итог</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

## Загрузка данных

In [2]:
data = pd.read_csv('/datasets/insurance.csv')

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


* 4 признака: `Пол`, `Возраст`, `Зарплата` и `Члены семьи`;
* целевой признак - `Страховые выплаты`.

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Пропущенных данных нет, типы данных соответствуют признакам.

In [5]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Пол,5000.0,0.499,0.500049,0.0,0.0,0.0,1.0,1.0
Возраст,5000.0,30.9528,8.440807,18.0,24.0,30.0,37.0,65.0
Зарплата,5000.0,39916.36,9900.083569,5300.0,33300.0,40200.0,46600.0,79000.0
Члены семьи,5000.0,1.1942,1.091387,0.0,0.0,1.0,2.0,6.0
Страховые выплаты,5000.0,0.148,0.463183,0.0,0.0,0.0,0.0,5.0


* `Пол` (0 - мужской, 1 - женский);
* `Возраст` варьируется от 18 до 65 лет, средний возраст - 30 лет;
* `Зарплата` варьируется от 5300 до 79000, средняя зарплата - 40000;
* `Члены семьи` среднее значение 1, максимальное 6;
* `Страховые выплаты` минимальное 0, максимальное 5, ~75% клиентов не получали страховые выплаты.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Не изменится

**Обоснование:** Для обоснования ответа заменим матрицу признаков $X$ на произведение матрицы признаков $X$ и $P$. Утверждается, что $XPw = Xw$.

$a = XPw$

$w = ((XP)^TXP)^{-1}(XP)^Ty$

Подставляем $w$ во второе уравнение.

$a = XP((XP)^T(XP))^{-1}(XP)^Ty$

По свойству матрицы: $(AB)^{-1} = B^{-1}A^{-1}$ (верно и для транспонирования)

Раскрываем скобки: $a = XP(P^TX^TXP)^{-1}P^TX^Ty $

Поскольку умножение матриц ассоциативно:
$a = XPP^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty $


$a = X(X^TX)^{-1}(P^T)^{-1}P^TX^Ty$

Учитывая, что $(P^T)^{-1}P^T = E$

$a = X(X^TX)^{-1}X^Ty = Xw$ 

$a = Xw$

В итоге формула предсказания не изменилась после умножения матрицы признаков $X$ на матрицу $P$

## Алгоритм преобразования

**Алгоритм**

Воспользуемся предыдущим шагом для защиты информации клиентов. Матрицу признаков $X$ (информация клиента) будем умножать на случайную обратимую матрицу $P$.

Выполняться алгоритм будет в несколько шагов:

1. Генерация обратимой матрицы $P$
2. Получение новой матрицы признаков $Z$ путем умножения матрицы признаков $X$ на матрицу $P$
3. Применение линейного алгоритма машинного обучения на новой матрице признаков $Z$

**Обоснование**

Обоснованием является предыдущий шаг.

## Проверка алгоритма

Для проверки предложенного алгоритма выполним следующие действия:

1. Вычислим качество модели на неизмененных данных
2. Вычислим качество модели с изменением признаков
3. Сравним коэффицент детерминации для этих двух моделей

### Неизмененные признаки

In [6]:
# разделим данные на тренировочные и тестовые
X_train, X_test, y_train, y_test = train_test_split(
    data.drop('Страховые выплаты', axis=1), 
    data['Страховые выплаты'], 
    test_size=0.33, 
    random_state=42)

In [7]:
model = LinearRegression()
model.fit(X_train, y_train)
r2_old = r2_score(y_test, model.predict(X_test))
print("R2 =", r2_old)

R2 = 0.41541402565474894


### Новые признаки

In [8]:
features = data.drop('Страховые выплаты', axis=1)

In [9]:
# создадим функцию для генерации обратимой матрицы
def matrix_gen(features):
    # количество столбцов
    n = features.shape[1]
    # количество строк
    m = features.shape[0]
    # генерация матрицы P
    p = np.random.rand(n, n)
    # проверка обратимости, если определить не равен 0, то матрица обратима
    det = np.linalg.det(p)
    if det == 0:
        print('Матрица необратима')
    # новая матрица признаков
    new_features = features @ p
    return new_features, p

In [10]:
new_features, p = matrix_gen(features)

In [11]:
print('Новые признаки')
display(new_features)
print('Матрица P')
display(p)

Новые признаки


Unnamed: 0,0,1,2,3
0,4742.157627,30302.255294,7382.623703,36504.950193
1,3639.915784,23224.193802,5667.150647,27971.522402
2,2013.250277,12836.232042,3134.218701,15458.882369
3,3979.444036,25468.201325,6196.482540,30686.192817
4,2498.975218,15949.047992,3889.786204,19211.450382
...,...,...,...,...
4995,3412.042038,21809.981765,5313.018392,26274.119358
4996,5004.133809,32006.833367,7791.241277,38561.990316
4997,3236.659436,20706.387258,5040.032395,24947.358719
4998,3124.590426,19976.089131,4865.342728,24066.217008


Матрица P


array([[0.90334986, 0.32568387, 0.72828164, 0.76734786],
       [0.51108941, 0.60679592, 0.78680716, 0.31075258],
       [0.09516327, 0.61041119, 0.14816197, 0.73570812],
       [0.201386  , 0.65602325, 0.8027964 , 0.31918068]])

In [12]:
# разделим новые данные на тренировочные и тестовые
X_train, X_test, y_train, y_test = train_test_split(
    new_features, 
    data['Страховые выплаты'], 
    test_size=0.33, 
    random_state=42)

In [13]:
model = LinearRegression()
model.fit(X_train, y_train)
r2_new = r2_score(y_test, model.predict(X_test))
print("R2 =", r2_new)

R2 = 0.415414025655505


### Сравнение

In [14]:
r2_score = pd.DataFrame(data=[r2_old, r2_new],
                       index = ['Лин. регрессия на старых признаках', 'Лин. регрессия на новых признаках'],
                       columns = ['r2 score'])

In [15]:
r2_score

Unnamed: 0,r2 score
Лин. регрессия на старых признаках,0.415414
Лин. регрессия на новых признаках,0.415414


Качество модели не изменилось, при этом удалось зашифровать данные в признаках клиентов.

## Итог

В ходе исследования были проделаны следующие шаги:

1. Загрузили и ознакомились с данными
2. Доказали, что качество модели не изменится, если умножить матрицу признаков на случайную обратимую матрицу
3. Составили алгоритм преобразования для шифровки данных клиентов
4. Проверили и сравнили качество моделей на новых и старых данных

В итоге качество модели не изменилось, таким образом можно зашифровать данные клиентов без потери качества линейной модели.