# Предсказание страховых выплат с защитой персональных данных

<h1>Оглавление проекта<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Описание-проекта" data-toc-modified-id="Описание-проекта-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Описание проекта</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Описание данных</a></span></li><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Умножение матриц</a></span><ul class="toc-item"><li><span><a href="#Влияние-на-качество-линейной-регрессии" data-toc-modified-id="Влияние-на-качество-линейной-регрессии-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Влияние на качество линейной регрессии</a></span></li><li><span><a href="#Обоснование" data-toc-modified-id="Обоснование-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Обоснование</a></span></li></ul></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Алгоритм преобразования</a></span><ul class="toc-item"><li><span><a href="#Описание-алгоритма" data-toc-modified-id="Описание-алгоритма-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Описание алгоритма</a></span></li><li><span><a href="#Обоснование" data-toc-modified-id="Обоснование-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Обоснование</a></span></li><li><span><a href="#Реализация-алгоритма" data-toc-modified-id="Реализация-алгоритма-5.3"><span class="toc-item-num">5.3&nbsp;&nbsp;</span>Реализация алгоритма</a></span></li></ul></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Описание проекта

Страховой компании «Хоть потоп» требуется модель предсказания размера страховых выплат по некоторому набору персональных данных клиентов. При этом нужно защитить данные клиентов от восстановления неавторизованными пользователями. Должна быть исключена необходимость передавать неизмененные данные в модель предсказания.

Разработаем такой метод преобразования данных, чтобы после преобразования было сложно восстановить первоначальные сведения. Обоснуем корректность работы алгоритма. Кроме того необходимо, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. 

Подбирать наилучшую модель не требуется, только продемострировать саму возможность предсказания с защитой персональных данных.

Изучение криптографических качеств алгоритма находится за пределами данного проекта.

## Описание данных

Набор данных находится в файле: /datasets/insurance.csv.
* Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
* Целевой признак: количество страховых выплат клиенту за последние 5 лет.

## Загрузка данных

In [1]:
import pandas as pd

df = pd.read_csv('/datasets/insurance.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Первые строки.

In [2]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
df["Страховые выплаты"].value_counts()

0    4436
1     423
2     115
3      18
4       7
5       1
Name: Страховые выплаты, dtype: int64

Кто-то получил 5 выплат за последние 5 лет.
Данные готовы для использования в обучении линейной регрессии.

## Умножение матриц

Для предсказания размера страховых выплат будем использовать модель линейной регрессии. Данные доступны в виде таблицы чисел. Поэтому они могут быть представлены в виде прямоугольной матрицы размера $n \times m$.

Пусть признаки умножают на обратимую матрицу размера $m \times m$. Получим в результате матрицу размера $n \times m$, по которой сложно восстановить первоначальную матрицу, не зная матрицу-множитель.

### Влияние на качество линейной регрессии

Качество моделей линейной регрессии не изменится. Более того, не изменятся сами предсказания. Ответы модели будут такими, будто и не было преобразования. Докажем это ниже.

### Обоснование

Укажем, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

---
Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

- $a$ — вектор предсказания целевого признака
---

Формула предсказания в линейной регрессии:

$$
a = Xw \qquad (1)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y \qquad (2)
$$   
Подставим в формулу обучения $(2)$ вместо $X$ произведение матриц $XP$, получим новый вектор весов $w'$. 

Преобразуем выражение, раскроем скобки транспозиции:
   
$$
w' = ((XP)^T XP)^{-1} (XP)^T y \\
= (P^T X^T XP)^{-1} P^T X^T  y
$$
   
Обратим внимание, что матрицы $P^T$ и $X^T XP$ - квадратные, поэтому можем раскрыть скобки инверсии:
   
$$
= ((X^T XP)^{-1} (P^T)^{-1} P^T X^T  y \\
= P^{-1} (X^T X)^{-1} X^T  y
$$
   
В силу формулы обучения $(2)$ произведем замену и выразим  старые веса через новые:
   
$$
w' = P^{-1} w \\
w = Pw'
$$
   
Подставим полученное выражение в формулу предсказания $(1)$:
   
$$
a = Xw = XPw'
$$

Получается, что если мы передадим преобразованную матрицу признаков $XP$ в модель с весами $w'$, то получим точно такие же предсказания, если бы мы передавали $X$ в модель с весами $w$. Другими словами, ответы модели будут такими, будто и не было преобразования. А значит качество модели не изменится.

Обратим внимание, что на матрицу $P$ накладываются ограничения только по размеру $m \times m$ и обратимости.

## Алгоритм преобразования

### Описание алгоритма

Предложим алгоритм преобразования данных для решения задачи. 

Будем генерировать случайную матрицу размера $m \times m$. Дальше считать определитель матрицы. Если он нулевой, то повторим процедуру генерации, если ненулевой, мы получили искомую матрицу.

Генерировать матрицы-множители будем лениво по запросу размера $m$ и случайного состояния.

После чего мы матричным умножением получаем преобразованную матрицу признаков.

Причем одну и ту же функцию можно использовать для обучения и предсказания. Чтобы матрица-множитель была той же самой, зафиксируем случайное состояние.

Перед обучением модели мы преобразуем признаки. Обучим на полученной матрице модель. Затем, чтобы получить предсказания мы будем снова преобразовывать признаки.  

### Обоснование

Обоснуем, почему качество линейной регрессии не поменяется. 

В силу построения матрица-множитель квадратная и обратимая. В силу доказанного выше ответы модели будут такими, будто и не было преобразования. Поэтому качество модели линейной регрессии не поменяется.

### Реализация алгоритма

In [4]:
from numpy.linalg import det
from numpy.random import Generator, PCG64
from functools import lru_cache


@lru_cache(maxsize=None)
def create_invertable_matrix(m, random_state):
    """
    Функция генерирует квадратную матрицу размера m*m,
    заполненную случайными числами.
    Гарантируется, что матрица будет обратима.
    Разультаты кэшируются. 
    m - int
    random_state - int, случайное состояние инициации
    генератора случайных чисел для воспроизводимости результов.
    """
    rg = Generator(PCG64(random_state))
    matrix = rg.random((m, m))
    if not det(matrix):
        return create_invertable_matrix(m, random_state)
    return matrix


def random_transform(X, random_state):
    """
    Преобразует входные признаки путем умножения 
    на обратимую случайную матрицу подходящего размера.
    X - матрица или вектор признаков для преобразования.
    random_state - int, состояние для инициализции
    генератора случайных чисел
    """
    m = X.shape[1]
    P = create_invertable_matrix(m, random_state)
    return X @ P

## Проверка алгоритма

Опишем, как будем проверять влияние преобразования на качество модели.

Разобьем данные в соотношении 8:2 на тренировочные и тестовые. На тестовых данных будем оценивать качество по метрике R2. Сначала без преобразования, потом с преобразованием. Сравним результаты.

In [5]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score


RS = 42

# Разобъем на тестовые и тренировочные выборки.
y = df["Страховые выплаты"]
X = df.drop(["Страховые выплаты"], axis=1)

X, X_test, y, y_true = train_test_split(
    X, y, test_size=0.2, random_state=RS)

# Обучим, предскажем на выборках без преобразования. Выведем качество.
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X_test)
r2_no_transform = r2_score(y_true, y_pred)

# Теперь тоже самое, но с преобразованием
X_trd = random_transform(X, RS)
X_test_trd = random_transform(X_test, RS)

model.fit(X_trd, y)
y_pred = model.predict(X_test_trd)
r2_with_transform = r2_score(y_true, y_pred)

print(f'Значение метрики R2 без преобразования: {r2_no_transform*100: .2f}')
print(f'Значение метрики R2 с преобразованием: {r2_with_transform*100: .2f}')

Значение метрики R2 без преобразования:  43.69
Значение метрики R2 с преобразованием:  43.69


Видим полное совпадения по качеству моделей.

## Общий вывод

При выполнении проекта было математически доказано, что умножение матрицы признаков на произвольную обратимую квадратную матрицу не влияет на результаты предсказания модели линейной регресии и следовательно на качество предсказаний.

Данное утверждение было проверено на практике. Были загружены личные данные клиентов и целевые признаки по количеству страховых выплат за 5 лет. 

Сначала были сделаны предсказания без преобразования признаков и была получены оценка качества по метрике R2: **43.69**. 

Потом оценка была получена с преобразованием и результат оказался точно таким же: **43.69**.

Таким образом, мы теоритически и практически подтвердили, что для обучения и использования линейной регрессии не обязательно передавать личные данные клиентов в явном виде. В целях защиты они могут быть преобразованы путем умножения на квадратную обратимую матрицу.

Таким образом была продемострирована возможность предсказания с защитой персональных данных.