# Защита персональных данных клиентов

# Задача
Необходимо защитить данные клиентов страховой компании. Необходимо разработать метод преобразования данных, с помощью которого нельзя было бы восстановить персональную информацию, но при этом не ухудшилось качество моделей машинного обучения

# Шаг 1. Подготовка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
try:
    data = pd.read_csv('/datasets/insurance.csv')
except FileNotFoundError:
    data = pd.read_csv('insurance.csv')

In [3]:
data

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


## Описание данных

- Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
- Целевой признак: количество страховых выплат клиенту за последние 5 лет.

Проверим данные на дубликаты

In [4]:
data.duplicated().sum()

153

Кол-во дупликатов мало, смело их удаляем

In [5]:
data = data.drop_duplicates()
data.shape

(4847, 5)

Продолжим краткий анализ данных

Для дальнейшего удобства переименуем столбцы

In [6]:
data = data.rename(columns = {
    'Пол': 'gender',
    'Возраст': 'age',
    'Зарплата': 'salary',
    'Члены семьи': 'family',
    'Страховые выплаты': 'insurance'
})

In [7]:
data.describe()

Unnamed: 0,gender,age,salary,family,insurance
count,4847.0,4847.0,4847.0,4847.0,4847.0
mean,0.498453,31.023932,39895.811842,1.203425,0.152259
std,0.500049,8.487995,9972.953985,1.098664,0.468934
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33200.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4847 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   gender     4847 non-null   int64  
 1   age        4847 non-null   float64
 2   salary     4847 non-null   float64
 3   family     4847 non-null   int64  
 4   insurance  4847 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 227.2 KB


Приведем данные к более подходящему типу

In [9]:
data['gender'] = data['gender'].astype('int8')
data['age'] = data['age'].astype('int8')
data['salary'] = data['salary'].astype('int32')
data['family'] = data['family'].astype('int8')
data['insurance'] = data['insurance'].astype('int8')

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4847 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   gender     4847 non-null   int8 
 1   age        4847 non-null   int8 
 2   salary     4847 non-null   int32
 3   family     4847 non-null   int8 
 4   insurance  4847 non-null   int8 
dtypes: int32(1), int8(4)
memory usage: 75.7 KB


<b>Вывод</b>
- данные загружены
- данные соответствуют описанию
- удалено незначительное кол-во дубликатов
- для удобства переименнованы столбцы
- (некритично) изменен тип данных на более подходящий

# Шаг 2. Исследование влияния умножения признаков на обратимую матрицу на качество линейной регрессии

## Изменятся ли признаки при умножении их на обратимую матрицу?

Пусть $X$ - матрица признаков, $y$ - вектор целевого признака, $P$ - случайная обратимая матрица для шифрования признаков, $w$ - вектор весов. Предсказания вычисляем по ф-ле $a=Xw$. При минимизации функции потерь задача обучения линейной регрессии: $w=\arg\min_w MSE(Xw, y)$, а минимальное значение MSE достигается при $w=(X^T X)^{-1} X^T y$

Пусть исходную матрицу $X$ умножаем на некую обратимую матрицу $P$

Предположим, что качество лин. рег. не изменятся, тогда нам необходимо доказать, что: 

$X(X^T X)^{-1} X^T y) = XP((XP)^T (XP))^{-1} (XP)^T y)$

Преобразуем правую часть уравнения

Сначала $(XP)^T = P^TX^T$

$X(X^T X)^{-1} X^T y) = XP(P^TX^T XP)^{-1} P^TX^T y)$

Затем раскроем скобки $(AB)^{-1}=B^{-1}A^{-1}$

$X(X^T X)^{-1} X^T y) = XPP^{-1}(P^TX^T X)^{-1} P^TX^T y)$

$X(X^T X)^{-1} X^T y) = XPP^{-1}(X^T X)^{-1}P^{T^{-1}} P^TX^T y)$

При умножении $AA^{-1} = E$ и единичные матрицы можем сократить

$X(X^T X)^{-1} X^T y) = X(X^T X)^{-1}X^T y)$

<b>Вывод:</b>
- теоретически доказано, что умножение на случайную обратимую матрицу не оказывает влияния на оригинальную матрицу. С математической точки зрения.
- исходя из пункта выше можно смело предположить, что качество метрик не должно измениться

# Шаг 3. Алгоритм преобразования данных для решения задачи

Из шага 2 мы знаем, что при умножении признаков на случайную обратимую матрицу, операции с ней в процессе преобразовании сокращаются, поэтому качество линейной регрессии не поменяется

Возможный алгоритм следующий:
1. Обучение модели
2. Предсказание целевого
3. Получение r2
4. Умножение матрицы признаков на случайную обратимую матрицу
5. Предсказание новых значений целевого
6. Получение r2
7. Сравнение r2 в шаге 3 и 6

# Шаг 4. Реализация алгоритма

Разделяем матрицу на признаки и целевой

In [11]:
X = data.drop(columns='insurance', axis=1)
y = data['insurance']

Создаем класс для шифровки данных клиентов

In [12]:
class DataCript:
    def transform(self, X, random_state):
        np.random.seed(random_state)
        P = np.random.normal(size=(X.shape[1], X.shape[1]))
        self.x = X
        self.p = P
        return X.dot(self.p)

Шифруем оригинаьлные признаки

In [13]:
X_2 = DataCript().transform(X=X, random_state=12345)
X_2.head()

Unnamed: 0,0,1,2,3
0,38224.186641,61881.00042,49961.234837,-64280.684721
1,29313.558467,47428.845564,38278.822267,-49242.555394
2,16206.481556,26215.538233,21153.670838,-27212.472653
3,32110.072445,52006.047856,42004.45311,-54044.730722
4,20126.326163,32571.440926,26289.724215,-33824.037786


Не сложно заметить, что модифицированную таблицу не сопоставить с оригинальной, что нам и требовалось.
Теперь проверим влияет ли преобразование на метрику r2

In [14]:
model = LinearRegression()

In [15]:
model.fit(X, y)
predict = model.predict(X)

model.fit(X_2, y)
predict_2 = model.predict(X_2)

np.isclose(r2_score(y, predict), r2_score(y, predict_2))

True

<b>Общий вывод:</b>
- данные загружены, соответствуют описанию, удалено незначительное кол-во дубликатов
- математически доказано, что при умножении на случайную обратимую матрицу качество линейной регрессии не должно измениться.
- описан алгоритм сравнения метрик r2 до и после шифрования
- реализован алгоритм шифрования и проверены метрики r2 для обоих матриц признаков. Результат - оба значения r2 близки. Что и требовалось доказать