# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

In [3]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

## Загрузка данных

Загружаем данные

In [4]:
data = pd.read_csv('/datasets/insurance.csv')

Смотрим информацию о данных

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [6]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [7]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


После данной информации по столбцам можно с уверенностью сказать, что в данных не присутствует каких либо аутлайеров либо неверных значений, а значит с ними можно работать дальше, проверим пропуски и дубликаты

In [8]:
data.isnull().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

Пропусков нет

In [9]:
data.duplicated().sum()

153

Обнаружено 153 дубликата, их можно удалить без вреда для датасета

In [10]:
data = data.drop_duplicates()
data.duplicated().sum()

0

Отлично! Теперь можно двигаться дальше

## Умножение матриц

Раскрываем скобки
$$
W = ([P^TX^T]*XP)^{-1}*P^T* X^T * y
$$
        
$$
W = (P^TX^TXP)^{-1}*P^T* X^T * y
$$
        
$$
W = ([P^TX^TX]*P)^{-1}*P^T* X^T * y
$$
Выносим за скобку P^(-1)        
$$
W = P^{-1}*[P^T(X^T*X)]^{-1}*P^T* X^T * y
$$
        
$$
W = P^{-1}*[X^T*X]^{-1}*[P^T]^{-1}*P^T* X^T * y
$$
Производим замену    
$$
A = XPP^{-1}*[X^T*X]^{-1}*[P^T]^{-1}*P^T* X^T * y
$$
Сокращаем    
$$
A = XE*[X^T*X]^{-1}*E* X^T * y
$$
    
$$
A = X*[X^T*X]^{-1}* X^T * y
$$
Равенство доказано    
$$
A = X*w
$$
    

## Алгоритм преобразования

**Алгоритм**

Я хочу чтобы мой алгоритм строился на рандомных числах и был наименее предсказуемым.
Поэтому выделю следующие ключевые точки.
1. Я умножу нашу матрицу на рандомную матрицу
2. Повторю данную операцию несколько раз
3. Проверю каждую из матриц на обратимость, делать я это буду с помощью обпределителя, так как когда он не равен нулю матрица необратима (Если матрица все же окажется необратимой, то я просто не буду умножать на нее, веростность этого мала, а веростность того, что данные никак не зашифруются также близится к нулю так как при 10 сгенерированный матрицах хотя бы одна в 99,99% точно будет обратима)
4. Чтобы дешифровать данные будет достаточно в обратном порядке умножить нашу полученную матрицу на случайно сгенерированные раннее

**Обоснование**

Это абсолютно понятный код, который раз за разом будет случайно генерироваться и таким образом его будет сложно дешифровать, к тому же данная операция будет повторяться несколько раз, еще больше усложняя процесс. Результаты в ходе данных операций никак не изменятся

## Проверка алгоритма

In [11]:
target = data['Страховые выплаты']
features = data.drop('Страховые выплаты', axis = 1)
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_valid)
print(r2_score(target_valid, predictions))

0.42307727492147584


In [12]:
def transformation(X, y):
    X_trans = X
    for i in range(10):
        trans = np.random.randint (1, 100000, (X.shape[1], X.shape[1]))
        if np.linalg.det(trans) != 0:
            X_trans = X_trans@trans
            features_train, features_valid, target_train, target_valid = train_test_split(
            X_trans, y, test_size=0.25, random_state=12345)
            model = LinearRegression()
            model.fit(features_train, target_train)
            predictions = model.predict(features_valid)
            print(r2_score(target_valid, predictions))
        else:
            continue

Хорошо, сделал так, но мне кажется так получается не совсем то, что я хотел, так мы видим точность только после того, как мы нашу матрицу умножили на одну рандомную, а я хочу умножить ее 10 раз, для большего изменения, не очень понял, почему именно так будет верно, подскажите пожалуйста

С другой стороны можно сделать и так, данный метод тоже имеет свои плюсы

In [13]:
transformation(features, target)

0.4230772749247892
0.4230772746591791
0.4230772798237419
0.4230772736840739
0.4230773024292236
0.42307503475364117
0.4230884364579327
0.4231507940494882
0.4155512934529191
0.41589588209159567


Результаты получились одинаковые, трансформация работает на ура

Вывод: 
1) Данные были успешно проверены и обработаны

2) Был разработан алгоритм шифровки данных

3) Алгоритм шифрования данных был успешно проверен на прототипе

4) Была проверена гипотеза о том, что при линейном изменении матрицы результаты регрессии не будут меняться