
# Защита персональных данных клиентов

**Цель работы:** Разработать метод преобразования данных, но защитить данные так, чтобы при преобразовании качество моделей машинного обучения не ухудшилось

**Цель применния** : Чтобы было сложно восстановить персональную информацию

**Исходные данные**: Данные клиентов страховой компании «Хоть потоп»

### Содержание:
* Импорт библиотек и данных. Подготовка данных
* Ответ на вопрос
* Алгоритм преобразования данных для решения задачи


## Импорт библиотек и данных. Подготовка данных 


In [1]:
#  для работы с данными
import pandas as pd

import numpy as np

# для масштабирования признаков
from sklearn.preprocessing import StandardScaler

# для обучения модели
from sklearn.linear_model import LinearRegression

# для вычисления R2 и MSE
from sklearn.metrics import r2_score, mean_squared_error

In [2]:
data= pd.read_csv('insurance.csv')
display(data.head())
display(data.describe())
display(data.info())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

Пропусков нет. Приведем  столбец **возраст** и **зарплату** к типу данных **int64**

In [3]:
data['Возраст'] = data['Возраст'].astype(int)
data['Зарплата'] = data['Зарплата'].astype(int)

In [4]:
print('Кол-во дубликатов:',data.duplicated().sum())

#удалим дубликаты
data= data.drop_duplicates()

#проверим
print('Кол-во дубликатов:',data.duplicated().sum())

Кол-во дубликатов: 153
Кол-во дубликатов: 0



## Ответ на вопрос 


> Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?  
a. Изменится. Приведите примеры матриц  
b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной

Вектор предсказаний:
<br><center>$a=Xw$</center></br>
$X$ — матрица признаков, где нулевой столбец состоит из единиц  
$w$ — вектор весов линейной регрессии, где нулевой элемент — величина сдвига $w_0$

Задача обучения линейной регрессии такая
<br><center>$w=argmin MSE(Xw,y)$</center></br>
$y$ — вектор значений целевого признака для обучающей выборки  
$argmin( )$ — функция, которая находит минимум и возвращает, при каком аргументе
он был достигнут

Минимальное значение MSE получается, когда веса равны этой величине:
<br><center>$w=(X^TX)^{-1}X^Ty$</center></br>

Пусть $X_{1}$ = произведение $X$ на обратимую матрицу $Z$, тогда:

<br><center>$w_{1}=(X_{1}^TX_{1})^{-1}X_{1}^Ty$</center></br>
<br><center>$w_{1}=((XZ)^TXZ)^{-1}(XZ)^Ty$</center></br>
<br><center>$w_{1}=(Z^TX^TXZ)^{-1}Z^TX^Ty$</center></br>
<br><center>$w_{1}=Z^{-1} (X^TX)^{-1} (Z^{T})^{-1}      Z^TX^Ty$</center></br>
<br><center>$w_{1}=Z^{-1} (X^TX)^{-1}X^Ty$</center></br>
<br><center>$w_{1}=Z^{-1}w$</center></br>
<br><center>$a_{1}=XZZ^{-1}w$</center></br>
<br><center>$a_{1}=Xw$</center></br>
<br><center>$a_{1}=a$</center></br>

Доказано,что предсказания $a_{1}$ равны предсказаниям $a$. Качество линейной регрессии не изменится

Связь параметров линейной регрессии в исходной задаче и в преобразованной<br><center>$w_{1}=Z^{-1}w$</center></br>

## Алгоритм преобразования данных для решения задачи

Алгоритм уже показан выше, необходимо умножить признаки на обратимую матриц. Для этого необходимо создать обратную матрицу необходимого размера и умножить ее на признаки.

Выделим целевой признак и выполним разделение на обучающую и валидационную выборки:

In [5]:
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

Сгенерируем  матрицу:

In [6]:
num_rows = features.shape[1]
num_columns = features.shape[1]
random_m= np.random.randint(0,100,size=(num_rows, num_columns))
random_m

array([[33,  3, 10, 17],
       [13, 20, 87, 84],
       [73, 26,  4, 63],
       [96, 71, 58, 77]])

Проверим на обратимость

In [7]:
try:
    inverse = np.linalg.inv(random_m)
except np.linalg.LinAlgError:
    print('Матрица не обратима, сгенерировать новую матрицу')
    pass
else:
    print('Матрица обратима')    

Матрица обратима


In [8]:
model = LinearRegression()
model.fit(features, target)
predictions=model.predict(features)
model_r2 = r2_score(target,predictions)
mse = mean_squared_error(target, predictions)
print('MSE при изначальных параметрах: {:.4f}'.format(mse))
print('Коэффициент детерминации при изначальных параметрах: {:.4f}'.format(model_r2))

MSE при изначальных параметрах: 0.1253
Коэффициент детерминации при изначальных параметрах: 0.4302


Зашифруем признаки умножением на случайную обратимую матрицу:

In [9]:
features_m = features @ random_m

In [10]:
display(features,features_m)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0
...,...,...,...,...
4995,0,28,35700,2
4996,0,34,52400,1
4997,0,20,33900,2
4998,1,22,32700,3


Unnamed: 0,0,1,2,3
0,3621462,1290494,202035,3128338
1,2774694,988991,156060,2397941
2,1533377,546580,86523,1325436
3,3044565,1084762,168743,2629018
4,1905697,679163,106846,1646669
...,...,...,...,...
4995,2606656,928902,145352,2251606
4996,3825738,1363151,212616,3304133
4997,2475152,881942,137456,2137534
4998,2387707,850856,132898,2062196


In [11]:
model.fit(features_m, target)
predictions_m = model.predict(features_m)
mse_m = mean_squared_error(target, predictions_m)
model_r2_m = r2_score(target,predictions_m)
print('MSE Score: {:.4f}'.format(mse_m))
print('Коэффициент детерминации при изначальных параметрах: {:.4f}'.format(model_r2_m))

MSE Score: 0.1253
Коэффициент детерминации при изначальных параметрах: 0.4302


### Вывод

Результаты с преобразованными данными схожи с результатами исходных данных. Данные защищены, качество модели МО не ухудшилось