# Защита персональных данных клиентов банка

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-и-подготовка-данных" data-toc-modified-id="Загрузка-и-подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка и подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
data = pd.read_csv('/datasets/insurance.csv')
print(data)
print(data.info())
data.describe()

      Пол  Возраст  Зарплата  Члены семьи  Страховые выплаты
0       1     41.0   49600.0            1                  0
1       0     46.0   38000.0            1                  1
2       0     29.0   21000.0            0                  0
3       0     21.0   41700.0            2                  0
4       1     28.0   26100.0            0                  0
...   ...      ...       ...          ...                ...
4995    0     28.0   35700.0            2                  0
4996    0     34.0   52400.0            1                  0
4997    0     20.0   33900.0            2                  0
4998    1     22.0   32700.0            3                  0
4999    1     28.0   40600.0            1                  0

[5000 rows x 5 columns]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семь

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [2]:
print(data.isnull().sum())
print('==============================')
print(data.duplicated().sum())
data = data.drop_duplicates()
print('==============================')
print(data.duplicated().sum())

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64
153
0


### Вывод 

Таблица открыта и изучена. Таблица имеет 5000 строк и 5 столбцов. Пропущенных значений не обнаружено. Наидено 153 дубликата. Дубликаты удалены в виду незначительного количества. Посмотрели на распределение признаков.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $X$~ — матрица признаков без единичного столбца

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножается матрица X

- $P$~ — матрица, на которую умножается матрица X~

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Если домножить вектор признаков на обратимую матрицу $P$, размером m x m, где m - число признаков +1, то качество обучения линейной регрессии не изменится. 

**Обоснование:** 
Домножим матрицу $X$ размером n x m на обратимую матрицу $P$, размером m x m,где m - число признаков +1, n - число записей. Преобразуем выражение, учитывая, что обратные матрицы есть только для квадратных матриц: 
$((XP)^TXP)^{-1}(XP)^T = (P^TX^TXP)^{-1}P^TX^T = (X^TXP)^{-1}(P^T)^{-1}P^TX^T = P^{-1}(X^TX)^{-1}EX^T = P^{-1}(X^TX)^{-1}X^T$

Получим новый вектор весов:
$𝑤` = P^{-1}(X^TX)^{-1}X^Ty = P^{-1}𝑤 $ 

## Алгоритм преобразования

**Алгоритм**

1) Сгенерируем с помощью библиотеки random модуля numpy случайную квадратную матрицу P с размером на единицу большим, чем число признаков features, с элементами равномерно распределенными между 0 и 1.

2) С помощью numpy умножим справа матрицу признаков Х (с присоединенным слева единичным столбцом) на случайную матрицу Р.

**Обоснование**

Как мы показали выше умножение матрицы признаков с присоединённым столбцом из единиц (столбец ответственный за свободный член) на обратимую матрицу справа не должно сказаться на результатах работы модели линейной регрессии.

## Проверка алгоритма

In [3]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from numpy.linalg import inv
import sklearn.metrics as skmt

In [4]:
def fitModel(features, target):
    features_matrix = np.array(features) # матрица признаков
    target_vector = np.array(target).reshape(target.shape[0],1) # вектор целевого признака
    # Инвертируем матрицу чтобы проверить гипотезу
    return (inv(features_matrix.T @ features_matrix) @ features_matrix.T @ target_vector).reshape(-1, order = 'F')

def predictModel(coef, features):
    return np.array(features) @ coef.reshape(-1, order = 'F')    

In [5]:
target = data['Страховые выплаты']
features = data.drop(['Страховые выплаты'] , axis=1)
features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.25, random_state=12345)

# Присоединим слева к матрице значений признаков (features_matrix) столбец из единиц
features_train_free = features_train.copy()
features_train_free['free'] = np.ones(len(features_train))
cols = features_train_free.columns[-1:].append(features_train_free.columns[:-1])
features_train_free = features_train_free[cols].copy()

In [6]:
features_test_free = features_test.copy()
features_test_free['free'] = np.ones(len(features_test))
cols = features_test_free.columns[-1:].append(features_test_free.columns[:-1])
features_test_free = features_test_free[cols].copy()

In [7]:
# Найдем решение матричного уравнения линейной регрессии
myModelCoef = fitModel(features_train_free, target_train)
myModelPredictions = predictModel(myModelCoef, features_test_free)
myModelR2 = skmt.r2_score(target_test, myModelPredictions)
print("Качество линейной регрессии нашей модели",myModelR2)
print("Коэффициенты регрессии (веса)", myModelCoef)

Качество линейной регрессии нашей модели 0.4230772749214827
Коэффициенты регрессии (веса) [-9.76709597e-01  1.45766002e-02  3.64782926e-02  1.79477716e-07
 -1.23345013e-02]


In [8]:
# Найдем решение библиотечной модели линейной регрессии
model = LinearRegression()
model.fit(features_train_free, target_train)
predicts = model.predict(features_test_free) # получаем предсказания модели на тестовой выборке    
r2 = r2_score(target_test, predicts)
print("Качество линейной регрессии библиотечной модели", r2)
print("Коэффициенты регрессии (веса)", model.coef_)

Качество линейной регрессии библиотечной модели 0.42307727492148095
Коэффициенты регрессии (веса) [ 0.00000000e+00  1.45766002e-02  3.64782926e-02  1.79477716e-07
 -1.23345013e-02]


Результаты работы библиотечной модели совпали с результатами работы нашей модели.

In [9]:
# Сгенерируем случайную матрицу соответствующей размерности и проверим на обратимость
randomGeneratorContainer = np.random.RandomState(10)
P1 = randomGeneratorContainer.rand(len(features_train_free.columns), len(features_train_free.columns))
determinant = np.linalg.det(P1)
print('Обратима ли матрица:', determinant < 10**(-4))

features_train_encrypted = features_train_free @ P1
features_test_encrypted = features_test_free @ P1

Обратима ли матрица: True


In [10]:
myModelCoef = fitModel(features_train_encrypted, target_train)
myModelPredictions = predictModel(myModelCoef, features_test_encrypted)
myModelR2 = skmt.r2_score(target_test, myModelPredictions)
print("Качество линейной регрессии нашей модели",myModelR2)
print("Коэффициенты регрессии (веса)", myModelCoef)

Качество линейной регрессии нашей модели 0.42353344551185634
Коэффициенты регрессии (веса) [-30.46647435 -13.60668473   8.97378069  -8.35791029  46.92805086]


In [11]:
# Для библиотечной модели не требуется добавлять к ней единичный столбец
# и соответственно матрица преобразования также меньше размером на единицу.
randomGeneratorContainer = np.random.RandomState(10)
P2 = randomGeneratorContainer.rand(len(features_train.columns), len(features_train.columns))
determinant2 = np.linalg.det(P1)
print('Обратима ли матрица:', determinant2 < 10**(-4))

features_train_encrypted2 = features_train @ P2
features_test_encrypted2 = features_test @ P2

Обратима ли матрица: True


In [12]:
model = LinearRegression()
model.fit(features_train_encrypted2, target_train)
predicts = model.predict(features_test_encrypted2)     
r2 = r2_score(target_test, predicts)
print("Качество линейной регрессии библиотечной модели", r2)
print("Коэффициенты регрессии (веса)", model.coef_)

Качество линейной регрессии библиотечной модели 0.4230772749208499
Коэффициенты регрессии (веса) [ 0.03351282  0.02759341 -0.05746163  0.03280608]


### Вывод 

* Предложенный нами алгоритм преобразования данных проверен на работоспособность.
* Наше преобразование исходной матрицы значений признаков не повлияло на качество работы модели.