<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

Цель проекта - найти способ защитить персональные клиентов так чтобы качество моделей машинного обучения после преобразования не ухудшилось.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
df = pd.read_csv('/datasets/insurance.csv')

df.info()
display(df.head())
print(df.describe())
df['Страховые выплаты'].value_counts()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


               Пол      Возраст      Зарплата  Члены семьи  Страховые выплаты
count  5000.000000  5000.000000   5000.000000  5000.000000        5000.000000
mean      0.499000    30.952800  39916.360000     1.194200           0.148000
std       0.500049     8.440807   9900.083569     1.091387           0.463183
min       0.000000    18.000000   5300.000000     0.000000           0.000000
25%       0.000000    24.000000  33300.000000     0.000000           0.000000
50%       0.000000    30.000000  40200.000000     1.000000           0.000000
75%       1.000000    37.000000  46600.000000     2.000000           0.000000
max       1.000000    65.000000  79000.000000     6.000000           5.000000


0    4436
1     423
2     115
3      18
4       7
5       1
Name: Страховые выплаты, dtype: int64

In [3]:
df.columns = ['gender', 'age', 'salary', 'family_members', 'insurance_payments']

## Вывод
Предоставленный датасет имеет 5000 строк и 5 столбцов.  
Пропусков нет. Дубликаты в данном датасете не являются ошибками.  
Все значения датасета числовые.  
Столбцы переименованы.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Умножение признаков на обратимую матрицу не меняет предсказание

**Обоснование:**

𝑤' - вектор весов линейной регрессии после умножения матрицы признаков на обратимую матрицу

$
w' = ((XP)^TXP)^{-1}(XP)^Ty
$

$
w' = (P^TX^TXP)^{-1}X^TP^Ty
$

$
w' = P^{-1}P^{-T}(X^TX)^{-1}X^TP^Ty
$

$
w' = P^{-1}w
$

𝑎' - новые предсказания после умножения матрицы признаков на обратимую матрицу

$
a' = XPw' = XPP^{-1}w = Xw
$

$
a' = a
$

## Алгоритм преобразования

**Алгоритм**

Выделяем из датасета признаки и целевой признак.  
Разбиваем  данные на тренировочную и валидационную выборки.  
Обучаем модель линейной регрессии.  
Оцениваем обученную модель на валидационной выборке на основе метрики R2.  

Создаем обратимую матрицу размера 4 х 4.  
Проверяем матрицу на обратимость.  
Умножаем тренировочную и валидационную выборки на обратимую матрицу, получаем новые данные признаков.  
Обучаем модель линейной регрессии на новых данных признаков.  
Оцениваем обученную модель на валидационной выборке на основе метрики R2.

**Обоснование**

Умножение признаков на обратимую матрицу не изменит предсказание и позволит скрыть персональную информацию клиентов банка.

## Проверка алгоритма

In [4]:
target = df['insurance_payments']
features = df.drop('insurance_payments', axis=1)

# Разбивка данных на выборки
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25,
                                                                              random_state=12345)
print(features_train.shape, features_valid.shape, target_train.shape, target_valid.shape, sep='\n')

(3750, 4)
(1250, 4)
(3750,)
(1250,)


In [5]:
# Проверка качества модели до умножения признаков на матрицу
model = LinearRegression()
model.fit(features_train, target_train)
pred = model.predict(features_valid)
r2 = r2_score(target_valid, pred)
r2

0.43522757127025646

In [6]:
# Создание матрицы
i = 0
while i == 0:
    p = np.random.randint(1000, size=(4, 4))
    i = np.linalg.det(p)

# Умножение признаков на матрицу
features_train_p = np.array(features_train) @ p
features_valid_p = np.array(features_valid) @ p 

In [7]:
# Проверка качества модели после умножения признаков на матрицу
model = LinearRegression()
model.fit(features_train_p, target_train)
pred = model.predict(features_valid_p)
r2_matrix = r2_score(target_valid, pred)
r2_matrix

0.4352275712709279

In [8]:
print('Разница в метриках R2 до и после умножения признаков на матрицу', r2_matrix - r2)

Разница в метриках R2 до и после умножения признаков на матрицу 6.714628852932947e-13


## Вывод
Метод преобразования данных, основанный на умножении матрицы признаков на обратимую матрицу не оказывает влияние на качество предсаказаний модели линейной регрессии.  
Данный метод позволяет скрыть персональную иныормацию клиентов банка.  
Разница в R2 метриках незначительна и связана с точностью вычислений предсказаний.