<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Выводы" data-toc-modified-id="Выводы-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Выводы</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span><ul class="toc-item"><li><span><a href="#Выводы" data-toc-modified-id="Выводы-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Выводы</a></span></li></ul></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Выводы" data-toc-modified-id="Выводы-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Выводы</a></span></li></ul></li></ul></div>

# Защита персональных данных клиентов

Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

**Цель**  

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

**Структура исследования**  

1. Загрузка и подготовка данных
2. Умножение матриц
3. Алгоритм преобразования
4. Проверка алгоритма

**Использование дополнительных модулей**  

- `pandas` – редактор баз данных  
- `numpy` – работа с многомерными массивами
- `sklearn` – машинное обучение

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.datasets import make_spd_matrix
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
df = pd.read_csv('insurance.csv')
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
# Переименуем названия столбцов, а также изменим их представление
df = df.rename(columns={'Пол': 'gender',
              'Возраст': 'age',
              'Зарплата': 'salary',
              'Члены семьи': 'family_members',
              'Страховые выплаты': 'insurance_payments'}
              )

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   gender              5000 non-null   int64  
 1   age                 5000 non-null   float64
 2   salary              5000 non-null   float64
 3   family_members      5000 non-null   int64  
 4   insurance_payments  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
df.describe()

Unnamed: 0,gender,age,salary,family_members,insurance_payments
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [6]:
# Проверка дубликатов
print(f'Количество выявленных дубликатов: {df.duplicated().sum()}')

Количество выявленных дубликатов: 153


In [7]:
# Удаление дубликатов
df = df.drop_duplicates().reset_index(drop=True)

In [8]:
# Переведем признаки 'Возраст' (или 'age') и 'Зарплата' (или 'salary') к целочисленному типу данных 'int'
df[['age', 'salary']] = df[['age', 'salary']].astype(int)

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4847 entries, 0 to 4846
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype
---  ------              --------------  -----
 0   gender              4847 non-null   int64
 1   age                 4847 non-null   int32
 2   salary              4847 non-null   int32
 3   family_members      4847 non-null   int64
 4   insurance_payments  4847 non-null   int64
dtypes: int32(2), int64(3)
memory usage: 151.6 KB


### Выводы

Данные изучены, выполнены необходимые преобразования, удалены дубликаты.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Вопрос:** Изменится ли качество линейной регрессии, если умножить признаки на обратимую матрицу?

**Ответ:** Качество линейной регрессии практически не изменится.

**Обоснование:**

Обозначим $X_1$ матрицу, которая получается после умножения матрицы признаков $X$ на обратимую матрицу $I$ (invertible):

$$ X_1 = X \cdot I $$

Для формулы обучения выполним преобразования:

$$ w_1 = ((X \cdot I)^T \cdot X \cdot I)^{-1} \cdot (X \cdot I)^T \cdot y $$

$$ w_1 = (I^T \cdot X^T \cdot X \cdot I)^{-1} \cdot I^T \cdot X^T \cdot y $$

$$ w_1 = I^{-1} \cdot (X^T \cdot X)^{-1} \cdot (I^T)^{-1} \cdot I^T \cdot X^T \cdot y $$

Произведение обратной матрицы на исходную (или наоборот) дает единичную матрицу, т.е. $(I^T)^{-1} \cdot I^T = E$

$$ w_1 = I^{-1} \cdot ((X^T \cdot X)^{-1} \cdot X^T \cdot y) $$

Выражаем метки (или целевой признак) $y$ из формулы обучения и подставляем в выведенную формулу:

$$ w_1 = I^{-1} \cdot w $$

Если в формулу предсказания подставить произведение исходной матрицы на обратную, а также выведенную выше формулу обучения, получаем:

$$ a_1 = X_1 \cdot w_1 = X \cdot I \cdot I^{-1} \cdot w = X \cdot E \cdot w = X \cdot w = a $$

Таким образом, формула предсказаний в результате представленных выше преобразований сводится к своему первоначальному виду.

### Выводы

Представлено обоснование сохранения качества модели машинного обучения при условии умножения матрицы признаков на обратимую матрицу.

## Алгоритм преобразования

**Алгоритм**

1. Используем метод `make_spd_matrix` из модуля `sklearn.datasets` для создания случайной матрицы.
2. При помощи метода `np.linalg.inv` проверяем созданную на шаге `1` матрицу на обратимость. Если матрица не прошла проверку на обратимость (вероятность этого крайне мала), необходимо повторить шаг `1`.
3. Выполняем умножение матрицы признаков $X$ на обратимую матрицу из шага `1`.

**Обоснование**

Такой алгоритм должен помочь защитить персональную информацию клиентов без потери качества модели линейной регрессии машинного обучения. На предыдущем этапе было показано, что качество модели не изменится если умножить матрицу признаков на обратимую матрицу.

In [10]:
# Случайным образом создаем исходную матрицу при помощи метода randint()
inv_matrix = make_spd_matrix(n_dim=4, random_state=12345)
inv_matrix

array([[ 1.37245706, -1.03845957, -0.84389737, -0.26033015],
       [-1.03845957,  2.87886199,  1.67157893,  0.48470484],
       [-0.84389737,  1.67157893,  2.10204907,  0.3257384 ],
       [-0.26033015,  0.48470484,  0.3257384 ,  1.01695329]])

In [11]:
# Находим обратную матрицу
is_inv_matrix = np.linalg.inv(inv_matrix)
is_inv_matrix

array([[ 1.06341364,  0.23949912,  0.22304514,  0.08662924],
       [ 0.23949912,  0.72198481, -0.45683306, -0.13647886],
       [ 0.22304514, -0.45683306,  0.93223396, -0.0237669 ],
       [ 0.08662924, -0.13647886, -0.0237669 ,  1.07816747]])

In [12]:
# Сохраним признаки и метки (целевой признак) в отдельные переменные
X = df.drop('insurance_payments', axis=1)
y = df['insurance_payments']

print(f'Размерность матрицы признаков {X.shape}')
print(f'Размерность вектора целевого признака {y.shape}')

Размерность матрицы признаков (4847, 4)
Размерность вектора целевого признака (4847,)


In [13]:
# Создаем матрицу, в которой будут содержаться видоизмененные данные
encode_matrix = X.values @ inv_matrix
encode_matrix

array([[-41898.77425404,  83027.79427391, 104329.65044996,
         16177.25417765],
       [-32116.12952008,  63652.91151178,  79955.08302972,
         12401.37258828],
       [-17751.96009184,  35186.64442569,  44191.50625925,
          6854.56284719],
       ...,
       [-28629.41068554,  56725.0722118 ,  71293.54652899,
         11054.25977435],
       [-27617.69863409,  54724.38147088,  68773.91264384,
         10665.09972679],
       [-34290.19795207,  67946.15874176,  85389.47829375,
         13239.3074118 ]])

### Вывод

Последовательно применен алгоритм из п.2. Сформирована матрица `encode_matrix`, в которой содержатся защищенные персональные данные клиентов.

## Проверка алгоритма

По условиям учебного задания не требуется подбирать лучшую модель. Подбор гиперпараметров не производится.

In [14]:
# Функция для обучения модели на исходных и преобразованных данных
def check_func(features, labels, data=None):
    '''функция принимает на вход:
        - матрицу признаков
        - вектор меток (или целевого признака)
        - маркер данных: исходная матрица признаков или преобразованная
        
        функция возвращает вывод на печать значение метрики R2
    '''
    
    model = LinearRegression() # создаем объект класса линейной регрессии
    
    model.fit(features, labels)
    pred = model.predict(features)
    r2 = r2_score(labels, pred)
    
    print(f'Метрика R2: {r2} ({data})')

In [15]:
# Вызов функции
check_func(X, y, data='исходные данные')
check_func(encode_matrix, y, data='преобразованные данные')

Метрика R2: 0.4302010046633359 (исходные данные)
Метрика R2: 0.43020100466334765 (преобразованные данные)


### Выводы

Полученные метрики `R2` практически идентичны (различия начинаются с 14 знака после запятой). Примененная техника преобразования исходных данных не оказала существенного влияние на качество модели линейной регрессии.  

Стоит отметить, что само значение выбранной метрики `R2` представляет собой крайне низкое значение. Метрику можно значительно улучшить, применив подбор гиперпараметров и предварительную подготовку исходных данных (как например, стандартизация или нормализация).