<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Изучение-и-подготовка-данных" data-toc-modified-id="Изучение-и-подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Изучение и подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Изучение-данных" data-toc-modified-id="Изучение-данных-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Изучение данных</a></span></li><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Заказчик исследования - страховая компания "Хоть потоп", которая занимается страхованием клиентом и соответствующими выплатами. Необходимо защитить данные клиентов этой компании. Для этого нужно разработать метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. При этом, выбранный метод не должен приводить к ухудшению качества моделей машинного обучения. Подбирать наилучшую модель не требуется.

Результаты исследования будут использованы заказчиком в коммерческих целях.

**Цель исследования**: разработать метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию

Ход исследования:

Входные данные от компании - персональная информация о застрахованных клиентах. Перед анализом данные необходимо загрузить и проверить на наличие возможных проблем. Далее, на этапе умножения матриц рассмотрим качество модели на исходной задаче и преобразованной. Затем будет предложен, непосредственно, алгоритм преобразования данных. На завершающем этапе исследования проверим этот алгоритм. 

Таким образом, исследование пройдёт в 4 этапа:

* 1. Изучение и подготовка данных;
* 2. Умножение матриц;
* 3. Алгоритм преобразования;
* 4. Проверка алгоритма

## Изучение и подготовка данных

### Изучение данных

Перед тем, как приступить к изучению данных из файла, импортируем все нужные для текущего исследования библиотеки и модули:

In [1]:
import pandas as pd
import numpy  as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

Прочитаем полученные от заказчика данные и сохраним их в таблице:

In [2]:
data = pd.read_csv('/datasets/insurance.csv')

Посмотрим на полученные данные. Для этого выведем на экран первые 5 строк таблицы `data`:

In [3]:
display(data.head())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Получим общую информацию о таблице:

In [4]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB
None


В таблице содержится 5000 наблюдений и 5 признаков. Из этих признаков 3 имеют тип данных `int`, 2 - `float`. Проверим, действительно ли 2 признака нуждаются в типе числа с плавающей точкой, или там имеются какие-то проблемы. Видно, что пропусков в таблице нет, однако могут быть дубликаты, поэтому проверим их возможность появления в таблице. Названия столбцов представлены русским языком, однако будет удобнее работать с переменными, названными английским вариантом.

Целевым признаком исследования будут являться `Страховые выплаты`. Предварительно можно утверждать, что данных представлено не так много, однако их достаточно для решения целей исследования. Согласно документации к данным в таблице присутствуют следующие обозначения:

* `Пол` - пол застрахованного;
* `Возраст` - возраст застрахованного;
* `Зарплата` - зарплата застрахованного;
* `Члены семьи` - количество членов семьи застрахованного;
* `Страховые выплаты` - количество страховых выплат клиенту за последние 5 лет

Посмотрим описательную статистику по таблице и матрицу корреляций:

In [5]:
print('Описательная статистика по таблице:') 
display(data.describe())

Описательная статистика по таблице:


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Видно, что в таблице данных компании соблюден почти идеальный баланс между мужчинами и женщинами. Возможно, оба пола одинаково относятся к страхованию, однако точных выводов без проверки гипотез мы дать не можем. Средний возраст застрахованного составляет около 31 года, при этом медиана составляет 30. Границы возраста застрахованных приводят к выводу, что компания не занимается страхованием лиц, чей возраст составляет менее 18 и старше 65 лет. Также интересно взглянуть на уровень заработной платы застрахованных - медиана составляет чуть более 40 000 рублей. В целом, в компании скорее представлен средний экономический класс, чем слишком бедные или слишком богатые граждане. Взглянем на корреляции:

In [6]:
print('Корреляционная матрица по таблице:')
display(data.corr())

Корреляционная матрица по таблице:


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
Пол,1.0,0.002074,0.01491,-0.008991,0.01014
Возраст,0.002074,1.0,-0.019093,-0.006692,0.65103
Зарплата,0.01491,-0.019093,1.0,-0.030296,-0.014963
Члены семьи,-0.008991,-0.006692,-0.030296,1.0,-0.03629
Страховые выплаты,0.01014,0.65103,-0.014963,-0.03629,1.0


Из важных корреляций наблюдаем, что возраст и количество страховых выплат клиенту за последние 5 лет имеют среднюю силу связи, о чём говорит число 0.651. При этом, именно этот признак каким-то образом влияет на целевой признак, остальные практически незначимыми. Вероятно, для компании есть взаимосвязь: чем старше застрахованное лицо, тем более вероятно он потребует страховку чаще, следовательно, несёт в себе больше рисков для предприятия. 

От изучения данных перейдём к их подготовке к полноценному исследованию.

### Подготовка данных

Для удобной работы с признаками таблицы, изменим их названия с русского языка на английский:

In [7]:
eng_columns = ['gender', 'age', 'salary', 'family_member', 'insurance_payments']
data.columns = eng_columns

В таблице имеется 2 признака, тип которых представлен числом с плавающей точкой. В `salary` можно изменить тип данных на целочисленный - в любом случае, копейки не будут значимо влиять на исследование. Возраст с точностью до месяцев нас также интересовать не будет, поэтому можно переводить его в целочисленный формат. Сделаем это:

In [8]:
data['salary'] = data['salary'].astype('int')
data['age'] = data['age'].astype('int')

Проверим таблицу на наличие явных дубликатов (неявных быть не может):

In [9]:
sum_duplicated = data.duplicated().sum()
print('Количество дубликатов в таблице:', sum_duplicated)

Количество дубликатов в таблице: 153


В таблице есть 153 дубликата. Объяснить, почему появились дубликаты в таблице, не удастся, однако видно, что их количество сильно ниже 10%, поэтому можем удалить их без последствий для исследований. Согласно задачам исследования, этот шаг не является необходимым, однако хороший датафрейм может понадобиться заказчику для дальнейших исследований, поэтому выполним необходимый минимум.

In [10]:
data = data.drop_duplicates()
print(f"Количество наблюдений после удаления дубликатов: {len(data) / (len(data) + sum_duplicated):.2%}")

Количество наблюдений после удаления дубликатов: 96.94%


### Вывод

На этапе изучения и подготовки данных решили все возникшие с данными проблемы: избавились от явных дубликатов, изменили типы данных двух признаков, перевели названия столбцов в англоязычную версию. 

Также увидели, что в данных компании соблюден почти идеальный баланс между мужчинами и женщинами. Средний возраст застрахованного составляет около 31 года, при этом медиана составляет 30. Медиана уровня заработной платы застрахованных составляет чуть более 40 000 рублей. В целом, в клиентах компании скорее представлен средний экономический класс. Помимо этого, обнаружили важную корреляцию возраста и количества страховых выплат: 0.651 - корреляция средней силы, из которой следует, что чем старше клиент, тем более вероятно он потребует нескольких страховых выплат. Перейдём к следующему этапу исследования - умножение матриц.

## Умножение матриц

Разобьём данные на целевой признак и признаки, влияющие на целевой:

In [11]:
features = data.drop('insurance_payments', axis=1)
target = data['insurance_payments']

Перед умножением матриц введём некоторые обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц);

- $y$ — вектор целевого признака;

- $P$ — матрица, на которую умножаются признаки;

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Формула предсказания:

$$
a = Xw
$$

Формула задачи обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

В качестве модели в исследовании примем линейную регрессию. Ответим на вопрос: изменится ли качество данных линейной регрессии после того, как признаки умножаются на обратимую матрицу. Следователь, нужно определить, изменятся ли предсказания линейной регрессии, если матрица $X$ будет умножена на обратимую матрицу.

Составим формулу обучения $w_n$, если $X$ умножается на обратимую матрицу $P$:

$$
w_n = ((XP)^T XP)^{-1} (XP)^T y
$$

Транспонированное произведение матриц равно произведению транспонированных матриц в обратном порядке. Применим это свойство для раскрытия скобок:

$$
w_n = (P^T X^T XP)^{-1} P^T X^T y
$$

Обратная матрица от произведения двух матриц равна произведению матрицы обратной ко второй на матрицу обратную к первой. Применим это свойство, представив, что произведение $X^T X P$ - это одна из двух матриц:

$$
w_n = (X^T XP)^{-1} (P^T)^{-1} P^T X^T y
$$

Произведение обратной матрицы на исходную матрицу равно единичной матрице. Так как $(P^T)^{-1} P^T = E$:

$$
w_n = (X^T XP)^{-1} X^T y
$$

Воспользуемся свойством выше ещё раз, на этот представив, что произведение $X^T X$ - это одна из двух матриц:

$$
w_n = P^{-1} (X^T X)^{-1} X^T y
$$

Чётко видно, что $(X^T X)^{-1} X^T y = w$. Следовательно:

$$
w_n = P^{-1} w
$$

Найдём формулу предсказания, если $X$ умножается на обратимую матрицу $P$:

$$
a_n = X P P^{-1} w
$$

Произведение обратной матрицы на исходную матрицу равно единичной матрице. Так как $P P^{-1} = E$:

$$
a_n = X w = a
$$

Как видно, формула предсказания, если $X$ умножается на обратимую матрицу $P$ и формула предсказания без этого совпадают. 

### Вывод

На данном этапе удалось определить важнейших для исследования момент: при умножении матрицы признаков на обратимую матрицу качество данных линейной регрессии не меняется, так как не меняются предсказания этой модели. 

Следовательно, для алгоритма преобразования можно использовать умножение матрицы признаков на обратимую матрицу, тогда данные будут удачно зашифрованы для чтения, но не будут зашифрованы для предсказаний линейной регрессии. Перейдём к алгоритму.

## Алгоритм преобразования

Разработаем алгоритм преобразования данных для решения задачи. Матрицу признаков будем умножать на случайную обратимую матрицу. При применении метода `np.random.normal` вероятность получить необратимую матрицу стремится к 0, поэтому напишем функцию, которая принимает на вход размер квадратной матрицы, а возвращает обратимую матрицу:

In [12]:
def invertible_matrix(n):
    matrix = np.random.normal(size=(n, n))
    np.linalg.inv(matrix)
    return matrix

Напишем функцию, которая на вход будет принимать матрицу признаков $X$, умножать её на обратимую матрицу $P$, а возвращать результат умножения этих матриц:

In [13]:
def x_p_matrix(features):
    size = features.shape[1]
    P = invertible_matrix(size)
    return features @ P 

Вызовем составленную функцию, чтобы преобразовать матрицу признаков:

In [14]:
new_features = x_p_matrix(features)

Посмотрим, как теперь выглядит таблица `new_features`. Выведем на экран первые 5 строк:

In [15]:
display(new_features.head(5))

Unnamed: 0,0,1,2,3
0,-62764.494227,-59110.472834,-110810.395532,-27979.04017
1,-48088.761016,-45312.646735,-84899.576939,-21444.1387
2,-26577.373591,-25047.497542,-46919.749967,-11852.606405
3,-52761.15939,-49671.974186,-93154.643976,-23515.550097
4,-33030.429492,-31115.810698,-58312.685511,-14726.239964


### Вывод

На этом этапе был составлен алгоритм преобразования признаков таблицы. Теперь изначальные признаки умножаются на обратимую матрицу, после чего таблица сохраняет данные клиентов в зашифрованном для чтения виде. Однако, самое главное, что этот вид никак не помешает предсказаниям линейной регрессии, ведь, как мы выяснили на прошлом этапе, умножение матрицы признаков на обратимую матрицу не влияет на качество линейной регрессии. Далее проверим, так ли это на практике.

## Проверка алгоритма

Чтобы проверить корректность математических доказательств, обучим модель линейной регрессии дважды: в первое случае - для признаков без умножения на обратимую матрицу, во втором - с этим умножением. Посчитаем для каждого случая метрику $R^2$ и сравним. Начнём с первого варианта:

In [16]:
model_without_mult = LinearRegression()

model_without_mult.fit(features, target)
predictions = model_without_mult.predict(features)

print('R2 модели без умножения матрицы признаков на обратимую матрицу составляет:', r2_score(target, predictions))

R2 модели без умножения матрицы признаков на обратимую матрицу составляет: 0.4302010046633359


Теперь обучим модель второго варианта и также рассчитаем метрику:

In [17]:
model_with_mult = LinearRegression()

model_with_mult.fit(new_features, target)
predictions = model_with_mult.predict(new_features)

print('R2 модели с умножением матрицы признаков на обратимую матрицу составляет:', r2_score(target, predictions))

R2 модели с умножением матрицы признаков на обратимую матрицу составляет: 0.43020100466335043


### Вывод

В ходе проверки алгоритма обучили 2 модели и получили предсказания по ним: первая - без умножения матрицы признаков на обратимую матрицу, вторая - с этой операцией. Чтобы проверить, одинаковы ли их предсказания, применили метрику $R^2$. Как видно, в обоих случаях метрика составила 0.43, следовательно, алгоритм корректен и позволяет решить цели исследования.

## Общий вывод

Целью исследование являлась разработка метода преобразования данных, чтобы по ним было сложно восстановить персональную информацию. После небольшой предобработки данных, которая может понадобится заказчику для дальнейшей работы, был выбран метод преобразования данных: умножение матрицы признаков таблицы на случайную обратимую матрицу.

Математически доказали, что при умножении матрицы признаков на обратимую матрицу качество данных линейной регрессии не меняется, так как не меняются предсказания этой модели. При этом, данные становятся достаточно преобразованными, чтобы по ним было трудно определить, что было изначально.

В ходе проверки алгоритма обучили 2 модели и получили предсказания по ним: первая - без умножения матрицы признаков на обратимую матрицу, вторая - с этой операцией. Чтобы проверить, одинаковы ли их предсказания, применили метрику $R^2$. В обоих случаях метрика составила 0.43, следовательно, качество модели не меняется, но данные выходят преобразованными. По таким данным сложно восстановить персональную информацию, по причине долгого перебора подходящей обратимой матрицы для получения изначальной. Следовательно, данный алгоритм может быть успешно применён заказчиком в своей деятельности.