<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li>

# Защита персональных данных клиентов

**Описание проекта:**
    
Нам нужно защитить данные клиентов страховой компании. Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

**Цель исследования:**
Разработать алгоритм преобразования данных, при котором качество моделей машинного обучения не было бы ухудшено.

**Ход исследования:**
    
1. Загрузка данных
2. Умножение матриц
3. Разработка алгоритма преобразования
4. Проверка алгоритма

## Загрузка данных

In [1]:
#Импортируем необходимые библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

In [2]:
#Сохраним файл с данными в переменную data
data = pd.read_csv('/datasets/insurance.csv')

In [3]:
#Посмотрим общую информацию датафрейма
data.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 5000 entries, 0 to 4999

Data columns (total 5 columns):

 #   Column             Non-Null Count  Dtype  

---  ------             --------------  -----  

 0   Пол                5000 non-null   int64  

 1   Возраст            5000 non-null   float64

 2   Зарплата           5000 non-null   float64

 3   Члены семьи        5000 non-null   int64  

 4   Страховые выплаты  5000 non-null   int64  

dtypes: float64(2), int64(3)

memory usage: 195.4 KB


In [4]:
#Выведем первые пять строк данных
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [5]:
#Посмотрим общую информацию о данных
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [6]:
#Проверим данные на дубликаты
data.duplicated().sum()

153

In [7]:
#Удалим дубликаты
data.drop_duplicates(inplace=True)

In [8]:
#Проверим данные на дубликаты после их удаления
data.duplicated().sum()

0

**Вывод:**  
* Удалено 153 дубликата
* Данные представлены в предобработанном виде.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** При умножении на обратимую матрицу, качество линейной регресии не изменится.

**Обоснование:**

Признаки умножают на обратимую матрицу. Необходимо проверить, изменится ли качество линейной регрессии и показать, как связаны параметры линейной регрессии в исходной задаче и в преобразованной

Добавим обозначения:  
  
$XP$ - новая матрица, полученная умножением матрицы $X$ на обратимую $P$  
$a1$ - предсказания для новой матрицы  
$w1$ — вектор весов линейной регрессии для $a1$  

Условие:  
$$a=a1$$  
должно быть истинным  

Подставим значения в формулу обучения:  
$$  
w1=((XP)^T XP)^{-1} (XP)^T y  
$$   

Раскроем скобки:    
$$w1=(X^T P^T XP)^{-1} X^T P^T y$$
$$w1=P^{-1} (X^T X)^{-1} (P^T)^{-1} X^T P^T y$$
  
Т.к. $P$ - обратимая, то произведение $(P^T)^{-1} P^T$ равно $E$ (единичная матрица), получается:  
  
$$w1=P^{-1} (X^T X)^{-1} E X^T y=P^{-1} (X^T X)^{-1} X^T y$$
  
Сократим формулу, т.к. в правой части указана формула для $w$:  
$$w1=P^{-1} w$$
  
Подставим значение $w1$ в формулу $a1$:  
$$a1=XP P^{-1} w$$  
  
Сократим её:  
$$a1=XEw=Xw=a$$
  
Таким образом, исходя из расчётов получается, что $a1$ равно $a$, следовательно, качество линейной регрессии не изменится.

**Вывод:**  
Ответили на вопрос "Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?". При умножении на обратимую матрицу, качество линейной регресии не изменится. Решение обосновали.

## Алгоритм преобразования

**Алгоритм**  
  
Предлагаем следующий алгоритм для преобразования:  
  
* Делим выборку на обучающие признаки и целевой признак, т.е отделяем от данных страховые выплаты;
* Создаем случайную матрицу размером 4х4 (в выборке 4 признака);
* Обучаем модель;
* Получаем предсказания;
* В качестве метрики берем коэффициент детерминации R2;
* Признаки умножаем на созданную матрицу;
* Обучаем модель на новых признаках;
* Получаем предсказания;
* Сравниваем полученные результаты

**Обоснование**

Обоснование расписано во втором этапе исследования.

**Вывод:**  
Проверять алгоритм будем на общем датасете, без деления на тестовую и обучающую выборки.

## Проверка алгоритма

In [10]:
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']
matrix = np.random.normal(size = (4,4))
matrix = np.linalg.inv(matrix)
model = LinearRegression()
model.fit(features, target)
normal_pred = model.predict(features)
normal_r2_score = r2_score(target, normal_pred)
print('R2 на исходных признаках:', normal_r2_score)

R2 на исходных признаках: 0.4302010044852066


In [11]:
trans_features = features @ matrix
model.fit(trans_features, target)
trans_pred = model.predict(trans_features)
trans_r2_score = r2_score(target, trans_pred)
print('R2 на преобразованных признаках:', trans_r2_score)

R2 на преобразованных признаках: 0.4302010044852066


In [12]:
normal_r2_score - trans_r2_score

0.0

**Вывод:**  
Результаты проверки на исходных данных и на преобразованных данных совпадают. Алгоритм преобразования данных не влияет на линейную регрессию.