<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
data = pd.read_csv('/datasets/insurance.csv')
data.head(10)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
5,1,43.0,41000.0,2,1
6,1,39.0,39700.0,2,0
7,1,25.0,38600.0,4,0
8,1,36.0,49700.0,1,0
9,1,32.0,51700.0,1,0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Заменим тип столбца `Возраст` на integer, так как возраст в таблице измеряется целыми числами

In [4]:
data['Возраст'] = data['Возраст'].astype('Int64')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   Int64  
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: Int64(1), float64(1), int64(3)
memory usage: 200.3 KB


In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Проверим, есть ли в табице дубликаты

In [6]:
data.duplicated().sum()

153

Удалим дубликаты из таблицы

In [7]:
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()

0

Проверим, есть ли пропуски в таблице

In [8]:
data.isnull().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

**Вывод: Обработанны данные. Изменен тип одного из столюцов в соответствии с его значениями, удалены дубликаты**

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** не изменится

**Обоснование:** 

Введем U следующим образом:

\begin{equation}
U = XA,
\end{equation}

где А - обратимая матрица. Посотрим, как тогда будет выглядеть формула обучения

\begin{equation}
a_1 = Uw_1
\end{equation}

$$
w_1 = (U^T U)^{-1} U^T y
$$

Подставим наше $U$:

$$
a_1 = U(U^T U)^{-1} U^T y
$$

$$
a_1 = XA((XA)^T (XA))^{-1} (XA)^T y
$$

Начнем раскрывать скобки с учетом свойств транспонирования и свойствами обратной матрицы $((AB)^{-1} = B^{-1}A^{-1})$:

$$
a_1 = XA((XA)^T (XA))^{-1} (XA)^T y = XA(A^{T}X^{T}XA)^{-1}(XA)^T y = XA(A^{T}(X^{T}X)A)^{-1}(XA)^T y
$$

$$
a_1 = XAA^{-1}(X^{T}X)^{-1}(A^{T})^{-1}(XA)^T y = XE(X^{T}X)^{-1}(A^{T})^{-1}A^TX^T y
$$

$$
a_1 = X(X^{T}X)^{-1}(A^{T})^{-1}A^TX^T y = X(X^{T}X)^{-1}EX^T y = X(X^{T}X)^{-1}X^T y = X w = a
$$

Получили интересующее нас равенство $a_1 = a$

Из полученного равенства можем найти соотношение между $w$ и $w_1$:

$a = a_1 \Rightarrow Xw = XAw_1 \Rightarrow w = Aw_1$

## Алгоритм преобразования

**Алгоритм**

Для защиты информации в процессе обучения будем домнажать матрицу признаков на обратимую матрицу $(A)$, сгенерированную случайным образом

1) генерируем матрицу $A$\
2) проверка матрицы на обратимость \
3) получение новой преобразованной матрицы признаков \
4) обучение модели на новой матрице признаков


**Обоснование**

Из выкладок представленных выше, мы убедились в том, что при домноженнии матрицы признаков на обратимую матрицу качество линейной регрессии не изменится. При этом важно помнить, что матица должна быть не только квадратной и невырожденной но и такой размерности, чтобы при домнажении не именилась размерность матрицы признаков:

Пусть матрица признаков $B$ размера $(m,n)$ где n - количество признаков, тогда матрица $A$ должна иметь размерность $(n, n)$, чтобы при умножении $B$ на $A$ получилась снова матрица $(m,n)$.

## Проверка алгоритма

Для проверки алгоритма сравним значение метрики R2, для модели обученной на исходных данных и для модели обученной на преобразованных данных

Начнем с исходных данных

In [8]:
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=12345)

In [9]:
model = LinearRegression()
scaller = StandardScaler()
pipeline = Pipeline([("standard_scaller", scaller),("linear_regression", model)])
pipeline.fit(features_train, target_train)
R2_norm = r2_score(target_test, pipeline.predict(features_test))
print("R2_norm =", R2_norm)

R2_norm = 0.4230772749214825


Теперь проверим модель на преобразованных данных

In [10]:
def convert(features):
    n = features.shape[1]
    np.random.seed(15)
    conv_matrix =  np.random.randint(0, 100, (n,n))
    while np.linalg.det(conv_matrix) == 0:
        conv_matrix = np.random.randint(0, 100, (n,n))
    converted_features = features @ conv_matrix
    return converted_features

In [11]:
converted_features = convert(features)
display(features.head())
display(converted_features.head())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41,49600.0,1
1,0,46,38000.0,1
2,0,29,21000.0,0
3,0,21,41700.0,2
4,1,28,26100.0,0


Unnamed: 0,0,1,2,3
0,4217251.0,2332342.0,4615748.0,846337.0
1,3231319.0,1787265.0,3537298.0,649512.0
2,1785812.0,987783.0,1955059.0,359175.0
3,3545150.0,1960513.0,3879655.0,710599.0
4,2219356.0,1227468.0,2429293.0,445800.0


In [12]:
features_train, features_test, target_train, target_test = train_test_split(
    converted_features, target, test_size=0.25, random_state=12345)

In [13]:
model_2 = LinearRegression()
scaller = StandardScaler()
pipeline = Pipeline([("standard_scaller", scaller),("linear_regression", model_2)])
pipeline.fit(features_train, target_train)
R2_conv = r2_score(target_test, pipeline.predict(features_test))
print("R2_conv =", R2_conv)

R2_conv = 0.4230772749212075


In [14]:
result = pd.DataFrame(data=[R2_norm, R2_conv], 
                      columns=['R2_score'], 
                      index=['Линейная регрессия с исходными данными', 'Линейная регрессия с преобразованными данными данными'])
result

Unnamed: 0,R2_score
Линейная регрессия с исходными данными,0.423077
Линейная регрессия с преобразованными данными данными,0.423077


**Вывод: Получили одинаковое значение метрики R2 в двух случаях. Это подтверждает, что домнажение признаков на обратимую матрицу ничего не изменило для обучения, но данные стали более защищенными.**

## Общий вывод

В данном проекте был проанализированн метод защиты данных путем домножения на обратимую матрицу.
В ходе работы были проанализированны и обработанны данные страховой компании "Хоть потоп":
- Заменен тип столбца `Возраст` на integer
- Удаленны дубликаты в таблице

Было приведенно математическое обоснование правомерности использования подобного способа защиты данных. Так же был представлен алгоритм для успешной работы метода.

Алгоритм был проверенн на предобработанном массиве данных, с применением масштабирования данных.

В результате было выясненно, что применение домнажения данных на обратимую матрицу не влияет на работу линейной регрессии. Получены одинаковые значения метрики R2 (0.423077).