<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
#загрузим данные
df = pd.read_csv('/datasets/insurance.csv')

In [3]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
df.shape

(5000, 5)

In [6]:
#создадим таблицу без целевого признака и отдельно таблицу для хранения целевого признака
feature = df.drop('Страховые выплаты', axis=1)
target = df['Страховые выплаты']

In [7]:
feature .shape

(5000, 4)

In [8]:
target.shape

(5000,)

In [9]:
df.duplicated().sum()

153

Вывод

Данные загружены, пропущенные значения отстутствуют, форматы данных верные, обнаруженные дубликаты удалены.

Размер новой таблицы составил 4847 строк и 5 столбцов. 

## Умножение матриц

Рандомная матрица поможет проверить матрицу на обратимость: если матрица необратима, будет обнаружена ошибка.

Минимальное значение MSE получается, когда веса равны этой величине: W

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** 
Качество линейной регрессии не изменится


**Обоснование:** 


R-рандомная матрица (обратная)

Новая матрица равна произведению первоночальной матрицы на рандомную

$$
X1 = XR
$$

Напишем формулу для новых весов
$$
W1 = ((XR)^T XR)^{-1} (XR)^T y
$$

Раскроем скобки транспонирования, так как есть свойство 

$$
(AB)^T=B^T A^T
$$

$$
W1 = (R^T X^T XR)^{-1} R^T X^T  y
$$

разкроем скобки -1, используя свойство 

$$
(ABC)^{-1}=C^{-1}B^{-1}A^{-1}
$$

$$
W1 = (R)^{-1} (X^TX)^{-1} (R^T)^{-1} R^T X^T y
$$

так как 

$$
AA^{-1}=A^{-1}A=E
$$
(единичной матрице), то значит что

$$
RR^{-1}=R^{-1}R=E
$$

Следовательно заменим произведение 

$$
(R^T)^{-1} R^T на  E
$$

Введем E в нашу формулу

$$
W1 = (R)^{-1} (X^TX)^{-1} E X^T  y
$$


так как W равно

$$
w = (X^T X)^{-1} X^T y
$$

то замем на W 

$$
W1 = (R)^{-1}E  w 
$$

так как E - единичная матрица, то можно убрать E

$$
W1 = (R)^{-1} w 
$$

так как

$$
a = Xw
$$

а 

$$
a1 = X1w1
$$

$$
a1=X1 (R)^{-1}w  
$$

так как X1= XR, то

$$
a1=XR (R)^{-1}w 
$$

cнова 

$$
R (R)^{-1} = E
$$

$$
a1=XE w 
$$

E убираем так как матрица единичная, используя свойство

$$
AE=EA=A
$$

$$
a1=Xw
$$

Следовательно 

$$
a=a1
$$

что и требовалось доказать

<div class="alert alert-success">
<b>Комментарий ревьюера V3✔️:</b> Да, отлично:) Теперь все верно</div>

На основе формул и их преобразований доказано утверждение, что качество линейной регрессии не изменится.

## Алгоритм преобразования

**Алгоритм**

Предложим алгоритм преобразования данных для решения задачи. 

X - матрица с признаками
Y - матрица с целевым признаком
X_T - транспорнированная матрица
R - рандомная обратимая матрица 4x4

1. Умножим матрицу признаков на рандомную матрица из случайных чисел


2. Проверяем полученную матрицу на обратимость


3. Умножаем полученные результаты, заменяем значения на веса, сокращаем и как выше доказыно вектор предсказаний не изменился.


4. Обучаем модель линейной регрессии на кажой выборке


5. Получаем предсказания одинаковые на исходных и преобразованных данных.


Описан и обоснован алгорит преобразования данных

## Проверка алгоритма

In [10]:
#создадим и обучим модель линейной регресии на исходных данных
model = LinearRegression()
model.fit(feature, target)
#предсказываем
predictions = model.predict(feature)
#расчитываем R2
print(r2_score(target, predictions))

0.4249455028666801


R2 составил 0.43 на первоночальных данных

In [11]:
#создадим рандомную квадратную матрицу 4x4
R=np.random.rand(4,4)

In [12]:
np.linalg.det(R)

-0.09625350263267696

Определитель квадратной матрицы R -0,096, то есть не равен нулю, значит у нее есть обратная

In [13]:
X=feature.values

In [14]:
feature_1=X.dot(R)

In [15]:
#создадим и обучим модель линейной регресии на преобразрванных данных
model = LinearRegression()
model.fit(feature_1, target)
#предсказываем
predictions = model.predict(feature_1)
#расчитываем R2
print(r2_score(target, predictions))

0.42494550286668287


R2 составил на измененных данных составил 0.42

Вывод общий

Данные загружены, пропущенные значения отстутствуют, форматы данных верные, обнаруженные дубликаты удалены.
Размер новой таблицы составил 4847 строк и 5 столбцов.

На основе формул и их преобразований доказано утверждение, что качество линейной регрессии не изменится.

Описан и обоснован алгорит преобразования данных

R2 одинаковый на исходных и измененных данных.
