<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Шаг-1" data-toc-modified-id="Шаг-1-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Шаг 1</a></span></li><li><span><a href="#Шаг-2" data-toc-modified-id="Шаг-2-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Шаг 2</a></span></li><li><span><a href="#Шаг-3." data-toc-modified-id="Шаг-3.-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Шаг 3.</a></span></li><li><span><a href="#Шаг-4" data-toc-modified-id="Шаг-4-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>Шаг 4</a></span></li></ul></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

План: 
1. Загрузить и изучить данные. 
2. Ответить на вопрос "Изменится ли качество линейной регрессии если умножить признаки на обратимую матрицу?" и обосновать решение.  
3. Предложить алгоритм преобразования данных для решения задачи. Обосновать почему качество линейной регрессии не поменяется.
4. Запрограммировать этот алгоритм, применив матричные операции. Проверить что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику $R^2$.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np

# импорт метрики качества 
from sklearn.metrics import r2_score

# импорт моделей 
from sklearn.linear_model import LinearRegression 

from sklearn.model_selection import train_test_split

In [2]:
# чтение данных
try:
    data = pd.read_csv('/datasets/insurance.csv')
except:
    data = pd.read_csv('insurance.csv')

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
# переименуем названия признаков
data.rename(columns={"Пол": "gender", 
                     "Возраст": "age",
                     "Зарплата": "salary",
                     "Члены семьи": "family_members",
                     "Страховые выплаты": "insurance_payments"}, inplace = True)
print(data.columns)

Index(['gender', 'age', 'salary', 'family_members', 'insurance_payments'], dtype='object')


**Краткий вывод**  
В базе 5 признаков. В датасете нет миссингов, типы данных подходят для обучения линейной регресси. Только названия признаков были на русском языке, переименовала их. 

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:**  Нет, не изменится. 

**Обоснование:** 

Предсказания
$$
a = Xw\qquad (0)
$$

Формула обучения линейной регрессии

$$
w = (X^T X)^{-1} X^T y\qquad (1)
$$

Умножим матрицу признаков на обратимую матрицу $P$ 
$$
a' = XPw' \qquad (2)
$$

Тогда формула обучения линейной регресси примет вид: 
$$
w' = ((XP)^T XP)^{-1} (XP)^T y \qquad (3)
$$

Преобразуем выражение для $w'$:

$$ 
w' = ((XP)^T(XP))^{-1} (XP)^Ty = (P^TX^T XP)^{-1} P^T X^T y = P^{-1} (X^T X)^{-1} (P^T)^{-1}P^T X^T y\qquad (4)
$$ 

По свойствам умножения матриц $(P^T)^{-1}P^T = E$ (единичной матрицу)

Действительно: пусть $A = P^T$, тогда $A^{-1}A => E$.  
И еще из свойств матричного умножения знаем, что при умножении матрицы/вектора на единичную матрицу получается та же матрица/вектор.  

Тогда в $(4)$ можно опустить $(P^T)^{-1}P^T$ и получим: 
$$
w' = P^{-1} (X^T X)^{-1} X^T y\qquad (5)
$$ 

Из $(1) => (X^T X)^{-1} X^T y = w$. 

Подставим это значение в $(5)$ и получим:
$$ 
w' = P^{-1} (X^T X)^{-1} X^T y = P^{-1}w
$$ 

Получили: 
$$
w'= P^{-1}w\qquad (6)
$$

Подставим вместо $w'$ в формуле для предсказаний $(2)$ значение $P^{-1}w$:

$a'= XPP^{-1}w = Xw = a$

Получили, что после всех преобразования и применений свойств матричного умножения, что

$a' = a$

Теперь вспомним, что задача обучения заключалась в 
$$
w = \arg\min_w MSE(Xw, y)
$$

Преобразованная задача будет выглядеть так:

$$
w' = \arg\min_w MSE(XPw', y)
$$

Подставим вместо $w'$ полученное значени $(6)$. Получим:

$$
w' = \arg\min_w MSE(XPw', y) = \arg\min_w MSE(XPP^{-1}w, y) = \arg\min_w MSE(Xw, y)
$$

Получили взаимно-однозначное соответствие параметров исходной и преобразованной задач. Минимум достигается при одном и том же значени фукнции потерь.  
Следовательно, при умножении матрицы признаков на обратимую матрицу качество линейной регрессии не изменится. 

## Алгоритм преобразования

**Алгоритм**

1. Отделить целевой признак от набора данных. Разделить датасет на обучающую и тестовую.  
2. Сгенерировать и зафиксировать случайную квадратную матрицу в качестве ключа шифрования.  
3. Провести матричное умножение набора данных и ключа шифрования. 
4. Обучить линейную регрессию для исходной базы и зашифрованной базы. Сравнить качество двух моделей. 

**Обоснование**


Отделить целевой признак и остальные признаки, а также поделить выборку на обучающую и тестовую нужно для обучения модели: как в исходной задаче, так и в преобразованной. 

В предыдущем пункте было доказано, что качество линейной регрессии не изменится если умножить матрицу признаков на обратимую матрицу. Помним, что обратимаю матрица - квадратная и невырожденная (определитель отличен от (не равен) нуля). Опираясь на жто свойство мы можем зашифровать исходные признаки, умножив матрицу на сгенерированную случайным образом обратимую матрицу.

Затем следует стандартная задача обучения: для исходной задачи и преобразованной. Сравним метрику $R^2-score$ и проверим изменилось ли качество или нет. 

## Проверка алгоритма

### Шаг 1

In [6]:
# отделим целевой и остальные признаки
features = data.drop('insurance_payments', axis=1)
target = data['insurance_payments']

In [7]:
# разделим выборку на обучающую и тестовую
features_train, features_test, target_train, target_test = train_test_split(features, target,
                                                                            test_size=0.25, random_state=12345)

### Шаг 2

In [8]:
# сгенерируем случайную матрицу 4х4
np.random.seed(100)
state = np.random.get_state()
random_matrix = np.random.random((4, 4))

In [9]:
random_matrix

array([[0.54340494, 0.27836939, 0.42451759, 0.84477613],
       [0.00471886, 0.12156912, 0.67074908, 0.82585276],
       [0.13670659, 0.57509333, 0.89132195, 0.20920212],
       [0.18532822, 0.10837689, 0.21969749, 0.97862378]])

In [10]:
# проверим, что полученная матрица невырожденная, 
# иными словами проверим, что её определитель отличен от нуля

np.linalg.det(random_matrix)

-0.07920228403931696

**Краткий вывод** 

Определитель матрицы отличен от нуля, значит матрица обратимая. Можно приступить к выполнению следующего шага. 

### Шаг 3. 
Зашифруем признаки. 

In [11]:
features_train_code = features_train.values.dot(random_matrix)
features_test_code = features_test.values.dot(random_matrix)

In [12]:
features_train_code = pd.DataFrame(features_train_code, columns=features_train.columns)
features_train_code.head()

Unnamed: 0,gender,age,salary,family_members
0,4949.710191,20823.992744,32295.341172,7610.451889
1,7875.003412,33129.787495,51363.374555,12078.966004
2,5618.977168,23640.334428,36655.01599,8625.613131
3,6165.822402,25941.194022,40222.986804,9465.72503
4,6917.879817,29103.951004,45123.465003,10614.837768


In [13]:
features_test_code = pd.DataFrame(features_test_code, columns=features_test.columns)
features_test_code.head()

Unnamed: 0,gender,age,salary,family_members
0,5332.454033,22433.085136,34784.569728,8190.050399
1,5892.660615,24792.817708,38449.95308,9059.861349
2,5756.074866,24216.448734,37551.238008,8840.462375
3,4757.483698,20015.679246,31031.418992,7296.750905
4,5469.198373,23009.151019,35681.257675,8405.859343


Итак, все необходимые преобразования выполнены. Перейдем к обучению линейной регрессии и проверке качества моделей. 

### Шаг 4

In [14]:
# обучим линейную регрессию для исходных данных
model = LinearRegression().fit(features_train, target_train)
predictions = model.predict(features_test)

# проверим качество модели для исходной задачи
r2_score(target_test, predictions)

0.43522757127026546

In [15]:
# обучим линейную регрессию для зашифрованных данных
model = LinearRegression().fit(features_train_code, target_train)
predictions = model.predict(features_test_code)

# проверим качество модели для преобразованной задачи
r2_score(target_test, predictions)

0.4352275712686613

**Вывод** 

Качество модели до и после преобразования практически одинаковые. 