# Защита персональных данных клиентов

Задание 
Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import numpy as np
import pandas as pd
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [3]:
df.head(10)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
5,1,43.0,41000.0,2,1
6,1,39.0,39700.0,2,0
7,1,25.0,38600.0,4,0
8,1,36.0,49700.0,1,0
9,1,32.0,51700.0,1,0


In [4]:
x = df.drop("Страховые выплаты", axis=1)
y = df["Страховые выплаты"]

In [5]:
x.shape

(5000, 4)

In [6]:
y.shape

(5000,)

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Качество линейной регресии при умножении признаков на обратимую матрицу не изменится 

**Обоснование:** 
$$
w' = ((XP)^T (XP))^{-1} (XP)^T y  
$$

$$
w' = (X^T P^T X P)^{-1} X^T P^T Y 
$$

$$ 
w' = (P^T)^{-1}P^{-1}(X^TX)^{-1}X^TP^TY
$$

***Исправление***
$$
w' = ((XP)^T(XP))^{-1} (XP)^TY = P^{-1}((XP)^{T}X)^{-1} P^TX^TY = P^{-1}(P^TX^TX)^{-1} P^TX^TY = P^{-1}(X^TX)^{-1}(P^T)^{-1} P^TX^TY
$$

можем сократить единичную матрицу
$
(P^T)^{-1} P^T = E 
$

$$
w' = P^{-1}(X^TX)^{-1}X^TY
$$

$$
a' = XPP^{-1}(X^TX)^{-1}X^TY
$$

можем сократить единичную матрицу
$
PP^{-1} = E
$

$$
a' = X(X^TX)^{-1}X^TY
$$

$$
a' = a
$$

Проверим доказательство на практике на метрике R2\
создадим случайную квадратную матрицу МХ, размером 5х5(добавив\
в тестовый набор единичный столбец)  

$$
w = (X^T X)^{-1} X^T y
$$

$$
w' = P^{-1}(X^TX)^{-1}X^TY
$$

Преобразованные параметры получаются посредством умножения обратной матрицы (Р, которую использовали при преобразовании) на исходные параметры



<div class="alert alert-danger">
<font size="5"><b>Комментарий ревьюера</b></font>

Ошибка ❌:
    
1

  
Нет ответа на "как связаны параметры линейной регрессии в исходной задаче и в преобразованной"

Какое соотношение между $w$ и $w_p$?
    
    
Где   



$$
w = (X^T X)^{-1} X^T y
$$
    
    
$$
w_P = ((XP)^T XP)^{-1} (XP)^T y
$$   




2

  
Направление твоего доказательства верное - берем формулу, подставляем, немножко математической магии: открываем скобки, сокращаем итп итд, как в обычной арифметике и вуаля! Вообще тут много аналогий:  в "мире матриц" умножив единичную матрица на вектор или матрицу получаем тот же самый вектор или матрицу, в "мире цифр" это как умножив число на 1, получить тоже самое число. Если умножить матрицу на обратную ей матрицу получаем единичную матрицу, точно также если умножить число на обратное ей число получаем единицу. Но есть особенности пробразований в "мире матриц" которые надо учитывать: обратная матрица существует только у квадратной матрицы, поэтому:  
    
$$
(AB)^{-1} = B^{-1} A^{-1}
$$
    
только когда у нас A и B квадратные, Может когда то в линейную алгебру введут "мнимые матрицы", по подобию "мнимых чисел" )) Но пока не ввели, поэтому перепрыгивать через этот момент не можем, это как на ноль делить
      
  
А $X$ не квадратная матрица и $ XP $ не дает нам  квадратную матрицу (размерность $X$ 5000на4, размерность $P$ 4на4, значит если перемножить $XP$  получим мтарицу 5000на4 - не квадратная матрица), а если так, то обратной матрицы у ней нет, "делим на 0".


А вот еще особенности преобразований в "мире матриц" которые не учтены:
    
$$
(AB)^T=B^T A^T
$$


И маленькая подсказка, найди тут:
    
$$
((XP)^T XP)^{-1}
$$
  
    
три квадратные матрицы.
<div class="alert alert-warning">



Совет 🤔:    
    
    
   
    
  


  
Есть ещё один способ доказательства   когда мы берём
    
    
$$
w = \arg\min_w MSE(Xw, y)
$$
    
  
и     
    
$$
w_P = \arg\min_w MSE(XPw_p, y)
$$  
    
    
И делая  замену    w_p, видим что задача  
    
$$
\arg\min_w MSE(XPw_p, y)
$$
    
сводится к     
  
    
$$
\arg\min_w MSE(Xw, y)
$$    


Осталось только догадаться какую замену мы делаем.  Можешь попробовать решить и таким способом  

  
</div>
    

    




<div class="alert alert-info">
<font size="3"><b>Комментарий студента</b></font>
<div> Здравствуй, Марат. Исправления выше, где формулы, удалять первый вариант не стала. Ответ на первое замечание после формул
    

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



Привет Анна! Доказательство верное




<div class="alert alert-warning">


Совет 🤔:


По поводу 2 доказательства - оно очень короткое )    
    
    
    
    
Для исходных данных мы решаем это  
    
$$
w = \arg\min_w MSE(Xw, y)
$$
    
  
Для преобразованных данных решаем это  
    
$$
w_P = \arg\min_w MSE(XPw_p, y)
$$  
    
    
Давай сделаем замену   w_p на $P^{-1}w$
    
 
И подставим:    
    
$$
\arg\min_w MSE(XPP^{-1}w, y)
$$
  
    
    
сократим и получим 
  
    
$$
\arg\min_w MSE(Xw, y)
$$    

    
    
    
Получается если заменить w_p на $P^{-1}w$, то получаем то же самое    
    
</div>


<div class="alert alert-danger">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Ошибка ❌:


А вот какое соотношение между $w$ и $w_p$, так так и не нашёл
  
    
Ты правильно доказала  что $ 
a = a_p
$
       
  
Отсюда
    
    
$$ 
a = a_p = XP w_p = X w
$$
    
    
А теперь скажи при каком соотношении между $w$ и $w_p$ $$ 
XP w_p = X w
$$

</div>

<div class="alert alert-info">
<font size="3"><b>Комментарий студента</b></font>
<div> 
$$
w = (X^T X)^{-1} X^T y
$$

$$
w' = P^{-1}(X^TX)^{-1}X^TY
$$
    
$$
w' = P^{-1}w
$$    
    

Преобразованные параметры получаются посредством умножения обратной матрицы (Р, которую использовали при преобразовании) на исходные параметры    

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV3</b></font>



Успех 👍:



👍




</div>


In [7]:
X = np.concatenate((np.ones((x.shape[0], 1)), x), axis=1)

<div class="alert alert-warning">
<font size="5"><b>Комментарий ревьюера</b></font>



Совет 🤔:


А зачем ты добавляешь единичный столбец? 
</div>


<div class="alert alert-info">
<font size="3"><b>Комментарий студента</b></font>
<div> Желание "перебдеть" =)

<div class="alert alert-warning">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Совет 🤔:


Единичный столбец добавляется когда мы  прописываем формулу и решаем по ней:
    
    
    
$$
w = (X^T X)^{-1} X^T y
$$
    
    
    
    
    
А ты использовала   LinearRegression() . То есть можно было и не добавлять единичный столбец  
</div>


In [8]:
MX = np.random.rand(5,5)

In [9]:
np.linalg.inv(MX)

array([[-3.97152582,  1.05020492,  3.07960366,  2.79030678, -0.48583532],
       [-2.28482331,  2.53529979,  0.99461551,  2.64258274, -2.5361748 ],
       [ 4.96021915, -3.201109  , -4.28753201, -1.1051932 ,  0.20792904],
       [ 3.09782069, -0.59468609, -3.78348699, -1.81838983,  2.13579856],
       [ 2.16953148, -0.48945652,  0.29535683, -2.989937  ,  1.26867375]])




<div class="alert alert-warning">
<font size="5"><b>Комментарий ревьюераV2</b></font>

Совет 🤔:


- ты проверяешь    матрицу на обратимость - отлично, но если она необратима,  при дальнейших расчетах выскочит ошибка
    
Можно здесь было сделать похитрей:


    def func(dim):
        transform_matrix = np.random.rand(dim, dim)
        try: 
            inv = np.linalg.inv(transform_matrix)
            return transform_matrix, inv
        except:
            func(dim)  


или 
    
    
    def get_rand_matrix():
        det = 0
        while det == 0:
            matrix = np.random.normal(size=(data.shape[1], data.shape[1]))
            det = np.linalg.det(matrix)
        return matrix


</div>

<div class="alert alert-info">
<font size="3"><b>Комментарий студента</b></font>
<div> матрица обратима

In [10]:
def R2(features, target):
    model = LinearRegression()
    model.fit(features, target)
    predictions = model.predict(features)
    return r2_score(target, predictions)

In [11]:
R2(X,y)

0.42494550286668

In [12]:
a = X @ MX
R2(a, y)

0.4249451498193587

Качество линейной регрессии не изменилось

## Алгоритм преобразования

**Алгоритм**
Для шифрования предлагаю:
1. Умножить признаки на 8
2. Умножить признаки на фиксированную квадратную матрицу 
3. Для дешифровки умножить на обратную матрицу и разделить на 8


<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех 👍:


Принято


**Обоснование**

При умножении на число и обратимую квадратную матрицу качество прогнозирования не уменьшается

## Проверка алгоритма

In [13]:
X_n = (X * 8) @ MX
X_n

array([[382124.45427307, 171267.33804227, 201657.03434834,
        144083.80702675, 213102.16756693],
       [292830.58355159, 131242.56588535, 154532.39591418,
        110388.20255873, 163344.4332816 ],
       [161845.29334109,  72538.4199516 ,  85409.741535  ,
         61003.57767963,  90290.94777303],
       ...,
       [261138.09916634, 117038.20481534, 137809.2405264 ,
         98479.17817595, 145608.14415624],
       [251916.07777598, 112905.51865253, 132939.09730583,
         95000.49249375, 140475.86942165],
       [312762.3901732 , 140180.36795418, 165053.44796407,
        117940.38305974, 174406.24939663]])

<div class="alert alert-danger">
<font size="5"><b>Комментарий ревьюера</b></font>

Ошибка ❌:

  
    

    
    
- А откуда мы знаем что сгенерированная матрица обратимая (вероятность невысокая, но она есть)? Это нужно проверять, и если она получится не обратимой, генерировать опять    

    
    
<div class="alert alert-warning">



Совет 🤔:


- Можно использовать функцию с конструкцией while: будем генерировать случайные матрицы, пока не получим с детерминантом не равным нулю или можно использовать рекурсию
    
    
    

- что насчет универсальности кода? Сейчас ты цифрой определяешь размерность случайной матрички, почему бы не написать код, который отработает для любой размерности матрицы обьект-признак?      
      
    
    
</div>


<div class="alert alert-info">
<font size="3"><b>Комментарий студента</b></font>
<div> Написала проверку после создания данной матрицы

In [14]:
R2(X_n, y)

0.4249451498193587

качество прогноза не изменилось.

Проведем дешифровку

In [15]:
X_n1 = (X_n @  np.linalg.inv(MX)) / 8

In [16]:
X

array([[1.00e+00, 1.00e+00, 4.10e+01, 4.96e+04, 1.00e+00],
       [1.00e+00, 0.00e+00, 4.60e+01, 3.80e+04, 1.00e+00],
       [1.00e+00, 0.00e+00, 2.90e+01, 2.10e+04, 0.00e+00],
       ...,
       [1.00e+00, 0.00e+00, 2.00e+01, 3.39e+04, 2.00e+00],
       [1.00e+00, 1.00e+00, 2.20e+01, 3.27e+04, 3.00e+00],
       [1.00e+00, 1.00e+00, 2.80e+01, 4.06e+04, 1.00e+00]])

In [17]:
X_n1

array([[1.00000000e+00, 1.00000000e+00, 4.10000000e+01, 4.96000000e+04,
        1.00000000e+00],
       [1.00000000e+00, 1.68485865e-11, 4.60000000e+01, 3.80000000e+04,
        1.00000000e+00],
       [1.00000000e+00, 3.02113597e-12, 2.90000000e+01, 2.10000000e+04,
        4.25656996e-12],
       ...,
       [1.00000000e+00, 1.98592984e-11, 2.00000000e+01, 3.39000000e+04,
        2.00000000e+00],
       [1.00000000e+00, 1.00000000e+00, 2.20000000e+01, 3.27000000e+04,
        3.00000000e+00],
       [1.00000000e+00, 1.00000000e+00, 2.80000000e+01, 4.06000000e+04,
        1.00000000e+00]])

Дешифровка проведена корректно



<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех 👍:
    
Все сошлось. 



<div class="alert alert-warning">


Совет 🤔: 
    


- каноны ML - когда мы моделируем, разбиваем датасет на несколько, используя train для обучения и test для проверки, опять же это никак не изменит выводы, но каноны стоит уважать
   





**ВЫВОДЫ**\
в ходе работы:
1. Проанализированы данные клиентов страховой компании «Хоть потоп»
2. Разработан алгоритм шифрования персональной информации с помощью умножения на обратимую матрицу
3. Проведено шифрование персональной информации клиентов компании
4. Проведен сравнительный анализ метрик R2 линейной регрессии на исходных данных и зашифрованных(они равны, что доказывает адекватность шифрования)
5. Проведена дешифровка персональной информации.

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>

Успех 👍:

Общий вывод расписан и структрирован по логическим блокам проекта
    
    



<div class="alert alert-danger">
<font size="5"><b>Комментарий ревьюера</b></font>

Ошибка ❌:

Анна, было бы замечательно, в конце немножко о данных, работе с ними, моделировании и полученных результатах, доказательствах. Это важно потому что когда проект захочет посмотреть будущий работодатель (или начальник), у него может не быть времени на подробный разбор кода. Вероятнее всего он бегло просмотрит код, а из общего вывода захочет получить представление о всей работе. Вырабатывай рефлексы правильного формления проектов )


</div>


<div class="alert alert-info">
<font size="5"><b>Комментарий ревьюера</b></font>


Анна, у тебя старательно выполненная работа, все четко, осмысленно. Отмечаю уровень твоей программистской подготовки. 


    


Обязательное к исправлению:



    
- дорабатываем теоретическое доказательство, с учетом моих комментариев   


 


- выводим соотношение между  𝑤  и  𝑤𝑝 
 
    




- нет проверки на обратимость 
    
    
    
- рекомендую добавить общий вывод (лицо проекта)



Жду исправлений, для принятия проекта. Если какие то вопросы, то сразу спрашивай ) 

</div>




<div class="alert alert-info">
<font size="5"><b>Комментарий ревьюераV2</b></font>

Спасибо за работу!    

 

Осталось только вывести соотношение между  𝑤  и  𝑤𝑝 

</div>


<div class="alert alert-info">
<font size="5"><b>Комментарий ревьюераV3</b></font>

Спасибо за работу!    

    

Красного нет, вопросов нет, значит все, пора принимать) Надеюсь мои советы и вопросики были полезны и в копилочку знаний упало что то новое, а проект стал лучше, и симпатичней.

  
Отличная работа Анна. Желаю успехов в дальнейшей учебе!

    
    
    
<div class="alert alert-warning">



Совет 🤔:

P.S.

На мой взгляд проект очень необычный и интересный, который касается одной из главных математических основ лежащих в машинном обучении  (помимо производных, матанализа и теории вероятности с матстатистикой). Если в дальнейшем ты углубишься в изучении нейростетей, то понимание линейной алгебры будет очень полезным, потому что, по сути, все нейросети - это перемножение матриц и Линейная алгебра даёт очень компактный способ записи того что происходит в нейросетях. 
    

    
    
    

Если хочешь поразбираться в линейной алгебре и матрицах, то мне нравится  вот это [видео](https://www.youtube.com/watch?v=RNTRYicPvWQ&list=PLVjLpKXnAGLXPaS7FRBjd5yZeXwJxZil2), рассказывается по существу и увлекательно.  
    
</div>

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные загружены
- [ ]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [ ]  Указан правильный вариант ответа
    - [ ]  Вариант обоснован
- [ ]  Выполнен шаг 3: предложен алгоритм преобразования
    - [ ]  Алгоритм описан
    - [ ]  Алгоритм обоснован
- [ ]  Выполнен шаг 4: алгоритм проверен
    - [ ]  Алгоритм реализован
    - [ ]  Проведено сравнение качества моделей до и после преобразования