# Проект курса "Линейная алгебра"

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Нам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

# Описание данных
- Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
- Целевой признак: количество страховых выплат клиенту за последние 5 лет.

<div class="alert alert-success">
<h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>
<b>Верно!👍:</b> Здорово, есть хорошее подробное описание задачи и данных, план-содержание работы 👍
</div>

## Загрузка данных

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import warnings
warnings.filterwarnings('ignore')

<div class="alert alert-success">
<h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>
<b>Верно!👍:</b> Отлично, все нужные библиотеки и функции подключены.
</div>

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
df[:5]

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


<div class="alert alert-warning">
    <h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>    
<b>Совет💡:</b> Данные загружены и осмотрены. Если бы не все признаки были представлены числовым типом данных, то возникли бы проблемы в дальнейшем, нужно было бы их сначала закодировать.
</div></div>

## Умножение матриц

In [4]:
X = df.drop("Страховые выплаты", axis=1)
y = df["Страховые выплаты"]

X.shape, y.shape

((5000, 4), (5000,))

<div class="alert alert-warning">
    <h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>    
<b>Совет💡:</b> Обрати внимание, матрица ${X}$ — не квадратная.
</div></div>

**Проверим, обратима ли матрица:**

In [5]:
INV = np.random.rand(4,4)

np.linalg.inv(INV)

array([[ -6.254758  , -27.24051672,  -7.57216733,  27.3776121 ],
       [ -0.69551912,  -7.88636218,  -0.95257022,   6.37265475],
       [  1.0798238 ,   0.88566748,  -2.12723697,   0.65605301],
       [  6.29088333,  33.27146909,  11.08908356, -33.14137984]])

<div class="alert alert-success">
<h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>
<b>Верно!👍:</b> Здорово, что генерируешь случайную матрицу.
</div>

<div class="alert alert-warning">
    <h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>    
<b>Совет💡:</b> Можно чуть больше комментариев по ходу работы делать: сделать заключение, что матрица обратима.
</div></div>

In [6]:
def predict_and_r2_score(x, y):
    lr = LinearRegression()
    lr.fit(x, y)
    r2 = lr.score(x, y)
    return r2

<div class="alert alert-success">
<h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>
    <b>Верно!👍:</b> Здорово, что используешь пользовательскую функцию, это позволит нам избежать излишней повторяемости кода.
</div>

**R2 для обычной матрицы признаков:**

In [7]:
predict_and_r2_score(X, y)

0.42494550286668

**R2 для [X * INV]:**

In [8]:
X_inv = X @ INV
predict_and_r2_score(X_inv, y)

0.42494550286696164

**Вывод:**
Качество линейной регрессии не меняется при умножении матрицы признаков **nxk** справа на квадратную обратимую матрицу **kxk**

<div class="alert alert-warning">
    <h2> Комментарий ревьюера <a class="tocSkip"> </h2>
<hr>    
<b>Совет💡:</b> Здесь лучше эксперимент всё-таки не использовать для ответа на вопрос, так как мы не можем по единичному результату говорить о закономерности. Можно просто сразу ответить на вопрос: если знаем теоретическое обоснование, то знаем и правильный ответ. А потом мы уже теорию подкрепляем на практике, применяя её в прикладном русле :)
</div></div>

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:**  R2 не поменяется

**Обоснование:** 
$$
a = X_1 w
$$






Для решения этого задания достаточно знать, что:


1. $AB \neq BA$
2. $ (AB)^{-1} = B^{-1}A^{-1} $
3. $ (AB)^{T} = B^{T}A^{T} $
4. $ AA^{-1} = E $
5. $ АЕ = ЕА = А $

В формулу вектора весов линейной регрессии w подставляем произведение XP вместо X. Получится выражение для w’ (вектор весов после преобразования). P – обратимая квадратная матрица (матрица преобразования).
Используем вышеприведенные формулы, преобразуем получившееся выражение и получаем зависимость между параметром w’ (вектор весов
после преобразования) и w (вектор весов до преобразования).
Затем в формулу предсказания (а = Xw) подставляем XP вместо Х, и w’ вместо w.

**Обоснование**

Запишем исходное уравнение весов:
$$
w = (X^{T}X)^{-1}X^{T}y
$$
---
Докажем, что при умножении на матрицу имеющую обратную ничего не изменится. Запишем вместо Х произведение Х\*Р, тогда:  
$ w'=((XP)^{T}(XP))^{-1}(XP)^{T}y = (P^{T}X^{T}XP)^{-1}P^{T}X^{T}y = P^{-1}(X^{T}X)^{-1}P^{T^{-1}}P^{T}X^{T}y$, где $P^{T^{-1}}P^{T} = E$, тогда $w'=P^{-1}*[(X^{T}X)^{-1}X^{T}y]=P^{-1}w$  - связь между $w$ и $w'$ мы нашли, теперь подставим в 
$$
a = Xw
$$ 
---
Получаем: $a'= XP*w' = XPP^{-1}w = XEw = Xw = a$

Таким образом мы доказали, что преобразование подобного типа не повлияет на предсказание.

Проверим гипотезу о том, что умножив марицу признаков на другую, у которой существует обратная и умножив на обратную получим исходную матрицу признаков

In [10]:
np.random.seed(12345)
check = []
for i in range(1000):
    P = np.random.normal(5, 100, size=(4,4)).astype('int64')
    A = np.random.normal(50, 700, size=(4,4)).astype('int64')
    check.append(np.prod(np.rint(A @ P @ np.linalg.inv(P)).astype('int64') == A))
    #check.append(np.rint(A @ P @ np.linalg.inv(P)).astype('int64') == A) #правка ревьюера
print('Матрица признаков P:')
print(P)
print('Матрица преобразования А:')
print(A)
np.prod(np.array(check))

Матрица признаков P:
[[ -62   62  -31 -159]
 [   4  -20  -88  -92]
 [ -18   63 -112 -156]
 [  10   64  -67  -18]]
Матрица преобразования А:
[[ -75  365 -368   -1]
 [-282  -87   27 -146]
 [ 220  215 1008 -162]
 [-624  681  804  814]]


1

**Вывод**: гипотеза подтвердилась

## Алгоритм преобразования

**Алгоритм**

Для шифрования воспользуемся квадратной обратимой матрицей - $P$, где $XP=X_{cripto}$ - процесс шифрования, а $X_{cripto}P^{-1}=X$. Ранее нами обоснована возможность использования матрицы $P$ для шифрования исходной матрицы признаков. 

## Проверка алгоритма

Изменяем данные

In [15]:
#np.random.seed(1245)
#X_inv = np.linalg.inv(np.random.rand(4,4))
#X_new = X @ X_inv#((X*7000 + 200) / 8) @ INV

#X_new.head()

In [14]:
np.random.seed(1245)
try:
    X_inv = np.linalg.inv(np.random.rand(4,4))
except numpy.linalg.LinAlgError:
    pass
else:
    X_new = X @ X_inv
    
X_new.head()

Unnamed: 0,0,1,2,3
0,20076.7958,85606.702474,-254929.873764,237908.334294
1,15386.422984,65574.273368,-195289.878645,182270.277628
2,8506.934793,36237.265958,-107924.331305,100729.948201
3,16866.140525,71977.313505,-214329.632473,200014.121906
4,10570.822364,45044.448089,-134144.745244,125190.154978


In [13]:
predict_and_r2_score(X_new, y)

0.42494550286669364

**Вывод:** Качество линейной регрессии не поменялось