<a id="up"></a>

## Защита персональных данных клиентов

### Описание проекта

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

### Задачи исследования

### [1. Загрузите и изучите данные.](#1)

### [2. Ответьте на вопрос и обоснуйте решение.](#2)
Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
- a. Изменится. Приведите примеры матриц.
- b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

### [3. Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.](#3)

### [4. Запрограммируйте этот алгоритм, применив матричные операции. Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.](#4)

### Описание данных

Набор данных находится в файле `/datasets/insurance.csv`. 
- `Признаки`: пол, возраст и зарплата застрахованного, количество членов его семьи.
- `Целевой признак`: количество страховых выплат клиенту за последние 5 лет.

<a id="1"></a>

### 1. Загрузим и изучим данные.

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

import warnings
warnings.filterwarnings('ignore')

In [2]:
try:
    data = pd.read_csv('insurance.csv')
except Exception as e:
    print(e)
    data = pd.read_csv('/datasets/insurance.csv')

data.head()  

[Errno 2] File b'insurance.csv' does not exist: b'insurance.csv'


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
data.info()  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
data.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


#### Вывод:
- Данные состроят из 5000 строк
- `Признаки`: Пол, Возраст, Зарплата, Члены, семьи
- `Целевой признак`: количество страховых выплат
- Данные в предобработке не нуждаются

<a id="2"></a>

### 2. Умножение матриц.

Обозначения:


    
- $X$ - матрица признаков (нулевой столбец состоит из единиц)
    
- $y$ - вектор целевого признака
    
- $P$ - матрица, на которую умножаются признаки
    
- $w$ - вектор весов линейной регрессии (нулевой элемент равен сдвигу)
    
    
Предсказания:
    
$$a=Xw$$

Задача обучения:
$$w=argmin_{w}MSE(Xw,y)$$

Формула обучения:
$$w=(X^TX)^{-1}X^Ty$$

 
##### Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?

##### Ответ: Не изменится.

`Обоснование`:

Признаки умножают на обратимую матрицу  :
$$w_1=((XP)^TXP)^{-1}(XP)^Ty$$

Транспонированное произведение матриц равно произведению транспонированных матриц, взятых в обратном порядке
$$w_1=(P^TX^TXP)^{-1}P^TX^Ty$$

Используя формулу
$$(AB)^{-1}=B^{-1}A^{-1}$$

где  $A$ и  $B$ квадратные

$P,P^T$ и $X^T,X$ квадратные
$$w_1=P^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty$$

Умножение матрицы на обратную матрицу равно единичной матрице
$$w_1=P^{-1}(X^TX)^{-1}|X^Ty$$

Умножение любой матрицы на единичную равно этой самой матрице
$$w_1=P^{-1}(X^TX)^{-1}X^Ty$$

$$a_1=XPw_1$$

$$a_1=XPP^{-1}(X^TX)^{-1}X^Ty$$

$$a_1=X(X^T)^{-1}X^Ty$$

$$a_1=Xw$$ 

#### Вывод:
Преобразовав формулы мы выяснили что при умножении признаков на обратимую матрицу качество не меняется

<a id="3"></a>

### 3. Алгоритм преобразования.

##### `Алгоритм`

Необходимо умножить матрицу признаков на матрицу шифрования так как при умножении количество столбцов матрицы A должно быть равно количеству строк матрицы, полученная матрица будет иметь количество строк матрицы A и количество столбцов матрицы B. Поэтому размер матрицы щифрования на которую умножают равен 4х4

Матрицу шифрования сгенерируем с помощью np.random.normal()

##### `Обоснование`

In [6]:
#разобьем data на признаки и целевой признак
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

In [7]:
# Создадим обратимую квадратную матрицу со случайными числами размерностью столбцов features
state = np.random.RandomState(12345)
matrix_cr=np.random.normal(size=(features.shape[1],features.shape[1]))

In [8]:
# зашифруем даннные путем умножения матриц
features_cr=features @ matrix_cr
features_cr

Unnamed: 0,0,1,2,3
0,23516.101860,-15027.138916,-35501.352296,-8277.286752
1,18018.723299,-11507.117956,-27182.097792,-6316.539297
2,9958.585064,-6358.625934,-15017.539271,-3484.238022
3,19768.027129,-12633.941188,-29862.462435,-6981.959359
4,12375.592735,-7907.502356,-18673.730147,-4344.676567
...,...,...,...,...
4995,16925.129967,-10813.658842,-25554.329113,-5960.718835
4996,24842.434170,-15874.686446,-37516.151384,-8759.432474
4997,16070.666529,-10269.907951,-24273.391290,-5671.356930
4998,15501.394317,-9908.029543,-23411.123732,-5467.639667


#### Вывод
После умножения размер матрицы признаков и кодированных признаков совпадает

<a id="4"></a>

### 4. Проверка алгоритма.

##### Качество линейной регресии на нешифрованных данных

In [9]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
print('R2:', r2_score(target,predictions))

R2: 0.42494550286668


##### Качество линейной регресии c шифрованием данных

In [10]:
model = LinearRegression()
model.fit(features_cr, target)
predictions = model.predict(features_cr)
print('R2:', r2_score(target,predictions))

R2: 0.4249455028666852


#### Вывод:
Качество моделей с шифрованием при помощи умножения на обратимую матрицу со случайными числами не изменяется.
Небольшое расхождение связанно с тем, что операции с float накапливают небольшую погрешность.

##### [к оглавлению](#up)

In [11]:
class LinearRegressionMy:
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T @ X) @ X.T @ y
        self.w = w[1:]
        self.w0 = w[0]
        
    def predict(self, test_features):
        return test_features @ self.w + self.w0

In [12]:
model = LinearRegressionMy()
model.fit(features, target)
predictions = model.predict(features)
print('R2:', r2_score(target,predictions))

R2: 0.42494550286668


In [13]:
model = LinearRegressionMy()
model.fit(features_cr, target)
predictions = model.predict(features_cr)
print('R2:', r2_score(target,predictions))

R2: 0.4249455028662076
