Цель проекта: Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

## Импортирую библиотеки

In [148]:
import numpy as np
import pandas as pd
import os

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.metrics import r2_score, mean_squared_error

## Загружаю и изучаю данные

In [149]:
pth1 = '/datasets/insurance.csv'
pth2 = 'insurance.csv'

if os.path.exists(pth1):
    df = pd.read_csv(pth1)
elif os.path.exists(pth2):
    df = pd.read_csv(pth2)
else:
    print('Something is wrong. Please, check file path.')

In [150]:
df.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [151]:
df.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

In [152]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [153]:
# Меняю тип данных с float64 на Int
df = df.astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Пол                5000 non-null   int64
 1   Возраст            5000 non-null   int64
 2   Зарплата           5000 non-null   int64
 3   Члены семьи        5000 non-null   int64
 4   Страховые выплаты  5000 non-null   int64
dtypes: int64(5)
memory usage: 195.4 KB


In [154]:
df.duplicated().sum()

153

In [155]:
df.reset_index(drop=True, inplace=True)

In [156]:
df.drop_duplicates(inplace=True)
df.duplicated().sum()

0

Вывод.  
Был изменен тип данных с float64 на Int. Пропусков нет. Были удалены дубликаты.

## Ответьте на вопрос и обоснуйте решение

Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)  
a. Изменится. Приведите примеры матриц.  
b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

Дано:  
$X$ - матрица признаков с размерностью $m \cdot n$   
$y$ - вектор целевого признака с размерностью $m$   
$w$ - вектор весов длиною $n$  
$P$ - матрица, на которую умножается матрица признаков $X$  
$P$ - квадратная матрица с размерностью $n \cdot n$  
$P$ должна иметь обратную матрицу $P^{-1}$  

Доказать:  
Как связаны параметры линейной регрессии в исходной и преобразованной задачах?

Доказательство.  

$$
a=Xw, \ где \ a - вектор \ предсказаний \ (по \ условию);\\
w=(X^{T}X)^{-1}X^{T}y \ (по \ условию);\\
Новая \ матрица  \  X_{new} \ после \ умножения \ матрицы \ признаков  \ X \ на \ матрицу \ P:\\
X_{new} = XP\\
Новое \ значение \ весов:\\
w_{new}=(X_{new}^{T}X_{new})^{-1}X_{new}^{T}y\\
Подставляю \ X_{new} = XP \  в  \ w_{new} \  и  \  получаю:\\
w_{new}=((XP)^{T}XP)^{-1}(XP)^{T}y\\
Раскрываю \ (XP)^{T} \ (по \ правилам \ меняется \ порядок \ умножения):\\
w_{new}=(P^{T}X^{T}XP)^{-1}P^{T}X^{T}y\\
Раскрываю \ скобки \ (по \ правилам \ меняется \ порядок \ умножения):\\
w_{new}=P^{-1}(X^{T}X)^{-1}(P^{T})^{-1}P^{T}X^{T}y\\
По \ условию, \ P  \ имеет \ обратную \ матрицу \ P^{-1}, \ тогда \ (P^{T})^{-1}P^{T}=E:\\
w_{new}=P^{-1}(X^{T}X)^{-1}EX^{T}y\\
Умножение \ на \ единичную \ матрицу \ E \ равно \ самой \ матрице \:\\
w_{new}=P^{-1}(X^{T}X)^{-1}X^{T}y\\
По \ условию \ , \ w=(X^{T}X)^{-1}X^{T}y. \ Заменим \ и \ получим:\\
w_{new}=P^{-1}w\\
По \ условию \ , \ a=Xw. \ Подставлю \ w_{new} \ и \ X_{new}:\\
a_{new}=X_{new}w_{new}=XPP^{-1}w\\
По \ определению \ PP^{-1}=E:\\
a_{new}=XEw\\
Умножение \ на \ единичную \ матрицу \ равно \ самой \ матрице:\\
a_{new}=Xw\\
По \ условию \ a=Xw, \ поэтому:\\
a_{new}=a\\
ч.т.д.
$$


Вывод.  
Вектор предсказаний не изменится, а изменятся веса, которые можно переобучить.

## Алгоритм преобразования данных

Алгоритм:  
1) Создаю матрицу 4 на 4  
2) Проверяю матрицу на обратимость  
3) Выделяю признаки и целевой признак  
4) Масштабирую признаки  
5) Расчет весов w  
6) Расчет вектора предсказаний a  
7) Умножение масштабированных признаков на матрицу P  
8) Расчет весов w_new   
9) Расчет вектора предсказаний a_new  
10) Расчет разницы между a и a_new

In [157]:
# Создаю матрицу 4 на 4
np.random.seed(1)
P = np.random.randint(10, size=(4,4))
P

array([[5, 8, 9, 5],
       [0, 0, 1, 7],
       [6, 9, 2, 4],
       [5, 2, 4, 2]])

In [158]:
# Проверяю, есть ли обратная матрица
P_inverted = np.linalg.inv(P)
P_inverted

array([[-0.12647754, -0.01536643,  0.05437352,  0.26122931],
       [ 0.06264775, -0.04846336,  0.09456265, -0.17612293],
       [ 0.13652482, -0.03014184, -0.12411348,  0.01241135],
       [-0.01950355,  0.14716312,  0.0177305 , -0.00177305]])

In [159]:
# Выделяю признаки
X = df.drop('Страховые выплаты', axis=1)
y = df['Страховые выплаты']

In [160]:
# Масштабирование данных
scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

In [161]:
# Расчет весов w
w = np.linalg.inv(X_scaled.T.dot(X_scaled)).dot(X_scaled.T).dot(y)
# Расчет вектора предсказаний a
a = X_scaled.dot(w)

In [162]:
# Умножение
X_scaled_p = X_scaled.dot(P)
# Расчет весов w_new
w_new = np.linalg.inv(X_scaled_p.T.dot(X_scaled_p)).dot(X_scaled_p.T).dot(y)
# Расчет вектора предсказаний a_new
a_new = X_scaled_p.dot(w_new)

In [163]:
# Находим разницу между a и a_new
(a - a_new).sum()

-2.7845090057494748e-14

Вывод.  
Был описан и апробирован алгоритм преобразования данных. Было показано, что качество линейной регрессии не изменится.

## Применение алгоритма

Применяю на X_scaled.

In [164]:
model = LinearRegression()
model.fit(X_scaled, y)
predictions = model.predict(X_scaled)
mse = mean_squared_error(y, predictions)
print('MSE Score:', mse)
print('R2_Score на исходных данных: ', r2_score(y, predictions))

MSE Score: 0.1252726382276536
R2_Score на исходных данных:  0.4302010046633359


Применяю на X_scaled_p.

In [165]:
model = LinearRegression()
model.fit(X_scaled_p, y)
predictions = model.predict(X_scaled_p)
mse = mean_squared_error(y, predictions)
print('MSE Score:', mse)
print('R2_Score на исходных данных: ', r2_score(y, predictions))

MSE Score: 0.1252726382276536
R2_Score на исходных данных:  0.4302010046633359


Вывод.  
Данны пользователей были зашифрованы. Было доказано, что умножение признкаов на матрицу, которая имеет обратнуюй ей матрицу, не влияет на качество обучение модели линейной регрессии.