## 1. Загрузка данных

Пока задача не очень понятна и не видели данных, непонятно что пригодится, а что нет, поэтому на всякий случай импортируем все что знаем

In [1]:
# подгрузим pandas
import pandas as pd

# библиотеку для графиков
import matplotlib.pyplot as plt

# библиотека для работы с математикой
import numpy as np

# библиотека для работы со статистикой
from scipy import stats as st

# метод для разделения выборки на тренировочную и валидационную
from sklearn.model_selection import train_test_split

# метод для проведения кросс-валидации
from sklearn.model_selection import cross_val_score

# метод для создания собственных метрик и вызова их в качестве метрик sklearn
from sklearn.metrics import make_scorer

# для перебора параметров в моделях случайного леса
from sklearn.model_selection import GridSearchCV

#________________________________Классификации____________________________

# модель классификации логистической регрессии
from sklearn.linear_model import LogisticRegression  

# модель классификации дерева решений
from sklearn.tree import DecisionTreeClassifier

# модель классификации случайного леса
from sklearn.ensemble import RandomForestClassifier

# метрики моделей классификации
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn.metrics import r2_score
from sklearn.metrics import roc_auc_score


#________________________________Регрессии________________________________

# модель линейной регрессии
from sklearn.linear_model import LinearRegression

# модель регрессии дерева решений
from sklearn.tree import DecisionTreeRegressor

# модель регрессии случайного леса
from sklearn.ensemble import RandomForestRegressor

# метрики моделей регрессии
from sklearn.metrics import mean_squared_error # mse
from sklearn.metrics import mean_absolute_error # mae
from sklearn.metrics import  r2_score #r^2

#________________________________________________________________________


# стандартизация независимых переменных
from sklearn.preprocessing import StandardScaler

# для перемешивания при up/down-сэмплинге
from sklearn.utils import shuffle

# для более удобного вывода датафреймов, вместо print()
from IPython.display import display


In [81]:
data = pd.read_csv('/datasets/insurance.csv')
display(data.head())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Прежде чем что-либо делать, проверим качество исходных данных. Потому как это будет влиять на результаты модели.

In [82]:
display(data.isna().sum())
display(data.dtypes)
display(data.shape)
display(data['Страховые выплаты'].unique())

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

Пол                    int64
Возраст              float64
Зарплата             float64
Члены семьи            int64
Страховые выплаты      int64
dtype: object

(5000, 5)

array([0, 1, 2, 3, 5, 4])

Отлично, данные хороши, без пропусков и нормального типа. Можно работать дальше. 

Поскольку наша задача "защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось", то нам следует знать, на какой уровень качества ориентироваться, поэтому разобъем данные на features и target и методом кросс-валидации обучим линейную регрессию.

In [83]:
def train_valid(data):
    # опеределим зависимые и независимые переменные для обучающей выборки
    features = data.drop('Страховые выплаты', axis=1)
    target = data['Страховые выплаты']


    features_train, features_valid, target_train, target_valid = train_test_split(features, target, 
                                                                                  test_size=0.2, random_state=12345)



    #display(features_train.shape)
    #display(target_train.shape)
    #display(features_valid.shape)
    #display(target_valid.shape)

    # определим все числовие независимые переменные
    numeric = features.columns.to_list()


    # обучим стандартизации на тренировочных данных
    scaler = StandardScaler()
    scaler.fit(features_train[numeric])


    # стандартизируем выборки
    features_train_scaler = features_train.copy() 
    features_valid_scaler = features_valid.copy()

    features_train_scaler[numeric] = scaler.transform(features_train[numeric])
    features_valid_scaler[numeric] = scaler.transform(features_valid[numeric])
    
    return features_train_scaler, features_valid_scaler, target_train, target_valid

features_train_scaler, features_valid_scaler, target_train, target_valid = train_valid(data)

Отлично, данные разбили. Теперь сделаем функцию для обучения модели линейной регрессии на обучающих данных. Функцию будет возвращать обученную модель и предсказания сделанные на валидационных данных

In [84]:
def learn_model(features_train_scaler, features_valid_scaler, target_train, target_valid):
    model=LinearRegression()
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    mse = mean_squared_error(target_valid, predictions_valid) # величина ошибка, без ее направления
    r2 = r2_score(target_valid, predictions_valid) # достоверность соответствия прогноза фактическим значениям
    
    #print('rmse модели: {:.3f}'.format( mse**0.5))
    print('r_2 модели:{:.3f}'.format(r2))
    print()
    
    return r2, predictions_valid

r2, predictions = learn_model(features_train_scaler, features_valid_scaler, target_train, target_valid)

r_2 модели:0.412



Отлично. Отправная точка у нас есть.

## 2. Умножение матриц

Ответим на вопрос, изменится ли качество линейной регрессии при умножении признаков на обратимую матрицу.

Про линейную регрессию нам известно следующее:

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Нам необходимо доказать или опровергнуть, что:
$$
a = Xw = X'w', $$ где $$ X'=XP
$$
то есть 
$$
a = Xw = X'w' = XPw' = a' 
$$


Посмотрим на  $ a' = X'w' $  где $X'=XP$ тогда
$ a' = X'w' =XPw'=XP([XP]^T[XP])^{-1}[XP]^Ty $  

Воспользовавшись свойством (1) $(AB)^T=B^TA^T$

Получим: $$ XP(P^TX^TXP)^{-1}P^TX^Ty $$

Воспользовавшись свойством (2) $(AB)^{-1}=B^{-1}A^{-1}$ (а им мы можем воспользоваться в силу того факта, что матрица $X^TXP$ квадратна, за счет квадратности матрицы P, иначе матрица P не обратима, и квадратности матрицы $X^TX$)

получим: $$ XP(X^TXP)^{-1}(P^T)^{-1}P^TX^Ty  
=XP(XP)^{-1}(X^T)^{-1}(P^T)^{-1}P^TX^Ty
=XPP^{-1}X^{-1}(X^T)^{-1}(P^T)^{-1}P^TX^Ty $$


Снова воспользовавшись свойством (1) придем к записи вида:
$XPP^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty $

Тогда, в силу свойства обратной матрицы $AA^{-1}=A^{-1}A=E$ получим
$$ XE(X^TX)^{-1}EX^Ty = X(X^TX)^{-1}X^Ty = Xw=a $$

**Ответ:** качество линейной регресси при умножении независимых признаков на произвольную обратимую матрицу - не изменится.



## 3. Алгоритм преобразования

**Алгоритм**

- 1) Сгенерируем обратимую матрицу-"ключ" А размерности n на n, где n-количество независимых признаков.
- 2) Найдем и запомним обратную матрицу к матрице-"ключу", она нам пригодится для дешифровки
- 3) Умножим исходную матрицу независимых признаков на матрицу-"ключ"

**Обоснование**

Как мы доказали выше, умножение матрицы признаков на произвольную обратимую (а значит квадратную) матрицу не влияет на качество линейной регрессии. Поскольку необходимым условием для умножения матриц является равенство числа элементов в строке первой матрицы и числа элементов в столбце второй матрицы, то исходя из того факта, что у нас в матрице признаков всего 4 признака (в строке 4 элемента), нам достаточно, чтоб матрица-"ключ" имела 4 строки в столбце, а упираясь в факт квадратности, матрица-"ключ" будет размерности 4х4.


Пусть А матрица-признаков, B матрица-"ключ", тогда зашифрованная матрица-признаков вычисляется по формуле $C=AB$, а дешифровка матрицы С происходит путем умножения на обратную матрицу к матрице-ключу $A=CB^{-1}$

## 4. Проверка алгоритма

Мы уже знаем, что r2 метрика на стандартизированных признаках дает точность 0.412. Зашифруем признаки, стандартизируем их и посмотрим, какую точность получим на зашифрованных данных.

In [88]:
# сгенерируем матрицу-"ключ"
key_matrix = np.random.rand(features.shape[1],features.shape[1])

# запомним обратную матрицу для матрицы-"ключа"
inv_key_matrix = np.linalg.inv(key_matrix)

# зашифруем матрицу-признаков
c=np.dot(features.values,key_matrix)


# запишим матрицу-признаков в датафрейм
data_with_encrypted_features=pd.DataFrame(c).astype('int64')
data_with_encrypted_features.columns = features.columns.to_list()

#display(data_with_encrypted_features.head())
#display(data_with_encrypted_features.shape)

# допишем в датафрейм зависимые переменные
data_with_encrypted_features['Страховые выплаты']=target.copy()

# разобьем на тренировочную и валидационные выборки
features_train_encrypted_scaler, features_valid_encrypted_scaler, target_train, target_valid = train_valid(data_with_encrypted_features)

# обучим модель и посмотрим на r2
r2, predictions = learn_model(features_train_encrypted_scaler, features_valid_encrypted_scaler, 
                              target_train, target_valid)

r_2 модели:0.412



Таким образом, мы получили ровно туже точность. Для проверки, не случайность ли это, востановим данные из зашифрованных и заново посмотрим на r2

In [93]:
# запишим дешифрованную матрицу-признаков в датафрейм
test = pd.DataFrame(np.round(c.dot(inv_key_matrix))).astype('int64')
test.columns = features.columns.to_list()
#display(test.head())

# допишем в датафрейм зависимые переменные
test['Страховые выплаты']=target.copy()

# разобьем на тренировочную и валидационные выборки
features_train_test_scaler, features_valid_test_scaler, target_train, target_valid = train_valid(test)

# обучим модель и посмотрим на r2
r2, predictions = learn_model(features_train_test_scaler, features_valid_test_scaler, 
                              target_train, target_valid)



r_2 модели:0.412



Как видим, это не случайность и предложенный алгоритм работает отлично.

### Вывод

В качестве одного из алгоритмов защиты персональных данных, который не влияет на качество предсказаний модели линейной регрессии можно использовать "Аналитический методы шифрования", который заключается в умножении матрицы признаков на произвольную обратимую матрицу-"ключ" размерности $n x n$ где n- количество признаков. При этом, следует сохранять либо саму матрицу-"ключ", либо обратную для нее матрицу, дабы процесс дешифровки проходил не мучительно больно.