# Проект 9. Линейная алгебра.

## Защита данных страховой компании

Задача - защитить данные клиентов страховой компании.

Нужно защитить данные с помощью матричных операций над данными, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

## 1. Загрузка данных

<div class="alert alert-info"> <b>Комментарий студента:</b> Импортируем библиотеки</div>

In [1]:
import pandas as pd
import numpy as np
from scipy import stats as st
from matplotlib import pyplot as plt
#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)
import warnings
warnings.filterwarnings('ignore')
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import  mean_squared_error, r2_score


<div class="alert alert-info"> <b>Комментарий студента:</b> Изучим данные </div>

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
df['Зарплата'] = df['Зарплата'].astype('int64')
df['Возраст'] = df['Возраст'].astype('int64')

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null int64
Зарплата             5000 non-null int64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: int64(5)
memory usage: 195.4 KB


In [6]:
target = df['Страховые выплаты']
features = df.drop('Страховые выплаты', axis=1)
#features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)
#features_train, features_valid, target_train, target_valid

In [7]:
df['Страховые выплаты'].value_counts()

0    4436
1     423
2     115
3      18
4       7
5       1
Name: Страховые выплаты, dtype: int64

<div class="alert alert-info"> <b>Комментарий студента:</b> создадим векторы и матрицы из наших признаков и таргетов </div>

In [8]:
vector_features = features.values
vector_target = np.array(target)

In [9]:
vector_features.shape

(5000, 4)

<div class="alert alert-info"> <b>Комментарий студента:</b> Сравним результат в регрессии из СКЛЕРН и из написанной функции на исходных данных </div>

In [10]:
model = LinearRegression()
model.fit(vector_features, vector_target)
predicted = model.predict(vector_features)

mse = mean_squared_error(vector_target, predicted)
r2 = r2_score(vector_target, predicted)

print("MSE =", mse)
print("RMSE =", mse ** 0.5)
print('r2_score =', r2)

MSE = 0.12334688937098945
RMSE = 0.3512077581304113
r2_score = 0.42494550308169177


In [11]:
class LinearRegression1:
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
        self.w = w[1:]
        self.w0 = w[0]

    def predict(self, test_features):
        return test_features.dot(self.w) + self.w0

In [12]:
model = LinearRegression1()
model.fit(vector_features, vector_target)
predicted = model.predict(vector_features)

mse = mean_squared_error(vector_target, predicted)
r2 = r2_score(vector_target, predicted)

print("MSE =", mse)
print("RMSE =", mse ** 0.5)
print('r2_score =', r2)

MSE = 0.12334688937098945
RMSE = 0.3512077581304113
r2_score = 0.42494550308169177


## 2. Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** ...

**Обоснование:** ...

Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)

    b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.


<div class="alert alert-info"> <b>Комментарий студента:</b> Создадим произвольную обратимую квадратную матрицу </div>

In [13]:
m = np.random.normal(1, 0.1, (4, 4))
m

array([[0.99148819, 0.94002198, 1.00492224, 1.13301507],
       [1.02655361, 0.96044302, 1.02686214, 1.16289741],
       [0.89243192, 0.89040903, 0.83365342, 0.85396182],
       [0.84141681, 0.94153074, 0.72093551, 0.94447845]])

<div class="alert alert-info"> <b>Комментарий студента:</b> добавил проверку на обратимость. Ошибки нет, значит матрица обратима </div>

In [14]:
m_check = np.linalg.inv(m)
m_check

array([[-74.08417495,  71.11107219,   2.63077523,  -1.06193642],
       [ 35.70276981, -38.64114003,   2.07897487,   2.86776264],
       [ 45.96592491, -43.18088934,   3.14795964,  -4.82105118],
       [ -4.67776999,   8.12978469,  -6.819079  ,   2.82601628]])

<div class="alert alert-info"> <b>Комментарий студента:</b> Умножим исходные данные на эту матрицу </div>

In [15]:
features_m = features @ m
features_m

Unnamed: 0,0,1,2,3
0,44308.544615,44205.547651,41393.036772,42406.262334
1,33960.475674,33880.665086,31726.786504,32504.986747
2,18770.840281,18726.442497,17536.500794,17966.922150
3,37237.651338,37152.108955,34786.353535,35636.517507
4,23322.207985,23267.508134,21788.111290,22322.097526
...,...,...,...,...
4995,31890.245720,31816.377871,29791.621058,30520.886896
4996,46799.176615,46691.029815,43719.073387,44788.082121
4997,30275.655843,30205.958071,28282.830007,28974.452449
4998,29208.623557,29141.269673,27286.225486,27954.101559


<div class="alert alert-info"> <b>Комментарий студента:</b> обучим модель из склерн с использованием features_m </div>

In [16]:
model = LinearRegression()
model.fit(features_m, vector_target)
predicted = model.predict(features_m)

mse = mean_squared_error(vector_target, predicted)
r2 = r2_score(vector_target, predicted)

print("MSE =", mse)
print("RMSE =", mse ** 0.5)
print('r2_score =', r2)

MSE = 0.12334688937086066
RMSE = 0.3512077581302279
r2_score = 0.4249455030822922


<div class="alert alert-info"> <b>Комментарий студента:</b> Результат не изменился </div>

<div class="alert alert-info"> <b>Комментарий студента:</b> Попробуем то же самое на зашифрованных признаках </div>

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Подставим умножение на квадратную матрицу:
$$
w = ((XP)^T (XP))^{-1} (XP)^T y
$$

раскроем скобки по свойствам:
$$
w = (P^T X^T X P)^{-1} P^T X^T y
$$

сгруппируем:
$$
w = ((X^T X)^{-1} X^T y) P^{-1}
$$

заменим:
$$
w2 = w P^{-1}
$$

<div class="alert alert-info"> <b>Комментарий студента:</b> фактически просто добавлен множитель - матрица P^-1</div>

<div class="alert alert-info"> <b>Комментарий студента:</b> Соответственно для предсказаний мы получим наши исходные значения, если разделим на эту матрицу, то есть фактически умножим на обратную, то есть на P </div>

*****************************************

In [17]:
class LinearRegression_mm:
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
        self.w = w[1:]
        self.w0 = w[0]

    def predict(self, test_features):
        return test_features.dot(self.w) + self.w0


In [18]:
model_matrix = LinearRegression_mm()
model_matrix.fit(features_m, vector_target)
predicted = model_matrix.predict(features_m)

mse = mean_squared_error(vector_target, predicted)
r2 = r2_score(vector_target, predicted)

print("MSE =", mse)
print("RMSE =", mse ** 0.5)
print('r2_score =', r2)

MSE = 0.12334717206355961
RMSE = 0.35120816058793336
r2_score = 0.4249441851430348


************************************************

## 3. Алгоритм преобразования

**Алгоритм**

Можно использовать умножение на обратимую квадратную матрицу, чтобы зашифровать исходные признаки

**Обоснование**

Умножение на обратимую квадратную матрицу не изменяет и не портит алгоритма линейной регрессии, так как если мы зашифровали признаки, то потом можем расшифровать предсказания, поделив на обратимую матрицу.

<div class="alert alert-info"> <b>Комментарий студента:</b> Согласен, надо было описать именно так по пунктам. Перепечатывать сейчас не стал </div>

## 4. Проверка алгоритма

In [19]:
model = LinearRegression()
model.fit(vector_features, vector_target)
predicted = model.predict(vector_features)

mse = mean_squared_error(vector_target, predicted)
r2 = r2_score(vector_target, predicted)

print("MSE =", mse)
print("RMSE =", mse ** 0.5)
print('r2_score =', r2)

MSE = 0.12334688937098945
RMSE = 0.3512077581304113
r2_score = 0.42494550308169177


In [20]:
model = LinearRegression()
model.fit(features_m, vector_target)
predicted = model.predict(features_m)

mse = mean_squared_error(vector_target, predicted)
r2 = r2_score(vector_target, predicted)

print("MSE matrix =", mse)
print("RMSE matrix =", mse ** 0.5)
print('r2_score matrix =', r2)

MSE matrix = 0.12334688937086066
RMSE matrix = 0.3512077581302279
r2_score matrix = 0.4249455030822922


## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные загружены
- [x]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [x]  Указан правильный вариант ответа
    - [x]  Вариант обоснован
- [x]  Выполнен шаг 3: предложен алгоритм преобразования
    - [x]  Алгоритм описан
    - [x]  Алгоритм обоснован
- [x]  Выполнен шаг 4: алгоритм проверен
    - [x]  Алгоритм реализован
    - [x]  Проведено сравнение качества моделей до и после преобразования