# Описание проекта:

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## 1. Загрузка данных

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


### Шаги:
    1.Импортированы необходимые библиотеки.
    2.Сохранено содержимое CSV-файла в переменную df.
    3.Получена информация о датафрейме.

### Вывод:
    Данные состоят из информации о клиентах страховой компании. Таблица состоит из столбцов: пол, возраст, зарплата застрахованного, количество членов его семьи, страховые выплаты. Таблица состоит из 5000 строк. Таблица не содержит пропущенных значений.

## 2. Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** 

    При умножении исходных данных на обратимую матрицу, качество линейной регресии не изменится.

**Обоснование:** 

Формула расчета весов для линейной регрессии:

$$
w = (X^T X)^{-1} X^T y
$$
Представим новую матрицу признаков $X1$ как произведение старой $X$ на матрицу $P$ (обратимую):

$$
X1 = X * P
$$
Подставим новое значение X1 в формулу $w1$:

$$
w1 = ((X P)^T X P)^{-1} (X P)^T y
$$
Раскроем первое произведение $ (XP)^T $:

$$
w1 = (P^T X^T X P)^{-1} P^T X^T y
$$
Перегруппируем множители в скобках, чтобы это выглядело как произведение трех множителей:

$$
w1 = (P^T (X^T X) P)^{-1} P^T X^T y
$$
Раскроем скобки $ (P^T (X^T X) P)^{-1} $:

$$
w1 = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y
$$
Так как $P$ по условию обратимая, то произведение $(P^T)^{-1} P^T$ равно $E$ (единичная матрица):

$$
w1 = P^{-1} (X^T X)^{-1} E X^T y = P^{-1} (X^T X)^{-1} X^T y
$$
Можно заметить, что справа получилась формула для $w$:

$$
w1 = P^{-1} (X^T X)^{-1} X^T y = P^{-1} w
$$
Подставим новое значение весов 𝑤1 в формулу для предсказаний линейной регрессии. Предсказания модели расчитываются по формуле:

$$
a = Xw
$$
Подставим в эту формулу значения $X1$ и $w1$ для того, чтобы на их основе вычислить предсказания модели $a1$:

$$
a1 = X1w1 = XPP^{-1} w
$$
Так как $P$ по условию обратимая, то произведение $PP^{-1}$ снова равно $E$:

$$
a1 = XPP^{-1} w = X E w = X w = a
$$
Мы доказали, что предсказания $a1$ для матрицы признаков, умноженных на обратимую матрицу $P$ равны предсказаниям $a$.
Следовательно, отвечая на вопрос изменится ли качество линейной регрессии при умножении признаков на обратимую матрицу - нет, не изменится. В данном случае, параметры линейной регрессии в исходной задаче $w$ и в преобразованной $w1$ связаны следующим образом:

$$
w1 = P^{-1} w
$$

## 3. Алгоритм преобразования

**Алгоритм**

    1.Создать случайную обратную матрицу.
    2.Обучить модель на исходных данных.
    3.Умножить матрицу признаков на обратную матрицу.
    4.Обучить модель на преобразованых данных.
    5.Сравнение метрик качества.

**Обоснование**

    При умножении исходных данных на обратную матрицу, метрика качества должна остаться той же. 

## 4. Проверка алгоритма

In [4]:
features = df.drop('Страховые выплаты', axis=1)
target = df['Страховые выплаты']

In [5]:
matrix = np.random.normal(size = (4,4))

In [6]:
matrix = np.linalg.inv(matrix)

In [7]:
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
print('R2 на исходных признаках:',r2_score(target, predictions))

R2 на исходных признаках: 0.42494550286668


In [8]:
matrix = features @ matrix

In [9]:
model.fit(matrix, target)
predictions = model.predict(matrix)
print('R2 на преобразованных признаках:',r2_score(target, predictions))

R2 на преобразованных признаках: 0.4249455028667397


### Шаги:
    1.Данные разделены на обучающую и валидационную выборки.
    2.Создана обратимая матрица размером 4х4.
    3.Вычислена обратная матрица.
    4.Обучена модель "Линейная регрессия", на исходных данных.
    5.Исходные данные умножены на обратную матрицу.
    6.Обучена модель "Линейная регрессия", на преобразованных данных.

### Вывод:
    Качество линейной регрессии не изменилось, можно сделать вывод, что алгоритм преобразования данных работает правильно.