# Линейная алгебра.


Нужно защитить данные клиентов страховой компании «Хоть потоп». Разработаем  метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## 1. Загрузка данных

In [1]:
import pandas as pd

df= pd.read_csv('/datasets/insurance.csv')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [2]:
df.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

In [3]:
df.duplicated().sum()

153

In [4]:
duplicates = df[df.duplicated()]

duplicates

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
281,1,39.0,48100.0,1,0
488,1,24.0,32900.0,1,0
513,0,31.0,37400.0,2,0
718,1,22.0,32600.0,1,0
785,0,20.0,35800.0,0,0
...,...,...,...,...,...
4793,1,24.0,37800.0,0,0
4902,1,35.0,38700.0,1,0
4935,1,19.0,32700.0,0,0
4945,1,21.0,45800.0,0,0


<font color=green>Здесь было бы неплохо чиркануть какие-то выводы - а то будто знания о дубликатах подвешены в в оздухе</font>

## 2. Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** 
При умножение признаки на обратимую матрицу, качество линейной регресии не изменится. 

**Обоснование: 

Формула  Squared Error:

$$
SE = \sum_{i=1}^{n} (y_i - a_i)^2 
$$

Формула предсказания в матричной виде:
$$
a = Xw = X(X^T X)^{-1} X^T y
$$
Пусть матрица Z является обратимой:

Умножаем матрицу X на обратимуюу Z в формуле предсказания:
$$
a^{,} = XZ((XZ)^T XZ)^{-1} (XZ)^T
$$
Преобразуем формулу с помошью свойства обратимой матрицы:
$$
(AB)^{-1}= В^{-1}A^{-1}
$$

$$
a^{,} = XZ(XZ)^{-1}((XZ)^T)^{-1}(XZ)^T
$$

Преобразуем формулу с помошью свойства транспортирования  матрицы:
$$
(AB)^T= В^TA^T
$$

$$
a^{,} = XZZ^{-1}X^{-1}(Z^T X^T)^{-1}(XZ)^T
$$

Применяем тождетсва:
$$
AA^{-1} = A^{-1}A = E
$$
Где:
- $E$ — единичная  матрица 

$$
a^{,} = XEX^{-1}(X^T)^{-1} (Z^T)^{-1}Z^TX^T
$$

$$
a^{,} = XEX^{-1}(X^T)^{-1} E X^T
$$

Применяем тождетсва:

$$
AE = EA = A
$$
$$
a^{,} = XX^{-1}(X^T)^{-1}  X^T
$$
$$
a^{,} = X(X^TX)^{-1}  X^T
$$

Получаем что:

$$
a = a^{,} 
$$

Соответсвено :

$$
\sum_{i=1}^{n} (y_i - a_i)^2  = \sum_{i=1}^{n} (y_i - a^{,}_i)^2
$$

Что является доказательством предположения того что при умножения признаки на обратимую матрицу, качество линейной регресии не изменится.

<font color=green>Хорошее доказательство, но не совсем корректно использовано свойство обратимой матрицы - оно в таком виде справедливо только для квадратных матриц. Там нужно чуточку аккуратнее, сначала транспонированные поправить, а потом уже обратные двигать:)</font>

## 3. Алгоритм преобразования

**Алгоритм**

1. Определение признак и цклового признака
2. Обучение модель без преобразование
3. Получение метрики R2 на модель без преобразования
4. Создание рандомной обратимой матрицы
5. Умножение обратимую матрицу на матрицу признаков
6. Обучение модель на преобразованый признаки
7. Получение терики R2 преобразованых признаков
8. Сравнение метрики, вывод

**Обоснование**

Алгоритм обоснован на аналитическое доказательство приведен в пункте 2

## 4. Проверка алгоритма

In [5]:
import numpy as np

# Определение признаков для обучения  модели 

features = df.drop(['Страховые выплаты'], axis = 1)

target = df['Страховые выплаты']

In [6]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
    
# Обучение модели до преобразования

model=  LinearRegression()
model.fit(features,target)
prediction = model.predict(features)

r2 = r2_score(target,prediction).round(6)

r2

0.424946

In [7]:
from random import randint

# Функция создания обратимой матрицы
def invertible_matrix(i,j):
    matrix = [[randint(0,9) for x in range(i)] for x in range(j)]
    try:
        inverse = np.linalg.inv(matrix)
    except np.linalg.LinAlgError:
    # Пропустим необратимую матрицу.
        pass
    else:
        return matrix 
    
Z = invertible_matrix(4,4)
Z

[[4, 4, 5, 3], [8, 2, 3, 0], [7, 1, 4, 7], [9, 0, 7, 3]]

In [8]:
# Преобразование: умножение матрицу признаков на обратимую матррицу

features_transformed = np.dot(features, Z)

In [9]:
# Обучение модели после преобразования

model_transformed =  LinearRegression()
model_transformed.fit(features_transformed, target)
prediction_transformed = model_transformed.predict(features_transformed)

r2_transformed = r2_score(target, prediction_transformed).round(6)

r2_transformed

0.424946

In [10]:
if r2 == r2_transformed:
    print("Гипотеза верная: при умножения признаки на обратимую матрицу, качество линейной регресии не изменится.")
    
else:
    print("Кажется, что где-то ошибка")

Гипотеза верная: при умножения признаки на обратимую матрицу, качество линейной регресии не изменится.


<font color=green>Хорошая работа, есть огрехи, обрати</font>

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные загружены
- [x]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [x]  Указан правильный вариант ответа
    - [x]  Вариант обоснован
- [x]  Выполнен шаг 3: предложен алгоритм преобразования
    - [x]  Алгоритм описан
    - [x]  Алгоритм обоснован
- [x]  Выполнен шаг 4: алгоритм проверен
    - [x]  Алгоритм реализован
    - [x]  Проведено сравнение качества моделей до и после преобразования