# Описание проекта
- Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.
- Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

# Инструкция по выполнению проекта
1. Загрузите и изучите данные.
2. Ответьте на вопрос и обоснуйте решение.
    - Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
    - a. Изменится. Приведите примеры матриц.
    - b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.
3. Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.
4. Запрограммируйте этот алгоритм, применив матричные операции. Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.

# Описание данных
Набор данных находится в файле /datasets/insurance.csv. Скачать датасет.
- Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
- Целевой признак: количество страховых выплат клиенту за последние 5 лет.

# 1.0 Загрузка данных

In [1]:
# Импортирую библиотеки 
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression 
from sklearn.metrics import r2_score

In [2]:
# Откроем таблицу двумя путями
server_data = '/datasets/insurance.csv'
local_data = '/Users/mmaximmaximovgmail.com/Desktop/DS/project 10/insurance.csv'

try:
    data = pd.read_csv(server_data)
except:
    data = pd.read_csv(local_data)

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


### Мини вывод
- С данными все в порядке, пропусков нет, имеют правильный тип 
- Далее с этими данными будем проводить работу

# 2.0 Умножение матриц

### Вопрос - Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:
​
$$
a = Xw
$$
​
Задача обучения:
​
$$
w = \arg\min_w MSE(Xw, y)
$$
​
Формула обучения:
​
$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Не изменится

**Обоснование:** 
$$ 
a = Xw
$$

$$
a = X(X^TX)^{-1}X^Ty = XX^{-1}(X^T)^{-1}X^Ty = (Сокращаем) XX^{-1}y
$$

Добавим P к Х
$$
a = (XnP)((XP)^TXP)^{-1}(XP)^Ty = (раскрываем скобки) (XnP)(XP)^{-1}((XP)^T)^{-1}(XP)^Ty = (тоже самое) (XnP)P^{-1}X^{-1}(X^T)^{-1}(P^T)^{-1}P^TX^Ty = X\
nPP^{-1}X^{-1}(X^T)^{-1}(P^T)^{-1}P^TX^Ty = (сокращаем) XnX^{-1}y
$$

## 2.0

#### Обоснование:

$ a_1 = X_1w_1,X_1=XP $

$ w_1 = ((X_1)^{T}X_1)^{-1}(X_1)^{T}y $ 

#### Заменяем значение X1 и W1:

$ a_1 = XP((XP)^{T}(XP))^{-1}(XP)^{T}y $

#### Далее мне пригодится формула матричной операции - $(AB)^{-1} = B^{-1}A^{-1}$ :

$ a_1 = XP((XP)^T(XP))^{-1}(XP)^Ty = XP(XP)^{-1}((XP)^T)^{-1}(XP)^Ty = XPP^{-1}(X^TX)^{-1})(P^T)^{-1}P^T(X)^Ty $

#### Воспользуюсь формулой - $(AB)^T = B^T A^T$ :

$ a_1 = P^{-1}(X^TX)^{-1}(P^T){-1}P^TX^Ty = P^{-1}(X^TX)^{-1}X^Ty $

#### Использую замену: 
так как $ w_1 = ((X_1)^{T}X_1)^{-1}(X_1)^{T}y $

то $ w = P^{-1}w $

и получаем $ a = Xw XPP^{-1}w = Xw = a $

# 3.0 Алгоритм преобразования

In [5]:
# Делим на обучающую и тестовую выборку
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

In [6]:
# Далее обучаем модель с классом
class LinearRegression:
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T @ X) @ X.T @ y
        self.w = w[1:]
        self.w0 = w[0]
    def predict(self, test_features):
        return test_features.dot(self.w) + self.w0
    
model = LinearRegression()
model.fit(features, target)
predict = model.predict(features)
print('Значение R2:', r2_score(target, predict))

Значение R2: 0.4249455028666801


# 4.0 Проверка алгоритма

In [7]:
model = LinearRegression()
model.fit(features, target)
predict = model.predict(features)
display(predict)
print('R2 исходной матрицы: ', r2_score(target, predict))

0       0.511727
1       0.684316
2       0.093734
3      -0.222589
4       0.065084
          ...   
4995    0.028390
4996    0.253367
4997   -0.256970
4998   -0.190992
4999    0.049050
Length: 5000, dtype: float64

R2 исходной матрицы:  0.4249455028666801


In [8]:
g = np.random.rand(4, 4)
np.linalg.inv(g)

array([[-21.97792699, -10.46782874,  46.10221845, -10.80796378],
       [-22.14334431, -10.70924878,  56.28499269, -18.0219992 ],
       [ 21.20386749,  11.31451174, -49.08349947,  13.6134565 ],
       [ -4.50059534,  -3.38113644,  13.91837526,  -4.07446732]])

In [9]:
q = features @ g
q.shape      

(5000, 4)

In [10]:
model = LinearRegression()
model.fit(q, target)
predict = model.predict(q)
print('R2 исходной матрицы на обратимую реакцию: ', r2_score(target, predict))

R2 исходной матрицы на обратимую реакцию:  0.4249455021539982


# 5.0 Вывод
#### Провел работу по защите данных клиентов страховой компании и сделал вывод по каждому пунтку
- Сначала открыли все данные, сделал первичный анализ и убедился, что данные не требуются доработок 
- По второму пунтку выяснилось, что качество линейной регрессии не изменится и доказали это все формулами
- В алгоритме преобразования я нашел значение r2
- В крайнем пункет провел проверку алгоритма и выяснил что значение r2 до и после не сильно поменялось