# Проект "Защита данных клиентов страховой компании"

## Описание проекта

Нужно защитить данные клиентов страховой компании «Хоть потоп». Для этого надо разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию, а также обосновать корректность его работы. Нужно защитить данные так, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## План выполнения проекта

1. [**Загрузите и изучите данные.**](#step1)
1. [**Ответьте на следующий вопрос и обоснуйте решение:**](#step2) <i>"Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)".</i> Если изменится, то приведите примеры матриц. Если нет, то укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.
1. [**Предложите алгоритм преобразования данных для решения задачи.**](#step3) Обоснуйте, почему качество линейной регрессии не поменяется.
1. [**Запрограммируйте этот алгоритм, применив матричные операции.**](#step4) Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.

## Описание данных

- **Признаки:** пол, возраст и зарплата застрахованного, количество членов его семьи.
- **Целевой признак:** количество страховых выплат клиенту за последние 5 лет.

## <a name="step1"></a>Шаг 1. Загрузите и изучите данные

Для начала импортируем все библитеки для работы проекта.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

Запишем наши данные в переменную `insurance`.

In [2]:
try:
    #insurance = pd.read_csv('/Users/andreykol/Desktop/yandex_projects/project_Linear_Algebra/insurance.csv')
    insurance = pd.read_csv('/datasets/insurance.csv')
except:
    print('Ошибка при открытии файла!')

Проведём краткий осмотр данных.

In [3]:
print(insurance.info())
print(insurance.columns)
print(insurance.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB
None
Index(['Пол', 'Возраст', 'Зарплата', 'Члены семьи', 'Страховые выплаты'], dtype='object')
   Пол  Возраст  Зарплата  Члены семьи  Страховые выплаты
0    1     41.0   49600.0            1                  0
1    0     46.0   38000.0            1                  1
2    0     29.0   21000.0            0                  0
3    0     21.0   41700.0            2                  0
4    1     28.0   26100.0            0                  0


Итак, названия столбцов осмысленны, пропусков нет, типы данных корректны.

## <a name=""></a>Шаг 2. Ответьте на вопрос и обоснуйте решение

Вопрос звучит следующим образом: "Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)". Если изменится, то приведите примеры матриц. Если нет, то укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.

Итак, вспомним, как выражается вектор параметров линейной регрессии $w$ через матрицу объектов-признаков $X$ в линейной регрессии ($y$ – вектор ответов), если признаки дополнены вектором из единиц:

$$
w = (X^TX)^{-1}X^Ty.
$$

Пусть теперь признаки умножили на обратимую матрицу $R$ (значит, существует $R^{-1}$), получив матрицу $F$: $$F = XR.$$
Подсчитаем, чему равен новый вектор параметров $v$: 

$$
v = (F^TF)^{-1}F^Ty = ((XR)^T(XR))^{-1}(XR)^Ty = (R^TX^TXR)^{-1}R^TX^Ty = R^{-1}(X^TX)^{-1}(R^T)^{-1}R^TX^Ty = R^{-1}(X^TX)^{-1}X^Ty = R^{-1}w,
$$

так как $(AB)^T = B^TA^T$, $(AB)^{-1} = B^{-1}A^{-1}$ и $A^{-1}A = E$. 

Итак, мы выяснили, что если известно преобразование матрицы признаков, то мы однозначно можем восстановить и вектор параметров в исходной задаче по вектору параметров после преобразований. Ответ на вопрос: нет, качество не изменится, параметры в задачах связаны соотношением выше.

## <a name="step3"></a>Шаг 3. Предложите алгоритм преобразования данных для решения задачи

Итак, матрица объектов-признаков имеет размер 5000 строк на 5 столбцов (4 признака + 1 столбец из единиц для умножения на свободный член линейной регрессии). Значит, чтобы сохранить такую размерность данных, мы должны умножить таблицу на матрицу размера 5 на 5.

Таким образом, алгоритм преобразования данных состоит в следующем:

1. Дополнить матрицу объектов-признаков столбцом из единиц;
1. Случайным образом сгенерировать матрицу размера 5 на 5, с вероятностью 1 она будет обратимой (но надо это проверить!);
1. Умножить исходную матрицу на сгенерированную квадратную, получить новую матрицу того же размера, что и исходная.

## <a name="step3"></a>Шаг 4. Запрограммируйте алгоритм, применив матричные операции

На этом этапе мы преобразуем данные, а также покажем, что значение метрики R2 не отличается в двух моделях.

In [4]:
features = insurance.drop(columns=['Страховые выплаты'])
y = insurance['Страховые выплаты'].values
X = np.concatenate((np.ones(shape=(len(insurance), 1)), features.values), axis=1)
# X - расширенная матрица
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

model_bef = LinearRegression(fit_intercept=False)
# заметим, что эти действия эквивалентны недобавлению столбца и установкой значения True параметра fit_intercept.
model_bef.fit(X_train, y_train)
y_pred = model_bef.predict(X_test)
r2_bef = r2_score(y_test, y_pred)
print(f'Метрика R2 до преобразования данных равна {r2_bef}.')

Метрика R2 до преобразования данных равна 0.4254778540696289.


Так данные уже были дополнены столбцом, а также разделены на выборки, сразу перейдем к генерированию псевдослучайной матрицы преобразования.

In [5]:
R = np.random.random((5, 5))
print(R)
print()
print(np.linalg.inv(R))
print()
print(np.linalg.det(R))

[[0.52349942 0.35622054 0.75861522 0.37313788 0.0782392 ]
 [0.27703617 0.52898032 0.55317009 0.79912321 0.64961143]
 [0.4197462  0.62369315 0.40122036 0.82327382 0.11944389]
 [0.17379475 0.06610825 0.48741744 0.25067569 0.73326237]
 [0.44179596 0.99253935 0.86942764 0.8319064  0.8240329 ]]

[[ -2.38695596 -10.95638583   8.5781888    7.67079573   0.79466347]
 [ -0.78372242  -1.96056306   0.2096472   -0.7438309    2.25149275]
 [  3.28407166   6.71190388  -5.85693617  -4.46848999  -0.77778663]
 [  0.4573044    4.25637158  -0.76863824  -1.62510141  -1.84134868]
 [ -1.70293476  -3.14307168   2.10395114   3.13860745   0.75516971]]

-0.014005194418279236


Итак, теперь применим наше преобразование к таблицам `X_train` и `X_test`.

In [6]:
X_train_2 = np.dot(X_train, R)
X_test_2 = np.dot(X_test, R)

Наконец, обучим модель на новых данных и подсчитаем значение метрики.

In [7]:
model_af = LinearRegression(fit_intercept=False)
model_af.fit(X_train_2, y_train)
y_pred = model_af.predict(X_test_2)
r2_af = r2_score(y_test, y_pred)
print(f'Метрика R2 после преобразования данных равна {r2_af}.')

Метрика R2 после преобразования данных равна 0.42547785406916006.


Итак, мы видим, что метрика не изменилась (точнее, изменилась лишь в 11-м знаке после запятой из-за вычислительных погрешностей). Значит, наши теоретические выводы теперь подтверждены на практике. В качестве дополнения, проверим, выполняются ли соотношения между векторами параметров до и после преобразования.

Так как $v= R^{-1}w$, то вычитая одно из другого, мы должны получить нулевой вектор (допустимы малые погрешности).

In [8]:
model_af.coef_ - np.dot(np.linalg.inv(R), model_bef.coef_)

array([-3.01496605e-11, -7.50022267e-12,  2.74456013e-11,  9.59593516e-12,
       -1.37021505e-11])

Так и есть, вектор разности, по сути, нулевой. На этом поставленные задачи можно считать решёнными, а проект законченным.