<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [2]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

import warnings
warnings.filterwarnings('ignore')

In [4]:
df = pd.read_csv('/datasets/insurance.csv')
display(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [5]:
df.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

In [6]:
for column in df.columns:
    print(f"Уникальные значения столбца {column}:\n {df[column].unique()}\n min {df[column].min()}\n max {df[column].max()}")

Уникальные значения столбца Пол:
 [1 0]
 min 0
 max 1
Уникальные значения столбца Возраст:
 [41. 46. 29. 21. 28. 43. 39. 25. 36. 32. 38. 23. 40. 34. 26. 42. 27. 33.
 47. 30. 19. 31. 22. 20. 24. 18. 37. 48. 45. 44. 52. 49. 35. 56. 65. 55.
 57. 54. 50. 53. 51. 58. 59. 60. 61. 62.]
 min 18.0
 max 65.0
Уникальные значения столбца Зарплата:
 [49600. 38000. 21000. 41700. 26100. 41000. 39700. 38600. 49700. 51700.
 36600. 29300. 39500. 55000. 43700. 23300. 48900. 33200. 36900. 43500.
 36100. 26600. 48700. 40400. 38400. 34600. 34800. 36800. 42200. 46300.
 30300. 51000. 28100. 64800. 30400. 45300. 38300. 49500. 19400. 40200.
 31700. 69200. 33100. 31600. 34500. 38700. 39600. 42400. 34900. 30500.
 24200. 49900. 14300. 47000. 44800. 43800. 42700. 35400. 57200. 29600.
 37400. 48100. 33700. 61800. 39400. 15600. 52600. 37600. 52500. 32700.
 51600. 60900. 41800. 47400. 26500. 45900. 35700. 34300. 26700. 25700.
 33300. 31100. 31500. 42100. 37300. 42500. 27300. 46800. 33500. 44300.
 41600. 53900. 40100. 

Изменим тип данных в столбцах Возраст и Зарплата на целочисленный ввиду отсуствия дробных частей. Так же уменьшим обращение к памяти для остальных столбцов.

In [7]:
for col in df.columns:
    df[col] = df[col].astype(int)
    df[col] = pd.to_numeric(df[col], downcast='unsigned')
    
display(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Пол                5000 non-null   uint8 
 1   Возраст            5000 non-null   uint8 
 2   Зарплата           5000 non-null   uint32
 3   Члены семьи        5000 non-null   uint8 
 4   Страховые выплаты  5000 non-null   uint8 
dtypes: uint32(1), uint8(4)
memory usage: 39.2 KB


None

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41,49600,1,0
1,0,46,38000,1,1
2,0,29,21000,0,0
3,0,21,41700,2,0
4,1,28,26100,0,0


Выигрыш в размере дата сета: 195.4 KB - 39.2 KB = 156.2 KB

**Вывод**

Данные загружены и не имеют ни аномалий, ни пропущеных значений. Приведение типов позволит более быстро обращаться к данным.

## Умножение матриц

In [6]:
features = df.drop('Страховые выплаты',axis=1)
target = df['Страховые выплаты']

In [7]:
X = np.concatenate((np.ones((features.shape[0], 1)), features), axis=1)
y = target
w = np.linalg.inv(X.T @ X) @ X.T @ y
display(w[1:])
model = LinearRegression()
model.fit(features, target)
model.coef_

array([ 7.92580563e-03,  3.57083050e-02, -1.70081903e-07, -1.35676627e-02])

array([ 7.92580563e-03,  3.57083050e-02, -1.70081903e-07, -1.35676627e-02])

**Вывод**

Коэфициенты регрессии совпадают

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?**

**Ответ:** не изменится

**Обоснование:** 

Вычислим, чему будет равно предсказание и вектор весов:

$$
a_1 = XPw_1
$$
$$
w_1 = ((XP)^T(XP))^{-1}(XP)^Ty
$$
где $P$ - обратимая матрица с некими значениями, на которую может быть умножена матрица $X$.

$$
a_1 = XP((XP)^T(XP))^{-1}(XP)^Ty
$$

Воспользуемся свойсвами матрицы: $$(AB)^{-1} = B^{-1}A^{-1}$$ $$(AB)^T = B^TA^T$$ $$(AB)C = A(BC)$$


$$
a_1 = XP((XP)^T(XP))^{-1}(XP)^Ty = XP(P^T(X^TX)P)^{-1}P^TX^Ty = XPP^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty 
$$

Так как $P$ - обратимая матрица, то умножение  $PP^{-1}$ и $(P^T)^{-1}P^T$ приведёт к еденичной матрице, а умножение на единичную матрицу ничего не меняет.

$$
XPP^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty = X(X^TX)^{-1}X^Ty = Xw = a
$$

**Вывод**

Значение предсказания  не меняется, если умножать матрицу признаков на обратимую матрицу.

## Алгоритм преобразования

**Алгоритм**

Для защиты информации на этапе поиска коэффициентов регрессии и предсказаний регрессии будем умножать матрицу признаков на обратимую матрицу , которая будет генерироваться случайным образом.

*Этапы алгоритма:*

- Составление матрицы $P$
- Проверка матрицы на обратимость. Вычисление детерминанта матрицы $P$.
- Получение матрицы преобразованных признаков $XP$.
- Применение алгоритма на преобразованных признаках $XP$.

**Обоснование**

Матрица $P$ должна иметь необходимую размерность ***(n***x***n)***, где n - количество признаков для регрессии. Таким образом матрица $XP$ будет иметь туже размерность, что и матрица $X$. Обратная матрица $P$ существует только для квадратных невырожденных матриц (определитель которых не равен нулю).

## Проверка алгоритма

Проведем исследование модели по двум направлениям:

- Исследуем качество модели без преобразования
- Исследуем качество модели с преобразованием

In [8]:
# разделим данные на обучающие и тестовые

features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=8726)

In [9]:
model = LinearRegression()
model.fit(features_train, target_train)
print(f"w-vector coef {model.coef_}\nR2 = {r2_score(target_test, model.predict(features_test))}")

w-vector coef [ 1.56694963e-02  3.48908693e-02  2.41418677e-09 -1.57820259e-02]
R2 = 0.44211566521240697


In [10]:
# cоздадим функцию преобразования матрицы признаков

def data_protection(features):
    crypted_features = features
    n = features.shape[1]
    np.random.seed(8726)
    crypted_matrix = np.random.normal(1, 10, (n,n))
    det = np.linalg.det(crypted_matrix)
    while det == 0:
        np.random.seed(8726)
        crypted_matrix = np.random.narmal(1, 10, (n,n))
        det = np.linalg.det(crypted_matrix)
    crypted_features = crypted_features @ crypted_matrix
    return crypted_features, crypted_matrix

## Чек-лист проверки

In [11]:
# выведем данные до и после преобразования

display(features.head())
features, crypted_matrix = data_protection(features)
display(features.head())
crypted_matrix

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0


Unnamed: 0,0,1,2,3
0,591229.454538,-8698.603096,-53457.490495,500436.567955
1,452968.895205,-6512.673312,-40779.627928,383288.757633
2,250330.104663,-3565.204151,-22497.558216,211781.540346
3,497051.24941,-7457.9143,-45082.791645,420866.241233
4,311115.243405,-4507.20402,-28063.892259,263268.891206


array([[ -4.53829465,  10.86655393, -10.90935721, -12.88772405],
       [  0.59393729,  10.82092194,  11.40539668,  -8.40233562],
       [ 11.91966098,  -0.1847148 ,  -1.08706261,  10.09643848],
       [ -5.54297135,   8.7268364 ,   4.10284123,  10.60283292]])

Данные потеряли свои оригинальные значения, теперь в них хранятся неочевидные числа.

Разобьем данные на тренировочную и обучающую выборку и проверим R2 значение.

In [12]:
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=8726)

In [13]:
model = LinearRegression()
model.fit(features_train, target_train)
print(f"w-vector coef {model.coef_}\nR2 = {r2_score(target_test, model.predict(features_test))}")

w-vector coef [ 0.00156199  0.00089179  0.00085288 -0.00173592]
R2 = 0.4421156652124075


Модель ведет себя одинаково как на исходных данных, так и на преобразованных. Колебания после 11 знака после запятой связано с точностью хранения дробных чисел в python 3.

**Вывод**

- Загружены и изучены данные. Привели к нужным типам данных для более быстрого обращения к ним.
- Качество линейной регресии не изменилось от умножения исходной матрицы на обратимую.
- Создан алгоритм преобразования данных.
- Исследован алгоритм преобразования данных и проверена метрика R2 на исходных данных, так и на преобразованных.

По результатам работы можно увидеть, что данные очень просто зашифровать от распознования, имея правильную матрицу.