<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from numpy import linalg as LA
from sklearn.metrics import r2_score

In [2]:
#Загрузим данные
data = pd.read_csv('/datasets/insurance.csv')

In [3]:
#Отобразим первые 5 строк таблиц
display(data.head(5))

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
print('Информация о состоянии таблицы:\n')
data.info()

Информация о состоянии таблицы:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
#Проверим на дубликаты
print('\nКоличество дубликатов:', data.duplicated().sum())


Количество дубликатов: 153


In [6]:
#Преобразуем столбцы "Зарплата" и "Возраст" в формат int
data['Зарплата'] = data['Зарплата'].astype(int)
data['Возраст'] = data['Возраст'].astype(int)

In [7]:
#Отобразим таблицу после преобразования формата данных
display(data.head(5))

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41,49600,1,0
1,0,46,38000,1,1
2,0,29,21000,0,0
3,0,21,41700,2,0
4,1,28,26100,0,0


## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Не изменится, потому что результат преобразований - это обратная матрица исходной, что не влияет на исходный результат.

**Обоснование:** 
Возьмем формулу предсказаний: 
$$
a = X(X^TX)^{-1}X^Ty
$$
Умножим регрес. признаки $X$ на матрицу $P$
$$
XP((XP)^TXP)^{-1})(XP)^T
$$
$$
XP(P^TX^TXP)^{-1}P^TX^T
$$
$$XPP^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^T
$$
$$
X(X^TX)^{-1}X^T
$$
$P$ матрица, на которую умножаются признаки изчезает из уравнения, а вектор целевого признака $y$ зависит от регрес. признаков.

## Алгоритм преобразования

**Алгоритм следующий:**

1. Сгенерировать произвольную квадратную матрицу размерность 4 на 4, так как только квадратные матрицы могут быть обратимыми. Размерность 4 на 4 выбрана потому что матрица признаков исходных данных 5000 на 4.

2. Проверить созданную матрицу на обратимость. Если матрица обратимая, тогда переход к следующему пункту.

3. Умножить матрицу исходных признаков на обратимую матрицу.

4. Посчитать качество модели на полученной матрице и сравнить с качеством модели на матрице исходных данных.

**Обоснование**

1. Преобразовать DataFrame признаков в матрицу чтобы зашифровать, а потом расшифровать данные, умножить матрицу признаков на обратимую матрицу.

## Проверка алгоритма

In [8]:
#Определим признаки и целевой признак
features = data.drop('Страховые выплаты', axis=1)
target = data['Страховые выплаты']

#Создадим новый класс LinearRegression
class LinearRegression:
    def fit(self, train_features, train_target): #Напишем функцию обучения модели
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
        self.w = w[1:]
        self.w0 = w[0]

    def predict(self, test_features): #Напишем функцию предсказания модели
        return test_features.dot(self.w) + self.w0

#Обучим модель и предскажем на текущих данных 
model = LinearRegression()
model.fit(features, target)
predictions = model.predict(features)
print("R2 модели до преобразования данных:",r2_score(target, predictions))

R2 модели до преобразования данных: 0.42494550308169177


In [9]:
#Преобразуем DataFrame признаков в матрицу
matrix = features.values
#Отобразим полученную матрицу
print('\nМатрица признаков до преобразования:\n')
display(matrix)


Матрица признаков до преобразования:



array([[    1,    41, 49600,     1],
       [    0,    46, 38000,     1],
       [    0,    29, 21000,     0],
       ...,
       [    0,    20, 33900,     2],
       [    1,    22, 32700,     3],
       [    1,    28, 40600,     1]])

In [10]:
#Создадим произвольную квадратную матрицу размером 4 на 4
matrix_random = np.random.randint(10, size = (4, 4))
matrix_random_inv = LA.inv(matrix_random)
print('\nCгенерированная матрица:')
print(matrix_random,'\n')


Cгенерированная матрица:
[[0 2 7 9]
 [1 4 0 9]
 [4 8 7 7]
 [4 7 0 4]] 



In [11]:
#Проверим матрицу на обратимость
if (np.allclose(np.dot(matrix_random, matrix_random_inv), np.eye(matrix_random.shape[0])) is True and np.allclose(np.dot(matrix_random_inv, matrix_random), np.eye(matrix_random.shape[0])) is True):
    print("Проверка на обратимость: матрица обратимая")
else:
    print("Проверка на обратимость: матрица не обратимая")

Проверка на обратимость: матрица обратимая


In [12]:
#Преобразуем данные в матрице посредством умножения на произвольную обратимую матрицу
#Отобразим матрицу с преобразованными данными
matrix_1 = matrix @ matrix_random
print('\nМатрица признаков после преобразования:\n')
print(matrix_1)


Матрица признаков после преобразования:

[[198445 396973 347207 347582]
 [152050 304191 266000 266418]
 [ 84029 168116 147000 147261]
 ...
 [135628 271294 237300 237488]
 [130834 261711 228907 229119]
 [162432 324921 284207 284465]]


In [13]:
#Преобразуем матрицу в DataFrame
columns=['Пол', 'Возраст', 'Зарплата', 'Члены семьи']
features_1 = pd.DataFrame(matrix_1, columns=columns)

In [14]:
#Определим признаки и целевой признак из преобразованных данных
#features_1 = data_1
target_1 = data['Страховые выплаты']
#Обучим модель и предскажем на преобразованных данных 
model = LinearRegression()
model.fit(features_1, target_1)
predictions_1 = model.predict(features_1)
print("\nR2 модели после преобразования данных:", r2_score(target_1, predictions_1))


R2 модели после преобразования данных: 0.4249455026154564


**Итог:**

    - Данные были преобразованы посредством умножения на сгенерированную обратимую квадратную матрицу размерностью 4 на 4. 
    - В результате проверки модели коэффицент R2 не изменился, что означает, что качество модели не изменилось.

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные загружены
- [ ]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [ ]  Указан правильный вариант ответа
    - [ ]  Вариант обоснован
- [ ]  Выполнен шаг 3: предложен алгоритм преобразования
    - [ ]  Алгоритм описан
    - [ ]  Алгоритм обоснован
- [ ]  Выполнен шаг 4: алгоритм проверен
    - [ ]  Алгоритм реализован
    - [ ]  Проведено сравнение качества моделей до и после преобразования