# Защита персональных данных клиентов
_____________

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Описание-проекта" data-toc-modified-id="Описание-проекта-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Описание проекта</a></span><ul class="toc-item"><li><span><a href="#Инструкция-по-выполнению-проекта" data-toc-modified-id="Инструкция-по-выполнению-проекта-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Инструкция по выполнению проекта</a></span></li><li><span><a href="#Описание-данных" data-toc-modified-id="Описание-данных-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Описание данных</a></span></li></ul></li><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Умножение матриц</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Алгоритм преобразования</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка алгоритма</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Итоговый-вывод" data-toc-modified-id="Итоговый-вывод-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Итоговый вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

## Описание проекта

В рамках проекта необходимо защитить данные клиентов страховой компании «Хоть потоп»: разработать такой метод преобразования данных (при преобразовании качество моделей машинного обучения не должно ухудшаться), чтобы по ним было сложно восстановить персональную информацию.


### Инструкция по выполнению проекта

1. Загрузить и изучить данные.


2. Ответить на вопрос и обосновать решение:

    Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)
   * a. Изменится. Приведите примеры матриц.
   * b. Не изменится. Укажите, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.
   
   
3. Предложить алгоритм преобразования данных для решения задачи. Обосновать, почему качество линейной регрессии не поменяется.


4. Запрограммировать этот алгоритм, применив матричные операции. Проверить, что качество линейной регрессии из sklearn не отличается до и после преобразования. Применить метрику R2.


### Описание данных

Набор данных находится в файле `/datasets/insurance.csv`. 

**Признаки:** пол, возраст и зарплата застрахованного, количество членов его семьи.

**Целевой признак:** количество страховых выплат клиенту за последние 5 лет.

## Загрузка данных

Для начала импортируем необходимые для работы библиотеки.

In [33]:
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression

Исходные данные сохраним в переменной `df`.

Выведем первые строки датасета и основную информацию о нем.

In [34]:
df = pd.read_csv('/datasets/insurance.csv')

display(df.head())
print(df.info())

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB
None


Выведем также диапазоны значений в каждом из столбцов.

In [35]:
for i in df:
    print('\033[1m', i, '\033[0m')
    print('Минимальное значение: ', df[i].min(), '\n', 'Максимальное значение: ', df[i].max(), sep='')
    print('Уникальные значения: ', df[i].unique(), '\n')
    

[1m Пол [0m
Минимальное значение: 0
Максимальное значение: 1
Уникальные значения:  [1 0] 

[1m Возраст [0m
Минимальное значение: 18.0
Максимальное значение: 65.0
Уникальные значения:  [41. 46. 29. 21. 28. 43. 39. 25. 36. 32. 38. 23. 40. 34. 26. 42. 27. 33.
 47. 30. 19. 31. 22. 20. 24. 18. 37. 48. 45. 44. 52. 49. 35. 56. 65. 55.
 57. 54. 50. 53. 51. 58. 59. 60. 61. 62.] 

[1m Зарплата [0m
Минимальное значение: 5300.0
Максимальное значение: 79000.0
Уникальные значения:  [49600. 38000. 21000. 41700. 26100. 41000. 39700. 38600. 49700. 51700.
 36600. 29300. 39500. 55000. 43700. 23300. 48900. 33200. 36900. 43500.
 36100. 26600. 48700. 40400. 38400. 34600. 34800. 36800. 42200. 46300.
 30300. 51000. 28100. 64800. 30400. 45300. 38300. 49500. 19400. 40200.
 31700. 69200. 33100. 31600. 34500. 38700. 39600. 42400. 34900. 30500.
 24200. 49900. 14300. 47000. 44800. 43800. 42700. 35400. 57200. 29600.
 37400. 48100. 33700. 61800. 39400. 15600. 52600. 37600. 52500. 32700.
 51600. 60900. 41800. 47

### Вывод

* Данные представлены 5000 строками в 5 столбцах, содержащих информацию о поле, возрасте, зарплате, количестве членов семьи клиентов, а также о количестве страховых выплат. 
* Пропусков в данных или аномалий не найдено.
* Пол клиентов представлен бинарно: 0 или 1.
* Возраст от 18 до 65 лет.
* Минимальная зарплата составляет 5300 руб., максимальная - 79000 руб.
* Количество членов семьи варьируется от 0 до 6 человек.
* Число страховых выплат составляет от 0 до 5. То есть будет решаться задача не классификации, а регрессии.



## Умножение матриц

Определим, изменится ли качество линейной регрессии, если признаки умножить на обратимую матрицу.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw  \qquad (1)
$$    


Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)  \qquad (2)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y  \qquad (3)
$$


Умножим матрицу признаков *X* на обратимую квадратную матрицу, обозначенную как *P*:

$$
Z = XP \qquad (4)
$$


Пусть исходная матрица *X* имеет размер *(m x n)*, а матрица *P* - *(n x n)*, тогда *Z* будет иметь размер *(m x n)*. 



В ранее записанной формуле 1 заменим *X* на *Z* из формулы 4:

$$
a_1 = Zw_1 \qquad (5)
$$


Формула обучения для *Z* примет вид:

$$
w_1 = (Z^TZ)^{-1}Z^Ty \qquad (6)
$$


Тогда формула для предсказаний 5 с учетом этого запишется в следующем виде:

$$
a_1 = Z(Z^TZ)^{-1}Z^Ty \qquad (7)
$$

Заменим *Z* в формуле 7 на правую часть уравнения 4:

$$
a_1 = XP((XP)^TXP)^{-1}(XP)^Ty \qquad (8)
$$

Согласно свойствам транспонированных матриц: $(AB)^T = B^TA^T,$
тогда предыдущее выражение примет вид:

$$
a_1 = XP(P^TX^TXP)^{-1}P^TX^Ty \qquad (9)
$$

Так как обратное значение произведения обратимых матриц A и B с одинаковым числом строк и столбцов будет равно значению, полученному при умножении матриц, обратных исходным, то есть $(AB)^{−1}=B^{−1}A^{−1},$
тогда из предыдущего выражения 9 согласно этому и свойству ассоциативности умножения матриц возможно "вынести" из-за скобок транспонированную и нетранспонированную обратную матрицу *P*:

$$
a_1 = XPP^{-1}(X^TX)^{-1}(P^T)^{-1}P^TX^Ty  \qquad (10)
$$

Для обратимых матриц справедливо:$AA^{-1} = E,$ где *E* - единичная матрица, а если любую матрицу умножить на единичную (или наоборот), получится эта же матрица.

Тогда с учетом этого:

$$
a_1 = XE(X^TX)^{-1}EX^Ty = X(X^TX)^{-1}X^Ty  \qquad (11)
$$

С учетом формул 3 и 1 получаем:

$$
a_1 = Xw = a  \qquad (12)
$$


### Вывод
Получаем, что предсказания $a_1$ для матрицы признаков, умноженных на обратимую матрицу $P$, равны предсказаниям $a$. Следовательно, качество линейной регрессии при умножении признаков на обратимую матрицу не изменится.

## Алгоритм преобразования

В качестве алгоритма преобразования данных можно предложить домножать имеющуюся матрицу признаков на обратимую матрицу со случайными величинами, так как ранее было доказано, что при этом качество линейной регрессии не меняется.

Для начала выделим общие и целевой признаки и произведем разделение на обучающую и тестовую выборки.

In [60]:
target = df.loc[:, 'Страховые выплаты']
features = df.drop(['Страховые выплаты'], axis=1)

features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.2, random_state=12345)

Далее преобразуем выборки с признаками в матрицы.

In [62]:
matrix_features_train = features_train.values
matrix_features_test = features_test.values

Создадим обратимую матрицу. Ее размер определим как (4 х 4), так как у нас имеется всего 4 различных признака.

In [38]:
matrix_random = np.random.randn(4, 4)
print(matrix_random)

[[-1.13539902  1.86479776  1.59381227 -0.76415388]
 [ 0.70783086  0.14776086  0.90747181 -0.7204488 ]
 [-0.11048192  0.12620004  1.32856492  0.87572168]
 [ 0.76297388  0.18679536 -0.56653062  1.18139815]]


Проверим обратимость матрицы, перемножив ее с обратной ей матрицей.

In [63]:
print((matrix_random @ np.linalg.inv(matrix_random)).astype('int')) 

[[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]]


Получаем единичную матрицу, что подтверждает обратимость полученной матрицы.

Далее домножим ранее полученные обучающую и тестовую матрицы с признаками на случайную матрицу `matrix_random`:

In [59]:
matrix_features_train_new = matrix_features_train.dot(matrix_random)
matrix_features_test_new = matrix_features_test.dot(matrix_random)

### Вывод

В качестве алгоритма преобразования данных было решено домножать имеющуюся матрицу признаков на обратимую матрицу со случайными величинами, так как ранее было доказано, что при этом качество линейной регрессии не меняется.

## Проверка алгоритма

Проверим полученный алгоритм, обучив и протестировав модель машинного обучения на данных до и после преобразования.

In [73]:
model = LinearRegression()

model.fit(matrix_features_train, target_train)
predictions = model.predict(matrix_features_test)
r2 = model.score(matrix_features_test, target_test)

model.fit(matrix_features_train_new, target_train)
predictions_new = model.predict(matrix_features_test_new)
r2_new = model.score(matrix_features_test_new, target_test)

print('Метрика R2 до преобразования: {:.6f}'.format(r2))
print('Метрика R2 после преобразования: {:.6f}'.format(r2_new))

Метрика R2 до преобразования: 0.411768
Метрика R2 после преобразования: 0.411768


### Вывод

Получили, что метрика R2 до и после преобразования данных не изменилась и составила 0.41.

## Итоговый вывод

В рамках проекта необходимо было разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию клиентов страховой компании «Хоть потоп».

Было определено, что качество линейной регрессии при умножении признаков на обратимую матрицу не меняется.
Поэтому в качестве алгоритма преобразования данных было решено домножать имеющуюся матрицу признаков на обратимую матрицу со случайными величинами.

В результате проверки работы алгоритма подтвердилась возможность его использования, так как метрики R2 до и после преобразования оказались одинаковыми.
