<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Необходимо защитить данные клиентов страховой компании. Нужно разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score, mean_squared_error

In [2]:
insurance_df = pd.read_csv('/datasets/insurance.csv')

insurance_df.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 5000 entries, 0 to 4999

Data columns (total 5 columns):

 #   Column             Non-Null Count  Dtype  

---  ------             --------------  -----  

 0   Пол                5000 non-null   int64  

 1   Возраст            5000 non-null   float64

 2   Зарплата           5000 non-null   float64

 3   Члены семьи        5000 non-null   int64  

 4   Страховые выплаты  5000 non-null   int64  

dtypes: float64(2), int64(3)

memory usage: 195.4 KB


In [3]:
insurance_df.head(20)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
5,1,43.0,41000.0,2,1
6,1,39.0,39700.0,2,0
7,1,25.0,38600.0,4,0
8,1,36.0,49700.0,1,0
9,1,32.0,51700.0,1,0


In [4]:
def rows_check(df):
    for column in df.columns:
        print('Уникальные значения столбца', column)
        print(df[column].unique())
    print('Количество пропусков в каждом столбце')    
    print(df.isna().mean())

In [5]:
print(rows_check(insurance_df))

Уникальные значения столбца Пол

[1 0]

Уникальные значения столбца Возраст

[41. 46. 29. 21. 28. 43. 39. 25. 36. 32. 38. 23. 40. 34. 26. 42. 27. 33.

 47. 30. 19. 31. 22. 20. 24. 18. 37. 48. 45. 44. 52. 49. 35. 56. 65. 55.

 57. 54. 50. 53. 51. 58. 59. 60. 61. 62.]

Уникальные значения столбца Зарплата

[49600. 38000. 21000. 41700. 26100. 41000. 39700. 38600. 49700. 51700.

 36600. 29300. 39500. 55000. 43700. 23300. 48900. 33200. 36900. 43500.

 36100. 26600. 48700. 40400. 38400. 34600. 34800. 36800. 42200. 46300.

 30300. 51000. 28100. 64800. 30400. 45300. 38300. 49500. 19400. 40200.

 31700. 69200. 33100. 31600. 34500. 38700. 39600. 42400. 34900. 30500.

 24200. 49900. 14300. 47000. 44800. 43800. 42700. 35400. 57200. 29600.

 37400. 48100. 33700. 61800. 39400. 15600. 52600. 37600. 52500. 32700.

 51600. 60900. 41800. 47400. 26500. 45900. 35700. 34300. 26700. 25700.

 33300. 31100. 31500. 42100. 37300. 42500. 27300. 46800. 33500. 44300.

 41600. 53900. 40100. 44600. 45000. 32000. 382

Приведем колонки возраста и зарплаты к целочисленному формату

In [6]:
insurance_df['Возраст'] = pd.to_numeric(insurance_df['Возраст'], downcast='integer')
insurance_df['Зарплата'] = pd.to_numeric(insurance_df['Зарплата'], downcast='integer')

Изучили данные, проверили столбцы на наличие пропусков и изменили формат столбцов возраста и зарплаты. 

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** качество линейной регрессии не изменится

**Обоснование:** 


Выпишем основные свойства обратимости матрицы: 

$$
(A*B)^{-1} = B{^-1} * A{^-1}
$$


$$
(A^-1)^{-1} = A, так как A{^-1} * A = E
$$

$$
(A^{T})^{-1} = (A^{-1})^{T}
$$


$$
A*E = E * A = A
$$

$$
(A*B)^T = B^T * A^T
$$

Заменим X на Z и подставим в формулу

$$
Z = X * P
$$

P - обратимая матрица

$$
a = Z * w
$$

$$
w = (Z^T Z)^{-1} Z^T y
$$

Получаем уравнение, подставив новое значение Z 


$$
a = Z(Z^T Z)^{-1} Z^T y
$$

Заменим Z в уравнении на X*P

$$
a = XP((XP^T) XP))^{-1} (XP)^T y
$$

Раскроем скобки уравнения, пользуясь свойствами, выписанными выше

$$
a = XP((XP^T) XP))^{-1} (XP)^T y = XP(XP)^{-1}((XP^T))^{-1}(XP)^T y = XPP^{-1}X^{-1}((XP^T)^{-1}(XP)^Ty
$$

Учтем, что $$ P*P^-1 = E $$

И продолжим раскрытие скобок

$$
a = XEX^{-1}((XP)^T)^{-1}(XP)^Ty = XX^{-1}(P^T X^T)^{-1}P^T X^T y = XX^{-1}(X^T)^{-1}(P^T)^{-1}P^T X^T y
$$

Умножение можно преобразовать: $$ (P^T)^{-1}P^T = E $$

Оставшееся уравнение легко сокращается


$$
a = XX^{-1}(X^T)^{-1} E X^T y = X(X^T X)^{-1} X^T y = Xw 
$$

Полученное уравнение: 
$$ Xw = a $$

Таким образом, можно сделать вывод, что значение предсказания не меняется.

$$
w = ((XP^T) XP))^{-1} (XP)^T y
$$

$$ 
w = (P^T X^T XP)^{-1} P^T X^T y
$$

$$
w = (P^T(X^T X) P)^{-1} P^T X^T y
$$

$$
w = P^{-1}(X^T X)^{-1} X^T y = P^{-1} w 
$$

Рассчитаем предсказания по формуле: 

$$
a = Xw
$$

$$ 
a = XPP^{-1}w
$$

Матрица P - изначально обратимая, поэтому $$ PP^-1 = E $$

$$
a = XPP^{-1} w = XEw = Xw = a
$$

## Алгоритм преобразования

**Алгоритм**

Для защиты данных и сохранения качества модели машинного обучения, нужно умножить признаки на обратимую матрицу 

In [7]:
# создаем случайную матрицу, такого же размера как и исходная 
random_matrix = np.random.randint(100,size = (4, 4))
print(random_matrix)

[[95 13 14 49]

 [83  1 57 94]

 [18 39 79 25]

 [85 87 10 30]]


In [8]:
# проверяем матрицу на обратимость
matrix_inverted = np.linalg.inv(random_matrix)
print(matrix_inverted)

[[ 0.02717093 -0.01363677  0.00585013 -0.00652575]

 [-0.01719114  0.00477346 -0.00230139  0.01503983]

 [ 0.01216454 -0.00793252  0.01743375 -0.00954164]

 [-0.03118484  0.02743864 -0.01571259  0.01138799]]


**Обоснование**



In [9]:
# расчитаем вектора предсказаний и по формулам сравним их между собой
features = insurance_df.drop('Страховые выплаты', axis=1)
target = insurance_df['Страховые выплаты']

scaler = StandardScaler()
scaler.fit(features)
features_scaled = scaler.transform(features)

# расчет по формуле 𝑤=(𝑋𝑇𝑋)−1𝑋𝑇𝑦

w = np.linalg.inv(features_scaled.T.dot(features_scaled)).dot(features_scaled.T).dot(target)


# расчет вектора предсказаний по формуле 𝑎=𝑋𝑤

a = features_scaled @ w

# преобразуем признаки

features_scaled_p = features_scaled @ random_matrix

# расчет преобразованных признаков по формуле 𝑤=(𝑋𝑇𝑋)−1𝑋𝑇𝑦

w1 = np.linalg.inv(features_scaled_p.T.dot(features_scaled_p)).dot(features_scaled_p.T).dot(target)

# расчет вектора предсказаний по преобразованным признакам по формуле  𝑎=𝑋𝑤

a1 = features_scaled_p @ w1


# получаем вектор разниц между предсказаниями по a и a1

diff = a - a1

diff.sum()

2.89691976461913e-14

Таким образом, мы доказали, что преобразование не ухудшает качество модели и не меняет предсказания.

## Проверка алгоритма

In [10]:
# создадим модель линейной регресии для исходных данных и посмотрим на ее метрику R2

model = LinearRegression(normalize = True)
model.fit(features,target)
predictions = model.predict(features)
mse = mean_squared_error(target, predictions)
print('MSE Score:', mse)
print('R2_Score на исходных данных: ',r2_score(target, predictions))

MSE Score: 0.12334688941710856

R2_Score на исходных данных:  0.4249455028666802


In [11]:
features_matrix = features_scaled @ random_matrix
model.fit(features_matrix, target)
predictions_matrix = model.predict(features_matrix)
mse = mean_squared_error(target, predictions)
print('MSE Score:', mse)
print('R2_Score для преобразованных  признаков: ',r2_score(target, predictions_matrix))

MSE Score: 0.12334688941710856

R2_Score для преобразованных  признаков:  0.4249455028666801


# Вывод

**Шаг 1.** 

Ознакомился с данными, проверил общую информацию о датасете и изменил формат столбцов возраста и зарплаты.

**Шаг 2.**

На данном этапе я проверил утверждение о том, что при перемножении признаков на обратимую матрицу качество линейной регрессии не меняется. Как оказалось - значение предсказания не меняется.

**Шаг 3.**

Написал алгоритм преобразования данных для машинного обучения, в результате чего был сделан вывод, что преобразование не ухудшает качество модели и не меняет предсказания.

**Шаг 4.** 

В заключительном этапе я провел проверку алгоритма, рассчитав MSE и R2_Score для модели. Как итог - данные были защищены и сохранены, не повлияв на качество модели.