<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Выводы</a></span></li></ul></div>

# Защита персональных данных клиентов

Требуется защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
import os
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split

In [2]:
path = '/datasets/insurance.csv'
if os.path.exists(path):
    data = pd.read_csv(path)
else:
    print('Что-то пошло не так')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [5]:
data.columns = [column.lower() for column in data.columns]

In [6]:
data = data.rename(columns={'члены семьи': 'члены_семьи', 'страховые выплаты': 'страховые_выплаты'})

In [7]:
data.isna().sum().sum() # число пропущенных значений

0

In [8]:
data.duplicated().sum() # число дубликатов

153

In [9]:
data = data.drop_duplicates() # удалили дубликаты

In [10]:
data.describe()

Unnamed: 0,пол,возраст,зарплата,члены_семьи,страховые_выплаты
count,4847.0,4847.0,4847.0,4847.0,4847.0
mean,0.498453,31.023932,39895.811842,1.203425,0.152259
std,0.500049,8.487995,9972.953985,1.098664,0.468934
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33200.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [11]:
data.corr()# корреляция между столбцами

Unnamed: 0,пол,возраст,зарплата,члены_семьи,страховые_выплаты
пол,1.0,0.001953,0.015456,-0.007315,0.011565
возраст,0.001953,1.0,-0.017386,-0.009064,0.654964
зарплата,0.015456,-0.017386,1.0,-0.031687,-0.013123
члены_семьи,-0.007315,-0.009064,-0.031687,1.0,-0.039303
страховые_выплаты,0.011565,0.654964,-0.013123,-0.039303,1.0


Поменяли названия колонок, чтобы они соответствовали стилю snake_case. В данных отсутствуют пропуски. Удалили дубликаты.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:


$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** $w =P^{-1} (X^T X)^{-1} X^T y$


**Обоснование:** Пусть $P$ квадратная обратимая матрица. Подставим вместо $X$, $XP$ в $w = (X^T X)^{-1} X^T y$, тогда: $w = ((XP)^T XP)^{-1} (XP)^T y  = (P^T (X^T X) P)^{-1} (XP)^T y = P^{-1} (X^T X)^{-1} (P^T)^{-1} P^T X^T y = P^{-1} (X^T X)^{-1} X^T y$.


Подставим $w =P^{-1} (X^T X)^{-1} X^T y$ в $a = XP w$, тогда: $ a = X (X^T X)^{-1} X^T y$.

Подставим $w = (X^T X)^{-1} X^T y $ в $a = Xw$, тогда: $a = X (X^T X)^{-1} X^T y$.

Получаем одинаковые предсказания с преобразованием данных и без него.

## Алгоритм преобразования

**Алгоритм**
1. Закодируем матрицу признаков с помощью квадратной обратимой матрицы $P$: $\hat X = XP$, тогда $a = \hat X \omega$.
2. Добавляем в $\hat X$ столбец из единиц. 
3. Пользуясь формулой $w = (X^T X)^{-1} X^T y$ для обучающих данных, находим вектор весов $\omega$.
4. Для валидационных данных получим предсказания, пользуясь формулой $a = Xw$.
5. Сравниваем значения метрики R2 на валидационных данных для кодированных и некодированных значений.

## Проверка алгоритма

In [12]:
target = data['страховые_выплаты']
features = data.drop('страховые_выплаты',axis=1) # признаки без целевого


In [13]:
np.random.seed(12345)
P = np.random.random((features.shape[1], features.shape[1])) # случайная квадратная матрица P

In [14]:
np.linalg.det(P) # определитель

-0.05543310984078479

Определитель матрицы P не равен 0, поэтому она обратима.

In [15]:
features_cod = features @ P # кодируем признаки

In [16]:
features_cod.shape

(4847, 4)

In [17]:
class LinearRegression:
    def fit(self, train_features, train_target): # обучаем модель
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T @ X) @ X.T @ y
        self.w = w

        
    def predict(self, test_features): # предсказание значений
        return np.concatenate((np.ones((test_features.shape[0], 1)), test_features), axis=1).dot(self.w) 
    

        

In [18]:
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)# отделяем 25% данных для обучающей и валидацианной выборки

In [19]:
features_train_cod, features_valid_cod, target_train, target_valid = train_test_split(
    features_cod, target, test_size=0.25, random_state=12345)# отделяем 5% кодированных данных для обучающей и валидацианной выборки

In [20]:
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_valid)
r2_usuall = r2_score(target_valid, predictions)
print('Величина R2 для для валидационной выборки линейной регрессии без кодирования данных',r2_usuall)

Величина R2 для для валидационной выборки линейной регрессии без кодирования данных 0.4230772749214827


In [21]:
model.fit(features_train_cod, target_train)
predictions = model.predict(features_valid_cod)
r2_cod = r2_score(target_valid, predictions)
print('Величина R2 для валидационной выборки линейной регрессии с кодированием данных',r2_cod)

Величина R2 для валидационной выборки линейной регрессии с кодированием данных 0.4230772729876545


In [22]:
print("Разница величин метрик R2",  r2_usuall - r2_cod)

Разница величин метрик R2 1.9338282086778236e-09


Судя по значению для метрики R2, модель обучилась на кодированных данных примерно так же как на некодированных. 

## Выводы

1. Был предложен и обоснован алгоритм кодирования данных.
2. Найдены значения метрики R2 для линейной регрессии, работающей с кодированными и некодированными данными. Значения метрик немного различаются, что видимо связано с малой вычислительной ошибкой при поиске предсказаний на кодированных и некодированных данных.