<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Алгоритм преобразования</a></span><ul class="toc-item"><li><span><a href="#Создание-алгоритма" data-toc-modified-id="Создание-алгоритма-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Создание алгоритма</a></span></li></ul></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

In [2]:
data = pd.read_csv('/datasets/insurance.csv')

In [3]:
data.sample(n=10)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
1811,1,42.0,37100.0,2,0
2557,0,29.0,34400.0,1,0
4118,1,32.0,51500.0,2,0
2432,0,29.0,27500.0,0,0
1910,0,31.0,52500.0,1,0
885,1,20.0,42700.0,2,0
514,1,38.0,45600.0,2,0
4079,0,26.0,47900.0,0,0
293,0,23.0,48800.0,2,0
4692,1,28.0,38400.0,3,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [6]:
# Проверка на дубликаты
print('Количество дубликатов:', data.duplicated().sum())

Количество дубликатов: 153


- В датасете отсутствуют пропуски, но есть дубликаты, их удалим.

## Предобработка данных

In [7]:
# Возраст и зарплату переведем в целочисленные для красоты
data['Возраст'] = data['Возраст'].astype(int)
data['Зарплата'] = data['Зарплата'].astype(int)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null int64
Зарплата             5000 non-null int64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: int64(5)
memory usage: 195.4 KB


In [8]:
# Удаление дубликатов
data = data.drop_duplicates()
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4847 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  4847 non-null int64
Возраст              4847 non-null int64
Зарплата             4847 non-null int64
Члены семьи          4847 non-null int64
Страховые выплаты    4847 non-null int64
dtypes: int64(5)
memory usage: 227.2 KB


## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)


- $a = Xw$ — Предсказания

- $w = \arg\min_w MSE(Xw, y)$ — Задача обучения

- $w = (X^T X)^{-1} X^T y$ — Формула обучения

**Вопрос:** Признаки умножают на обратимую матрицу. **Изменится ли качество линейной регрессии?**

**Ответ:** **Не** изменится.

**Обоснование:** 

Измененные признаки: $X_p = XP$

Формула весов изменяется согласно новым признакам:
$$
w_p = ((XP)^T XP)^{-1} (XP)^T y = (P^{T}X^{T} XP)^{-1}P^{T}X^{T} y = P^{-1} (X^{T} X)^{-1} (P^{T})^{-1} P^{T}X^{T} y
$$

В этой формуле $(P^{T})^{-1} P^{T} = E$ - единичная матрица. 

Так что эта часть выпадает и остается $P^{-1} (X^{T} X)^{-1} X^{T} y$ в которой все, что идет после $P^{-1}$ является формулой получения весов при обучении, которая указана выше.

Соответственно в итоге мы получаем такую формулу: $w_p = P^{-1}w$

Далее нам нужно получить предсказания с измененных признаков:
$$
a_p = X_p w_p = XP P^{-1}w = Xw = a
$$

Как мы видим, в момент предсказаний наша обратимая таблица умножается на обратную версию самой себя, что на выходе дает нам единицу и оставляет нас с неизмененными признаками и весами. Соответственно качество регрессии при использовании обратимой матрицы **не изменится**.

## Алгоритм преобразования

**Алгоритм**

1) Создает квадратную матрицу 4х4 для обратимости и правильного умножения на признаки, у которых 4 столбца.

2) Проверяет матрицу на обратимость, в случае ошибки создает новую матрицу и проверяет снова.

3) Умножает признаки на эту матрицу и возвращает закодированные признаки.

4) Вычисляет метрики качества на измененных и неизмененных данных, проводит сравнение между ними.

**Обоснование**

Выше мы доказали, что умножение признаков на обратимую матрицу никак не повлияет на качество модели.

### Создание алгоритма

In [9]:
features = data.drop(columns='Страховые выплаты')
target = data['Страховые выплаты']

In [10]:
def encode(features):
    """Создает кодирующую матрицу с гарантией ее обратимости, 
    возвращает закодированные признаки и обратную матрицу для декодирования"""
    while True:
        try:
            np.random.seed(12345)
            encoder = np.random.randint(999, size=(features.shape[1], features.shape[1]))
            decoder = np.linalg.inv(encoder)
            break
        except:
            continue
    
    return features @ encoder, decoder

## Проверка алгоритма

Для начала выделим выборки из неизмененных признаков и проверим модель на них.

In [11]:
def model_test(features, target):
    """Делит выборки на обучающую и валидационную, затем проводит обучение и валидацию модели,
    возвращает метрику R2"""
    X_train, X_valid, y_train, y_valid = train_test_split(features, target, test_size=0.25, random_state=12345)
    model = LinearRegression()
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    score = r2_score(y_valid, preds)
    return score

In [12]:
non_coded_score = model_test(features, target)
print('R2 модели без кодирования признаков:', non_coded_score)

R2 модели без кодирования признаков: 0.4230772761583642


Теперь закодируем признаки и проверим модель еще раз

In [13]:
encoded, decoder = encode(features)
encoded.sample(n=5)

Unnamed: 0,0,1,2,3
3888,26710382,26466010,37613935,5779254
720,15462300,15320925,21772250,3348325
2344,18737891,18566450,26386043,4055488
4437,23813949,23595990,33536312,5151688
4204,22619469,22412590,31850624,4897800


In [14]:
encoded_score = model_test(encoded, target)
print('R2 модели без кодирования признаков:  ', non_coded_score)
print('R2 модели после кодирования признаков:', encoded_score)

R2 модели без кодирования признаков:   0.4230772761583642
R2 модели после кодирования признаков: 0.42307727615833035


# Вывод

Как мы видим, метрика модели после кодирования уменьшилась только на 14-м знаке после запятой.

Следовательно теория подтвердилсась - кодирование признаков обратимой таблицей ничуть **не ухудшило качество** модели.