# Содержание #
<div>
    <ol>
        <li>
            <a href="#import_libs">Импорт библиотек</a>
        </li>
        <li>
            <a href="#data">Данные</a>
        </li>
        <ul>
            <li>
                <a href="#data_load">Загрузка данных</a>
            </li>
            <li>
                <a href="#data_view">Осмотр данных</a>
            </li>
            <li>
                <a href="#data_column_rename">Переименование столбцов</a>
            </li>
            <li>
                <a href="#data_features_target">Выделение features/target наборов</a>
            </li>
            <li>
                <a href="#data_features_scaling">Масштабирование признаков</a>
            </li>
        </ul>
        <li>
            <a href="#matrix">Матрицы</a>
        </li>
        <ul>
            <li>
                <a href="#matrix_dot">Умножение матриц</a>
            </li>
        </ul>
        <li>
            <a href="#crypto">Алгоритм преобразования</a>
        </li>
        <ul>
            <li>
                <a href="#crypto_function">Функция защиты данных</a>
            </li>
        </ul>
        <li>
            <a href="#algorithm">Проверка алгоритма</a>
        </li>
        <ul>
            <li>
                <a href="#algorithm_features">Шифрование учебных/валидационных признаков</a>
            </li>
            <li>
                <a href="#algorithm_nocrypt_train_valid">Выделение учебных/валидационных незашифрованных наборов</a>
            </li>
            <li>
                <a href="#algorithm_crypt_train_valid">Выделение учебных/валидационных зашифрованных наборов</a>
            </li>
            <li>
                <a href="#function_algorithm_model">Функция вычисления R2-score модели</a>
            </li>
            <li>
                <a href="#algorithm_nocrypt_score">Вычисление метрики R2-score для нешифрованных данных</a>
            </li>
            <li>
                <a href="#algorithm_crypt_score">Вычисление метрики R2-score для шифрованных данных</a>
            </li>
        </ul>
        <li>
            <a href="#output">Вывод</a>
        </li>
    </ol>
</div>

# Защита персональных данных клиентов

<a id='import_libs'></a>
# Импорт библиотек #

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

state = np.random.RandomState(2020)

<a id='data'></a>
# Данные #

<a id='data_load'></a>
## Загрузка данных ##

In [2]:
data = pd.read_csv('datasets/insurance.csv')

<a id='data_view'></a>
## Осмотр данных ##

In [3]:
data.shape

(5000, 5)

In [4]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [5]:
data.info()

In [6]:
data.isna().sum()

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

In [7]:
data[data==0].count()

Пол                  2505
Возраст                 0
Зарплата                0
Члены семьи          1513
Страховые выплаты    4436
dtype: int64

<a id='data_column_rename'></a>
## Переименование столбцов ##

In [8]:
data = data.rename(columns={'Пол'               : 'sex',
                            'Возраст'           : 'age',
                            'Зарплата'          : 'salary',
                            'Члены семьи'       : 'family_members',
                            'Страховые выплаты' : 'insurance_payments'})
data.info()

<a id='data_features_target'></a>
## Выделение features/target наборов ##

In [9]:
features = data.drop(columns='insurance_payments')
target = data['insurance_payments']

<a id='data_features_scaling'></a>
## Масштабирование признаков ##

In [10]:
scaler = StandardScaler()
scaler.fit(features)
scale_features = scaler.transform(features)

<a id='data_output'></a>
## Вывод ##
1. размер таблицы: 5000 строк Х 5 столбцов
2. столбцы переименованы
3. пропущенные значения отсутствуют
4. в столбцах data.age, data.salary значения = 0 отсутствуют
5. созданы тренировочные/валидационные наборы данных
6. проведено масштабирование признаков

<a id='matrix'></a>
# Матрицы #

<a id='matrix_dot'></a>
## Умножение матриц ##

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

<a id='crypto'></a>
# Алгоритм преобразования #

**Алгоритм**
1. для матрицы признаков F сгенерировать случайную обратимую матрицу P
2. умножить матрицу F на матрицу P
3. :) PROFIT :)

**Обоснование:**
1. $ a_p = XP (X^T P^T X P){-1} X^T P^T y $
2. $ a_p = XP P^{-1}(X^T X)^{-1} X^T P^T (P^T)^{-1} y $
3. $ a_p = X E (X^T X)^{-1} X^T E y $
4. $ a_p = X (X^T X)^{-1} X^T y $
5. $ a = X (X^T X)^{-1} X^T y $
6. $ a = a_p$

<a id='crypto_function'></a>
## Функция защиты данных ##

In [11]:
def crypto_matrix(features_for_crypt):
    try:
        crypt_key = np.array(np.random.normal(size=(features_for_crypt.shape[1], features_for_crypt.shape[1])))
        np.linalg.inv(crypt_key)
        return np.array(features_for_crypt).dot(crypt_key), crypt_key
    except np.linalg.LinAlgError: crypto_matrix(features_for_crypt=features_for_crypt)

<a id='algorithm'></a>
# Проверка алгоритма #

<a id='algorithm_features'></a>
## Шифрование учебных/валидационных признаков ##

In [12]:
features_crypt, crypt_key = crypto_matrix(features_for_crypt=scale_features)
print(f'Размер зашифрованных признаков: {features_crypt.shape}')
scale_features

array([[ 1.002002  ,  1.19043179,  0.97823503, -0.17795659],
       [-0.998002  ,  1.78285146, -0.19358944, -0.17795659],
       [-0.998002  , -0.23137543, -1.91091841, -1.09431388],
       ...,
       [-0.998002  , -1.29773084, -0.60776878,  0.7384007 ],
       [ 1.002002  , -1.06076297, -0.728992  ,  1.654758  ],
       [ 1.002002  , -0.34985936,  0.06906087, -0.17795659]])

<a id='algorithm_nocrypt_train_valid'></a>
## Выделение учебных/валидационных незашифрованных наборов ##

In [13]:
features_train, features_valid, target_train, target_valid = train_test_split(scale_features,
                                                                              target,
                                                                              test_size=0.3,
                                                                              random_state=2020,
                                                                              shuffle=True)
print(f'Размер нешифрованных тренировочных признаков:{features_train.shape}')
print(f'Размер тренировочных ответов:{target_train.shape}')
print(f'Размер нешифрованных валидационных признаков:{features_valid.shape}')
print(f'Размер валидационных ответов:{target_valid.shape}')

<a id='algorithm_crypt_train_valid'></a>
## Выделение учебных/валидационных зашифрованных наборов ##

In [14]:
crypt_features_train, crypt_features_valid, target_train, target_valid = train_test_split(features_crypt,
                                                                                          target,
                                                                                          test_size=0.3,
                                                                                          random_state=2020,
                                                                                          shuffle=True)
print(f'Размер шифрованных тренировочных признаков:{crypt_features_train.shape}')
print(f'Размер тренировочных ответов:{target_train.shape}')
print(f'Размер шифрованных валидационных признаков:{crypt_features_valid.shape}')
print(f'Размер валидационных ответов:{target_valid.shape}')

<a id='function_algorithm_model'></a>
## Функция вычисления R2-score модели ##

In [15]:
def model_score(features_train, target_train, features_valid, target_valid):
    clf = LinearRegression()
    clf.fit(X=features_train,
            y=target_train)
    return clf.score(X=features_valid,
                     y=target_valid)

<a id='algorithm_nocrypt_score'></a>
## Вычисление метрики R2-score для нешифрованных данных ##

In [16]:
nocrypt_score = model_score(features_train=features_train,
                            target_train=target_train,
                            features_valid=features_valid,
                            target_valid=target_valid)

df_algorithm_result = pd.DataFrame({'Тип данных' : 'нешифрованные данные',
                                    'R2-score'   : nocrypt_score}, index=[0])
df_algorithm_result

Unnamed: 0,Тип данных,R2-score
0,нешифрованные данные,0.426965


<a id='algorithm_crypt_score'></a>
## Вычисление метрики R2-score для шифрованных данных ##

In [17]:
crypt_score = model_score(features_train=crypt_features_train,
                          target_train=target_train,
                          features_valid=crypt_features_valid,
                          target_valid=target_valid)

df_algorithm_result = df_algorithm_result.append({'Тип данных' : 'шифрованные данные',
                                                  'R2-score'   : crypt_score}, ignore_index=True).reset_index(drop=True)
df_algorithm_result

Unnamed: 0,Тип данных,R2-score
0,нешифрованные данные,0.426965
1,шифрованные данные,0.426965


<a id='output'></a>
# Вывод #
R2-score на шифрованных и нефрованных данных совпадают.