## Защита данных клиентов страховой компании

### 1. Загрузка данных

In [6]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import r2_score
df = pd.read_csv('/datasets/insurance.csv')
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


Данные содержат 5 тысяч строк без пропусков, все значения числовые.

### 2. Умножение матриц

In [7]:
# отделяем целевой признак
features = df.drop(['Страховые выплаты'], axis=1)
target = df['Страховые выплаты']

In [8]:
def learn(features, target, title = ''):
    
    features_train, features_valid, target_train, target_valid = train_test_split(features, target,
                                                                            test_size=0.25, random_state=12345)
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    print(title)
    print('Размер обучающей выборки: ', features_train.shape)
    print('Размер валидационной выборки: ', features_valid.shape)
    print('R2 модели: ', r2_score(target_valid, predictions))

learn(features, target, 'Данные без преобразования')

Данные без преобразования
Размер обучающей выборки:  (3750, 4)
Размер валидационной выборки:  (1250, 4)
R2 модели:  0.435227571270266


In [9]:
def check_matrix(A):
    try:
       inverse = np.linalg.inv(P)
    except np.linalg.LinAlgError:
       print('Матрица необратима, запустите код ещё раз')
    
n = features.shape[1] # размер матрицы
P = np.random.normal(30, 2, size=(n, n))
check_matrix(P)

features_dot = features.values.dot(P)
features_dot = pd.DataFrame(features_dot, columns=features.columns)

learn(features_dot, target, 'Признаки умножены на случайную матрицу')

Признаки умножены на случайную матрицу
Размер обучающей выборки:  (3750, 4)
Размер валидационной выборки:  (1250, 4)
R2 модели:  0.4352275711099961


### 3. Алгоритм преобразования

**Алгоритм**
Для преобразования данных умножим их на квадратную матрицу из случайных чисел по размеру совпадающую с количеством обучающих признаков. Квадратную матрицу используем, т.к. иначе происходят ошибки из-за несовпадения размерности матриц при умножении матриц или на этапе преобразования обратно в dataframe.

Также для надёжности добавим несколько арифметических операций в преобразование.



**Обоснование**

Качество линейной регрессии не поменяется, потому что данные останутся те же, только к ним применятся операции матричного умножения и арифметические.

### 4. Проверка алгоритма

In [10]:
P = np.random.normal(15, 2, size=(n, n))  - 3
check_matrix(P)
features_secret = (features.values.dot(P) * 7 + 2) / 5.5 
features_secret = pd.DataFrame(features_secret, columns = features.columns)

learn(features_dot, target, 'Данные преобразованы')

Данные преобразованы
Размер обучающей выборки:  (3750, 4)
Размер валидационной выборки:  (1250, 4)
R2 модели:  0.4352275711099961


Вывод: до и после преобразоваия качество моделей практически не отличается.