Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## 1. Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import make_scorer
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

In [2]:
data = pd.read_csv('/datasets/insurance.csv')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
data.head(10)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
5,1,43.0,41000.0,2,1
6,1,39.0,39700.0,2,0
7,1,25.0,38600.0,4,0
8,1,36.0,49700.0,1,0
9,1,32.0,51700.0,1,0


In [5]:
data.tail(10)

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
4990,0,22.0,56800.0,1,0
4991,0,21.0,38300.0,3,0
4992,0,45.0,54600.0,0,1
4993,1,32.0,36000.0,1,0
4994,1,26.0,51400.0,0,0
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0
4999,1,28.0,40600.0,1,0


In [6]:
data.duplicated().sum()

153

In [7]:
data['Возраст'] = data['Возраст'].astype('int')
data['Зарплата'] = data['Зарплата'].astype('int')

### Вывод

В целом данные в порядке, пропусков нет, дубликаты присутствуют, но я считаю, что это совпадения, т.к. вероятно клиенты могут иметь одинаковые признаки. Я перевел признаки "возраст" и "зарплата" в формат int, т.к. все текущие значения целочисленные. Делаю это для оптимизации использования памяти. Пол и страховые выплтаы переводить в bool я не решился т.к. могут возникнуть проблемы с перемножением int на bool

## 2. Умножение матриц

### Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)

### Умножение на обратимую матрицу

random.normalvariate(mu, sigma) - нормальное распределение. mu - среднее значение, sigma - стандартное отклонение.

### Повторное тестирование

### Вывод

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** ... качество линейной регрессии не изменится если признаки умножить на обратимцю матрицу 

**Обоснование:**  
##### Пусть,    
матрица фичей до изменения (нулевой столбец состоит из единиц) : $$ X $$
обратимая матрица размера $nxn$ : $$ A $$
матрица фичией после умножения $X$ на $А$ : $$ X_c $$ 
угловые коэффициенты, которые будут найдены по фичам линейной регресии, если в качестве фичей используем $X$ (нулевой элемент равен сдвигу):  $$ w $$    
новые угловые коэффициенты, которые будут найдены по фичам линейной регресии, если в качестве фичей используем $XA$ :  $$ w_c,       w_c = A^{-1}w $$  
предсказаения сделанные моделью до домнажения : $$ predict_1 $$
предсказания, сдеоанные моделью после домножения : $$ predict_2 $$
вектор таргетов : $$y$$ 
единичная матрица: $$ E $$
                        
 
 
##### Тогда,




$$\arg\min_w MSE(predict_1, y) = \arg\min_w MSE(Xw, y) = \arg\min_w MSE(XEw, y) = \arg\min_w MSE(XAA^{-1}w, y)  = $$

$$ = \arg\min_w MSE(X_cw_c,y) =  \arg\min_w MSE(predict_2, y)$$ 



<span style="color:purple"> You are welcome:) </span>

$$\arg\min_w MSE(predict_1, y) = \arg\min_w MSE(Xw, y) = \arg\min_w MSE(XEw, y) = \arg\min_w MSE(XAA^{-1}w, y)  = $$

$$ = \arg\min_w MSE(X_cw_c,y) =  \arg\min_{w_c} MSE(predict_2, y)$$ 

## 3. Алгоритм преобразования

### Предложите алгоритм преобразования данных для решения задачи. Обоснуйте, почему качество линейной регрессии не поменяется.

**Алгоритм**
1. Создание случайной обратной  матрицы порядка n, равным каличеству элементов в строке исходной матрицы $X$
2. Умножение исходной матрицы на созданную и получение зашифрованных признаков клиентоы

...

**Обоснование**    
Качество линейной регрессии не изменится, т.к. :

$$\arg\min_w MSE(predict_1, y) = \arg\min_w MSE(Xw, y) = \arg\min_w MSE(XEw, y) = \arg\min_w MSE(XAA^{-1}w, y)  = $$

$$ = \arg\min_w MSE(X_cw_c,y) =  \arg\min_w MSE(predict_2, y)$$ 

## 4. Проверка алгоритма

### Подготовка данных для обучения

In [8]:
features = data.drop(['Страховые выплаты'], axis=1)
target = data['Страховые выплаты']

### Реализация алгоритма

In [19]:
def get_changed_features(features):
    n = features.shape[1]
    A = np.random.normal(0, 1, size=(n, n)) #создания матрицы                     
    np.linalg.inv(A)    # проверка матрицы на обратимость, если матрица окажетсяя необратимой, то функия вылетит с ошибкой
    changed_features =  features@A                   
    return changed_features

In [20]:
new_features = get_changed_features(features)

In [21]:
features

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0
...,...,...,...,...
4995,0,28,35700,2
4996,0,34,52400,1
4997,0,20,33900,2
4998,1,22,32700,3


In [22]:
new_features

Unnamed: 0,0,1,2,3
0,14810.411289,-35632.937349,26650.218161,17654.031339
1,11342.829890,-27284.711687,20426.124021,13548.517163
2,6267.380784,-15074.934792,11290.930345,7491.911176
3,12456.783497,-29969.248631,22394.554390,14822.627988
4,7790.750843,-18744.909714,14028.910285,9299.155164
...,...,...,...,...
4995,10661.028805,-25647.753623,19178.819873,12706.412795
4996,15651.047673,-37651.787013,28147.104166,18635.073969
4997,10125.655340,-24360.800581,18207.329773,12055.471680
4998,9764.632268,-23497.465070,17565.130324,11635.799565


### Запрограммируйте этот алгоритм, применив матричные операции. Проверьте, что качество линейной регрессии из sklearn не отличается до и после преобразования. Примените метрику R2.

### Обучение модели на исходных данных 

In [36]:
reg = LinearRegression() 

# гиперпараметры, которые можно попробовать, используя GridSearchCV

parameters_reg = {'normalize': [True, False], 
              'fit_intercept': [True, False], 
             }
scorer_reg = make_scorer(r2_score, greater_is_better=True)
grid_obj_reg = GridSearchCV(reg, parameters_reg, scoring = scorer_reg) 

In [37]:
grid_obj_reg = grid_obj_reg.fit(features, target)

# определить для reg_one лучшие гиперпараметры
reg = grid_obj_reg.best_estimator_



In [38]:
# обучим лучший алгоритм
reg.fit(features, target)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

In [39]:
# создам необученную модель (пустую) с лучшими параметрами для кросс-валидации
reg_empty = LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [40]:
#используем Кросс-валидацию для оценки модели
reg_score_1 = cross_val_score(reg_empty, features, target, cv=5,  scoring=make_scorer(r2_score, greater_is_better=True)).mean()

In [41]:
reg_score_1

0.4231137692077528

### Обучение модели на измененных данных

In [42]:
reg = LinearRegression() 

# гиперпараметры, которые можно попробовать, используя GridSearchCV

parameters_reg = {'normalize': [True, False], 
              'fit_intercept': [True, False], 
             }
scorer_reg = make_scorer(r2_score, greater_is_better=True)
grid_obj_reg = GridSearchCV(reg, parameters_reg, scoring = scorer_reg) 

In [43]:
grid_obj_reg = grid_obj_reg.fit(new_features, target)

# определить для reg_one лучшие гиперпараметры
reg = grid_obj_reg.best_estimator_



In [44]:
# обучим лучший алгоритм
reg.fit(new_features, target)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

In [45]:
# создам необученную модель (пустую) с лучшими параметрами для кросс-валидации
reg_empty = LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [46]:
#используем Кросс-валидацию для оценки модели
reg_score_2 = cross_val_score(reg_empty, new_features, target, cv=5,  scoring=make_scorer(r2_score, greater_is_better=True)).mean()

In [47]:
reg_score_2

0.4231137692077807

### Выыод

R2 первой модели, которая обучилась на исходных данных составило 0.4231137692077528   
R2 второй модели, которая обучилась на измененных данных составило 0.42311376920773824     

Качество моделей практически одинаково 