# Защита данных клиентов страховой компании

**Задача:** Разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

**Цель:** Защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

### План проекта

<br>[1. Загрузка данных](#step1)
    <br>[1.1 Вывод к этапу 1](#step2)
<br>[2. Умножение матриц](#step3)
<br>[3. Алгоритм преобразования](#step4)
<br>[4. Проверка алгоритма](#step5)
<br>[5. Общий вывод](#step6)

## 1. Загрузка данных<a id='step1'></a>

In [1]:
import pandas as pd #Импортирую библиотеку Pandas

data = pd.read_csv('/datasets/insurance.csv') #Читаю датасет
display(data.head(10)) #Вывожу первые 10 строк
data.info() #Получаю информацию по датасету

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
5,1,43.0,41000.0,2,1
6,1,39.0,39700.0,2,0
7,1,25.0,38600.0,4,0
8,1,36.0,49700.0,1,0
9,1,32.0,51700.0,1,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
Пол                  5000 non-null int64
Возраст              5000 non-null float64
Зарплата             5000 non-null float64
Члены семьи          5000 non-null int64
Страховые выплаты    5000 non-null int64
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


### 1.1 Вывод к этапу 1<a id='step2'></a>
На этом этапе проедена загрузка данных и изучение общей информации.
<br>Для анализа данных и построения модели предоставлен датасет, содержащий информацию о клиентах страховой компании «Хоть потоп». Датасет состоит из 5 столбцов с данными и 5000 строк. Пропуски в данных отсутствуют, подготовка данных не требуется.

<br>**Датафрейм состоит из следующих столбцов:**
<br>•	Пол — пол клиента
<br>•	Возраст — возраст клиента (годы)
<br>•	Зарплата — зарплата клиента (руб./месяц)
<br>•	Члены семьи — количество членов семьи клиента
<br>•	Страховые выплаты — количество страховых выплат клиенту за последние 5 лет

**Для обучения модели выделим - **
<br>**Признаки:** пол, возраст и зарплата застрахованного, количество членов его семьи.
<br>**Целевой признак:** количество страховых выплат клиенту за последние 5 лет.

Датасет изучен и готов к преобразованию и проверки моделей машинного обучения.

## 2. Умножение матриц<a id='step3'></a>

**Ответ:**
<br>При умножении признаков на обратимую матрицу. Качество линейной регрессии не изменится.

**Обоснование:**

Для обоснования ответа применим следующие бозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Известно, что для линейной регрессии верны следующие выражения:

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Умножим матрицу признаков X на обратимую матрицу P:

$$
a' = (XP)w'
$$


$$
w' = ((XP)^T XP)^{-1} (XP)^T y
$$

Одно из войств транспонированных матриц: Транспонированное произведение матриц равно произведению транспонированных матриц, взятых в обратном порядке.

$$
(AB)^T = B^T A^T 
$$

Одно из войств обратимых квадратных матриц: Матрица обратная произведению обратимых квадратных матриц равна произведению обратных матриц, взятых в обратном порядке.
$$
(AB)^{-1} = B^{-1} A^{-1} 
$$

Следовательно:

$$
w' = (P^T X^T XP)^{-1} (XP)^T y
$$
$$
w' = P^{-1} (P^T)^{-1} (X^T X)^{-1} P^T X^T y
$$
Поскольку:
$$
(P^T)^{-1} P^T = E 
$$
Получаем:
$$
w' = P^{-1} (X^T X)^{-1} X^T y
$$
$$
w' = P^{-1} w
$$

$$
a' = (XP)P^{-1} w
$$
$$
a' = Xw = a
$$
**Вывод:** Качество модели не изменится.

## 3. Алгоритм преобразования<a id='step4'></a>

**Алгоритм**

1. Выделяю признаки и целевой признак;
2. Генерируем квадратную матрицу по количеству признаков, в нашем случае (4, 4);
3. Генерируем обратную матрицу, если код не падает, следовательно исходная матрица обратимая;
4. Выделяем матрицу из признаков;
5. Умножаем матрицу признаков на обратимую матрицу;
6. Создаем датафрейм из преобразованной матрицы;
7. Разделяем исходный и преобразованный датасеты на обучающую и тестовую выборки;
8. Обучаем модель линейной регресии для исходного датасета, вычисляем метрку R2;
9. Обучаем модель линейной регресии для преобразованного датасета, вычисляем метрку R2;
10. Проверяем равенство метрик R2 для двух моделей.

**Обоснование**

Как видно из пункта 2, качество модели до преобразования датасета не изменится, если преобразовать исходный датасет умножив его на обратимую квадратную матрицу. Следовательно можно переходить к проверке алгоритма.

## Комментарий ревьюера
<span style="color:green">Всё так, приступим к проверке.</span>

## 4. Проверка алгоритма<a id='step5'></a>

In [2]:
import numpy as np #Импортирую библиотеку Numpy

features = data.drop('Страховые выплаты', axis=1) #Выделяю признаки
target = data['Страховые выплаты'] #Выделяю целевой признак

 #Генерирую квадратную матрицу размером по количеству признаков
neo = np.random.normal(0, 0.1, size=(features.shape[1], features.shape[1]))
print(neo) #Печатаю матрицу

trinity = np.linalg.inv(neo) #Генерирую обратную матрицу, если код не падает, следовательно исходная матрица обратимая

display(features.head()) #Печатаю признаки
print(target) #Печатаю целевой признак

[[ 0.1374159  -0.02151494 -0.14175259 -0.14367747]
 [ 0.12313001 -0.06276677  0.01033458 -0.00608893]
 [-0.07257655  0.04997843 -0.00300037 -0.00813605]
 [ 0.06089089  0.10723576 -0.07167397  0.11813678]]


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41.0,49600.0,1
1,0,46.0,38000.0,1
2,0,29.0,21000.0,0
3,0,21.0,41700.0,2
4,1,28.0,26100.0,0


0       0
1       1
2       0
3       0
4       0
       ..
4995    0
4996    0
4997    0
4998    0
4999    0
Name: Страховые выплаты, Length: 5000, dtype: int64


In [3]:
morpheus = features.values #Выделяю матрицу из признаков
matrix = morpheus.dot(neo) #Умножаю матрицу признаков на обратимую матрицу

print(matrix.shape) #Проверяю размер преобразованной матрицы

(5000, 4)


In [4]:
matrix_features = pd.DataFrame(matrix, columns = features.columns) #Создаю датафрейм из преобразованной матрицы
display(matrix_features.head()) #Печатаю первые 5 строк преобразованных признаков
matrix_features.info() #Получаю информацию о преобразованном датасете

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,-3594.550347,2476.442214,-148.6079,-403.823027
1,-2752.184109,1896.400153,-113.61022,-309.33167
2,-1520.536824,1047.72671,-62.707999,-171.033527
3,-3023.734711,2082.996735,-125.041615,-339.164677
4,-1890.662954,1302.657935,-78.161957,-212.664946


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 4 columns):
Пол            5000 non-null float64
Возраст        5000 non-null float64
Зарплата       5000 non-null float64
Члены семьи    5000 non-null float64
dtypes: float64(4)
memory usage: 156.4 KB


In [5]:
from sklearn.linear_model import LinearRegression #Импортирую модель LinearRegression из библиотеки sklearn
from sklearn.metrics import r2_score #Импортирую метрику r2_score из библиотеки sklearn
from sklearn.model_selection import train_test_split #Импортирую функцию train_test_split из библиотеки sklearn

#Разделяю исходный и преобразованный датасеты на обучающую и тестовую выборки
features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.35, random_state=42)
matrix_features_train, matrix_features_test, target_train, target_test = train_test_split(matrix_features, target, test_size=0.35, random_state=42)

In [6]:
#Обучаю модель линейной регресии для исходного датасета, вычисляю метрку R2
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
r2 = round(r2_score(target_test, predictions), 8)
print(r2)

0.41501051


In [7]:
#Обучаю модель линейной регресии для преобразованного датасета, вычисляю метрку R2
matrix_model = LinearRegression()
matrix_model.fit(matrix_features_train, target_train)
matrix_predictions = matrix_model.predict(matrix_features_test)
matrix_r2 =  round(r2_score(target_test, matrix_predictions), 8)
print(matrix_r2)

0.41501051


In [8]:
#Вишенка на торте
if r2 == matrix_r2:
    print('Качество модели после преобразования не изменилось!')
else:
    print('Что-то пошло не так! Поработай-ка еще.')

Качество модели после преобразования не изменилось!


## 5. Общий вывод <a id='step6'></a>

Для анализа данных и построения модели предоставлен датасет, содержащий информацию о клиентах страховой компании «Хоть потоп». Датасет состоит из 5 столбцов с данными и 5000 строк. Пропуски в данных отсутствуют, подготовка данных не требуется.

**Задача проекта:** Разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию.

**Цель проекта:** Защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

Поскольку качество модели не уменьшится при умножении признаков на квадратную обратимую матрицу, был составлен алгоритм преобразования.
<br>Для защиты данных клиентов исходный датасет был преобразован путем умножения признаков на квадратную обратимую матрицу.
<br>Далее проведены стандартные шаги по разделению датасетов на обучающие и тестовые выборкт, обучение моделей и сравнение метрик R2 для обеих.
<br>Поскольку эесперимент показал равенство метрик для обоеих моделей, следовательно качество предсказаний не изменится, а личные данные клиентов теперь более надежно защищены.