<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию и обоснуем корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [2]:
data = pd.read_csv('/Users/Varvara/Documents/dataset/insurance.csv')

In [3]:
data.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [5]:
data.describe()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


In [6]:
#Посотрим, есть ли в колонке Возвраст нецелые числа
data['Возраст'].unique()

array([41., 46., 29., 21., 28., 43., 39., 25., 36., 32., 38., 23., 40.,
       34., 26., 42., 27., 33., 47., 30., 19., 31., 22., 20., 24., 18.,
       37., 48., 45., 44., 52., 49., 35., 56., 65., 55., 57., 54., 50.,
       53., 51., 58., 59., 60., 61., 62.])

In [7]:
#Посотрим, есть ли в колонке Зарплата нецелые числа
data['Зарплата'].unique()

array([49600., 38000., 21000., 41700., 26100., 41000., 39700., 38600.,
       49700., 51700., 36600., 29300., 39500., 55000., 43700., 23300.,
       48900., 33200., 36900., 43500., 36100., 26600., 48700., 40400.,
       38400., 34600., 34800., 36800., 42200., 46300., 30300., 51000.,
       28100., 64800., 30400., 45300., 38300., 49500., 19400., 40200.,
       31700., 69200., 33100., 31600., 34500., 38700., 39600., 42400.,
       34900., 30500., 24200., 49900., 14300., 47000., 44800., 43800.,
       42700., 35400., 57200., 29600., 37400., 48100., 33700., 61800.,
       39400., 15600., 52600., 37600., 52500., 32700., 51600., 60900.,
       41800., 47400., 26500., 45900., 35700., 34300., 26700., 25700.,
       33300., 31100., 31500., 42100., 37300., 42500., 27300., 46800.,
       33500., 44300., 41600., 53900., 40100., 44600., 45000., 32000.,
       38200., 33000., 38500., 51800., 33800., 46400., 43200., 31800.,
       50200., 35100., 30700., 45800., 49300., 42800., 33600., 50300.,
      

In [8]:
#переведем возвраст и зарплату в тип int64
data['Возраст'] = data['Возраст'].astype('int64')
data['Зарплата'] = data['Зарплата'].astype('int64')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype
---  ------             --------------  -----
 0   Пол                5000 non-null   int64
 1   Возраст            5000 non-null   int64
 2   Зарплата           5000 non-null   int64
 3   Члены семьи        5000 non-null   int64
 4   Страховые выплаты  5000 non-null   int64
dtypes: int64(5)
memory usage: 195.4 KB


In [9]:
#проверим данные на явные дубликаты
data.duplicated().sum()

153

Явные дубли есть, однако важно учитывать, что в данной таблице мало столбцов для отделения данных с точки зрения уникальности и нет совсем уникальных параметров. Есть достаточно большой шанс, что это действительно разные люди с одинаковыми данными, но так как дублей около 3% на всякий случай удалим их:

In [10]:
data = data.drop_duplicates()
data.duplicated().sum()

0

**Выводы**

Предоставлена таблица, содержащая 5000 строк и 5 столбцов с данными о клиентах: пол, возвраст, зарплата, количество членов семьи и наличие страховой выплаты. Для дальнейщего удобства работы с информацией, были переведены столбцы с зарплатой и возврастом в целочисленный тип. 

В ходе изучения информации о клиентах были обнаружены явные дубликаты. Их около 3%, поэтому они были удалены без потери качества данных. Пропущенных значений нет.

## Умножение матриц

**Задание:** Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново.)

**Ответ:** Нет, качество линейной регрессии не изменится, предсказания сохранятся на таком же уровне.



**Обоснование:** 

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:
$$
a = Xw
$$

Задача обучения:
$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:
$$
w = (X^T X)^{-1} X^T y
$$

1) Подставим в формулу обучения произведение XP вместо X:
$$
w_0 = ((XР)^T (XР))^{-1} (XР)^T y
$$

2) Используем два свойства матрицы $(XР)^T=Р^TX^T$ и $(XР)^{-1}=(Р)^{-1}(Х)^{-1}$

Раскроем скобки:
$$
w_0 = (Р^TX^T (XР))^{-1} Р^TX^T y
$$
$$
w_0 = (XР)^{-1}(Р^TX^T)^{-1}Р^TX^T y
$$
$$
w_0 = (Р)^{-1}(Х)^{-1}(X^T)^{-1}(Р^T)^{-1}Р^TX^T y
$$

3) Сократим $(Р^T)^{-1}Р^T$:

$$
w_0 = (Р)^{-1}(Х)^{-1}(X^T)^{-1}X^T y
$$

4) Объединим $(Х)^{-1}(X^T)^{-1}=(X^T X)^{-1}$:

$$
w_0 = (Р)^{-1}(X^T X)^{-1}X^T y
$$

После преобразований получается:
$$
w_0 = (Р)^{-1} w
$$

Проверим новые предсказания:
$$
a_0 = XРw_0
$$
$$
a_0 = XР(Р)^{-1} w
$$
$$
a_0 = XР(Р)^{-1} w
$$
Так как $Р(Р)^{-1}=Е$, получим:
$$
a_0 = Xw
$$

**Выводы**

Была произведена проверка гипотезы о неизменности качества обучения линейной регрессии при умножении признаков на обратимую матрицу. Гипотеза подтверждена. В формулу обучения вначале добавится умножение на матрицу обратную исходной Р. Предсказания останутся такими же.

1) Подставим в формулу обучения произведение XP вместо X:
$$
w_0 = ((XР)^T (XР))^{-1} (XР)^T y
$$

2) Используем свойство матрицы $(XР)^T=Р^TX^T$ 

Раскроем скобки:
$$
w_0 = (Р^TX^TXР))^{-1} Р^TX^T y
$$

3) Так как $Р^T$, $X^TX$ и Р - квадратные матрицы, 

$(ABС)^{-1} = ((AB)С)^{-1} = ((AB)С)^{-1} = С^{-1}(AB)^{-1} = С^{-1}B^{-1}A^{-1}$    

Используем свойство:

$$
w_0 = (Р)^{-1}(Р^TX^TX)^{-1}Р^TX^T y
$$
$$
w_0 = (Р)^{-1}(X^TХ)^{-1}(Р^T)^{-1}Р^TX^T y
$$

4) Сократим $(Р^T)^{-1}Р^T$:

$$
w_0 = (Р)^{-1}(X^TХ)^{-1}X^T y
$$

5) Заменим $(X^TХ)^{-1}X^T y$ на w, тогда после преобразований получается:
$$
w_0 = (Р)^{-1} w
$$

## Алгоритм преобразования

**Задание:**

Необходимо предложить алгоритм преобразования данных для зашифровки персональных данных. Обоснуйте, почему качество линейной регрессии не поменяется.

**Алгоритм**

Суть алгоритма: умножить исходные данные на обратимую квадратную матрицу, получив зашифрованный вариант информации о клиентах. 

Шаги:
- Создать случайным образом квадратную матрицу с размерностью, равной ширине нашей исходной матрицы
- Убедиться в обратимости этой матрицы; создать ветвление для генерации новой матрицы, если первая окажется необратима
- Преобразовать исходные данные путем уножения на матрицу
- Сравнить результаты обучения линейной регрессии на исходных и зашифрованных данных

**Обоснование**

Как мы доказали выше, в п.2, качество линейной регрессии не изменится, так как она сохраняет такой же высокий уровень точности предсказаний, как и на исходных данных.

## Проверка алгоритма

In [11]:
#разделим исходную выборку на обучающую и тестовую выборки в соотношении 75:25
features = data.drop(columns='Страховые выплаты', axis=1)
target = data['Страховые выплаты']

features_train, features_test, target_train, target_test = train_test_split(features, target, random_state=12345,
                                                                            shuffle=True,   test_size=0.25)

In [12]:
#сделаем предсказания по исходной выборке
model = LinearRegression()
model.fit(features_train, target_train)
predictions = model.predict(features_test)
print('R2 для линейной регрессии', round(r2_score(target_test, predictions), 4))

R2 для линейной регрессии 0.4231


In [13]:
#создадим случайную квадратную матрицу с размером 4 (у исходной матрицы 4 столбца с признаками)
def func(dim):
    matrix_gener = np.random.rand(dim, dim)
    try: 
        inv = np.linalg.inv(matrix_gener)
        return matrix_gener
    except:
        func(dim) 
        
matrix = func(4)      
matrix

array([[0.40525038, 0.59637207, 0.52777906, 0.61367659],
       [0.18926573, 0.84826573, 0.47059099, 0.56139231],
       [0.5974779 , 0.69372836, 0.57993846, 0.61784069],
       [0.71029787, 0.32365848, 0.32505387, 0.26150804]])

In [14]:
#преобразуем признаки, умножив на матрицу
features_train_new = features_train.dot(matrix)
features_test_new = features_test.dot(matrix)

In [15]:
#сделаем предсказания по умноженной выборке
model_new = LinearRegression()
model_new.fit(features_train_new, target_train)
predictions = model_new.predict(features_test_new)
print('R2 для линейной регрессии после шифрования',round(r2_score(target_test, predictions), 4))

R2 для линейной регрессии после шифрования 0.4231


**Выводы**

Коэффициент детерминации R2 одинаковый у логистической регрессии, обученной на исходных данных и на умноженных на обратимую квадратную матрицу. Качество модели не изменилось. Алгоритм проверен. Данные зашифрованы.

## Общий вывод

Предоставлена таблица, содержащая 5000 строк и 5 столбцов с данными о клиентах: пол, возвраст, зарплата, количество членов семьи и наличие страховой выплаты. Для дальнейщего удобства работы с информацией, были переведены столбцы с зарплатой и возврастом в целочисленный тип.

В ходе изучения информации о клиентах были обнаружены явные дубликаты. Их около 3%, поэтому они были удалены без потери качества данных. Пропущенных значений нет.

Была произведена проверка гипотезы о неизменности качества обучения линейной регрессии при умножении признаков на обратимую матрицу. Гипотеза подтверждена. В формулу обучения вначале добавится умножение на матрицу обратную исходной Р. Предсказания останутся такими же.

Разработан алгоритм для шифровки данных. Суть алгоритма: умножить исходные данные на обратимую квадратную матрицу, получив зашифрованный вариант информации о клиентах. в ходе проверки гипотезы было доказано, что качество линейной регрессии не изменится, так как она сохраняет такой же высокий уровень точности предсказаний, как и на исходных данных.

Разработанный алгоритм был проверен. Коэффициент детерминации R2 одинаковый у логистической регрессии, обученной на исходных данных и на умноженных на обратимую квадратную матрицу. Качество модели не изменилось. Данные успешно зашифрованы путем умножения на обратимую квадратную матрицу.