<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Очистка-данных-от-явных-дубликатов" data-toc-modified-id="Очистка-данных-от-явных-дубликатов-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Очистка данных от явных дубликатов</a></span></li><li><span><a href="#Изменение-типов-данных" data-toc-modified-id="Изменение-типов-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Изменение типов данных</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Умножение матриц</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Декодирование-данных" data-toc-modified-id="Декодирование-данных-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Декодирование данных</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Необходимо защитить данные клиентов страховой компании «Хоть потоп». 

**Цель исследования** — разработать алгоритм преобразования данных, чтобы по ним было сложно восстановить персональную информацию таким образом, чтобы качество модели линейной регрессии не ухудшилось.

**Исследование пройдёт в 6 основных этапов:**
 1. Обзор данных
 2. Предобработка данных
 3. Умножение матриц
 4. Алгоритм преобразования
 5. Проверка алгоритма
 6. Общий вывод.

## Загрузка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, make_scorer

In [2]:
df = pd.read_csv('/datasets/insurance.csv')
display(df.head(10))
display(df.info())
display(df.describe())
print(f'Количество дубликатов:\n{df.duplicated().sum()} - {int(df.duplicated().sum() / len(df) * 100)}% от всех данных')

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
5,1,43.0,41000.0,2,1
6,1,39.0,39700.0,2,0
7,1,25.0,38600.0,4,0
8,1,36.0,49700.0,1,0
9,1,32.0,51700.0,1,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


None

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


Количество дубликатов:
153 - 3% от всех данных


In [3]:
print('Уникальные значения в столбцах:')
print()
for col in df.columns:
    print(col + ':')
    display(np.sort(df[col].unique()))

Уникальные значения в столбцах:

Пол:


array([0, 1])

Возраст:


array([18., 19., 20., 21., 22., 23., 24., 25., 26., 27., 28., 29., 30.,
       31., 32., 33., 34., 35., 36., 37., 38., 39., 40., 41., 42., 43.,
       44., 45., 46., 47., 48., 49., 50., 51., 52., 53., 54., 55., 56.,
       57., 58., 59., 60., 61., 62., 65.])

Зарплата:


array([ 5300.,  6000.,  7400.,  8900.,  9800., 10000., 10600., 10800.,
       11000., 11200., 11300., 12200., 12900., 13000., 13200., 13300.,
       13400., 13500., 13800., 13900., 14100., 14300., 14400., 14500.,
       14600., 14700., 15000., 15100., 15200., 15600., 15700., 15900.,
       16000., 16200., 16300., 16400., 16500., 16600., 16700., 17000.,
       17100., 17300., 17400., 17500., 17600., 17700., 17800., 17900.,
       18100., 18200., 18300., 18400., 18600., 18700., 18800., 18900.,
       19000., 19100., 19200., 19300., 19400., 19600., 19700., 19900.,
       20000., 20100., 20200., 20300., 20400., 20500., 20600., 20700.,
       20800., 20900., 21000., 21100., 21200., 21300., 21400., 21500.,
       21600., 21700., 21800., 21900., 22000., 22100., 22200., 22300.,
       22500., 22600., 22700., 22800., 22900., 23000., 23100., 23200.,
       23300., 23400., 23500., 23600., 23700., 23800., 23900., 24000.,
       24100., 24200., 24300., 24400., 24500., 24600., 24700., 24800.,
      

Члены семьи:


array([0, 1, 2, 3, 4, 5, 6])

Страховые выплаты:


array([0, 1, 2, 3, 4, 5])

### Вывод

В нашем распоряжении информация с данными клиентов компании «Хоть потоп»: 4 столбца содержат персональную информацию (пол, возраст, зарплата застрахованного, количество членов его семьи) и целевой признак - количество страховых выплат клиенту за последние 5 лет.

Всего в датафрейме 5000 строк, 153 из них - явные дубликаты (3% от всех данных), избавимся от них на следующем шаге предобработки. Аномальных значений нет.

## Предобработка данных

### Очистка данных от явных дубликатов

In [4]:
# удалим явные дубликаты
df = df.drop_duplicates().reset_index(drop=True)
 
# выведем очищенный df и его размерность
print(df.shape)
df.head(3)

(4847, 5)


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0


### Изменение типов данных

In [5]:
df['Возраст'] = df['Возраст'].astype('int')
df['Зарплата'] = df['Зарплата'].astype('int')
df[['Возраст', 'Зарплата']].dtypes

Возраст     int64
Зарплата    int64
dtype: object

### Вывод

- Мы избавились от дублирующихся строк чтобы избежать искажения результатов предсказаний линейной регрессии.
- Также привели столбцы 'Возраст' и 'Зарплата' к типу `int`, так как они содержат целочисленные данные. 

## Умножение матриц

Ответим на вопрос: <u>*Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии? (Её можно обучить заново)*</u>.

**Обозначения:**

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

- $A$ - некая обратимая матрица, размерность которой совпадает с количеством признаков в $X$

**Формулы:**

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Напишем формулу для $\overline{w}$ - новых весов:

$
\overline{w} = ((XA)^T XA)^{-1} (XA)^T y
$

Раскроем скобки, пользуясь свойством транспорнированной матрицы: $(AB)^T = B^T A^T$:

$
\overline{w} = (A^TX^T XA)^{-1} A^TX^T y
$

Вынесем $A^T$ за скобки, пользуясь свойством обратной матрицы матрицы: $(AB)^{-1} = B^{-1} A^{-1}$:

$
\overline{w} = (X^T XA)^{-1} (A^T){-1} A^TX^T y
$

$(A^T){-1}$ и $A^T$ при умножении дают единичную матрицу, домножив которую на $X^T$ получаем $X^T$^:

$
\overline{w} = (X^T XA)^{-1} X^T y
$

Вынесем $A$ за скобки:

$
\overline{w} = A^{-1}(X^T X)^{-1} X^T y
$

Тогда:

$
\overline{a} = X A A^{-1}(X^T X)^{-1} X^T y
$

$A^{-1}$ и $A$ дают единичную матрицу, получаем:

$
\overline{a} = X(X^T X)^{-1} X^T y \implies \overline{a} = a
$



### Вывод

**Ответ:** Если признаки умножить на обратимую матрицу, качество линейной регрессии не изменится.

**Обоснование:** Предсказания для признаков умноженных на обратимую матрицу будут равны предсказаниям первоначальных признаков, а, следовательно, и качество модели не изменится.

## Алгоритм преобразования

**Алгоритм:**
1. Генерируем обратимую матрицу A, размеры которой равны кол-ву признаков.
2. Проверяем А на обратимость.
3. Если для A сущетсвует обратная матрица - домножаем признаки на А, если нет - возращаемся к пункту 1.

Не зная, на какую конкретно матрицу была домножена матрица с данными, их не восстонавить.

In [6]:
def protect(data):

    while True:
        
        A = np.random.normal(0, 10, (data.shape[1], data.shape[1]))
        if np.linalg.det(A) > .1 :
            protected_data = data @ A
            return protected_data

Качество линейной регрессии не изменится, см. доказательство выше.

## Проверка алгоритма

Объявим признаки и целевой признак:

In [7]:
features = df.drop('Страховые выплаты',axis=1)

display(features.head(3))
print(features.shape)

target = df['Страховые выплаты']
display(target.head(3))
features.shape

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0


(4847, 4)


0    0
1    1
2    0
Name: Страховые выплаты, dtype: int64

(4847, 4)

In [8]:
# зафиксируем конкретный экземпляр генератора
rng = np.random.default_rng(1234)

# сгенерируем обратимую матрицу A, размеры которой равны кол-ву столбцов features
A = rng.normal(0, 10, (features.shape[1], features.shape[1])) 
# выведем ее
A

array([[-16.03836805,   0.64099914,   7.40891296,   1.52619194],
       [  8.63743891,  29.13099223, -14.78823361,   9.45472975],
       [-16.66135457,   3.43744581,  -5.12443709,  13.23758957],
       [ -8.60280194,   5.19493199, -12.65143718, -21.59139011]])

In [9]:
# проверим обратимость A
np.linalg.inv(A) 

array([[-0.02781466,  0.00578412, -0.0231957 , -0.01365444],
       [ 0.05241596,  0.03682228, -0.03160162,  0.00045445],
       [ 0.07431541,  0.00908119, -0.05437986, -0.02411047],
       [-0.01985122,  0.0012338 ,  0.03350239, -0.0266375 ]])

In [10]:
# защитим данные, домножив на рандомную матрицу
protected_features = features @ A

# выведем преобразованные данные
protected_features.head()

Unnamed: 0,0,1,2,3
0,-826073.693004,171697.519013,-254783.639907,656952.021239
1,-632742.754393,131968.161526,-195421.519711,503441.72972
2,-349637.960308,73031.16088,-108042.037724,278263.568067
3,-694614.305088,143963.631166,-214024.882552,552162.851484
4,-434635.544438,90533.644541,-134154.469751,345767.346321


In [11]:
# сначала обучим нашу модель

class MyLinearRegression:
    def fit(self, X, y):
        X = np.concatenate([np.ones((len(X), 1)), X], axis = 1)
        
        w = np.linalg.inv(X.T @ X) @ X.T @ y
        self.w0 = w[0]
        self.w = w[1:]
        
    def predict(self, X):
        return X @ self.w.reshape(-1,1) + self.w0

In [12]:
model = MyLinearRegression()

model.fit(features, target)
predictions = model.predict(features)

model.fit(protected_features, target)
new_predictions = model.predict(protected_features)

print(f'Предсказания для X: {predictions}')  
print(f'Предсказания для XA: {new_predictions}')  

print('Среднее отклонение =', (predictions - new_predictions).mean())

Предсказания для X:              0
0     0.519329
1     0.692301
2     0.094127
3    -0.226565
4     0.066715
...        ...
4842  0.027417
4843  0.256331
4844 -0.261645
4845 -0.193942
4846  0.050448

[4847 rows x 1 columns]
Предсказания для XA:              0
0     0.519329
1     0.692301
2     0.094127
3    -0.226565
4     0.066715
...        ...
4842  0.027417
4843  0.256331
4844 -0.261645
4845 -0.193942
4846  0.050448

[4847 rows x 1 columns]
Среднее отклонение = 0   -2.161631e-08
dtype: float64


Среднее отклонение предсказаний стремится к 0. Проверим теперь на модели sklearn.

Разобьем признаки и целевой признак на выборки train и test в соотношении 1:3:

In [13]:
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=12345)

for type in ['train', 'test']:
        # выведем переменные с признаками:
        print(f'features_{type}')
        display((globals()['features_%s' % type]).sample(3))
        print(f'Доля features_{type} от исходных данных - {round(len(globals()["features_%s" % type]) / len (features)* 100, 2)} %')

        print()
        # и с целевыми признакми:
        print(f'target_{type}')
        display((globals()['target_%s' % type]).sample(3))
        print(f'Доля target_{type} от исходных данных - {round(len(globals()["target_%s" % type]) / len (features) * 100, 2)} %')
        print()

features_train


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
3711,1,37,30700,1
4726,1,18,36500,3
3911,1,29,36100,1


Доля features_train от исходных данных - 74.99 %

target_train


3569    0
1184    0
1387    0
Name: Страховые выплаты, dtype: int64

Доля target_train от исходных данных - 74.99 %

features_test


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
3208,1,25,52600,1
4184,1,29,29100,1
442,1,34,44600,1


Доля features_test от исходных данных - 25.01 %

target_test


1552    0
954     0
3094    2
Name: Страховые выплаты, dtype: int64

Доля target_test от исходных данных - 25.01 %



In [14]:
# также поделим XA

protected_features_train, protected_features_test, target_train, target_test = train_test_split(
    protect(features), target, test_size=0.25, random_state=12345)

for type in ['train', 'test']:
        # выведем переменные с признаками:
        print(f'protected_features_{type}')
        display((globals()['protected_features_%s' % type]).sample(3))
        print(f'Доля features_{type} от исходных данных - {round(len(globals()["protected_features_%s" % type]) / len (features)* 100, 2)} %')

        print()
        # и с целевыми признакми:
        print(f'target_{type}')
        display((globals()['target_%s' % type]).sample(3))
        print(f'Доля target_{type} от исходных данных - {round(len(globals()["target_%s" % type]) / len (features) * 100, 2)} %')
        print()

protected_features_train


Unnamed: 0,0,1,2,3
582,812003.641788,-622037.081878,596707.18607,-861496.96015
1065,858431.767979,-657689.419714,630731.83612,-910753.168959
2710,491371.150742,-376569.286257,360985.290726,-521283.553086


Доля features_train от исходных данных - 74.99 %

target_train


1880    0
1197    0
3632    0
Name: Страховые выплаты, dtype: int64

Доля target_train от исходных данных - 74.99 %

protected_features_test


Unnamed: 0,0,1,2,3
3781,548322.504884,-419942.033301,403115.514694,-581777.974558
3372,386543.355602,-295920.269873,284297.97279,-410136.257638
4052,578271.131057,-442971.795667,425027.126309,-613549.191906


Доля features_test от исходных данных - 25.01 %

target_test


261     0
4669    0
1761    0
Name: Страховые выплаты, dtype: int64

Доля target_test от исходных данных - 25.01 %



In [15]:
model_lr = LinearRegression().fit(features_train, target_train)
predictions = model_lr.predict(features_test)

r2 = r2_score(target_test, predictions)
print('R2 предсказаний первоначальных данных (X) =', r2)

R2 предсказаний первоначальных данных (X) = 0.42307727615837565


In [16]:
model_lr_2 = LinearRegression().fit(protected_features_train, target_train)
predictions_2 = model_lr_2.predict(protected_features_test)

к2_2 = r2_score(target_test, predictions_2)
print('R2 предсказаний преобразованных данных (XA) =', r2)

R2 предсказаний преобразованных данных (XA) = 0.42307727615837565


## Декодирование данных

In [17]:
# убедимся в том, что данные можно декодировать обратно и они не повредятся
recovered_features = protected_features @ np.linalg.inv(A)

recovered_features = round(recovered_features).astype('int')
print('Восстановленные признаки:')
display(recovered_features)
display(recovered_features.describe())

print('Оригинальные признаки:')
display(features)
display(features.describe())

Восстановленные признаки:


Unnamed: 0,0,1,2,3
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0
...,...,...,...,...
4842,0,28,35700,2
4843,0,34,52400,1
4844,0,20,33900,2
4845,1,22,32700,3


Unnamed: 0,0,1,2,3
count,4847.0,4847.0,4847.0,4847.0
mean,0.498453,31.023932,39895.811223,1.203425
std,0.500049,8.487995,9972.952441,1.098664
min,0.0,18.0,5300.0,0.0
25%,0.0,24.0,33200.0,0.0
50%,0.0,30.0,40200.0,1.0
75%,1.0,37.0,46600.0,2.0
max,1.0,65.0,79000.0,6.0


Оригинальные признаки:


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
0,1,41,49600,1
1,0,46,38000,1
2,0,29,21000,0
3,0,21,41700,2
4,1,28,26100,0
...,...,...,...,...
4842,0,28,35700,2
4843,0,34,52400,1
4844,0,20,33900,2
4845,1,22,32700,3


Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи
count,4847.0,4847.0,4847.0,4847.0
mean,0.498453,31.023932,39895.811223,1.203425
std,0.500049,8.487995,9972.952441,1.098664
min,0.0,18.0,5300.0,0.0
25%,0.0,24.0,33200.0,0.0
50%,0.0,30.0,40200.0,1.0
75%,1.0,37.0,46600.0,2.0
max,1.0,65.0,79000.0,6.0


## Вывод

Мы:
- изучили данные;
- удалили явные дубликаты (3% от всех данных), чтобы избежать риск искажения результатов модели LR;
- доказали, что предсказания для признаков умноженных на обратимую матрицу будут равны предсказаниям первоначальных признаков, а, следовательно, и качество модели не изменится;
- предложили компании «Хоть потоп» алгоритм преобразования данных с целью защиты (функция `protect(data)`). 
- построили предсказания на первоначальных и преобразованных данных, убедились, что метрика качества R2 идентична (в нашем случае = 0.423).

## Чек-лист проверки

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные загружены
- [ ]  Выполнен шаг 2: получен ответ на вопрос об умножении матриц
    - [ ]  Указан правильный вариант ответа
    - [ ]  Вариант обоснован
- [ ]  Выполнен шаг 3: предложен алгоритм преобразования
    - [ ]  Алгоритм описан
    - [ ]  Алгоритм обоснован
- [ ]  Выполнен шаг 4: алгоритм проверен
    - [ ]  Алгоритм реализован
    - [ ]  Проведено сравнение качества моделей до и после преобразования