<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

In [1]:
# загрузка библиотек
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

In [2]:
# чтение файла с данными и сохранение в переменную df
try:
    df = pd.read_csv('C:/Users/79853/Documents/datascience/yandex/Спринт11/insurance.csv')
except:
    df = pd.read_csv('/datasets/insurance.csv') # загрузка онлайн

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [4]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Пол,5000.0,0.499,0.500049,0.0,0.0,0.0,1.0,1.0
Возраст,5000.0,30.9528,8.440807,18.0,24.0,30.0,37.0,65.0
Зарплата,5000.0,39916.36,9900.083569,5300.0,33300.0,40200.0,46600.0,79000.0
Члены семьи,5000.0,1.1942,1.091387,0.0,0.0,1.0,2.0,6.0
Страховые выплаты,5000.0,0.148,0.463183,0.0,0.0,0.0,0.0,5.0


In [5]:
df.head()

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


In [6]:
# подсчёт явных дубликатов
df.duplicated().sum()

153

### Вывод

Признаки `Возраст`, `Зарплата`, `Члены семьи`, `Страховые выплаты` - количественные, `Пол` - категориальный.

Пропуски в данных отсутствуют.

Выявлено 153 случая явных дубликатов. Т.к. в данных отсутствуют признаки для идентификации клиента (ФИО, ID клиента), то выявленные дубликаты - это, скорее всего, случайное совпадение.

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:** Качество линейной регрессии не изменится, если матрицу признаков умножить на произвольную обратимую матрицу.

**Обоснование:** 

Пусть **P** - произвольная обратимая квадратная матрица размера **m x m**, где **m** - число столбцов в матрице X.

Тогда формула предсказания будет иметь следующий вид:

$$
a_{1} = X_{1}w_{1} \text {,}
$$

где

$$
X_{1} = XP
$$

$$
w_{1} = (X_{1}^T X_{1})^{-1} X_{1}^T y
$$

Необходимо доказать, что 

$$
\Large a_{1} = a
$$

Подставим в формулу обучения $w_{1}$ значение $X_{1} = XP$


$$
w_{1} = ((XP)^T XP)^{-1} (XP)^T y
$$

Раскроем скобки:

$$
w_{1} = (P^T (X^T X) P)^{-1} (XP)^T y
$$

$$
w_{1} = P^{-1}(X^T X)^{-1} (P^T)^{-1} P^TX^T y
$$

$(P^T)^{-1} P^T$ можно сократить, т.к. произведение матрицы на ее обратную матрицу равно единичной матрице. Получим:

$$
w_{1} = P^{-1} (X^TX)^{-1} X^Ty
$$

Т.о., подставив $w$ в полученную формулу, получаем:

$$
w_{1} = P^{-1} w
$$

Подставим полученное значение $w_{1} = P^{-1} w$ и $X_{1} = XP$ в формулу $a_{1}$

$$
a_{1} = XP P^{-1} w
$$

$P P^{-1}$ можно сократить. В итоге получаем:

$$
a_{1} = Xw
$$

$$
\Large a_{1} = a
$$

**Вывод:** Предсказания с преобразованными признаками равны предсказаниям с признаками без преобразований.

## Алгоритм преобразования

**Алгоритм**

1. Сформировать произвольную обратимую квадратную матрицу размера m x m, где m - число столбцов в датасете признаков.
2. Преобразовать датасет признаков в матрицу признаков.
2. Умножить матрицу признаков на сформированную обратимую квадратную матрицу.

**Обоснование**

Для проверки алгоритма необходимо обучить линейную регрессию с преобразованной матрицей признаков и с матрицей признаков без преобразований. Для проверки качества линейной регрессии в обоих случаях применим метрику R2.

Как было доказано в п.2 "Умножение матриц", качество предсказаний линейной регрессии в обоих случаях должно быть одинаковым.

In [7]:
# функция для разделения датасета на обучающую и тестовую выборки, на признаки (features) и целевой признак (target)
def split_df(data, target):
    # разделение в соотношении 3:1
    df_train, df_test = train_test_split(data, test_size=0.25, random_state=123) 

    train_features = df_train.drop([target], axis=1)
    train_target = df_train[target]

    test_features = df_test.drop([target], axis=1)
    test_target = df_test[target]
    
    return train_features, train_target, test_features, test_target

In [8]:
# функция для формирования произвольной обратимой матрицы
def random_matrix(train_features):
    P = np.random.randn(train_features.shape[1], train_features.shape[1])
    # проверка на обратимость - детерминант не равен нулю
    if np.linalg.det(P) != 0:
        return P
    else:
        return 'Матрица необратима. Попробуйте еще раз'

In [9]:
# линейная регрессия
class LRegression:
    def fit(self, train_features, train_target):
        X = np.concatenate((np.ones((train_features.shape[0], 1)), train_features), axis=1)
        y = train_target
        w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
        self.w = w[1:]
        self.w0 = w[0]

    def predict(self, test_features):
        return test_features.dot(self.w) + self.w0

In [10]:
# функция для расчета итоговой метрики R2
def result(model, train_features, train_target, test_features, test_target):
    model.fit(train_features, train_target)
    predictions = model.predict(test_features)
    print('R2 =', r2_score(test_target, predictions))

## Проверка алгоритма

Для проверки алгоритма вычислим метрику R2 для следующих моделей:
- **LRegression()**;
- **LinearRegression()** - из библиотеки *Scikit-learn*.

Проверим два случая для каждой модели:
- признаки преобразованы умножением на обратимую матрицу;
- признаки без преобразований.

In [11]:
model1 = LRegression()
model2 = LinearRegression()

In [12]:
train_features, train_target, test_features, test_target = split_df(data=df, target='Страховые выплаты')

In [13]:
# обратимая матрица для преобразования признаков
P = random_matrix(train_features)
P

array([[-0.44031376, -0.5924105 , -0.24226709, -1.4499257 ],
       [-0.68941055, -0.72829783,  0.904374  ,  0.97772955],
       [ 0.73220386, -0.96799907, -1.16982183,  0.30526027],
       [ 1.11803561,  1.44779495,  0.88737188, -2.22837566]])

In [14]:
# преобразованные признаки
train_features_transform = pd.DataFrame(train_features.values @ P)
test_features_transform = pd.DataFrame(test_features.values @ P)
train_features_transform.head()

Unnamed: 0,0,1,2,3
0,31172.99793,-41256.306011,-49805.746086,13027.51277
1,18211.87155,-24124.17032,-29100.78714,7626.634343
2,33371.95022,-44158.236605,-53322.170284,13943.333884
3,25814.133221,-34204.605865,-41249.508756,10821.367952
4,27363.301781,-36225.606453,-43724.447335,11444.616111


In [15]:
print('Метрика для LRegression(), признаки без преобразований:')
result(model1, train_features, train_target, test_features, test_target)

Метрика для LRegression(), признаки без преобразований:
R2 = 0.4301846999093344


In [16]:
print('Метрика для LRegression(), преобразованные признаки:')
result(model1, train_features_transform, train_target, test_features_transform, test_target)

Метрика для LRegression(), преобразованные признаки:
R2 = 0.4301846974580513


In [17]:
print('Метрика для LinearRegression(), признаки без преобразований:')
result(model2, train_features, train_target, test_features, test_target)

Метрика для LinearRegression(), признаки без преобразований:
R2 = 0.43018469990933306


In [18]:
print('Метрика для LinearRegression(), преобразованные признаки:')
result(model2, train_features_transform, train_target, test_features_transform, test_target)

Метрика для LinearRegression(), преобразованные признаки:
R2 = 0.4301846999091369


**Вывод:**

**R2 = 0.4301847**

Метрика **R2** с точностью до седьмого знака после запятой одинакова для обеих моделей линейной регрессии: LRegression() и LinearRegression(). Значение справедливо для преобразованных признаков и для признаков без преобразования. 

Можно сделать вывод, что **разработанный алгоритм преобразования признаков работает корректно и не приводит к ошибкам в предсказаниях моделей линейной регрессии**.

## Общий вывод

В ходе проекта были исследованы данные клиентов страховой компании «Хоть потоп» с целью разработки метода преобразования данных для защиты персональной информации клиентов.

Для предсказания целевого признака (количество страховых выплат клиенту за последние 5 лет) определена **линейная регрессия**. 

в п. 2 теоретически было доказано, что **качество линейной регрессии не изменится, если матрицу признаков умножить на произвольную обратимую матрицу**.

В п. 3 был составлен **алгоритм преобразования признаков** и все необходимые функции: функция для разделения датасета на обучающую и тестовую выборки, на признаки и целевой признак; функция для формирования произвольной обратимой матрицы; функция для расчета итоговой метрики R2. Также был создан класс модели линейной регресии.

В п. 4 осуществлена проверка разработанного алгоритма по преобразованию признаков. Для линейной регрессии из библиотеки Scikit-learn, а также для модели, составленной самостоятельно в п.3 проекта, была получена метрика **R2 = 0.4301847**, одинаковая для предсказаний на преобразованных признаках и на признаках без преобразования. По итограм исследования был сделан вывод, что **разработанный алгоритм преобразования признаков работает корректно и не приводит к ошибкам в предсказаниях моделей линейной регрессии**.

Т.о. в ходе проекта удалось достичь поставленной цели - был разработан метод преобразования данных о клиентах для защиты их персональной информации.