# Защита персональных данных клиентов

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось.

## Импорт библиотек

In [None]:
# Импортируем pandas как pd:
import pandas as pd
# Импортируем numpy как np:
import numpy as np
# Импортируем линейную регрессию:
from sklearn.linear_model import LinearRegression
# Импорт метода для создания выборок:
from sklearn.model_selection import train_test_split
# Импортируем метрику:
from sklearn.metrics import r2_score
# Импорт библиотеки для граффиков:
import plotly.express as ex

## Загрузка данных

In [None]:
# Загружаем данные:
try:
  df = pd.read_csv('/datasets/insurance.csv')
except:
  df = pd.read_csv("/content/drive/MyDrive/For_data/insurance.csv")

In [None]:
# Создание функции для изучения данных:
def information(data):
    print('Общая информация о таблице:')
    print(data.info(), '\n')
    display(data.head(), '\n')
    print('Размер таблицы равен:', data.shape, '\n')
    print('Кол-во пропусков:', data.isna().sum(), '\n')
    print('Кол-во явных дубликатов:', data.duplicated().sum(), '\n')
    print('Статистические данные:')
    display(data.describe())

In [None]:
# Изучение информации о таблице:
information(df)
# Создание граффика корреляций:
ex.imshow(df.corr())

In [None]:
# Удаление дубликатов:
df = df.drop_duplicates().reset_index(drop=True)
# Проверка:
df.shape

### Вывод:
Данные успешно загруженны в переменную df.

Пропусков нет. Обнаружены явные дубликаты, удалены. Вполне возможно, что это совпадение и данные на самом деле правидвые. Ткк тут нет id, имени и т.д. что могло идентифицировать и сделать пользователя уникальным.

Обнаружена высокая корреляция 0.651 между признаком 'возраст' и целевым признаком 'страховые выплаты'.

## Создание выборок

In [None]:
# Создание переменной с целевым признаком:
df_target = df['Страховые выплаты']
# Создание переменной с признаками(особенностями):
df_features = df.drop(['Страховые выплаты'], axis=1)

In [None]:
# Разделение исходных данных на выборку для обучения 75%, и 25% для теста:
features_train, features_test,
 target_train, target_test = train_test_split(df_features,
                                              df_target,
                                              test_size=0.25,
                                              random_state=12345)

In [None]:
# Размеры выборок:
# Тренировочных:
print('Размеры Тренировачных признаков:', features_train.shape, 'Тренировачных целей:', target_train.shape)
# Тестовых:
print('Размеры Тестовых признаков:', features_test.shape, 'Тестовых целей:', target_test.shape)

# display(features_train.head) Сравнивал со значением из пункта Умножение матриц.

## Работа с моделью:

In [None]:
# Создание модели:
model = LinearRegression()
# Обучение модели:
model.fit(features_train, target_train)
# Предсказания:
predictions = model.predict(features_test)
# Проверка качества:
print('Значение r2 score:',r2_score(target_test, predictions))

## Умножение матриц

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

- $P$ - обратимая матрица заданного размера

Пребобразованная матрица признаков:

$$
X1 = XP
$$

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

Условие докозательства:

$$
a = a1
$$
Работа с преобразованием:

$$
w1 = (X1^T X1)^{-1} X1^T y
$$
$$
X1 = XP
$$
$$
w1 = ((XP)^T XP)^{-1} (XP)^T y =
$$
$$
= (P^T X^T XP)^{-1} P^T X^T y =
$$
$$
= P^{-1} (X^T X)^{-1} (P^T(^{-1} P^T X^T y =
$$
$$
= P^{-1} (X^T X)^{-1} X^T y
$$

$$
w1 = P^{-1} w
$$
$$
a1 = X1w1 = XP P^{-1} w = Xw
$$
##### Ткк Xw не зависит от P, то
$$
a1 = a
$$

In [None]:
# Создание рандомной матрицы. Размер указываем 4x4 ткк у нас 4 признака:
matrix = np.random.normal(size=(4, 4))
# Поиск обратной/ выдаёт ошибку знчт матрица необратима: P.s. наша обратима.
np.linalg.inv(matrix)
# Умножение обратимой матрицы на таблицу с признаками
features_mod = df_features.dot(matrix)

In [None]:
# Разделение данных на обучающие и тестовые выборки с новыми признаками:
features_train, features_test, target_train, target_test = train_test_split(features_mod,
                                                                            df_target,
                                                                            test_size=0.25,
                                                                            random_state=12345)
# display(features_train.head) Сравнивал со значением из пункта Создание выборок.

In [None]:
# Создание модели:
model_2 = LinearRegression()
# Обучение модели:
model_2.fit(features_train, target_train)
# Предсказания:
predictions = model_2.predict(features_test)
# Проверка качества:
print('Значение r2 score:',r2_score(target_test, predictions))

**Ответ:** Не измениться.

**Обоснование:**  Как мы можем увидеть из пунка 4 Работа с моделью r2 метрика на неприобразованнных данных была равна '0.4230772749214825' , собственно после приобразования эта метрика изменяется, но только после 8 знака после запятой. Т.е. очень незначительно.

## Алгоритм преобразования

**Алгоритм**
Можно скалярно умножить данные на рандомную матрицу. Дальше пользоваться преобразованными данными: разделить их для обучения, обучить модель получить предсказания.
Матрицу скрыть. Каждый день можно матрицу менять на новую рандомную.

**Обоснование**
Матрица на каждом компьютере будет генирироваться своя, следовательно злоумышники не смогут просто взять ввести код для новой рандомной матрицы и подставить её к данным. Также такой алгоритм будет очень малозатратным по времени и мощностям, ведь тут будет выполняться только умножение.

Также как мы проверили в пункте Умножение матриц, это практически не влияет на работу Линейной регрессии, значение метрики r2 меняется только после 8 знаков полсе запятой.

## Проверка алгоритма

#### Для проверки просто воссоздадим этот алгоритм:

### Пункт 1. Работа с  рандомной обратимой матрицей:

In [None]:
# Для проверки просто воссоздадим этот алгоритм:
# Создание рандомной матрицы.
matrix = np.random.normal(size=(4, 4))
# Поиск обратной/ выдаёт ошибку знчт матрица необратима: P.s. наша обратима.
np.linalg.inv(matrix)
# Умножение обратимой матрицы на таблицу с признаками
features_mod = df_features.dot(matrix)

### Пункт 2. Разделение данных:

In [None]:
# Разделение данных на обучающие и тестовые выборки с новыми признаками:
features_train, features_test, target_train, target_test = train_test_split(features_mod,
                                                                            df_target,
                                                                            test_size=0.25,
                                                                            random_state=12345)

### Пункт 3. Работа с моделью

In [None]:
# Создание модели:
model_2 = LinearRegression()
# Обучение модели:
model_2.fit(features_train, target_train)
# Предсказания:
predictions = model_2.predict(features_test)
# Проверка качества:
print('Значение r2 score:',r2_score(target_test, predictions))

### Вывод:
Как мы видим значение r2 метрики практически не меняется в сравнение с неприобразованными данными, знчт Алгоритм работает и подходит для решения задачи.

# Вывод:
## В данном проекте были предприняты следующие шаги:

### 1.) Полученна и анализирована общая информация о данных.

### 2.) Совершена работа с моделью.

### 3.) Дан ответ на вопрос заказчика и обосновано такое решение.

### 4.) Предложен и обоснован Алгоритм для решения задачи.

### 5.) Проверенна работа алгоритма.