<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-данных" data-toc-modified-id="Загрузка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка данных</a></span></li><li><span><a href="#Умножение-матриц" data-toc-modified-id="Умножение-матриц-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Умножение матриц</a></span></li><li><span><a href="#Алгоритм-преобразования" data-toc-modified-id="Алгоритм-преобразования-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Алгоритм преобразования</a></span></li><li><span><a href="#Проверка-алгоритма" data-toc-modified-id="Проверка-алгоритма-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка алгоритма</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Защита персональных данных клиентов

Вам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.

Нужно защитить данные, чтобы при преобразовании качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.

## Загрузка данных

Импорт библиотек

In [1]:
import pandas as pd
import numpy as np

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from numpy import linalg as LA
from sklearn.linear_model import LinearRegression

Открываем файлы и изучаем их

In [3]:
clients = pd.read_csv('/datasets/insurance.csv')

In [4]:
clients

Unnamed: 0,Пол,Возраст,Зарплата,Члены семьи,Страховые выплаты
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0
...,...,...,...,...,...
4995,0,28.0,35700.0,2,0
4996,0,34.0,52400.0,1,0
4997,0,20.0,33900.0,2,0
4998,1,22.0,32700.0,3,0


In [5]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Пол                5000 non-null   int64  
 1   Возраст            5000 non-null   float64
 2   Зарплата           5000 non-null   float64
 3   Члены семьи        5000 non-null   int64  
 4   Страховые выплаты  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


In [6]:
clients.isna().sum() # Посмотрим пропуски.

Пол                  0
Возраст              0
Зарплата             0
Члены семьи          0
Страховые выплаты    0
dtype: int64

Поскольку зарплаты и возраст у нас целые числа можно поменять еа более подходящий формат.

In [7]:
clients['Зарплата'] = clients['Зарплата'].astype('int')
clients['Возраст'] = clients['Возраст'].astype('int')

1 Резюме.

Импортировали библиотеки. Загрузили и посмотрели файл. Пропусков в нем нет, дублекаты проверять нестали поскольку здесь совподения весьма логичны. Изменили формат  float на int для повышения быстродействия.

## Умножение матриц

В этом задании вы можете записывать формулы в *Jupyter Notebook.*

Чтобы записать формулу внутри текста, окружите её символами доллара \\$; если снаружи —  двойными символами \\$\\$. Эти формулы записываются на языке вёрстки *LaTeX.* 

Для примера мы записали формулы линейной регрессии. Можете их скопировать и отредактировать, чтобы решить задачу.

Работать в *LaTeX* необязательно.

Обозначения:

- $X$ — матрица признаков (нулевой столбец состоит из единиц)

- $y$ — вектор целевого признака

- $P$ — матрица, на которую умножаются признаки

- $w$ — вектор весов линейной регрессии (нулевой элемент равен сдвигу)

Предсказания:

$$
a = Xw
$$

Задача обучения:

$$
w = \arg\min_w MSE(Xw, y)
$$

Формула обучения:

$$
w = (X^T X)^{-1} X^T y
$$

**Ответ:**  b. Не изменится. 

**Обоснование:**

Преобразуем формулу:
    
$$
w' = ((XP)^T XP)^{-1} (XP)^T y
$$



Сначала раскроем под знаком транспонирования:
    
$$
w' = (P^T X^T X P)^{-1} (XP)^T y
$$
    
Поставим скобки для нагляднгости: 
    
    
$$
w' = (P^T (X^T X) P)^{-1} P^T X^T y
$$    
    

видим 3 квадратные матрицы!
    
$
P^T, (X^T X), P
$ 
Используем правило:
  
    
$$(ABC)^{-1} = C^{-1}(AB)^{-1} = (BC)^{-1}A^{-1} = C^{-1}B^{-1}A^{-1}$$


Где A,B, C - это все квадратные матрицы, потому что только  у квадратных матриц есть обратные матрица.

Теперь подставим в это выражения наши квадратные матрицы где:

$A = P^T$

$B= X^T X$

$C=P$

$$(P^T \cdot X^T X \cdot P)^{-1}= P^{-1} \cdot (P^T \cdot X^T X)^{-1} = (X^T X \cdot P)^{-1} \cdot (P^T)^{-1} = P^{-1} \cdot (X^T X)^{-1} \cdot (P^T)^{-1}$$


$$
w` = (P^T (X^T X) P)^{-1} P^T X^T y = P^{-1} (P^T)^{-1} (X^T X)^{-1}  P^T X^T y = (X^T X P)^{-1} (P^T)^{-1} P^T X^T y = P^{-1} (X^T X)^{-1} (P^T)^{-1} (P X)^T y
$$

Так как 
$w = (X^T X)^{-1} X^T y$, то тогда выражения равны. В итоге получаем, что $a`=a$, и $w`=w$ 

$$
w` = ((PX)^T PX)^{-1} (PX)^T y = (P^T X^T XP)^{-1} P^T X^T y = (P^T)^{-1} P^{-1} (X^T X)^{-1} P^T X^T y = EP^{-1} (X^T X)^{-1} (PX)^Ty = P^{-1}w
$$

$$
a` = PXw` =PXP^{-1}w=Xw=a
$$


Предположим что a = a', где a' - это предсказание, в которое мы передали матрицу признаков X, умноженную на матрицу
$$
a = Xw
$$
$$
a` = X`w`
$$
$$
X` = XP
$$
Составим уравнение для формул предсказания для матрицы ХР
$$
a` = (XP)((XP)^T XP)^{-1} (XP)^T y
$$
Раскрываем транспонирования по свойству: $(AB)^T=B^T A^T$
$$
a` = XP(P^T X^T XP)^{-1}  P^T X^T y
$$
раскроем скобки по свойству $(AB)^{-1}=B^{-1} A^{-1}$
$$
a` = XP (X^T XP)^{-1} (P^T)^{-1} P^T X^T y = XPP^{-1}  (X^T X)^{-1} (P^T)^{-1} P^T X^T y 
$$
В результате сокращения получим выражение
$$
a` = XE (X^T X)^{-1} EX^T y = X(X^T X)^{-1} X^T y 
$$

2 Резюме.

Мы умножили матрицы. После нужно последовательно преобразовать данное выражение, используя свойства транспонирования, обратных матриц. Увидели, что если домножим нашу матрицу признаков на обратную, то они в той же степени, что и значения обратной матрицы пропорционально изменяться. Таким образом мы сможем защитить информацию о клиентах неухудшив модель машинного обучения.

## Алгоритм преобразования

**Алгоритм**
* Смотрим признаки и целевые признаки

* Создается матрицу 4 на 4

* Проверяется обратимость марицы


* Создается объект модели линейной регрессии.
* Обучения на исходных признаках.
* Делаются прогнозы на обучающих данных.
* Вычисляется метрика качества линейной регрессии R2 на исходных признаках.
* Производится преобразование признаков с помощью матрицы.
* Обучающие признаки, и целевая переменная подаются для обучения на преобразованных признаках.
* Делаются прогнозы на преобразованных данных.
* Вычисляется метрика качества линейной регрессии R2 на преобразованных признаках. 
* Выводятся на экран обе метрики качества линейной регрессии R2: на исходных признаках и на преобразованных признаках.


* Сравниваются метрики

**Обоснование**



Нужно  чтобы не ухудшилось качество модели. 

Необходимо вывести значение новых коэффициентов регрессии, после умножения на обратимую матрицу, через старые коэффициенты, показав, что в итоге ответы линейной регрессии останутся такими же.

Для этого используем правила с операциями транспонирования и свойствами обратных матриц. Незабываем о формула предсказания и нахождения коэффициента линейной регрессии.

$$
(AB)^T=B^T A^T
$$
$$
(AB)^{-1}=B^{-1} A^{-1}
$$
$$
(AА)^{-1}=А^{-1} A = Е
$$
$$
AЕ=ЕА = А
$$

Держим в уме, что обратная матрица существует только для квадратной матрицы.

В конце проверим на практики изменится ли результат качества на исходных и преобразованных данных.

3 Резюме.

Алгоритм - генерируем случайную матрицу, умножаем на неë матрицу признаков. Обоснования - существующие формулы и полученный ответ на шаги 2 "Умножение матриц".

## Проверка алгоритма

* Признаки: пол, возраст и зарплата застрахованного, количество членов его семьи.
* Целевой признак: количество страховых выплат клиенту за последние 5 лет.

In [8]:
features = clients.drop('Страховые выплаты', axis=1).values
target = clients['Страховые выплаты'].values

Создадим матрицу 4 на 4:

In [9]:
matrix_Z =np.random.normal(size = (4,4)) 
matrix_Z

array([[-0.45282835,  0.33725699, -0.26515244,  0.68123723],
       [-0.54644509, -0.99231989,  0.95575916, -1.66524641],
       [ 0.89549729,  0.63589695,  0.48812667,  0.18245068],
       [ 1.09210813, -0.84777205, -1.23580546, -0.44256535]])

Проверяем обратимость марицы:

In [10]:
matrix_Z = LA.inv(matrix_Z)
matrix_Z

array([[-24.92346409,  -9.67446629,  -9.97946617,  -6.0763496 ],
       [112.28774517,  43.59931368,  48.35305923,  28.72579269],
       [-64.71953617, -24.94866325, -27.24396113, -16.97910805],
       [-95.87911277, -37.72583732, -41.17537039, -24.86882539]])

In [11]:
model = LinearRegression() #Создается объект модели линейной регрессии
model.fit(features, target) #Обучающие признаки и целевая переменная подаются в метод fit() модели для обучения на исходных признаках
predictions = model.predict(features) #Делаются прогнозы на обучающих данных с помощью метода predict()
print('Метрика качества линейной регрессии R2 на исходных признаках:',r2_score(target, predictions)) #Вычисляется метрика качества линейной регрессии R2 на исходных признаках с помощью функции r2_score()

matrix_new = features @ matrix_Z #Производится преобразование признаков с помощью матрицы matrix_Z
model.fit(matrix_new, target) #Обучающие признаки, преобразованные с помощью матрицы matrix_Z, и целевая переменная подаются в метод fit() модели для обучения на преобразованных признаках
predictions = model.predict(matrix_new) #Делаются прогнозы на преобразованных данных с помощью метода predict()
print('Метрика качества линейной регрессии R2 на преобразованных признаках:',r2_score(target, predictions)) #Вычисляется метрика качества линейной регрессии R2 на преобразованных признаках с помощью функции r2_score()

Метрика качества линейной регрессии R2 на исходных признаках: 0.42494550308169177
Метрика качества линейной регрессии R2 на преобразованных признаках: 0.42494550308172063


4 Резюме.

Создали матрицу 4 на 4 и проверели ее обратимость. Метрика качества линейной регрессии R2 на преобразованных признаках не ухудшило качество линейной регрессии посровнению с метрикой качества линейной регрессии R2 на исходных признаках. 

# Вывад

Мы защитили данные клиентов страховой компании «Хоть потоп». Разработали метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию и обосновали корректность его работы. При преобразовании качество моделей машинного обучения не ухудшилось.

1. Импортировали библиотеки. Загрузили и посмотрели файл. Пропусков необнаружилось. Изменили формат  float на int.
Ответьте на вопрос и обоснуйте решение. 
2. Если признаки умножают на обратимую матрицу то качество линейной регрессии не изменится. Фактически мы генерируем случайный массив данных и умнажаем его на наши данные.
3. Алгоритм: сгенерировать случайную матрицу, проверить еë на обратимость, умножить матрицу признаков на сгенерированную матрицу. Изменится растояние признаков, но относительно искомого значения разницы небудет.
4. Мы запрограммировали алгоритм, применив матричные операции. Проверили, что качество линейной регрессии из sklearn не отличается до и после преобразования. Применили метрику R2.
* Метрика качества линейной регрессии R2 на исходных признаках: 0.4249455
* Метрика качества линейной регрессии R2 на преобразованных признаках: 0.4249455