# Метрическая классификация. Метод ближайших соседей и его развитие
# Практическая работа

## Цели практической работы
Научиться:
- строить модель методом ближайших соседей на реальных данных;
- правильно определять качество работы модели.


## Что входит в практическую работу


- Загрузить данные и ознакомиться с ними.
- Изучить данные и провести анализ.
- Разделить данные на обучающую и тестовую выборки.
- Реализовать построение модели с помощью  библиотеки Scikit-learn.
- Подобрать оптимальное число ближайших соседей методом leave-one-out.
- Получить качество модели с помощью F-меры и матрицы сопряжённости.

## Что оценивается

1. Выполнение всех этапов работы.
2. Наличие вывода по результатам.
3. Непереобученность модели.
4. Качество модели.


**Как отправить работу на проверку?**

1. Скачайте файл с заданием в материалах, откройте его через Jupyter Notebook и выполните задачу.
2. Сохраните изменения при помощи опции Save and Checkpoint из вкладки File или кнопки Save and Checkpoint на панели инструментов.
3. Отправьте через форму ниже итоговый файл Jupyter Notebook (в формате .ipynb) или ссылку на него.




# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите дамп базы в Postgres.
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности.


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

1. Изучите состав БД с помощью инструмента отрисовки ERD-диаграмм (Entity Relationship diagram отображает все сущности БД, а также визуализирует связность таблиц). Соберите датасет следующей структуры из данных, имеющихся в базе:

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

2. Постройте модель зависимости TARGET от остальных параметров получившейся таблицы методом ближайших соседей.

3. Получите качество модели с помощью F-меры и матрицы сопряжённости.

Что нужно сделать после сбора таблицы:

In [None]:
# подключить необходимые библиотеки
# Ваш код здесь
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

%pip install mlxtend --upgrade

# for Box-Cox Transformation
from scipy import stats

from IPython.display import display
from sklearn.metrics import mutual_info_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from mlxtend.feature_selection import ExhaustiveFeatureSelector as EFS
from sklearn.metrics import  confusion_matrix
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

import warnings
warnings.filterwarnings('ignore')

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Сборка датасета

In [5]:
# считать данные
df_clients = pd.read_csv('d_clients.csv')
df_clients
# Ваш код здесь

Unnamed: 0,id,age,gender,education,marital_status,child_total,dependants,socstatus_work_fl,socstatus_pens_fl,reg_address_province,fact_address_province,postal_address_province,fl_presence_fl,own_auto
0,106805103,42,1,Среднее,Не состоял в браке,1,0,2,1,Московская область,Московская область,Московская область,1,0
1,106809308,28,1,Среднее специальное,Состою в браке,1,1,2,1,Читинская область,Читинская область,Читинская область,0,0
2,106805867,64,0,Среднее специальное,Состою в браке,2,0,2,2,Иркутская область,Иркутская область,Иркутская область,0,1
3,106808779,54,1,Среднее специальное,Состою в браке,0,0,2,1,Новосибирская область,Новосибирская область,Новосибирская область,1,1
4,106814289,26,0,Среднее специальное,Состою в браке,1,1,2,1,Красноярский край,Красноярский край,Красноярский край,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15995,106814680,26,1,Среднее,Не состоял в браке,1,1,2,1,Чувашия,Чувашия,Чувашия,0,0
15996,106812464,26,0,Среднее специальное,Состою в браке,0,0,2,1,Карелия,Карелия,Карелия,0,0
15997,106809255,30,1,Среднее специальное,Не состоял в браке,0,0,2,1,Белгородская область,Белгородская область,Белгородская область,0,0
15998,106814593,25,0,Среднее специальное,Состою в браке,0,0,2,1,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0


In [6]:
df_agreement = pd.read_csv('d_agreement.csv')
df_agreement

Unnamed: 0,agreement_rk,id_client,target
0,59910150,106804370,0
1,59910230,106804371,0
2,59910525,106804372,0
3,59910803,106804373,0
4,59911781,106804374,0
...,...,...,...
15218,75291424,106819588,0
15219,75291888,106819589,0
15220,75291923,106819590,0
15221,75291960,106819591,0


In [18]:
df_clients = df_clients.set_index("id")
df_clients

KeyError: "None of ['id'] are in the columns"

In [19]:
df_agreement_clients = df_agreement.merge(
    df_clients,
    how = "left",
    left_on = "id_client",
    right_index = True
)
df_agreement_clients

Unnamed: 0,agreement_rk,id_client,target,age,gender,education,marital_status,child_total,dependants,socstatus_work_fl,socstatus_pens_fl,reg_address_province,fact_address_province,postal_address_province,fl_presence_fl,own_auto
0,59910150,106804370,0,49,1,Среднее специальное,Состою в браке,2,1,2,1,Оренбургская область,Оренбургская область,Оренбургская область,0,0
1,59910230,106804371,0,32,1,Среднее,Состою в браке,3,3,2,1,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0
2,59910525,106804372,0,52,1,Неполное среднее,Состою в браке,4,0,2,1,Иркутская область,Иркутская область,Иркутская область,0,0
3,59910803,106804373,0,39,1,Высшее,Состою в браке,1,1,2,1,Ростовская область,Ростовская область,Ростовская область,1,0
4,59911781,106804374,0,30,0,Среднее,Состою в браке,0,0,2,1,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15218,75291424,106819588,0,25,0,Среднее,Состою в браке,1,1,2,1,Воронежская область,Воронежская область,Воронежская область,0,0
15219,75291888,106819589,0,51,1,Среднее специальное,Состою в браке,2,0,2,1,Башкирия,Башкирия,Башкирия,0,0
15220,75291923,106819590,0,22,1,Среднее,Не состоял в браке,1,1,2,1,Брянская область,Брянская область,Брянская область,0,0
15221,75291960,106819591,0,60,1,Среднее,Вдовец/Вдова,2,0,1,2,Приморский край,Приморский край,Приморский край,1,0


In [20]:
df_salary = pd.read_csv('d_salary.csv')
df_salary

Unnamed: 0,family_income,personal_income,id_client
0,от 20000 до 50000 руб.,20000.0,106809321
1,от 20000 до 50000 руб.,14000.0,106815561
2,от 10000 до 20000 руб.,15000.0,106811521
3,от 20000 до 50000 руб.,20000.0,106811252
4,от 20000 до 50000 руб.,25000.0,106808620
...,...,...,...
15518,от 20000 до 50000 руб.,15000.0,106812538
15519,от 10000 до 20000 руб.,12000.0,106814158
15520,от 10000 до 20000 руб.,14000.0,106805134
15521,от 10000 до 20000 руб.,7000.0,106812867


In [21]:
df_agreement_clients = df_agreement_clients.merge(df_salary, how = "inner", on = "id_client")
df_agreement_clients

Unnamed: 0,agreement_rk,id_client,target,age,gender,education,marital_status,child_total,dependants,socstatus_work_fl,socstatus_pens_fl,reg_address_province,fact_address_province,postal_address_province,fl_presence_fl,own_auto,family_income,personal_income
0,59910150,106804370,0,49,1,Среднее специальное,Состою в браке,2,1,2,1,Оренбургская область,Оренбургская область,Оренбургская область,0,0,от 10000 до 20000 руб.,5000.0
1,59910150,106804370,0,49,1,Среднее специальное,Состою в браке,2,1,2,1,Оренбургская область,Оренбургская область,Оренбургская область,0,0,от 10000 до 20000 руб.,5000.0
2,59910230,106804371,0,32,1,Среднее,Состою в браке,3,3,2,1,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0
3,59910525,106804372,0,52,1,Неполное среднее,Состою в браке,4,0,2,1,Иркутская область,Иркутская область,Иркутская область,0,0,от 10000 до 20000 руб.,9000.0
4,59910803,106804373,0,39,1,Высшее,Состою в браке,1,1,2,1,Ростовская область,Ростовская область,Ростовская область,1,0,от 20000 до 50000 руб.,25000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15518,75291424,106819588,0,25,0,Среднее,Состою в браке,1,1,2,1,Воронежская область,Воронежская область,Воронежская область,0,0,от 10000 до 20000 руб.,12000.0
15519,75291888,106819589,0,51,1,Среднее специальное,Состою в браке,2,0,2,1,Башкирия,Башкирия,Башкирия,0,0,от 20000 до 50000 руб.,10000.0
15520,75291923,106819590,0,22,1,Среднее,Не состоял в браке,1,1,2,1,Брянская область,Брянская область,Брянская область,0,0,от 5000 до 10000 руб.,6000.0
15521,75291960,106819591,0,60,1,Среднее,Вдовец/Вдова,2,0,1,2,Приморский край,Приморский край,Приморский край,1,0,от 10000 до 20000 руб.,4500.0


In [22]:
df_close_loan = pd.read_csv('d_close_loan.csv')
df_close_loan

Unnamed: 0,id_loan,closed_fl
0,1753790658,1
1,1753790659,1
2,1753790660,1
3,1753790661,0
4,1753790662,1
...,...,...
21121,1753811779,1
21122,1753811780,0
21123,1753811781,0
21124,1753811782,0


In [23]:
df_loan = pd.read_csv('d_loan.csv')
df_loan

Unnamed: 0,id_loan,id_client
0,1753790658,106804370
1,1753790659,106804371
2,1753790660,106804372
3,1753790661,106804372
4,1753790662,106804373
...,...,...
21121,1753811779,106819588
21122,1753811780,106819589
21123,1753811781,106819590
21124,1753811782,106819591


In [24]:
df_loan = df_loan.merge(df_close_loan, how = "inner", on = "id_loan")
df_loan

Unnamed: 0,id_loan,id_client,closed_fl
0,1753790658,106804370,1
1,1753790659,106804371,1
2,1753790660,106804372,1
3,1753790661,106804372,0
4,1753790662,106804373,1
...,...,...,...
21121,1753811779,106819588,1
21122,1753811780,106819589,0
21123,1753811781,106819590,0
21124,1753811782,106819591,0


In [25]:
df_clients_closed_fl = df_loan.groupby(['id_client'])['closed_fl'].sum().reset_index(name='loan_num_closed')
df_clients_closed_fl

Unnamed: 0,id_client,loan_num_closed
0,106804370,1
1,106804371,1
2,106804372,1
3,106804373,1
4,106804374,1
...,...,...
15218,106819588,2
15219,106819589,0
15220,106819590,0
15221,106819591,0


In [26]:
df_clients_loan = df_loan.groupby(['id_client'])['id_loan'].count().reset_index(name='loan_num_total')
df_clients_loan

Unnamed: 0,id_client,loan_num_total
0,106804370,1
1,106804371,1
2,106804372,2
3,106804373,1
4,106804374,2
...,...,...
15218,106819588,3
15219,106819589,1
15220,106819590,1
15221,106819591,1


In [27]:
df_clients_loan = df_clients_loan.merge(df_clients_closed_fl, how = "inner", on = "id_client")
df_clients_loan

Unnamed: 0,id_client,loan_num_total,loan_num_closed
0,106804370,1,1
1,106804371,1,1
2,106804372,2,1
3,106804373,1,1
4,106804374,2,1
...,...,...,...
15218,106819588,3,2
15219,106819589,1,0
15220,106819590,1,0
15221,106819591,1,0


In [28]:
df = df_agreement_clients.merge(df_clients_loan, how = "inner", on = "id_client")
df

Unnamed: 0,agreement_rk,id_client,target,age,gender,education,marital_status,child_total,dependants,socstatus_work_fl,socstatus_pens_fl,reg_address_province,fact_address_province,postal_address_province,fl_presence_fl,own_auto,family_income,personal_income,loan_num_total,loan_num_closed
0,59910150,106804370,0,49,1,Среднее специальное,Состою в браке,2,1,2,1,Оренбургская область,Оренбургская область,Оренбургская область,0,0,от 10000 до 20000 руб.,5000.0,1,1
1,59910150,106804370,0,49,1,Среднее специальное,Состою в браке,2,1,2,1,Оренбургская область,Оренбургская область,Оренбургская область,0,0,от 10000 до 20000 руб.,5000.0,1,1
2,59910230,106804371,0,32,1,Среднее,Состою в браке,3,3,2,1,Кабардино-Балкария,Кабардино-Балкария,Кабардино-Балкария,0,0,от 10000 до 20000 руб.,12000.0,1,1
3,59910525,106804372,0,52,1,Неполное среднее,Состою в браке,4,0,2,1,Иркутская область,Иркутская область,Иркутская область,0,0,от 10000 до 20000 руб.,9000.0,2,1
4,59910803,106804373,0,39,1,Высшее,Состою в браке,1,1,2,1,Ростовская область,Ростовская область,Ростовская область,1,0,от 20000 до 50000 руб.,25000.0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15518,75291424,106819588,0,25,0,Среднее,Состою в браке,1,1,2,1,Воронежская область,Воронежская область,Воронежская область,0,0,от 10000 до 20000 руб.,12000.0,3,2
15519,75291888,106819589,0,51,1,Среднее специальное,Состою в браке,2,0,2,1,Башкирия,Башкирия,Башкирия,0,0,от 20000 до 50000 руб.,10000.0,1,0
15520,75291923,106819590,0,22,1,Среднее,Не состоял в браке,1,1,2,1,Брянская область,Брянская область,Брянская область,0,0,от 5000 до 10000 руб.,6000.0,1,0
15521,75291960,106819591,0,60,1,Среднее,Вдовец/Вдова,2,0,1,2,Приморский край,Приморский край,Приморский край,1,0,от 10000 до 20000 руб.,4500.0,1,0


In [29]:
df.socstatus_work_fl.unique()

array([2, 1], dtype=int64)

In [30]:
df.loc[df['socstatus_work_fl'] == 2, 'socstatus_work_fl'] = 0

In [31]:
df.socstatus_work_fl.unique()

array([0, 1], dtype=int64)

In [32]:
df = df.drop(['reg_address_province', 'postal_address_province', 'family_income', 'fact_address_province'], axis=1)
df.head()

Unnamed: 0,agreement_rk,id_client,target,age,gender,education,marital_status,child_total,dependants,socstatus_work_fl,socstatus_pens_fl,fl_presence_fl,own_auto,personal_income,loan_num_total,loan_num_closed
0,59910150,106804370,0,49,1,Среднее специальное,Состою в браке,2,1,0,1,0,0,5000.0,1,1
1,59910150,106804370,0,49,1,Среднее специальное,Состою в браке,2,1,0,1,0,0,5000.0,1,1
2,59910230,106804371,0,32,1,Среднее,Состою в браке,3,3,0,1,0,0,12000.0,1,1
3,59910525,106804372,0,52,1,Неполное среднее,Состою в браке,4,0,0,1,0,0,9000.0,2,1
4,59910803,106804373,0,39,1,Высшее,Состою в браке,1,1,0,1,1,0,25000.0,1,1


In [33]:
df.socstatus_pens_fl.unique()

array([1, 2], dtype=int64)

In [34]:
df.loc[df['socstatus_pens_fl'] == 2, 'socstatus_pens_fl'] = 0

In [35]:
df.socstatus_pens_fl.unique()

array([1, 0], dtype=int64)

In [36]:
# аналтз переменной семейное положение
df.marital_status.unique()

array(['Состою в браке', 'Гражданский брак', 'Разведен(а)',
       'Не состоял в браке', 'Вдовец/Вдова'], dtype=object)

### Для снижения вариабельности переменной marital_status, заменим значения на:
- 'Состою в браке', 'Гражданский брак' на 1 (есть партнер)
- 'Разведен(а)', 'Не состоял в браке', 'Вдовец/Вдова' на 0 (партнер отсутствует)

In [37]:
level_map = {'Состою в браке': 1, 'Гражданский брак': 1, 'Разведен(а)': 0, 'Не состоял в браке': 0, 'Вдовец/Вдова': 0}
df['marital_status'] = df['marital_status'].map(level_map)

In [38]:
df.marital_status.unique()

array([1, 0], dtype=int64)

## Сохранение датасета в файл bank_interaction_clients.csv

In [41]:
df.to_csv('bank_interaction_clients.csv', index=False)