# Метрическая классификация. Метод ближайших соседей и его развитие
# Практическая работа

## Цели практической работы
Научиться:
- строить модель методом ближайших соседей на реальных данных;
- правильно определять качество работы модели.


## Что входит в практическую работу


- Загрузить данные и ознакомиться с ними.
- Изучить данные и провести анализ.
- Разделить данные на обучающую и тестовую выборки.
- Реализовать построение модели с помощью  библиотеки Scikit-learn.
- Подобрать оптимальное число ближайших соседей методом leave-one-out.
- Получить качество модели с помощью F-меры и матрицы сопряжённости.

## Что оценивается

1. Выполнение всех этапов работы.
2. Наличие вывода по результатам.
3. Непереобученность модели.
4. Качество модели.


**Как отправить работу на проверку?**

1. Скачайте файл с заданием в материалах, откройте его через Jupyter Notebook и выполните задачу. 
2. Сохраните изменения при помощи опции Save and Checkpoint из вкладки File или кнопки Save and Checkpoint на панели инструментов. 
3. Отправьте через форму ниже итоговый файл Jupyter Notebook (в формате .ipynb) или ссылку на него.




# Задача

Один из способов повысить эффективность взаимодействия банка с клиентами — отправлять предложение о новой услуге не всем клиентам, а только некоторым, которые выбираются по принципу наибольшей склонности к отклику на это предложение.

Задача заключается в том, чтобы предложить алгоритм, который будет выдавать склонность клиента к положительному или отрицательному отклику на предложение банка. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем, от кого ожидается положительный отклик.


Для решения этой задачи загрузите дамп базы в Postgres. 
Эта БД хранит информацию о клиентах банка и их персональные данные, такие как пол, количество детей и другие.

Описание таблиц с данными представлено ниже.


**D_work**

Описание статусов относительно работы:
- ID — идентификатор социального статуса клиента относительно работы;
- COMMENT — расшифровка статуса.


**D_pens**

Описание статусов относительно пенсии:
- ID — идентификатор социального статуса;
- COMMENT — расшифровка статуса.


**D_clients**

Описание данных клиентов:
- ID — идентификатор записи;
- AGE	— возраст клиента;
- GENDER — пол клиента (1 — мужчина, 0 — женщина);
- EDUCATION — образование;
- MARITAL_STATUS — семейное положение;
- CHILD_TOTAL	— количество детей клиента;
- DEPENDANTS — количество иждивенцев клиента;
- SOCSTATUS_WORK_FL	— социальный статус клиента относительно работы (1 — работает, 0 — не работает);
- SOCSTATUS_PENS_FL	— социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
- REG_ADDRESS_PROVINCE — область регистрации клиента;
- FACT_ADDRESS_PROVINCE — область фактического пребывания клиента;
- POSTAL_ADDRESS_PROVINCE — почтовый адрес области;
- FL_PRESENCE_FL — наличие в собственности квартиры (1 — есть, 0 — нет);
- OWN_AUTO — количество автомобилей в собственности. 


**D_agreement**

Таблица с зафиксированными откликами клиентов на предложения банка:
- AGREEMENT_RK — уникальный идентификатор объекта в выборке;
- ID_CLIENT — идентификатор клиента;
- TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было).
    
    
**D_job**

Описание информации о работе клиентов:
- GEN_INDUSTRY — отрасль работы клиента;
- GEN_TITLE — должность;
- JOB_DIR — направление деятельности внутри компании;
- WORK_TIME — время работы на текущем месте (в месяцах);
- ID_CLIENT — идентификатор клиента.


**D_salary**

Описание информации о заработной плате клиентов:
- ID_CLIENT — идентификатор клиента;
- FAMILY_INCOME — семейный доход (несколько категорий);
- PERSONAL_INCOME — личный доход клиента (в рублях).


**D_last_credit**

Информация о последнем займе клиента:
- ID_CLIENT — идентификатор клиента;
- CREDIT — сумма последнего кредита клиента (в рублях);
- TERM — срок кредита;
- FST_PAYMENT — первоначальный взнос (в рублях).


**D_loan**

Информация о кредитной истории клиента:
- ID_CLIENT — идентификатор клиента;
- ID_LOAN — идентификатор кредита.

**D_close_loan**

Информация о статусах кредита (ссуд):
- ID_LOAN — идентификатор кредита;
- CLOSED_FL — текущий статус кредита (1 — закрыт, 0 — не закрыт).

1. Изучите состав БД с помощью инструмента отрисовки ERD-диаграмм (Entity Relationship diagram отображает все сущности БД, а также визуализирует связность таблиц). Соберите датасет следующей структуры из данных, имеющихся в базе:

    - AGREEMENT_RK — уникальный идентификатор объекта в выборке;
    - TARGET — целевая переменная: отклик на маркетинговую кампанию (1 — отклик был зарегистрирован, 0 — отклика не было);
    - AGE — возраст клиента;
    - SOCSTATUS_WORK_FL — социальный статус клиента относительно работы (1 — работает, 0 — не работает);
    - SOCSTATUS_PENS_FL — социальный статус клиента относительно пенсии (1 — пенсионер, 0 — не пенсионер);
    - GENDER — пол клиента (1 — мужчина, 0 — женщина);
    - CHILD_TOTAL — количество детей клиента;
    - DEPENDANTS — количество иждивенцев клиента;
    - PERSONAL_INCOME — личный доход клиента (в рублях);
    - LOAN_NUM_TOTAL — количество ссуд клиента;
    - LOAN_NUM_CLOSED — количество погашенных ссуд клиента.


Будьте внимательны при сборке датасета: это реальные банковские данные, в которых могут наблюдаться дубли, некорректно заполненные значения или значения, противоречащие друг другу. Для получения качественной модели необходимо предварительно очистить датасет от такой информации.

2. Постройте модель зависимости TARGET от остальных параметров получившейся таблицы методом ближайших соседей.

3. Получите качество модели с помощью F-меры и матрицы сопряжённости.

Что нужно сделать после сбора таблицы:

In [4]:
!pip install psycopg2-binary




In [5]:
# подключить необходимые библиотеки
import psycopg2 as pg
from sklearn.metrics import classification_report
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import  confusion_matrix
from sklearn.metrics import precision_score, recall_score

# Ваш код здесь

In [23]:
conn = pg.connect(dbname='module_6', user='postgres', password='postgres', host='127.0.0.1', port='5433' )
cursor = conn.cursor()
# conn.close()


In [28]:
cursor.execute('''
select table_name
from information_schema.tables
where table_schema = 'public'  
and table_type='BASE TABLE'
''')
tables_list = cursor.fetchall()

In [53]:
import pandas as pd
d_agreement_df = pd.read_csv('data/d_agreement_df.csv')
d_clients_df = pd.read_csv('data/d_clients_df.csv')
d_close_loan_df = pd.read_csv('data/d_close_loan_df.csv')
d_job_df = pd.read_csv('data/d_job_df.csv')
d_last_credit_df = pd.read_csv('data/d_last_credit_df.csv')
d_loan_df = pd.read_csv('data/d_loan_df.csv')
d_pens_df = pd.read_csv('data/d_pens_df.csv')
d_salary_df = pd.read_csv('data/d_salary_df.csv')
d_work_df = pd.read_csv('data/d_work_df.csv')

In [54]:
d_agreement_df

Unnamed: 0.1,Unnamed: 0,agreement_rk,id_client,target
0,0,59910150.0,106804370.0,0.0
1,1,59910230.0,106804371.0,0.0
2,2,59910525.0,106804372.0,0.0
3,3,59910803.0,106804373.0,0.0
4,4,59911781.0,106804374.0,0.0
...,...,...,...,...
15218,15218,75291424.0,106819588.0,0.0
15219,15219,75291888.0,106819589.0,0.0
15220,15220,75291923.0,106819590.0,0.0
15221,15221,75291960.0,106819591.0,0.0


In [48]:
d_agreement_df.to_csv('data/d_agreement_df.csv')
d_clients_df.to_csv('data/d_clients_df.csv')
d_close_loan_df.to_csv('data/d_close_loan_df.csv')
d_job_df.to_csv('data/d_job_df.csv')
d_last_credit_df.to_csv('data/d_last_credit_df.csv')
d_loan_df.to_csv('data/d_loan_df.csv')
d_pens_df.to_csv('data/d_pens_df.csv')
d_salary_df.to_csv('data/d_salary_df.csv')
d_work_df.to_csv('data/d_work_df.csv')

In [29]:
tables_list

[('d_work',),
 ('d_clients',),
 ('d_agreement',),
 ('d_last_credit',),
 ('d_job',),
 ('d_loan',),
 ('d_close_loan',),
 ('d_salary',),
 ('d_pens',)]

In [40]:
querry = '''
select * 
from d_pens
'''
d_pens_df = pd.read_sql(querry, conn)
d_pens_df

  d_pens_df = pd.read_sql(querry, conn)


Unnamed: 0,id,comment
0,1.0,пенсионер
1,2.0,не пенсионер


In [41]:
d_agreement_df

Unnamed: 0,agreement_rk,id_client,target
0,59910150.0,106804370.0,0.0
1,59910230.0,106804371.0,0.0
2,59910525.0,106804372.0,0.0
3,59910803.0,106804373.0,0.0
4,59911781.0,106804374.0,0.0
...,...,...,...
15218,75291424.0,106819588.0,0.0
15219,75291888.0,106819589.0,0.0
15220,75291923.0,106819590.0,0.0
15221,75291960.0,106819591.0,0.0


In [None]:
# считать данные

# Ваш код здесь

In [None]:
# проведите анализ данных, посмотрите на индивидуальные графики
# зависимости целевой функции и отдельной переменной
# создайте дополнительные переменные
# для работы с категориальными данными можно воспользоваться pd.get_dummies
# сделайте предварительные выводы

# Ваш код здесь

In [None]:
# раздедлите на обучающую и тестовую выборки

# Ваш код здесь

In [None]:
# обучите модель методом ближайших соседей

# Ваш код здесь

In [None]:
# проверьте качество модели с помощью F-мера

# Ваш код здесь

In [None]:
# проверьте качество модели с помощью матрицы сопряжённостей

# Ваш код здесь

    # сделайте вывод о работе модели

    # Ваш текст здесь