## DZ_7

### Данные:

Датасет разделен на две части: тренировочную (banking_training.csv) и тестовую (banking_test.csv). Используя banking_training.csv происходит тренировка алгоритма, предсказание осуществляется на banking_test.csv.

Описание фичей данных находится в файле banking_desc.csv

### Задача:

Бинарная вероятностная классификация.

Ваша задача спрогнозировать возниконение трудностей у кредитора в течение двух лет (переменная SeriousDlqin2yrs, принимающая значения [0,1]). Также необходимо спрогнозировать вероятность для данной переменной SeriousDlqin2yrs.

Алгоритм для выполнения задачи можно выбирать любой.

### Ход работы:

1. Провести первичный анализ данных: описательные статистики, распределения, наличия пропущенных значений.

2. Осуществить препроцессинг и подготовку данных: выбрать стратегию работы с пропущенными значениями, при необходимости осуществить генерацию дополнительных фичей. 

3. Провести корреляционный анализ и проверить выбор дополнительных фичей в сете.

4. Отобрать фичи для построения модели используя подход Wrapper methods или любой из методов Univariate Feature Selection (к примеру SelectKBest или SelectPercentile).

5. Протестировать на тренировочном дата сете различные наборы фичей и их работу с выбранными алгоритмами для осуществления предсказания.

6. Выбрать лучший набор фичей и лучший алгоритм для осуществленния как предсказания классов так и вероятности. Провести сравнение на тестовой выборке используя следующие метрики для оценки качества алгоритма: 

    -Классификация: Accuracy Score, f1-Score, Precision, Recall
    
    -Вероятность: log_loss Score  

In [1]:
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import dill as pickle
from sklearn.metrics import classification_report
from catboost import CatBoostClassifier, Pool

In [2]:
data = pd.read_csv("banking_train.csv")
data

Unnamed: 0.1,Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
0,57836,0,0.114987,62,0,1841.000000,,5,0,1,0,2.0
1,132895,0,0.008705,73,0,0.498553,3800.0,6,0,1,0,0.0
2,27981,0,0.214501,32,0,0.211999,3716.0,8,0,0,0,2.0
3,37852,0,1.000000,60,0,118.000000,,5,0,0,0,0.0
4,103813,0,0.230493,60,0,1.017328,3000.0,10,0,1,0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...
119995,18048,0,0.004136,41,0,0.472323,7695.0,9,0,2,0,0.0
119996,3895,0,0.000000,49,0,0.322344,8583.0,18,0,1,0,1.0
119997,109980,0,1.000000,80,0,35.000000,,0,0,0,0,0.0
119998,74354,0,0.925187,63,0,0.389974,1535.0,2,1,0,0,0.0


In [3]:
# удаление столбцов

num_of_depend = data["NumberOfDependents"]
data.drop(["NumberOfDependents", "Unnamed: 0"], axis = 1, inplace = True)

In [4]:
# функция для заполнения пропусков

def find_knn(data, col):
    X_nan = data[data[col].isnull() == True]
    X_not_nan = data[data[col].isnull() == False]
    X_train = X_not_nan.drop(col, axis = 1)
    y_train = X_not_nan[col]
    X_test = X_nan.drop(col, axis = 1)
    knn = KNeighborsClassifier(n_neighbors=5).fit(X_train, y_train)
    y_test = pd.DataFrame(knn.predict(X_test))
    X = pd.concat([X_train, X_test], axis = 0)
    y = pd.concat([y_train, y_test], axis = 0, ignore_index = True)
    data_wo_nan = pd.concat([X, y], axis = 1)
    data_wo_nan.rename(columns={0: col}, inplace = True)
    return data_wo_nan

In [5]:
data_with_income = find_knn(data, "MonthlyIncome")

In [6]:
data_with_income["NumberOfDependents"] = num_of_depend

In [7]:
full_data = find_knn(data_with_income, "NumberOfDependents")

In [8]:
X = full_data.drop(["SeriousDlqin2yrs"], axis = 1)
y = full_data["SeriousDlqin2yrs"]

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
# считывание модели из файла
with open('API/models/model_banking.pk' ,'rb') as f:
    loaded_model = pickle.load(f)

In [11]:
y_pred = loaded_model.predict(X)

In [12]:
report = classification_report(y, y_pred)
print(report)

              precision    recall  f1-score   support

           0       0.95      0.99      0.97    111979
           1       0.63      0.21      0.31      8021

    accuracy                           0.94    120000
   macro avg       0.79      0.60      0.64    120000
weighted avg       0.92      0.94      0.92    120000



In [None]:
data_test = pd.read_csv("banking_test.csv")
data_test.drop(["Unnamed: 0"], axis = 1, inplace = True)

In [None]:
X = full_data.drop(["SeriousDlqin2yrs"], axis = 1)
y = full_data["SeriousDlqin2yrs"]

In [None]:
y_pred_test = loaded_model.predict(X)

In [None]:
report = classification_report(y, y_pred_test)
print(report)