# Project: Classification

In [16]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import sys
import warnings
warnings.filterwarnings('ignore')

from sklearn import ensemble 
from sklearn import linear_model 
from sklearn import metrics 
from sklearn import preprocessing 
from sklearn import tree 
from sklearn.ensemble import IsolationForest
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing  import LabelEncoder

sys.path.append('../../')

from DataScienceHelpers.DataCleaningOutliers import find_outliers_iqr
from DataScienceHelpers.DataCleaningOutliers import find_parameters_iqr


## Part 1. Getting to know the data, handling empy data and outliers

### Task 1

In [17]:
df = pd.read_csv('../../data/bank_fin.csv', sep = ';')
print(f'Rows: {df.shape[0]}')
print(f'Cols: {df.shape[1]}')

Rows: 11162
Cols: 17


In [18]:
df.isnull().sum()

age           0
job           0
marital       0
education     0
default       0
balance      25
housing       0
loan          0
contact       0
day           0
month         0
duration      0
campaign      0
pdays         0
previous      0
poutcome      0
deposit       0
dtype: int64

### Task 2

In [19]:
print('Job values by frequency:')
print(df['job'].value_counts())
print('Education by frequency:')
print(df['education'].value_counts())

Job values by frequency:
job
management       2566
blue-collar      1944
technician       1823
admin.           1334
services          923
retired           778
self-employed     405
student           360
unemployed        357
entrepreneur      328
housemaid         274
unknown            70
Name: count, dtype: int64
Education by frequency:
education
secondary    5476
tertiary     3689
primary      1500
unknown       497
Name: count, dtype: int64


Empty values in the fields 'job' and 'education' are marked with the word 'unknown'.

### Task 3

In [20]:
def clean_up_balance(x):
    return x if pd.isna(x) else float(str(x)[:-3].replace(' ', '').replace(',', '.'))

df['balance'] = df['balance'].apply(lambda x: clean_up_balance(x))
print(f'Mean balance value: {df['balance'].mean():.3f}')

Mean balance value: 1529.129


### Task 4

In [21]:
median_balance = df['balance'].median()
print(f'Median balance value: {median_balance:.3f}')

df['balance'] = df['balance'].apply(lambda x: median_balance if pd.isna(x) else x)
print(f'Updated mean balance value: {df['balance'].mean():.3f}')

Median balance value: 550.000
Updated mean balance value: 1526.936


### Task 5

In [22]:
job_mode = df['job'].value_counts().index.tolist()[0]
print(f'Job mode value: {job_mode}')

education_mode = df['education'].value_counts().index.tolist()[0]
print(f'Education mode value: {education_mode}')

df['job'] = df['job'].apply(lambda x: job_mode if x == 'unknown' else x)
df['education'] = df['education'].apply(lambda x: education_mode if x == 'unknown' else x)

mask_popular_job_education = (df['job'] == job_mode) & (df['education'] == education_mode)
print(f'Mean balance for most popular job and education: {df[mask_popular_job_education]['balance'].mean():.3f}')


Job mode value: management
Education mode value: secondary
Mean balance for most popular job and education: 1598.883


### Task 6

In [23]:
# Delete outliers for the 'balance' feature
print('IQR, lower bound and upper bound found by the Tukey method:')
print(find_parameters_iqr(df, 'balance'))

outliers, df = find_outliers_iqr(df, 'balance')

print(f'Rows without outliers: {df.shape[0]}')

IQR, lower bound and upper bound found by the Tukey method:
(1576.0, -2241.0, 4063.0)
Rows without outliers: 10105


## Часть 2:  Разведывательный анализ

### Задание 1

In [None]:
# изучите соотношение классов в ваших данных на предмет несбалансированности, проиллюстрируйте результат
# ваш код

### Задания 2 и 3

In [None]:
#рассчитайте описательные статистики для количественных переменных, проинтерпретируйте результат
#ваш код

### Задания 4 и 5

In [None]:
#рассчитайте описательные статистики для категориальных переменных, проинтерпретируйте результат
#ваш код
#постройте визуализации, иллюстрирующие результаты

### Задание 6

In [None]:
# Узнайте, для какого статуса предыдущей маркетинговой кампании успех в текущей превалирует над количеством неудач.
# ваш код

### Задание 7

In [None]:
# узнайте, в каком месяце чаще всего отказывались от предложения открыть депозит
# ваш код

### Задание 8

In [None]:
# создайте возрастные группы и определите, в каких группах более склонны открывать депозит, чем отказываться от предложения

### Задания 9 и 10

In [None]:
# постройте визуализации для открывших и неоткрывших депозит в зависимости от семейного статуса

In [None]:
# постройте визуализации для открывших и неоткрывших депозит в зависимости от образования

In [None]:
# постройте визуализации для открывших и неоткрывших депозит в зависимости от вида профессиональной занятости

### Задание 11

In [None]:
# постройте сводную таблицу, чтобы определить люди с каким образованием и семейным статусом наиболее многочисленны
#(если рассматривать тех, кто открыл депозит)

## Часть 3: преобразование данных

### Задание 1

In [None]:
# преобразуйте уровни образования

### Задания 2 и 3

In [None]:
# преобразуйте бинарные переменные в представление из нулей и единиц

### Задание 4

In [None]:
# создайте дамми-переменные

### Задания 5 и 6

In [None]:
# постройте корреляционную матрицу и оцените данные на предмет наличия мультиколлинеарности

### Задания 7 и 8

In [3]:
X = df.drop(['deposit'], axis=1)
y = df['deposit']
 
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state = 42, test_size = 0.33)

In [None]:
# рассчитайте необходимые показатели

### Задание 9

In [None]:
# с помощью SelectKBest отберите 15 наиболее подходящих признаков

### Задание 10

In [None]:
# нормализуйте данные с помощью minmaxsxaler

# Часть 4: Решение задачи классификации: логистическая регрессия и решающие деревья

### Задание 1

In [None]:
# обучите логистическую регрессию и рассчитайте метрики качества

### Задания 2,3,4

In [None]:
# обучите решающие деревья, настройте максимальную глубину

### Задание 5

In [None]:
# подберите оптимальные параметры с помощью gridsearch

# Часть 5: Решение задачи классификации: ансамбли моделей и построение прогноза

### Задание 1

In [4]:
# обучите на ваших данных случайный лес

### Задания 2 и 3

In [None]:
# используйте для классификации градиентный бустинг и сравните качество со случайным лесом

### Задание 4

In [None]:
# объедините уже известные вам алгоритмы с помощью стекинга 

### Задание 5

In [None]:
# оцените, какие признаки демонстрируют наибольшую  важность в модели градиентного бустинга

### Задания 6,7,8

In [None]:
# реализуйте оптимизацию гиперпараметров с помощью Optuna