# Проект: классификация

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from  sklearn.ensemble import IsolationForest
import warnings
warnings.filterwarnings('ignore')
from sklearn.preprocessing  import LabelEncoder
from sklearn import linear_model 
from sklearn import tree 
from sklearn import ensemble 
from sklearn import metrics 
from sklearn import preprocessing 
from sklearn.model_selection import train_test_split 
from sklearn.feature_selection import SelectKBest, f_classif

## Часть 1. Знакомство с данными, обработка пропусков и выбросов

### Задание 1

In [2]:
df = pd.read_csv('data/bank_fin.csv', sep = ';')
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,59,admin.,married,secondary,no,"2 343,00 $",yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,"45,00 $",no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,"1 270,00 $",yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,"2 476,00 $",yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,"184,00 $",no,no,unknown,5,may,673,2,-1,0,unknown,yes


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        11162 non-null  int64 
 1   job        11162 non-null  object
 2   marital    11162 non-null  object
 3   education  11162 non-null  object
 4   default    11162 non-null  object
 5   balance    11137 non-null  object
 6   housing    11162 non-null  object
 7   loan       11162 non-null  object
 8   contact    11162 non-null  object
 9   day        11162 non-null  int64 
 10  month      11162 non-null  object
 11  duration   11162 non-null  int64 
 12  campaign   11162 non-null  int64 
 13  pdays      11162 non-null  int64 
 14  previous   11162 non-null  int64 
 15  poutcome   11162 non-null  object
 16  deposit    11162 non-null  object
dtypes: int64(6), object(11)
memory usage: 1.4+ MB


### Задание 2

In [4]:
df['job'].value_counts()

management       2566
blue-collar      1944
technician       1823
admin.           1334
services          923
retired           778
self-employed     405
student           360
unemployed        357
entrepreneur      328
housemaid         274
unknown            70
Name: job, dtype: int64

### Задание 3

In [5]:
df['balance'] = df['balance'].str.replace(',', '.')
df['balance'] = df['balance'].str.replace('$', '')
df['balance'] = df['balance'].str.replace(' ', '')

In [6]:
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,59,admin.,married,secondary,no,2343.0,yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,45.0,no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,1270.0,yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,2476.0,yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,184.0,no,no,unknown,5,may,673,2,-1,0,unknown,yes


In [7]:
df['balance'] = df['balance'].astype(float)

In [8]:
df['balance'].mean().round(3)

1529.129

### Задание 4

In [9]:
from statistics import median
df['balance'] = df['balance'].fillna(df['balance'].median())

In [10]:
df['balance'].mean().round(3)

1526.936

### Задание 5

In [11]:
df['job'].mode()

0    management
Name: job, dtype: object

In [12]:
df['job'] = df['job'].str.replace('unknown', 'management')

In [13]:
df['education'].value_counts()

secondary    5476
tertiary     3689
primary      1500
unknown       497
Name: education, dtype: int64

In [14]:
df['education'].mode()

0    secondary
Name: education, dtype: object

In [15]:
df['education'] = df['education'].str.replace('unknown', 'secondary')

In [16]:
df[(df['job'] == 'management') & (df['education'] == 'secondary')]['balance'].mean().round(3)

1598.883

### Задание 6

In [17]:
q_1 = df['balance'].quantile(0.25)
q_3 = df['balance'].quantile(0.75)

iqr = q_3 - q_1

lower_bound = q_1 - 1.5*iqr
upper_bound = q_3 + 1.5*iqr

df_cleaned = df[(df['balance'] >= lower_bound)&(df['balance'] <= upper_bound)].reset_index()

fig = px.histogram(
    df_cleaned,
    x = 'balance',
    title = '"Распределение баланса счета; $"',
    histnorm = 'percent',
    width = 900,
    marginal='box',
)
fig.update_layout(title = dict(x = .5, xanchor = "center"),
                  xaxis_title = "Баланс счета; $",
                  yaxis_title="Доля клиентов банка; %",
                  margin=dict(l=0, r=0, t=30, b=0))
fig.show()

print(df_cleaned['balance'].describe())

count    10105.000000
mean       807.653538
std        994.151966
min      -2049.000000
25%         95.000000
50%        445.000000
75%       1227.000000
max       4063.000000
Name: balance, dtype: float64


In [18]:
print('25-й перцентиль: {},'.format(q_1),
      '75-й перцентиль: {},'.format(q_3),
      "IQR: {}, ".format(iqr),
      "Границы выбросов: [{lb}, {ub}].".format(lb=lower_bound, ub=upper_bound))

25-й перцентиль: 123.0, 75-й перцентиль: 1699.0, IQR: 1576.0,  Границы выбросов: [-2241.0, 4063.0].


In [19]:
print(f'Результирующее число записей: {df_cleaned.shape[0]}')

Результирующее число записей: 10105


## Часть 2:  Разведывательный анализ

### Задание 1

In [20]:
# изучите соотношение классов в ваших данных на предмет несбалансированности, проиллюстрируйте результат
# ваш код

### Задания 2 и 3

In [21]:
#рассчитайте описательные статистики для количественных переменных, проинтерпретируйте результат
#ваш код

### Задания 4 и 5

In [22]:
#рассчитайте описательные статистики для категориальных переменных, проинтерпретируйте результат
#ваш код
#постройте визуализации, иллюстрирующие результаты

### Задание 6

In [23]:
# Узнайте, для какого статуса предыдущей маркетинговой кампании успех в текущей превалирует над количеством неудач.
# ваш код

### Задание 7

In [24]:
# узнайте, в каком месяце чаще всего отказывались от предложения открыть депозит
# ваш код

### Задание 8

In [25]:
# создайте возрастные группы и определите, в каких группах более склонны открывать депозит, чем отказываться от предложения

### Задания 9 и 10

In [26]:
# постройте визуализации для открывших и неоткрывших депозит в зависимости от семейного статуса

In [27]:
# постройте визуализации для открывших и неоткрывших депозит в зависимости от образования

In [28]:
# постройте визуализации для открывших и неоткрывших депозит в зависимости от вида профессиональной занятости

### Задание 11

In [29]:
# постройте сводную таблицу, чтобы определить люди с каким образованием и семейным статусом наиболее многочисленны
#(если рассматривать тех, кто открыл депозит)

## Часть 3: преобразование данных

### Задание 1

In [30]:
# преобразуйте уровни образования

### Задания 2 и 3

In [31]:
# преобразуйте бинарные переменные в представление из нулей и единиц

### Задание 4

In [32]:
# создайте дамми-переменные

### Задания 5 и 6

In [33]:
# постройте корреляционную матрицу и оцените данные на предмет наличия мультиколлинеарности

### Задания 7 и 8

In [34]:
X = df.drop(['deposit'], axis=1)
y = df['deposit']
 
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state = 42, test_size = 0.33)

In [35]:
# рассчитайте необходимые показатели

### Задание 9

In [36]:
# с помощью SelectKBest отберите 15 наиболее подходящих признаков

### Задание 10

In [None]:
# нормализуйте данные с помощью minmaxsxaler

# Часть 4: Решение задачи классификации: логистическая регрессия и решающие деревья

### Задание 1

In [None]:
# обучите логистическую регрессию и рассчитайте метрики качества

### Задания 2,3,4

In [None]:
# обучите решающие деревья, настройте максимальную глубину

### Задание 5

In [None]:
# подберите оптимальные параметры с помощью gridsearch

# Часть 5: Решение задачи классификации: ансамбли моделей и построение прогноза

### Задание 1

In [None]:
# обучите на ваших данных случайный лес

### Задания 2 и 3

In [None]:
# используйте для классификации градиентный бустинг и сравните качество со случайным лесом

### Задание 4

In [None]:
# объедините уже известные вам алгоритмы с помощью стекинга 

### Задание 5

In [None]:
# оцените, какие признаки демонстрируют наибольшую  важность в модели градиентного бустинга

### Задания 6,7,8

In [None]:
# реализуйте оптимизацию гиперпараметров с помощью Optuna