In [29]:
import pandas as pd
data = pd.read_csv('bank-full.csv')

"""
Информация о клиенте: 

- 1 - age (numeric) - возраст
- 2 - job - тип работы
- 3 - marital - семейное положение
- 4 - education - уровень образования
- 5 – balance: Уровень дохода
- 6 - housing: Есть ли ипотека
- 7 - loan: Есть ли кредит

Информация по последнему контакту в текущей кампании: 
- 8 - contact: Тип коммуникации
- 9 - day_of_week: день последнего контакта с клиентом
- 10 - month: месяц последнего контакта с клиентом
- 11 - duration: длительность последнего контакта, в секундах (numeric). 

Прочие признаки: 
- 12 - campaign: количество контактов с клиентом (numeric, includes last contact)
- 13 - pdays: количество дней, которое прошло между последним и предпоследним контактом
- 14 - previous: количество контактов с клиентом, исключая последний контакт (numeric)
- 15 - poutcome: результаты последней рекламной компании 

Целевая переменная:
- 16 - y - откроет ли клиент инвестиционный счет в нашем банке? (binary: 'yes','no') 
"""
data.head()

Unnamed: 0,age,job,marital,education,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


In [2]:
data['y']=data.y.astype("category").cat.codes #преобразование текстовых данных в цифровые параметры
data.head()

Unnamed: 0,age,job,marital,education,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,0
1,44,technician,single,secondary,29,yes,no,unknown,5,may,151,1,-1,0,unknown,0
2,33,entrepreneur,married,secondary,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,0
3,47,blue-collar,married,unknown,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,0
4,33,unknown,single,unknown,1,no,no,unknown,5,may,198,1,-1,0,unknown,0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 16 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   balance    45211 non-null  int64 
 5   housing    45211 non-null  object
 6   loan       45211 non-null  object
 7   contact    45211 non-null  object
 8   day        45211 non-null  int64 
 9   month      45211 non-null  object
 10  duration   45211 non-null  int64 
 11  campaign   45211 non-null  int64 
 12  pdays      45211 non-null  int64 
 13  previous   45211 non-null  int64 
 14  poutcome   45211 non-null  object
 15  y          45211 non-null  int8  
dtypes: int64(7), int8(1), object(8)
memory usage: 5.2+ MB


In [4]:
data.contact.value_counts()

contact
cellular     29285
unknown      13020
telephone     2906
Name: count, dtype: int64

In [5]:
#Удаляем  не важные столбцы для решения "в лоб"
data = data.drop('contact', axis=1)
data = data.drop('loan', axis=1)
data = data.drop('day', axis=1)
data = data.drop('campaign', axis=1)
data = data.drop('pdays', axis=1)
data = data.drop('previous', axis=1)
data = data.drop('poutcome', axis=1)

In [6]:
data.head()

Unnamed: 0,age,job,marital,education,balance,housing,month,duration,y
0,58,management,married,tertiary,2143,yes,may,261,0
1,44,technician,single,secondary,29,yes,may,151,0
2,33,entrepreneur,married,secondary,2,yes,may,76,0
3,47,blue-collar,married,unknown,1506,yes,may,92,0
4,33,unknown,single,unknown,1,no,may,198,0


In [30]:
cat_features = ["job", "marital", "education", "housing", "month"]

#заменяем данные столбцов на числовые категорийный признаки
for i in cat_features:
    data[i] = data[i].astype("category").cat.codes

In [10]:
useful_cols = ['job', 'marital', 'education', 'balance', 'housing', 'month', 'duration']

In [12]:
#Разделяем датасет на обучающую и тестовую выборки
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data.drop("y",axis = 1), data["y"], test_size=0.3)

In [31]:
#Создаем модель логистической регрессии
from sklearn.linear_model import LogisticRegression
LogReg = LogisticRegression(random_state=1, max_iter=1800).fit(X_train, y_train)  #обучение .fit(x,y)

In [22]:
y_pred = LogReg.predict(X_train) #результат предсказания
y_predict_proba_train = LogReg.predict_proba(X_train)[:,1] #вероятность

In [32]:
LogReg.score(X_train, y_train)# оценка

0.8879396151293961

In [25]:
y_pred = LogReg.predict(X_test)
y_predict_proba = LogReg.predict_proba(X_test)[:,1]

In [26]:
LogReg.score(X_test, y_test)

0.8925135463894726