## Подготовка данных в pandas

In [1]:
# отключаем предупреждения
import warnings
warnings.filterwarnings('ignore')

# импортируем необходимые библиотеки
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.rc('font', family='Verdana')

In [2]:
# записываем CSV-файл в объект DataFrame
data = pd.read_csv('Data/Churn_logreg.csv', encoding='cp1251', sep=';')

In [3]:
# выводим первые 5 наблюдений датафрейма
data.head()

Unnamed: 0,longdist,internat,local,int_disc,billtype,pay,age,gender,marital,children,income,churn
0,2709.0,0.0,3974.0,Нет,Бюджетный,CC,35.0,Женский,Женат,0.0,77680,Остается
1,,0.0,4631.0,Нет,,,53.0,Мужской,Одинокий,1.0,371115,Остается
2,2376.0,0.0,,,Бюджетный,Auto,,Женский,,1.0,370794,Остается
3,94.0,,139.0,Нет,,CH,,Мужской,Одинокий,,81997,Остается
4,1415.0,0.0,10843.0,Да,Бесплатный,Auto,39.0,Женский,Одинокий,0.0,168296,Остается


In [4]:
# смотрим типы переменных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4431 entries, 0 to 4430
Data columns (total 12 columns):
longdist    4430 non-null object
internat    4427 non-null object
local       4428 non-null object
int_disc    4430 non-null object
billtype    4427 non-null object
pay         4429 non-null object
age         4428 non-null float64
gender      4430 non-null object
marital     4427 non-null object
children    4430 non-null float64
income      4430 non-null object
churn       4431 non-null object
dtypes: float64(2), object(10)
memory usage: 415.5+ KB


In [5]:
# заменяем запятые на точки и преобразуем в тип float
for i in ['longdist', 'internat', 'local', 'income']:
    data[i] = data[i].str.replace(',', '.').astype('float')
data.head()

Unnamed: 0,longdist,internat,local,int_disc,billtype,pay,age,gender,marital,children,income,churn
0,27.09,0.0,39.74,Нет,Бюджетный,CC,35.0,Женский,Женат,0.0,77680.0,Остается
1,,0.0,46.31,Нет,,,53.0,Мужской,Одинокий,1.0,37111.5,Остается
2,23.76,0.0,,,Бюджетный,Auto,,Женский,,1.0,37079.4,Остается
3,9.4,,13.9,Нет,,CH,,Мужской,Одинокий,,81997.0,Остается
4,14.15,0.0,108.43,Да,Бесплатный,Auto,39.0,Женский,Одинокий,0.0,16829.6,Остается


In [6]:
# смотрим типы переменных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4431 entries, 0 to 4430
Data columns (total 12 columns):
longdist    4430 non-null float64
internat    4427 non-null float64
local       4428 non-null float64
int_disc    4430 non-null object
billtype    4427 non-null object
pay         4429 non-null object
age         4428 non-null float64
gender      4430 non-null object
marital     4427 non-null object
children    4430 non-null float64
income      4430 non-null float64
churn       4431 non-null object
dtypes: float64(6), object(6)
memory usage: 415.5+ KB


In [7]:
# смотрим статистики для количественных переменных
data.describe()

Unnamed: 0,longdist,internat,local,age,children,income
count,4430.0,4427.0,4428.0,4428.0,4430.0,4430.0
mean,13.638023,0.835044,51.361093,57.562331,0.988939,50296.423896
std,9.393025,2.233639,54.685012,22.832404,0.824448,28439.435264
min,0.0,0.0,0.05,18.0,0.0,110.28
25%,5.17,0.0,13.46,38.0,0.0,25445.6
50%,13.68,0.0,35.01,58.0,1.0,50290.7
75%,22.08,0.0,71.66,77.0,2.0,75004.5
max,29.98,9.95,450.62,97.0,2.0,99832.9


In [8]:
# смотрим статистики для категориальных переменных,
# кроме зависимой переменной churn, создав список
# категориальных переменных
categorical_columns = [c for c in data.loc[:, data.columns != 'churn'] if data[c].dtype.name == 'object']
data[categorical_columns].describe()

Unnamed: 0,int_disc,billtype,pay,gender,marital
count,4430,4427,4429,4430,4427
unique,2,2,4,4,5
top,Нет,Бюджетный,CC,Женский,Женат
freq,3054,2244,2561,2240,2620


In [9]:
# смотрим уникальные значения
# категориальных переменных
for c in categorical_columns:
    print(data[c].unique())

['Нет' nan 'Да']
['Бюджетный' nan 'Бесплатный']
['CC' nan 'Auto' 'CH' 'CD']
['Женский' 'Мужской' nan 'Женский&*' 'Мужской&*']
['Женат' 'Одинокий' nan '_Одинокий' '_Женат' 'Же&нат']


In [10]:
# смотрим частоты категорий для
# категориальных переменных
for c in categorical_columns:
    print(data[c].value_counts(dropna=False))

Нет    3054
Да     1376
NaN       1
Name: int_disc, dtype: int64
Бюджетный     2244
Бесплатный    2183
NaN              4
Name: billtype, dtype: int64
CC      2561
CH       977
Auto     889
CD         2
NaN        2
Name: pay, dtype: int64
Женский      2240
Мужской      2183
Женский&*       4
Мужской&*       3
NaN             1
Name: gender, dtype: int64
Женат        2620
Одинокий     1800
NaN             4
_Женат          3
Же&нат          2
_Одинокий       2
Name: marital, dtype: int64


In [11]:
# удяляем лишние символы в категориях переменных
# gender и marital
for i in ['gender', 'marital']:
    data[i] = data[i].str.replace('[*&_]', '')

# смотрим результаты
for i in ['gender', 'marital']:
    print(data[i].value_counts(dropna=False))

Женский    2244
Мужской    2186
NaN           1
Name: gender, dtype: int64
Женат       2625
Одинокий    1802
NaN            4
Name: marital, dtype: int64


In [12]:
# пишем функцию, создающую парные взаимодействия
def make_conj(df, feature1, feature2):
    df[feature1 + "_" + feature2] = df[feature1].astype('object') + " + " + df[feature2].astype('object')

In [13]:
# применяем функцию
make_conj(data, 'gender', 'marital')

In [14]:
# заменяем редкую категорию модой
data.at[data['pay'] == 'CD', 'pay'] = 'CC'
data['pay'].value_counts(dropna = False)

CC      2563
CH       977
Auto     889
NaN        2
Name: pay, dtype: int64

In [15]:
# поделим возраст на длительность междугородних звонков в минутах
data['ratio'] = data['age']/data['longdist']
# заменяем бесконечные значения на 1
data['ratio'].replace([np.inf, -np.inf], 1, inplace=True)

In [16]:
# поделим длительность междугородних звонков в минутах на
# длительность международных звонков в минутах
data['ratio2'] = data['longdist']/data['internat']
# заменяем бесконечные значения на 0
data['ratio2'].replace([np.inf, -np.inf], 0, inplace=True)

In [17]:
# поделим доход на возраст
data['ratio3'] = data['income']/data['age']
# заменяем бесконечные значения на 0
data['ratio3'].replace([np.inf, -np.inf], 0, inplace=True)

In [18]:
# поделим возраст на количество детей
data['ratio4'] = data['age']/data['children']
# заменяем бесконечные значения на 0
data['ratio4'].replace([np.inf, -np.inf], 0, inplace=True)

In [19]:
# разбиваем данные на обучающую и контрольную выборки
train = data.sample(frac=0.7, random_state=200)
test = data.drop(train.index)

In [20]:
# выводим информацию о количестве пропусков
# по каждой переменной в обучающей выборке
train.isnull().sum()

longdist            1
internat            4
local               2
int_disc            0
billtype            4
pay                 2
age                 2
gender              1
marital             3
children            1
income              1
churn               0
gender_marital      3
ratio               3
ratio2            336
ratio3              2
ratio4              2
dtype: int64

In [21]:
# выводим информацию о количестве пропусков
# по каждой переменной в контрольной выборке
test.isnull().sum()

longdist            0
internat            0
local               1
int_disc            1
billtype            0
pay                 0
age                 1
gender              0
marital             1
children            0
income              0
churn               0
gender_marital      1
ratio               1
ratio2            161
ratio3              1
ratio4              1
dtype: int64

In [22]:
# заменяем пропуски в количественных переменных средним, создав
# список количественных переменных для работы с циклом
numerical_columns = train.dtypes[train.dtypes != 'object'].index 
for i in numerical_columns:
    train[i].fillna(train[i].mean(), inplace=True)
    test[i].fillna(train[i].mean(), inplace=True)

In [23]:
# заменяем пропуски в категориальных переменных модой, не забываем пересоздать список
# категориальных предикторов для работы с циклом, потому что появилась новая переменная
# gender_marital и в ней есть пропуски, нуждающиеся в импутации
categorical_columns = [c for c in data.loc[:, data.columns != 'churn'] if data[c].dtype.name == 'object']
for i in categorical_columns:
    train[i].fillna(train[i].value_counts().index[0], inplace=True)
    test[i].fillna(train[i].value_counts().index[0], inplace=True)

for c in categorical_columns:
    print(train[c].value_counts(dropna=False))

Нет    2139
Да      963
Name: int_disc, dtype: int64
Бюджетный     1569
Бесплатный    1533
Name: billtype, dtype: int64
CC      1810
CH       688
Auto     604
Name: pay, dtype: int64
Мужской    1553
Женский    1549
Name: gender, dtype: int64
Женат       1821
Одинокий    1281
Name: marital, dtype: int64
Женский + Женат       930
Мужской + Женат       891
Мужской + Одинокий    660
Женский + Одинокий    621
Name: gender_marital, dtype: int64


In [24]:
# смотрим пропуски
print(train.isnull().sum())
print(test.isnull().sum())

longdist          0
internat          0
local             0
int_disc          0
billtype          0
pay               0
age               0
gender            0
marital           0
children          0
income            0
churn             0
gender_marital    0
ratio             0
ratio2            0
ratio3            0
ratio4            0
dtype: int64
longdist          0
internat          0
local             0
int_disc          0
billtype          0
pay               0
age               0
gender            0
marital           0
children          0
income            0
churn             0
gender_marital    0
ratio             0
ratio2            0
ratio3            0
ratio4            0
dtype: int64


In [25]:
# подготавливаем данные перед преобразованием Бокса-Кокса
# (данные должны быть положительными)
train.replace({0: 0.5}, inplace=True)
test.replace({0: 0.5}, inplace=True)

In [26]:
# увеличиваем ширину столбцов
pd.set_option('max_colwidth', 800)

In [27]:
# выполняем преобразование Бокса-Кокса
from scipy.stats import boxcox
for i in numerical_columns:  
    train[i], fitted_lambda = boxcox(train[i])     
    test[i] = boxcox(test[i], fitted_lambda)   

In [28]:
# выполняем стандартизацию количественных переменных
train_copy = train.copy()
for i in numerical_columns:    
    train[i] = (train[i] - train[i].mean()) / train[i].std()
    test[i] = (test[i] - train_copy[i].mean()) / train_copy[i].std()

In [29]:
# смотрим типы переменных
print(train.info())
print(test.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3102 entries, 2157 to 4105
Data columns (total 17 columns):
longdist          3102 non-null float64
internat          3102 non-null float64
local             3102 non-null float64
int_disc          3102 non-null object
billtype          3102 non-null object
pay               3102 non-null object
age               3102 non-null float64
gender            3102 non-null object
marital           3102 non-null object
children          3102 non-null float64
income            3102 non-null float64
churn             3102 non-null object
gender_marital    3102 non-null object
ratio             3102 non-null float64
ratio2            3102 non-null float64
ratio3            3102 non-null float64
ratio4            3102 non-null float64
dtypes: float64(10), object(7)
memory usage: 436.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1329 entries, 2 to 4430
Data columns (total 17 columns):
longdist          1329 non-null float64
internat  

In [30]:
# печатаем названия столбцов до и после
# дамми-кодирования
print("Исходные переменные:\n", list(train.columns), "\n")
train_dummies = pd.get_dummies(train)
print("Переменные после get_dummies:\n", list(train_dummies.columns))

print("Исходные переменные:\n", list(test.columns), "\n")
test_dummies = pd.get_dummies(test)
print("Переменные после get_dummies:\n", list(test_dummies.columns))

Исходные переменные:
 ['longdist', 'internat', 'local', 'int_disc', 'billtype', 'pay', 'age', 'gender', 'marital', 'children', 'income', 'churn', 'gender_marital', 'ratio', 'ratio2', 'ratio3', 'ratio4'] 

Переменные после get_dummies:
 ['longdist', 'internat', 'local', 'age', 'children', 'income', 'ratio', 'ratio2', 'ratio3', 'ratio4', 'int_disc_Да', 'int_disc_Нет', 'billtype_Бесплатный', 'billtype_Бюджетный', 'pay_Auto', 'pay_CC', 'pay_CH', 'gender_Женский', 'gender_Мужской', 'marital_Женат', 'marital_Одинокий', 'churn_Остается', 'churn_Уходит', 'gender_marital_Женский + Женат', 'gender_marital_Женский + Одинокий', 'gender_marital_Мужской + Женат', 'gender_marital_Мужской + Одинокий']
Исходные переменные:
 ['longdist', 'internat', 'local', 'int_disc', 'billtype', 'pay', 'age', 'gender', 'marital', 'children', 'income', 'churn', 'gender_marital', 'ratio', 'ratio2', 'ratio3', 'ratio4'] 

Переменные после get_dummies:
 ['longdist', 'internat', 'local', 'age', 'children', 'income', 'ratio

In [31]:
# создаем обучающий и контрольный массивы меток
y_train = train_dummies.loc[:, 'churn_Уходит']
y_test = test_dummies.loc[:, 'churn_Уходит']
# создаем обучающий и контрольный массивы признаков
train_dummies.drop(['churn_Остается', 'churn_Уходит'], axis=1, inplace=True)
test_dummies.drop(['churn_Остается', 'churn_Уходит'], axis=1, inplace=True)
X_train = train_dummies.loc[:, 'longdist':'gender_marital_Мужской + Одинокий']
X_test = test_dummies.loc[:, 'longdist':'gender_marital_Мужской + Одинокий']

## Построение модели логистической регрессии с помощью класса LogisticRegression

In [32]:
# импортируем класс LogisticRegression
from sklearn.linear_model import LogisticRegression
# создаем экземпляр класса LogisticRegression (по сути
# задаем настройки панели)
logreg = LogisticRegression().fit(X_train, y_train)
# печатаем значения правильности
print("Правильность на обучающей выборке: {:.3f}".format(logreg.score(X_train, y_train)))
print("Правильность на контрольной выборке: {:.3f}".format(logreg.score(X_test, y_test)))

Правильность на обучающей выборке: 0.812
Правильность на контрольной выборке: 0.809


In [33]:
# импортируем функцию roc_auc_score для вычисления AUC
from sklearn.metrics import roc_auc_score
print("AUC на обучающей выборке: {:.3f}".
      format(roc_auc_score(y_train, logreg.predict_proba(X_train)[:, 1])))
print("AUC на контрольной выборке: {:.3f}".
      format(roc_auc_score(y_test, logreg.predict_proba(X_test)[:, 1])))

AUC на обучающей выборке: 0.885
AUC на контрольной выборке: 0.888


In [34]:
# пишем функцию, выполняющую биннинг
def user_bin(train, number):
    tv = 'churn'
    col_list = []  
    iv_list = []
    bins_list = [] 
    groups_list = []      
    a= 0.01  
    for var_name in train: 
        # используем для биннинга переменные с более чем 24 уникальными значениями 
        if(len(train[var_name].unique()) >= 24):
            col_list.append(var_name)  
    print('У нас ' + str(len(col_list)) + ' переменных, пригодных для биннинга')    
    for var_name in col_list:  
        num = number  
        bins = np.linspace(train[var_name].min(), train[var_name].max(), num) 
        rounded_bins = np.round(bins, 2)
        groups = np.digitize(train[var_name], bins)        
        biv = pd.crosstab(groups, train[tv])   
        # умножаем на 1.0, чтобы преобразовать во float и добавляем "a=0.01", чтобы избежать деления на ноль
        WoE = np.log((1.0*biv['Остается']/sum(biv['Остается']) + a) / (1.0*biv['Уходит']/sum(biv['Уходит']) + a))
        IV = sum(((1.0*biv['Остается']/sum(biv['Остается']) + a) - (1.0*biv['Уходит']/sum(biv['Уходит']) + a))*np.log((1.0*biv['Остается']/sum(biv['Остается']) + a) / (1.0*biv['Уходит']/sum(biv['Уходит']) + a)))
        iv_list.append(IV) 
        bins_list.append(num)        
        groups_list.append(rounded_bins)
    result = pd.DataFrame({'Переменная' : col_list, 
                           'Бины': groups_list, 
                           'IV' : iv_list,
                           'Количество_бинов' : bins_list})    
    return(result.sort_values(by = 'IV', ascending = False))

In [35]:
# применяем функцию, бьем каждую переменную,
# пригодную для биннинга, на 10 категорий
user_bin(train, 10)

У нас 9 переменных, пригодных для биннинга


Unnamed: 0,Переменная,Бины,IV,Количество_бинов
6,ratio2,"[-9.5, -8.18, -6.85, -5.52, -4.2, -2.87, -1.54, -0.21, 1.11, 2.44]",0.756717,10
0,longdist,"[-1.92, -1.55, -1.17, -0.8, -0.42, -0.05, 0.33, 0.7, 1.08, 1.45]",0.433322,10
1,internat,"[-15.23, -13.26, -11.29, -9.32, -7.35, -5.39, -3.42, -1.45, 0.52, 2.48]",0.375355,10
5,ratio,"[-2.33, -1.77, -1.21, -0.65, -0.09, 0.47, 1.03, 1.59, 2.14, 2.7]",0.30849,10
2,local,"[-2.87, -2.21, -1.54, -0.88, -0.22, 0.44, 1.1, 1.76, 2.42, 3.08]",0.230167,10
3,age,"[-1.86, -1.47, -1.08, -0.69, -0.3, 0.09, 0.48, 0.87, 1.26, 1.65]",0.119664,10
7,ratio3,"[-2.87, -2.22, -1.56, -0.91, -0.25, 0.4, 1.06, 1.71, 2.37, 3.02]",0.067524,10
8,ratio4,"[-1.3, -0.99, -0.68, -0.38, -0.07, 0.24, 0.54, 0.85, 1.16, 1.46]",0.033225,10
4,income,"[-2.19, -1.78, -1.36, -0.94, -0.52, -0.1, 0.32, 0.74, 1.16, 1.58]",0.021932,10


In [36]:
# создадим бины для переменной longdist
bins = [-np.inf, -1.55, -1.17, -0.8, -0.42, -0.05, 0.33, 0.7, 1.08, np.inf]
# выполняем биннинг переменной longdist
train['longdistcat'] = pd.cut(train['longdist'], bins).astype('object')
test['longdistcat'] = pd.cut(test['longdist'], bins).astype('object')

In [37]:
# выведем частоты категорий новой 
# переменной longdistcat
train['longdistcat'].value_counts()

(1.08, inf]       501
(0.7, 1.08]       492
(-inf, -1.55]     420
(-0.05, 0.33]     411
(0.33, 0.7]       393
(-0.42, -0.05]    285
(-0.8, -0.42]     255
(-1.17, -0.8]     190
(-1.55, -1.17]    155
Name: longdistcat, dtype: int64

Обратите внимание на квадратные и круглые скобки интервалов. Интервал закрывается либо слева, либо справа, то есть соответствующий конец включается в данный интервал. Согласно принятой в математике нотации интервалов круглая скобка означает, что соответствующий конец не включается (открыт), а квадратная – что включается (закрыт). В данном случае интервалы открыты слева и закрыты справа.

In [38]:
# выполняем биннинг переменной age
bins = [-np.inf, -1.47, -1.08, -0.69, -0.3, 0.09, 0.48, 0.87, 1.26, np.inf]
train['agecat'] = pd.cut(train['age'], bins).astype('object')
test['agecat'] = pd.cut(test['age'], bins).astype('object')

In [39]:
# печатаем названия столбцов до и после
# дамми-кодирования
print("Исходные переменные:\n", list(train.columns), "\n")
train_dum = pd.get_dummies(train)
print("Переменные после get_dummies:\n", list(train_dum.columns))

print("Исходные переменные:\n", list(test.columns), "\n")
test_dum = pd.get_dummies(test)
print("Переменные после get_dummies:\n", list(test_dum.columns))

Исходные переменные:
 ['longdist', 'internat', 'local', 'int_disc', 'billtype', 'pay', 'age', 'gender', 'marital', 'children', 'income', 'churn', 'gender_marital', 'ratio', 'ratio2', 'ratio3', 'ratio4', 'longdistcat', 'agecat'] 

Переменные после get_dummies:
 ['longdist', 'internat', 'local', 'age', 'children', 'income', 'ratio', 'ratio2', 'ratio3', 'ratio4', 'int_disc_Да', 'int_disc_Нет', 'billtype_Бесплатный', 'billtype_Бюджетный', 'pay_Auto', 'pay_CC', 'pay_CH', 'gender_Женский', 'gender_Мужской', 'marital_Женат', 'marital_Одинокий', 'churn_Остается', 'churn_Уходит', 'gender_marital_Женский + Женат', 'gender_marital_Женский + Одинокий', 'gender_marital_Мужской + Женат', 'gender_marital_Мужской + Одинокий', 'longdistcat_(-inf, -1.55]', 'longdistcat_(-1.55, -1.17]', 'longdistcat_(-1.17, -0.8]', 'longdistcat_(-0.8, -0.42]', 'longdistcat_(-0.42, -0.05]', 'longdistcat_(-0.05, 0.33]', 'longdistcat_(0.33, 0.7]', 'longdistcat_(0.7, 1.08]', 'longdistcat_(1.08, inf]', 'agecat_(-inf, -1.47]',

In [40]:
# создаем обучающий и контрольный массивы признаков
train_dum.drop(['churn_Остается', 'churn_Уходит'], axis=1, inplace=True)
test_dum.drop(['churn_Остается', 'churn_Уходит'], axis=1, inplace=True)
X_tr = train_dum.loc[:, 'longdist':'agecat_(1.26, inf]']
X_tst = test_dum.loc[:, 'longdist':'agecat_(1.26, inf]']

In [41]:
# строим логистическую регрессию
logreg2 = LogisticRegression().fit(X_tr, y_train)
from sklearn.metrics import roc_auc_score
print("AUC на обучающей выборке: {:.3f}".
      format(roc_auc_score(y_train, logreg2.predict_proba(X_tr)[:, 1])))
print("AUC на контрольной выборке: {:.3f}".
      format(roc_auc_score(y_test, logreg2.predict_proba(X_tst)[:, 1])))

AUC на обучающей выборке: 0.905
AUC на контрольной выборке: 0.901


In [42]:
# а теперь создадим взаимодействия между исходными категориальными
# признаки и переменными, полученными в результате биннинга
def make_conj2(df, feature1, feature2):
    df[feature1 + "_" + feature2] = df[feature1].astype('str') + " + " + df[feature2].astype('str')

In [43]:
make_conj2(train, 'gender', 'agecat')
make_conj2(train, 'gender', 'longdistcat')

make_conj2(test, 'gender', 'agecat')
make_conj2(test, 'gender', 'longdistcat')

In [44]:
# проверяем, совпадает ли количество категорий каждой переменной 
# в обучающей и контрольной выборке
interactions_features = ['gender_longdistcat', 'gender_agecat']
for i in interactions_features:
    print(train[i].nunique() == test[i].nunique())

True
True


In [45]:
# печатаем названия столбцов до и после
# дамми-кодирования
print("Исходные переменные:\n", list(train.columns), "\n")
train_dum2 = pd.get_dummies(train)
print("Переменные после get_dummies:\n", list(train_dum2.columns))

print("Исходные переменные:\n", list(test.columns), "\n")
test_dum2 = pd.get_dummies(test)
print("Переменные после get_dummies:\n", list(test_dum2.columns))

Исходные переменные:
 ['longdist', 'internat', 'local', 'int_disc', 'billtype', 'pay', 'age', 'gender', 'marital', 'children', 'income', 'churn', 'gender_marital', 'ratio', 'ratio2', 'ratio3', 'ratio4', 'longdistcat', 'agecat', 'gender_agecat', 'gender_longdistcat'] 

Переменные после get_dummies:
 ['longdist', 'internat', 'local', 'age', 'children', 'income', 'ratio', 'ratio2', 'ratio3', 'ratio4', 'int_disc_Да', 'int_disc_Нет', 'billtype_Бесплатный', 'billtype_Бюджетный', 'pay_Auto', 'pay_CC', 'pay_CH', 'gender_Женский', 'gender_Мужской', 'marital_Женат', 'marital_Одинокий', 'churn_Остается', 'churn_Уходит', 'gender_marital_Женский + Женат', 'gender_marital_Женский + Одинокий', 'gender_marital_Мужской + Женат', 'gender_marital_Мужской + Одинокий', 'longdistcat_(-inf, -1.55]', 'longdistcat_(-1.55, -1.17]', 'longdistcat_(-1.17, -0.8]', 'longdistcat_(-0.8, -0.42]', 'longdistcat_(-0.42, -0.05]', 'longdistcat_(-0.05, 0.33]', 'longdistcat_(0.33, 0.7]', 'longdistcat_(0.7, 1.08]', 'longdistca

In [46]:
# создаем обучающий и контрольный массивы признаков
train_dum2.drop(['churn_Остается', 'churn_Уходит'], axis=1, inplace=True)
test_dum2.drop(['churn_Остается', 'churn_Уходит'], axis=1, inplace=True)
X_tr2 = train_dum2.loc[:, 'longdist':'gender_longdistcat_Мужской + (1.08, inf]']
X_tst2 = test_dum2.loc[:, 'longdist':'gender_longdistcat_Мужской + (1.08, inf]']

In [47]:
# строим логистическую регрессию
logreg3 = LogisticRegression().fit(X_tr2, y_train)
from sklearn.metrics import roc_auc_score
print("AUC на обучающей выборке: {:.3f}".
      format(roc_auc_score(y_train, logreg3.predict_proba(X_tr2)[:, 1])))
print("AUC на контрольной выборке: {:.3f}".
      format(roc_auc_score(y_test, logreg3.predict_proba(X_tst2)[:, 1])))

AUC на обучающей выборке: 0.923
AUC на контрольной выборке: 0.916


In [48]:
# взглянем на коэффициенты логистической регрессии
# запишем коэффициенты и названия предикторов
# в отдельные объекты
coef = logreg3.coef_
feat_labels = X_tr2.columns

In [49]:
# вычислим свободный член (константу)
intercept = logreg3.intercept_
intercept

array([-0.13223976])

In [50]:
# переводим массив в скаляр
intercept = round(np.asscalar(intercept), 2)
intercept

-0.13

In [51]:
# печатаем название "Константа"    
print("Константа:", intercept)
# печатаем название "Коэффициенты"
print("Коэффициенты:")
# для удобства сопоставим каждому названию 
# предиктора соответствующий коэффициент
for c, feature in zip(coef[0], feat_labels):
    print(feature, round(c, 2))

Константа: -0.13
Коэффициенты:
longdist -0.15
internat 1.36
local 0.02
age -0.73
children -0.25
income 0.61
ratio -0.62
ratio2 0.26
ratio3 -1.11
ratio4 0.27
int_disc_Да -0.06
int_disc_Нет -0.07
billtype_Бесплатный -0.04
billtype_Бюджетный -0.1
pay_Auto -0.23
pay_CC 0.02
pay_CH 0.08
gender_Женский 0.98
gender_Мужской -1.12
marital_Женат -0.09
marital_Одинокий -0.04
gender_marital_Женский + Женат 0.37
gender_marital_Женский + Одинокий 0.24
gender_marital_Мужской + Женат -0.46
gender_marital_Мужской + Одинокий -0.28
longdistcat_(-inf, -1.55] 1.35
longdistcat_(-1.55, -1.17] 0.24
longdistcat_(-1.17, -0.8] 0.06
longdistcat_(-0.8, -0.42] 0.14
longdistcat_(-0.42, -0.05] -0.05
longdistcat_(-0.05, 0.33] -0.52
longdistcat_(0.33, 0.7] -0.56
longdistcat_(0.7, 1.08] -0.3
longdistcat_(1.08, inf] -0.5
agecat_(-inf, -1.47] 0.03
agecat_(-1.47, -1.08] -0.52
agecat_(-1.08, -0.69] -1.06
agecat_(-0.69, -0.3] 0.21
agecat_(-0.3, 0.09] 0.06
agecat_(0.09, 0.48] 0.09
agecat_(0.48, 0.87] 0.15
agecat_(0.87, 1.26] 

## Настройка гиперпараметров логистической регрессии с помощью класса GridSearchCV

In [52]:
# импортируем класс StratifiedKFold
from sklearn.model_selection import StratifiedKFold
# создаем экземпляр класса StratifiedKFold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
# импортируем класс GridSearchCV
from sklearn.model_selection import GridSearchCV
# создаем экземпляр класса LogisticRegression,
# логистическую регрессию с L1-регуляризацией
logreg_grid = LogisticRegression(penalty='l1')
# задаем сетку гиперпараметров, будем перебирать 
# разные значения штрафа
param_grid_logreg = {'C': [0.01, 0.1, 1, 10, 100]}
# задаем стратегию перекрестной проверки
stratcv = StratifiedKFold(n_splits=3)
# создаем экземпляр класса GridSearchCV
grid_search = GridSearchCV(logreg_grid, param_grid_logreg, 
                           scoring='roc_auc', 
                           n_jobs=-1, cv=skf)
# запускаем решетчатый поиск
grid_search.fit(X_tr2, y_train)
# проверяем модель со значением параметра, дающим наибольшее
# значение AUC (усредненное по контрольным блокам перекрестной
# проверки), на тестовой выборке
test_score = roc_auc_score(y_test, grid_search.predict_proba(X_tst2)[:, 1])
# смотрим результаты решетчатого поиска
print("AUC на тестовой выборке: {:.3f}".format(test_score))
print("Наилучшее значение гиперпараметра C: {}".format(grid_search.best_params_))
print("Наилучшее значение AUC: {:.3f}".format(grid_search.best_score_))

AUC на тестовой выборке: 0.917
Наилучшее значение гиперпараметра C: {'C': 100}
Наилучшее значение AUC: 0.917


## Построение модели логистической регрессии с помощью класса H2OGeneralizedLinearEstimator библиотеки H2O

In [None]:
# перед импортом библиотеки h2o и модуля os убедитесь, что библиотека h2o установлена 
# (сначала установите Java SE Development Kit 8, обратите внимание, 
# 9-я версия H2O не поддерживается, а затем после установки Java 
# запустите Anaconda Prompt и установите h2o с помощью 
# строки pip install h2o)
import h2o
import os
h2o.init(nthreads = -1, max_mem_size = 8)

Checking whether there is an H2O instance running at http://localhost:54321.....

In [None]:
# импортируем библиотеку для транслитерации
from transliterate import translit

In [None]:
# сейчас нам надо задать переменные для транслитерации
cat_cols = ['int_disc', 'billtype', 'pay', 'gender', 
            'marital', 'gender_marital', 'gender_agecat',
            'gender_longdistcat', 'churn']

In [None]:
# выполняем транслитерацию
for i in cat_cols:
    train[i] = train[i].apply(lambda x: translit(x, 'ru', reversed=True))
    test[i] = test[i].apply(lambda x: translit(x, 'ru', reversed=True))

In [None]:
# смотрим результаты транслитерации
# на обучающем наборе
for c in cat_cols:
    print(train[c].unique())

In [None]:
# преобразовываем датафреймы pandas во фреймы h2o -
# специальную структуру данных, используемую h2o
tr = h2o.H2OFrame(train)
valid = h2o.H2OFrame(test)

In [None]:
# взглянем на обучающий фрейм, обратите внимание,
# сейчас метод .describe() - это метод h2o, а не 
# pandas
tr.describe()

In [None]:
# задаем название зависимой переменной
dependent = 'churn'
# задаем список названий предикторов
predictors = list(tr.columns)
# удаляем название зависимой переменной из 
# списка названий предикторов
predictors.remove(dependent)

In [None]:
# импортируем класс H2OGeneralizedLinearEstimator
from h2o.estimators.glm import H2OGeneralizedLinearEstimator

In [None]:
# создаем экземпляр класса H2OGeneralizedLinearEstimator
glm_model = H2OGeneralizedLinearEstimator(family='binomial')
# обучаем модель
glm_model.train(predictors, dependent, 
                training_frame=tr, validation_frame=valid)

In [None]:
# смотрим модель
glm_model

In [None]:
# записываем таблицу коэффициентов
coeff_table = glm_model._model_json['output']['coefficients_table']

# преобразуем таблицу коэффициентов в датафрейм pondas
coeff_table.as_data_frame()

In [None]:
# еще можно добавлять взаимодействия признаков

# создаем экземпляр класса H2OGeneralizedLinearEstimator
glm_model2 = H2OGeneralizedLinearEstimator(family="binomial", 
                                           interactions=['longdistcat', 'marital'])
# обучаем модель
glm_model2.train(predictors, dependent, training_frame=tr, 
                validation_frame=valid)

In [None]:
# смотрим модель
glm_model2

In [None]:
# чтобы вычислить p-значения коэффициентов, нужно 
# задать параметр compute_p_values, отключить 
# регуляризацию (lambda_ = 0), задать метод наименьших 
# квадратов с итеративным пересчётом весов (solver='IRLSM'),
# рекомендуется задать параметр remove_collinear_columns

# создаем экземпляр класса H2OGeneralizedLinearEstimator
glm_model3 = H2OGeneralizedLinearEstimator(lambda_=0, family='binomial', solver='IRLSM',
                                           remove_collinear_columns=True,
                                           compute_p_values=True)
# обучаем модель
glm_model3.train(predictors, dependent, 
                 training_frame=tr, validation_frame=valid)

In [None]:
# записываем таблицу коэффициентов
coeff_table = glm_model3._model_json['output']['coefficients_table']

# преобразуем таблицу коэффициентов в датафрейм pondas
coeff_table.as_data_frame()

In [None]:
# импортируем класс H2OGridSearch для выполнения решетчатого поиска
from h2o.grid.grid_search import H2OGridSearch

# задаем сетку параметров, будем перебирать разные значения alpha,
# alpha определяет тип регуляризации: значение 1 соответствует 
# l1-регуляризации (лассо), значение 0 соответствует l2-регуляризации 
# (гребневой регрессии), промежуточное значение соответствует 
# комбинации штрафов l1 и l2 (эластичной сети)
hyper_parameters = {'alpha':[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]}

# создаем экземпляр класса H2OGridSearch, lambda_search 
# задает перебор значений lambda - силы регуляризации
gridsearch = H2OGridSearch(H2OGeneralizedLinearEstimator(family='binomial', lambda_search=True),
                           grid_id='gridresults', hyper_params=hyper_parameters)
# подгоняем модели решетчатого поиска
gridsearch.train(predictors, dependent, 
                 training_frame=tr, 
                 nfolds=5, 
                 keep_cross_validation_predictions=True, 
                 seed=1000000)

In [None]:
# выводим результаты решетчатого поиска
gridsearch.show()

In [None]:
# сортируем результаты решетчатого поиска
# по убывания AUC
gridperf = gridsearch.get_grid(sort_by="auc", decreasing=True)
gridperf

In [None]:
# извлекаем наилучшую модель
best_model = gridperf.models[0]
best_model

In [None]:
# смотрим AUC наилучшей модели
# на контрольной выборке
bestmodel_perf = best_model.model_performance(valid)
print(bestmodel_perf.auc())

In [None]:
# смотрим оптимальное значение lambda и alpha
best_model.summary()['regularization']