In [1]:
# импортируем необходимые библиотеки, классы и функции

# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd
# импортируем функцию boxcox() для выполнения
# преобразования Бокса-Кокса
from scipy.stats import boxcox
# импортируем класс LogisticRegression для построения
# логистической регрессии
from sklearn.linear_model import LogisticRegression
# импортируем функцию roc_auc_score для вычисления AUC
from sklearn.metrics import roc_auc_score

In [2]:
# записываем CSV-файл в объект DataFrame
data = pd.read_csv('Data/Example.csv', sep=';')

In [3]:
# смотрим первые 5 наблюдений
data.head()

Unnamed: 0,longdist,internat,local,int_disc,billtype,pay,age,gender,marital,children,income,churn
0,2709.0,0.0,3974.0,Нет,Бюджетный,CC,35.0,Женский,Женат,0.0,77680,0
1,,0.0,4631.0,Нет,,,53.0,Мужской,Одинокий,1.0,371115,0
2,2376.0,0.0,,,Бюджетный,Auto,,Женский,,1.0,370794,0
3,94.0,,139.0,Нет,,CH,,Мужской,Одинокий,,81997,0
4,1415.0,0.0,10843.0,Да,Бесплатный,Auto,39.0,Женский,Одинокий,0.0,168296,0


In [4]:
# заменяем запятые на точки и преобразуем в тип float
for i in ['longdist', 'internat', 'local', 'income']:
    data[i] = data[i].str.replace(',', '.').astype('float')

In [5]:
# удаляем лишние символы в категориях переменных
# gender и marital
for i in ['gender', 'marital']:
    data[i] = data[i].str.replace('[*&_]', '')

In [6]:
# заменяем редкую категорию модой
data.at[data['pay'] == 'CD', 'pay'] = 'CC'

In [7]:
# пишем функцию, создающую парные взаимодействия
def make_conj(df, feature1, feature2):
    df[feature1 + "_" + feature2] = df[feature1].astype('object') + " + " + df[feature2].astype('object')

In [8]:
# применяем функцию
make_conj(data, 'gender', 'marital')

In [9]:
# поделим возраст на длительность междугородних звонков в минутах
data['ratio'] = data['age'] / data['longdist']
# заменяем бесконечные значения на 1
data['ratio'].replace([np.inf, -np.inf], 1, inplace=True)

In [10]:
# поделим длительность междугородних звонков в минутах на
# длительность международных звонков в минутах
data['ratio2'] = data['longdist'] / data['internat']
# заменяем бесконечные значения на 0
data['ratio2'].replace([np.inf, -np.inf], 0, inplace=True)

In [11]:
# поделим доход на возраст
data['ratio3'] = data['income'] / data['age']
# заменяем бесконечные значения на 0
data['ratio3'].replace([np.inf, -np.inf], 0, inplace=True)

In [12]:
# поделим возраст на количество детей
data['ratio4'] = data['age'] / data['children']
# заменяем бесконечные значения на 0
data['ratio4'].replace([np.inf, -np.inf], 0, inplace=True)

In [13]:
# разбиваем данные на обучающую и контрольную выборки
train = data.sample(frac=0.7, random_state=200)
test = data.drop(train.index)

In [14]:
# создаем обучающий и контрольный 
# массивы меток
y_train = train.pop('churn').values
y_test = test.pop('churn').values

In [15]:
# заменяем пропуски в количественных переменных средними
numerical_columns = train.dtypes[train.dtypes != 'object'].index 
for i in numerical_columns:
    train[i].fillna(train[i].mean(), inplace=True)
    test[i].fillna(train[i].mean(), inplace=True)

In [16]:
# заменяем пропуски в категориальных переменных модой
categorical_columns = train.dtypes[train.dtypes == 'object'].index
for i in categorical_columns:
    train[i].fillna(train[i].value_counts().index[0], inplace=True)
    test[i].fillna(train[i].value_counts().index[0], inplace=True)

In [17]:
# подготавливаем данные перед преобразованием Бокса-Кокса
# (данные должны быть положительными)
train.replace({0: 0.5}, inplace=True)
test.replace({0: 0.5}, inplace=True)

In [18]:
# выполняем преобразование Бокса-Кокса
for i in numerical_columns:  
    train[i], fitted_lambda = boxcox(train[i])     
    test[i] = boxcox(test[i], fitted_lambda)   

In [19]:
# выполняем стандартизацию количественных переменных
train_copy = train.copy()
for i in numerical_columns:    
    train[i] = (train[i] - train[i].mean()) / train[i].std()
    test[i] = (test[i] - train_copy[i].mean()) / train_copy[i].std()

In [20]:
# выполняем дамми-кодирование и создаем 
# обучающий и контрольный массивы признаков
X_train = pd.get_dummies(train)
X_test = pd.get_dummies(test)

In [21]:
# создаем экземпляр класса LogisticRegression 
# (по сути задаем модель) и обучаем
logreg = LogisticRegression(solver='lbfgs', max_iter=200).fit(X_train, 
                                                              y_train)
# печатаем значения AUC
print("AUC на обучающей выборке: {:.3f}".format(
    roc_auc_score(y_train, logreg.predict_proba(X_train)[:, 1])))
print("AUC на контрольной выборке: {:.3f}".format(
    roc_auc_score(y_test, logreg.predict_proba(X_test)[:, 1])))

AUC на обучающей выборке: 0.885
AUC на контрольной выборке: 0.888
