In [1]:
import pandas as pd
import numpy as np

### Построение модели 

In [2]:
df = pd.read_csv(r'telco-customer-churn.csv', sep = ',')

In [3]:
pd.set_option('display.max_columns', 200)
pd.set_option('max_rows', 500)
pd.options.mode.chained_assignment = None

In [4]:
df.isnull().sum()
# Данные довольно качественные, пропуски отсутствуют во всех столбцах

age                                     0
annualincome                            0
calldroprate                            0
callfailurerate                         0
callingnum                              0
customerid                              0
customersuspended                       0
education                               0
gender                                  0
homeowner                               0
maritalstatus                           0
monthlybilledamount                     0
noadditionallines                       0
numberofcomplaints                      0
numberofmonthunpaid                     0
numdayscontractequipmentplanexpiring    0
occupation                              0
penaltytoswitch                         0
state                                   0
totalminsusedinlastmonth                0
unpaidbalance                           0
usesinternetservice                     0
usesvoiceservice                        0
percentagecalloutsidenetwork      

##### Опишем существующие признаки:

age      -      возраст;                                    
annualincome    -   входящие за год (скорее всего секунды);                       
calldroprate   -   частота пропущенных вызовов;                    
callfailurerate  - частота недозвонов;               
callingnum   -  номер телефона;                              
customerid   - id клиента;               
customersuspended        -    подвешенный клиент;             
education      -   образование клиента;
gender      -   пол клиента;                               
homeowner        -       дом принадлежит абоненту;                
maritalstatus       -   женат/не женат;             
monthlybilledamount         -    месячная плата по счету;            
noadditionallines      -      доп.услуги (линии);
numberofcomplaints        -    количество жалоб;              
numberofmonthunpaid         -      количество неоплаченных месяцев;    
numdayscontractequipmentplanexpiring       -    дни аренды оборудования;
occupation      -    род занятий;                        
penaltytoswitch            -    штраф до отключения;             
state          -      Штат (регион);           
totalminsusedinlastmonth          -    количество чего-то за последний месяц;      
unpaidbalance           -      величина неоплаченного баланса;
usesinternetservice      -             интернет-сервис (да-нет);    
usesvoiceservice         -             голосовой сервис (да-нет);           
percentagecalloutsidenetwork        -      звонки вне сети;
totalcallduration          -         общая длительность звонков;   
avgcallduration         -      средняя продолжительность звонков;                 
churn                  -    отток (целевая переменная);
year          -    год;                         
month          -      месяц - 1,2,3;                   

In [5]:
corr_matrix = df.corr()

In [6]:
import seaborn as sns
sns.heatmap(corr_matrix);
# сильно коррелирующих предикторов нет

In [7]:
df[df.duplicated()]
# Дублей также нет в датасете

Unnamed: 0,age,annualincome,calldroprate,callfailurerate,callingnum,customerid,customersuspended,education,gender,homeowner,maritalstatus,monthlybilledamount,noadditionallines,numberofcomplaints,numberofmonthunpaid,numdayscontractequipmentplanexpiring,occupation,penaltytoswitch,state,totalminsusedinlastmonth,unpaidbalance,usesinternetservice,usesvoiceservice,percentagecalloutsidenetwork,totalcallduration,avgcallduration,churn,year,month


In [8]:
df

Unnamed: 0,age,annualincome,calldroprate,callfailurerate,callingnum,customerid,customersuspended,education,gender,homeowner,maritalstatus,monthlybilledamount,noadditionallines,numberofcomplaints,numberofmonthunpaid,numdayscontractequipmentplanexpiring,occupation,penaltytoswitch,state,totalminsusedinlastmonth,unpaidbalance,usesinternetservice,usesvoiceservice,percentagecalloutsidenetwork,totalcallduration,avgcallduration,churn,year,month
0,12,168147,0.06,0.00,4251078442,1,Yes,Bachelor or equivalent,Male,Yes,Single,71,\N,0,7,96,Technology Related Job,371,WA,15,19,No,No,0.82,5971,663,0,2015,1
1,12,168147,0.06,0.00,4251078442,1,Yes,Bachelor or equivalent,Male,Yes,Single,71,\N,0,7,96,Technology Related Job,371,WA,15,19,No,No,0.82,3981,995,0,2015,2
2,42,29047,0.05,0.01,4251043419,2,Yes,Bachelor or equivalent,Female,Yes,Single,8,\N,1,4,14,Technology Related Job,43,WI,212,34,No,Yes,0.27,7379,737,0,2015,1
3,42,29047,0.05,0.01,4251043419,2,Yes,Bachelor or equivalent,Female,Yes,Single,8,\N,1,4,14,Technology Related Job,43,WI,212,34,No,Yes,0.27,1729,432,0,2015,2
4,58,27076,0.07,0.02,4251055773,3,Yes,Master or equivalent,Female,Yes,Single,16,\N,0,2,55,Technology Related Job,403,KS,216,144,No,No,0.48,3122,624,0,2015,1
5,58,27076,0.07,0.02,4251055773,3,Yes,Master or equivalent,Female,Yes,Single,16,\N,0,2,55,Technology Related Job,403,KS,216,144,No,No,0.48,2769,553,0,2015,2
6,20,137977,0.05,0.03,4251042488,4,Yes,PhD or equivalent,Male,No,Single,74,\N,1,7,73,Technology Related Job,76,KY,412,159,Yes,No,0.94,834,834,0,2015,1
7,20,137977,0.05,0.03,4251042488,4,Yes,PhD or equivalent,Male,No,Single,74,\N,1,7,73,Technology Related Job,76,KY,412,159,Yes,No,0.94,5868,838,0,2015,2
8,36,136006,0.07,0.00,4251073177,5,Yes,High School or below,Male,Yes,Married,81,\N,0,5,14,Technology Related Job,436,ND,416,19,No,No,0.15,1886,628,0,2015,1
9,36,136006,0.07,0.00,4251073177,5,Yes,High School or below,Male,Yes,Married,81,\N,0,5,14,Technology Related Job,436,ND,416,19,No,No,0.15,2602,867,0,2015,2


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20468 entries, 0 to 20467
Data columns (total 29 columns):
age                                     20468 non-null int64
annualincome                            20468 non-null int64
calldroprate                            20468 non-null float64
callfailurerate                         20468 non-null float64
callingnum                              20468 non-null int64
customerid                              20468 non-null int64
customersuspended                       20468 non-null object
education                               20468 non-null object
gender                                  20468 non-null object
homeowner                               20468 non-null object
maritalstatus                           20468 non-null object
monthlybilledamount                     20468 non-null int64
noadditionallines                       20468 non-null object
numberofcomplaints                      20468 non-null int64
numberofmonthunpaid        

In [10]:
# Посмотрим, какие значения принимают наши признаки
for i in df.columns:
    print(i, df[i].unique())

age [12 42 58 20 36 67 14 45 61 23 39 69 17 48 64 26 72 50 66 29 75 53 31 47
 78 56 34 13 28 59 37 15 62 77 40 18 43 21 24 70 27 73 51 76 54 32 57 35
 38 16 19 65 22 68 46 71 49 52 30 33 79 60 63 41 44 25 74 55]
annualincome [168147  29047  27076 ...  67056  65084 120042]
calldroprate [0.06 0.05 0.07 0.   0.01 0.02 0.03 0.04]
callfailurerate [0.   0.01 0.02 0.03]
callingnum [4251078442 4251043419 4251055773 ... 4251050233 4251050074 4251075688]
customerid [   1    2    3 ... 9523 9524 9525]
customersuspended ['Yes' 'No']
education ['Bachelor or equivalent' 'Master or equivalent' 'PhD or equivalent'
 'High School or below']
gender ['Male' 'Female']
homeowner ['Yes' 'No']
maritalstatus ['Single' 'Married']
monthlybilledamount [ 71   8  16  74  81  19  27  85  92  30  37  95 103  41  48 106 114  52
  59 117   4  62  70  15  73  18  26  84  91  29 102  40  47 105 113  51
  58 116  69   7  14  72  80 109  54  61 119  65  10  75  83  21  28  86
  94  32  39  97 104  42  50 108 115  53   6  6

##### Произведем кодирование категориальных переменных:

In [12]:
cat_columns = df.dtypes[df.dtypes == 'object'].index

for i in cat_columns:
    if i in ['customersuspended', 'homeowner', 'usesinternetservice', 'usesvoiceservice']:
        df[i] = df[i].map({'Yes':1, 'No':0})
    if i == 'education':
        df[i] = df[i].map({'High School or below':1,      
                            'Bachelor or equivalent':2,
                            'Master or equivalent':3,
                            'PhD or equivalent':4})
    if i == 'maritalstatus':
        df[i] = df[i].map({'Married':1, 'Single':0})
    if i == 'noadditionallines':
        df.drop('noadditionallines', axis = 1, inplace = True)
    if i == 'gender':
        df[i] = df[i].map({'Male':1, 'Female':0})

#####  Поскольку некоторые клиенты были у нас по 2 и 3 месяца, они стали отточными только в последний месяц.
##### Соответственно, необходимо изменить целевую переменную соответствующим образом:

In [13]:
for i in df[df['churn'] == 1]['customerid'].unique():
    df.loc[df[df['customerid'] == i][:-1].index, 'churn'] = 0

##### Поскольку клиенты с одинаковым ID отличаются только двумя параметрами (avgcallduration и totalcallduration), необходимо, чтобы в трейне и тесте содержались разные клиенты:

In [14]:
m = df.groupby('customerid')['month'].agg({'month':lambda x: x.max()})

df1 = df[df['customerid'].isin(m[m['month'] == 1].index)] # Только 1 месяц
df2 = df[df['customerid'].isin(m[m['month'] == 2].index)] # Только 1 и 2 месяц
df3 = df[df['customerid'].isin(m[m['month'] == 3].index)] # Все 3 месяца

df_tst = df2[df2['customerid'].isin(df2['customerid'].unique()[7160:])] # Разносим трейн и тест в соотношении 70%\30%
df_trn = df2.drop(df_tst.index)

train = pd.concat([df1, df_trn], axis = 0)
test = pd.concat([df3, df_tst], axis = 0)

is deprecated and will be removed in a future version
  """Entry point for launching an IPython kernel.


##### Добавим новый признак, который будет отображать разницу между минимальным и максимальным значением для предикторов 
##### 'avgcallduration' и 'totalcallduration':

In [15]:
k1 = train.groupby(['customerid']).agg({'avgcallduration': lambda x: x.max() - x.min(), 
                                      'totalcallduration': lambda x:x.max() - x.min(),
                                      'customerid':lambda x: x.min()})
k2 = test.groupby(['customerid']).agg({'avgcallduration': lambda x: x.max() - x.min(), 
                                      'totalcallduration': lambda x:x.max() - x.min(),
                                      'customerid':lambda x: x.min()})

train = train.merge(k1, left_on='customerid', right_on='customerid')
test = test.merge(k2, left_on='customerid', right_on='customerid')

#####  Для категориальных и некоторых дискретных переменных с малым количеством уникальных значений произведем кодирование
#####  частотами (frequency_encoding), а также средним значением целевой переменной (mean_target_encoding):

In [16]:
for i in ['occupation',                       
'state',                           
'numberofcomplaints',                                 
'numberofmonthunpaid',                             
'callfailurerate', 
'calldroprate', 'customersuspended', 'homeowner', 'education', 'maritalstatus', 'gender']:
    freq_encoding = train[i].value_counts() / len(train[i])
    train[i + 'freq'] = train[i].map(freq_encoding)
    test[i + 'freq'] = test[i].map(freq_encoding)
    
    train[i + ' mean'] = train[i].map(train.groupby(i)['churn'].mean())
    test[i + ' mean'] = test[i].map(train.groupby(i)['churn'].mean())

In [17]:
# Удаляем "бесполезные переменные":
train.drop(['customerid', 'year', 'state', 'occupation', 'callingnum'], axis = 1, inplace = True)
test.drop(['customerid', 'year', 'state', 'occupation', 'callingnum'], axis = 1, inplace = True)

In [18]:
y_train = train['churn']
train.drop('churn', axis=1, inplace = True)

y_test = test['churn']
test.drop('churn', axis=1, inplace = True)

In [19]:
from sklearn.preprocessing import StandardScaler
 
scaler = StandardScaler()

scaler.fit(train)

train_s = scaler.transform(train)
test_s = scaler.transform(test)

##### Построим модель логистической регресии (для этого, шагом ранее делалось масштабирование):

In [20]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold

logreg_grid = LogisticRegression() 

param_grid = {'C': [0.001, 0.005, 0.01, 0.05, 0.1, 0.2, 2], 'penalty' :['l1', 'l2']} # Задаем решетку гиперпараметров. 

stratcv = StratifiedKFold(n_splits=5) # Указываем количество блоков для кросс-валидации.

#создаем экземпляр класса GridSearchCV
grid_search = GridSearchCV(logreg_grid, param_grid, 
                           scoring='roc_auc', 
                           n_jobs=-1, cv=stratcv)

grid_search.fit(train_s, y_train)

test_score = roc_auc_score(y_test, grid_search.predict_proba(test_s)[:, 1])
#смотрим результаты GridSearchCV
print('AUC на тестовой выборке: {:.3f}'.format(test_score))
print('Наилучшее значение гиперпараметров: {}'.format(grid_search.best_params_))
print('Наилучшее значение AUC: {:.3f}'.format(grid_search.best_score_))

AUC на тестовой выборке: 0.818
Наилучшее значение гиперпараметров: {'C': 0.05, 'penalty': 'l1'}
Наилучшее значение AUC: 0.839


#### Итак, мы получили следующие показатели:
##### AUC_ROC - 0.818

##### Некоторые примечания по оценке качества модели:
##### 1. Кросс-валидация была сделана не совсем корректно - для каждого фолда необходимо было выполнять отдельное кодирование частотами и mean_target. Поэтому реалистичная оценка качества модели будет несколько ниже, хоть и не намного.
##### 2. Также, можно попробовать включить в трейн более ранние месяцы (1 и часть 2), а в тест - более поздние (3 и оставшаяся часть 2)

### Оценка полученных результатов

##### Для оценки результатов необходимо перейти от клиентов к деньгам. Потенциальную прибыль от каждого клиента мы можем посчитать как количество минут (totalcallduration). 
##### Данное предположение конечно же довольно наивно, поскольку мы не учитываем стоимость минут клиента (тариф), размер скидки для удержания и другие факторы.

In [21]:
Evaluate_results = pd.concat([y_test, pd.Series(grid_search.predict(test_s)), test], axis = 1)

In [22]:
# Сначала определим True Positive – случаи, когда модель предсказала отток верно:
TP = Evaluate_results[(Evaluate_results['churn'] == 1) & (Evaluate_results[Evaluate_results.columns[1]] == 1)]

In [23]:
print('Количество минут, потенциально потраченных абонентом, которого "ПОПЫТАЛИСЬ" удержать  -  ', TP['totalcallduration_x'].sum())

Количество минут, потенциально потраченных абонентом, которого "ПОПЫТАЛИСЬ" удержать  -   122140


In [24]:
print('Процент минут отточных абонентов, \
которых удалось удержать к общему числу минут отточных абонентов   -  ', \
      round(TP['totalcallduration_x'].sum()/Evaluate_results[(Evaluate_results['churn'] == 1)]['totalcallduration_x'].sum(), 3), '%')

Процент минут отточных абонентов, которых удалось удержать к общему числу минут отточных абонентов   -   0.304 %


In [25]:
FN = Evaluate_results[(Evaluate_results['churn'] == 1) & (Evaluate_results[Evaluate_results.columns[1]] == 0)]

In [26]:
print('Количество минут, потенциально потраченных абонентом, которого "НЕ ПОПЫТАЛИСЬ" удержать  -  ', FN['totalcallduration_x'].sum())

Количество минут, потенциально потраченных абонентом, которого "НЕ ПОПЫТАЛИСЬ" удержать  -   279617


In [27]:
FP = Evaluate_results[(Evaluate_results['churn'] == 0) & (Evaluate_results[Evaluate_results.columns[1]] == 1)]

In [28]:
print('Количество минут, потенциально потраченных абонентом, которого не нужно было бы удерживать  -  ', FP['totalcallduration_x'].sum())

Количество минут, потенциально потраченных абонентом, которого не нужно было бы удерживать  -   1015847


#### Заключение:

##### Обученная модель выдает верный прогноз для отточных абонентов, которые используют около 30% всех минут оттоковых абонентов. Данных клиентов можно попробовать удержать с помощью предоставления бесплатных минут или перевода на более выгодный тариф.
##### В целях экономии бюджета, выделенного на удержание клиентов, можно не давать или давать минимальные скидки клиентам, чей скор остаться был относительно не высоким. Это можно сделать с помощью оптимального подбора threshold.

##### Также мы можем увидеть, что модель не определяет довольно большой процент оттоковых клиентов, что говорит о её несовершенстве. Возможно, обогащение данными (особенно примерами с положительным классом целевой переменной) поможет улучшить качество модели.