In [1]:
# импортируем библиотеки pandas и numpy, функцию train_test_split()
# и класс SimpleImputer
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer

In [2]:
# записываем CSV-файл в объект DataFrame
data = pd.read_csv('Data/Verizon_missing.csv', sep=';')
# выведем первые 3 наблюдения
data.head(3)

Unnamed: 0,longdist,internat,local,age,income,billtype,pay,churn
0,16.0,0.0,5.0,46.0,34805.5,Бюджетный,CC,0
1,0.0,0.0,5.0,59.0,60111.8,,,1
2,13.0,0.0,,,13126.9,Бюджетный,Auto,0


In [3]:
# разбиваем данные на обучающие и тестовые: получаем обучающий
# массив признаков, тестовый массив признаков, обучающий массив
# меток, тестовый массив меток
train, test, y_train, y_test = train_test_split(data.drop('churn', axis=1), 
                                                data['churn'], 
                                                test_size=.3, 
                                                stratify=data['churn'], 
                                                random_state=100)

In [4]:
# взглянем на обучающий массив признаков
train.head(10)

Unnamed: 0,longdist,internat,local,age,income,billtype,pay
18,19.0,,11.0,88.0,66906.6,Бесплатный,CH
19,19.0,,96.0,79.0,37571.1,Бесплатный,CC
66,0.0,0.0,1.0,94.0,13946.8,Бюджетный,
65,9.0,6.0,12.0,93.0,46771.2,Бюджетный,
74,26.0,0.0,,32.0,,Бюджетный,Auto
96,9.0,0.0,,25.0,52366.4,Бюджетный,CC
47,14.0,0.0,48.0,58.0,4123.46,Бесплатный,CC
107,0.0,0.0,3.0,68.0,14955.8,Бесплатный,CH
11,1.0,0.0,9.0,44.0,11861.4,Бюджетный,CD
86,,4.0,13.0,54.0,27376.0,,CC


In [5]:
# взглянем на тестовый массив признаков
test.head(10)

Unnamed: 0,longdist,internat,local,age,income,billtype,pay
44,3.0,0.0,9.0,45.0,70239.8,Бесплатный,CC
59,21.0,,,33.0,60170.1,,CH
51,29.0,,110.0,29.0,18861.6,Бюджетный,CC
35,12.0,0.0,55.0,62.0,13965.4,Бесплатный,CH
55,25.0,0.0,77.0,95.0,,,Auto
121,14.0,,167.0,83.0,,Бесплатный,CC
91,19.0,,53.0,30.0,17866.9,Бюджетный,Auto
30,20.0,0.0,29.0,58.0,91446.4,Бюджетный,CC
23,2.0,0.0,99.0,29.0,49127.2,Бесплатный,CC
53,0.0,0.0,1.0,75.0,,Бесплатный,CC


In [6]:
# выясняем, есть ли пропуски
print(train.isnull().sum())
print('')
print(test.isnull().sum())

longdist     5
internat    23
local       12
age          8
income      18
billtype    13
pay         13
dtype: int64

longdist     3
internat    11
local        2
age          0
income      11
billtype    11
pay          2
dtype: int64


In [7]:
# взглянем на медиану переменной local
# в обучающем массиве признаков
train['local'].median()

32.5

In [8]:
# создаем экземпляр класса SimpleImputer
simp = SimpleImputer(strategy='median')
# обучаем модель импутации - вычисляем медиану
# переменной local в обучающем массиве
simp.fit(train['local'].values.reshape(-1, 1))

SimpleImputer(copy=True, fill_value=None, missing_values=nan,
       strategy='median', verbose=0)

In [9]:
# применяем модель импутации к переменной local в обучающем массиве признаков: 
# заменяем пропуски переменной в обучающем массиве признаков 
# медианой переменной, вычисленной по ОБУЧАЮЩЕМУ массиву признаков
train['local'] = simp.transform(train['local'].values.reshape(-1, 1))
# применяем модель импутации к переменной local в тестовом массиве признаков: 
# заменяем пропуски переменной в тестовом массиве признаков 
# медианой переменной, вычисленной по ОБУЧАЮЩЕМУ массиву признаков
test['local'] = simp.transform(test['local'].values.reshape(-1, 1))

In [10]:
# взглянем на обучающий массив признаков
train.head(10)

Unnamed: 0,longdist,internat,local,age,income,billtype,pay
18,19.0,,11.0,88.0,66906.6,Бесплатный,CH
19,19.0,,96.0,79.0,37571.1,Бесплатный,CC
66,0.0,0.0,1.0,94.0,13946.8,Бюджетный,
65,9.0,6.0,12.0,93.0,46771.2,Бюджетный,
74,26.0,0.0,32.5,32.0,,Бюджетный,Auto
96,9.0,0.0,32.5,25.0,52366.4,Бюджетный,CC
47,14.0,0.0,48.0,58.0,4123.46,Бесплатный,CC
107,0.0,0.0,3.0,68.0,14955.8,Бесплатный,CH
11,1.0,0.0,9.0,44.0,11861.4,Бюджетный,CD
86,,4.0,13.0,54.0,27376.0,,CC


In [11]:
# взглянем на обучающий массив признаков
test.head(10)

Unnamed: 0,longdist,internat,local,age,income,billtype,pay
44,3.0,0.0,9.0,45.0,70239.8,Бесплатный,CC
59,21.0,,32.5,33.0,60170.1,,CH
51,29.0,,110.0,29.0,18861.6,Бюджетный,CC
35,12.0,0.0,55.0,62.0,13965.4,Бесплатный,CH
55,25.0,0.0,77.0,95.0,,,Auto
121,14.0,,167.0,83.0,,Бесплатный,CC
91,19.0,,53.0,30.0,17866.9,Бюджетный,Auto
30,20.0,0.0,29.0,58.0,91446.4,Бюджетный,CC
23,2.0,0.0,99.0,29.0,49127.2,Бесплатный,CC
53,0.0,0.0,1.0,75.0,,Бесплатный,CC


In [12]:
# создаем список количественных переменных
numeric_cols = ['longdist', 'internat', 'age', 'income']
# обучаем модель импутации - вычисляем медианы переменных
# longdist и internat в обучающем массиве признаков
simp.fit(train[numeric_cols])
# применяем модель импутации к указанным переменным в обучающем массиве признаков: 
# заменяем пропуски каждой переменной в обучающем массиве признаков 
# медианой соответствующей переменной, вычисленной по ОБУЧАЮЩЕМУ массиву признаков
train[numeric_cols] = simp.transform(train[numeric_cols])
# применяем модель импутации к указанным переменным в тестовом массиве признаков: 
# заменяем пропуски каждой переменной в тестовом массиве признаков 
# медианой соответствующей переменной, вычисленной по ОБУЧАЮЩЕМУ массиву признаков
test[numeric_cols] = simp.transform(test[numeric_cols])
# создаем список категориальных переменных
cat_cols = ['billtype', 'pay']
# создаем экземпляр класса SimpleImputer
simp2 = SimpleImputer(strategy='most_frequent')
# обучаем модель импутации - вычисляем моды переменных
# billtype и pay в обучающем массиве признаков
simp2.fit(train[cat_cols])
# применяем модель импутации к указанным переменным в обучающем массиве признаков: 
# заменяем пропуски каждой переменной в обучающем массиве признаков 
# модой соответствующей переменной, вычисленной по ОБУЧАЮЩЕМУ массиву признаков
train[cat_cols] = simp2.transform(train[cat_cols])
# применяем модель импутации к указанным переменным в тестовом массиве признаков: 
# заменяем пропуски каждой переменной в тестовом массиве признаков 
# модой соответствующей переменной, вычисленной по ОБУЧАЮЩЕМУ массиву признаков
test[cat_cols] = simp2.transform(test[cat_cols])

In [13]:
# взглянем на обучающий массив признаков
train.head(10)

Unnamed: 0,longdist,internat,local,age,income,billtype,pay
18,19.0,0.0,11.0,88.0,66906.6,Бесплатный,CH
19,19.0,0.0,96.0,79.0,37571.1,Бесплатный,CC
66,0.0,0.0,1.0,94.0,13946.8,Бюджетный,CC
65,9.0,6.0,12.0,93.0,46771.2,Бюджетный,CC
74,26.0,0.0,32.5,32.0,41031.4,Бюджетный,Auto
96,9.0,0.0,32.5,25.0,52366.4,Бюджетный,CC
47,14.0,0.0,48.0,58.0,4123.46,Бесплатный,CC
107,0.0,0.0,3.0,68.0,14955.8,Бесплатный,CH
11,1.0,0.0,9.0,44.0,11861.4,Бюджетный,CD
86,17.0,4.0,13.0,54.0,27376.0,Бюджетный,CC


In [14]:
# импортируем класс OneHotEncoder
from sklearn.preprocessing import OneHotEncoder
# создаем экземпляр класса OneHotEncoder
ohe = OneHotEncoder(sparse=False, handle_unknown='ignore')
# копируем переменную pay в обучающем массиве признаков
ohe_train = train[['pay']].copy()
# обучаем модель дамми-кодирования - определяем дамми для переменной
# pay в обучающем массиве признаков
ohe.fit(ohe_train)
# выполняем дамми-кодирование переменной 
# pay в обучающем массиве признаков
ohe_train_transformed = ohe.transform(ohe_train)
# смотрим первые 10 наблюдений
ohe_train_transformed[:10]

array([[0., 0., 0., 1.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 0., 1.],
       [0., 0., 1., 0.],
       [0., 1., 0., 0.]])

In [15]:
# копируем переменную pay в тестовом массиве признаков
ohe_test = test[['pay']].copy()
# заменяем значение в переменной HouseStyle
ohe_test.iloc[0, 0] = 'new_category'
# выводим первые три наблюдения
ohe_test.head(3)

Unnamed: 0,pay
44,new_category
59,CH
51,CC


In [16]:
# выполняем дамми-кодирование переменной 
# pay в тестовом массиве признаков
ohe_test_transformed = ohe.transform(ohe_test)
# смотрим первые три наблюдения
ohe_test_transformed[:3]

array([[0., 0., 0., 0.],
       [0., 0., 0., 1.],
       [0., 1., 0., 0.]])