# Рекомендация по тарифам

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

In [2]:
data = pd.read_csv('/datasets/users_behavior.csv')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [4]:
data.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


In [5]:
data.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


### Вывод 1

Импортировали библиотеки, загрузили информацию из файла. В качестве целевого признака возьмем столбец is_ultra. Для предсказывания решения по столбцу is_ultra будут использоваться остальные признаки.

Общую выборку разобьем в соотношении 60-20-20

In [6]:
data_train, data_valid_test = train_test_split(data, test_size = 0.4, random_state = 1234)
data_valid, data_test = train_test_split(data_valid_test, test_size = 0.5, random_state = 1234)

In [7]:
print('Размер тренировочной выборки', data_train.shape[0])
print('Размер валидационной выборки', data_valid.shape[0])
print('Размер тестовой выборки', data_test.shape[0])

Размер тренировочной выборки 1928
Размер валидационной выборки 643
Размер тестовой выборки 643


In [8]:
len(data_train)

1928

In [9]:
len(data_valid)

643

In [10]:
len(data_test)

643

Создадим таблицу с целевым признаком и другими признаками для каждого набора данных

In [11]:
features_train = data_train.drop(['is_ultra'], axis = 1)
target_train = data_train['is_ultra']

In [12]:
features_train.head(5)

Unnamed: 0,calls,minutes,messages,mb_used
265,60.0,442.02,16.0,18306.45
1410,42.0,333.36,48.0,14566.34
728,43.0,298.42,12.0,18311.24
552,16.0,132.8,107.0,21893.35
3117,46.0,336.76,49.0,10710.72


In [13]:
target_train.head()

265     1
1410    0
728     0
552     1
3117    0
Name: is_ultra, dtype: int64

In [14]:
features_valid = data_valid.drop(['is_ultra'], axis = 1)
target_valid = data_valid['is_ultra']

In [15]:
features_test = data_test.drop(['is_ultra'], axis = 1)
target_test = data_test['is_ultra']

### Вывод 2

Данные разбиты исходя из соотношения 60-20-20. Обучение будет проходить на выборке data_train; валидация пройдет на выборке data_valid; выбранная лучшая модель будет применена на выборке data_test

Исследуем вариант с деревом решений. В цикле прогоним гиперпараметр max_depth

In [16]:
best_depth = 0
best_accuracy = 0

for depth in range(1, 101):
    model = DecisionTreeClassifier(random_state = 1234, max_depth = depth)
    model.fit(features_train, target_train)
    valid_predictions = model.predict(features_valid)
    accuracy = accuracy_score(target_valid, valid_predictions)
    print('Глубина дерева', depth,'Точность',accuracy)
    if accuracy > best_accuracy:
        best_depth = depth
        best_accuracy = accuracy

print('Лучшая глубина дерева', best_depth,'Лучшая точность', best_accuracy)

Глубина дерева 1 Точность 0.776049766718507
Глубина дерева 2 Точность 0.8009331259720062
Глубина дерева 3 Точность 0.8118195956454122
Глубина дерева 4 Точность 0.8009331259720062
Глубина дерева 5 Точность 0.8087091757387247
Глубина дерева 6 Точность 0.8180404354587869
Глубина дерева 7 Точность 0.8320373250388803
Глубина дерева 8 Точность 0.8242612752721618
Глубина дерева 9 Точность 0.8180404354587869
Глубина дерева 10 Точность 0.8149300155520995
Глубина дерева 11 Точность 0.8180404354587869
Глубина дерева 12 Точность 0.807153965785381
Глубина дерева 13 Точность 0.8040435458786936
Глубина дерева 14 Точность 0.8055987558320373
Глубина дерева 15 Точность 0.7744945567651633
Глубина дерева 16 Точность 0.7744945567651633
Глубина дерева 17 Точность 0.7480559875583204
Глубина дерева 18 Точность 0.7527216174183515
Глубина дерева 19 Точность 0.744945567651633
Глубина дерева 20 Точность 0.7542768273716952
Глубина дерева 21 Точность 0.7620528771384136
Глубина дерева 22 Точность 0.744945567651633
Г

По результатам можем наблюдать, что лучшая точность достигается при глубине дерева решений = 7

Установим criterion = "entropy"

In [26]:
best_tree_model = DecisionTreeClassifier(random_state = 1234, max_depth = 7, criterion = "entropy")
best_tree_model.fit(features_train, target_train)
valid_predictions = best_tree_model.predict(features_valid)
accuracy = accuracy_score(target_valid, valid_predictions)
print('Глубина дерева', 7,'Точность',accuracy)

Глубина дерева 7 Точность 0.8289269051321928


Исследуем подход с случайным лесом

In [27]:
best_estim = 0
best_accuracy = 0

for estim in range(1,101):
    model = RandomForestClassifier(random_state = 1234, n_estimators = estim)
    model.fit(features_train, target_train)
    valid_predictions = model.predict(features_valid)
    accuracy = accuracy_score(target_valid, valid_predictions)
    print('Количество деревьев', estim,'Точность',accuracy)
    if accuracy > best_accuracy:
        best_estim = estim
        best_accuracy = accuracy

print('Лучшая количество деревьев', best_estim,'Лучшая точность', best_accuracy)

Количество деревьев 1 Точность 0.7418351477449455
Количество деревьев 2 Точность 0.7636080870917574
Количество деревьев 3 Точность 0.7729393468118196
Количество деревьев 4 Точность 0.7962674961119751
Количество деревьев 5 Точность 0.7900466562986003
Количество деревьев 6 Точность 0.80248833592535
Количество деревьев 7 Точность 0.7900466562986003
Количество деревьев 8 Точность 0.8009331259720062
Количество деревьев 9 Точность 0.7822706065318819
Количество деревьев 10 Точность 0.80248833592535
Количество деревьев 11 Точность 0.7900466562986003
Количество деревьев 12 Точность 0.8055987558320373
Количество деревьев 13 Точность 0.7900466562986003
Количество деревьев 14 Точность 0.8040435458786936
Количество деревьев 15 Точность 0.7962674961119751
Количество деревьев 16 Точность 0.8055987558320373
Количество деревьев 17 Точность 0.8087091757387247
Количество деревьев 18 Точность 0.8118195956454122
Количество деревьев 19 Точность 0.8087091757387247
Количество деревьев 20 Точность 0.8087091757

По результатам можем наблюдать, что лучшая точность достигается при количестве деревьев = 54

In [28]:
best_forest_model = RandomForestClassifier(random_state = 1234, n_estimators = 54)
best_forest_model.fit(features_train, target_train)
valid_predictions = best_forest_model.predict(features_valid)
accuracy = accuracy_score(target_valid, valid_predictions)
print('Количество деревьев', 54,'Точность',accuracy)

Количество деревьев 54 Точность 0.8242612752721618


In [29]:
model = RandomForestClassifier(random_state = 1234, n_estimators = 54, criterion = 'entropy')
model.fit(features_train, target_train)
valid_predictions = model.predict(features_valid)
accuracy = accuracy_score(target_valid, valid_predictions)
print('Количество деревьев', estim,'Точность',accuracy)

Количество деревьев 100 Точность 0.8258164852255054


In [30]:
model = RandomForestClassifier(random_state = 1234, n_estimators = 54, bootstrap = False)
model.fit(features_train, target_train)
valid_predictions = model.predict(features_valid)
accuracy = accuracy_score(target_valid, valid_predictions)
print('Количество деревьев', estim,'Точность',accuracy)

Количество деревьев 100 Точность 0.7978227060653188


In [31]:
model = RandomForestClassifier(random_state = 1234, n_estimators = 54, warm_start = True)
model.fit(features_train, target_train)
valid_predictions = model.predict(features_valid)
accuracy = accuracy_score(target_valid, valid_predictions)
print('Количество деревьев', estim,'Точность',accuracy)

Количество деревьев 100 Точность 0.8242612752721618


Рассмотрены три разных варианта использования параметров, лучший из которых с criterion = 'entropy'

Рассмотрим вариант с логистической регрессии

In [32]:
best_max_iter = 0
best_accuracy = 0

for max_iter in range(1,201):
    model = LogisticRegression(random_state = 1234, max_iter = max_iter)
    model.fit(features_train, target_train)
    valid_predictions = model.predict(features_valid)
    accuracy = accuracy_score(target_valid, valid_predictions)
    print('Количество итерраций', max_iter,'Точность',accuracy)
    if accuracy > best_accuracy:
        best_max_iter = max_iter
        best_accuracy = accuracy

print('Лучшая количество итерраций', best_max_iter,'Лучшая точность', best_accuracy)

Количество итерраций 1 Точность 0.7060653188180405
Количество итерраций 2 Точность 0.7060653188180405
Количество итерраций 3 Точность 0.7060653188180405
Количество итерраций 4 Точность 0.7060653188180405
Количество итерраций 5 Точность 0.7060653188180405
Количество итерраций 6 Точность 0.7060653188180405
Количество итерраций 7 Точность 0.7060653188180405
Количество итерраций 8 Точность 0.7060653188180405
Количество итерраций 9 Точность 0.7076205287713841
Количество итерраций 10 Точность 0.7076205287713841
Количество итерраций 11 Точность 0.7107309486780715
Количество итерраций 12 Точность 0.7216174183514774
Количество итерраций 13 Точность 0.7216174183514774
Количество итерраций 14 Точность 0.7216174183514774
Количество итерраций 15 Точность 0.7216174183514774
Количество итерраций 16 Точность 0.7216174183514774
Количество итерраций 17 Точность 0.7216174183514774
Количество итерраций 18 Точность 0.7216174183514774
Количество итерраций 19 Точность 0.7216174183514774
Количество итерраций 

Лучшая точность получается при количестве итераций = 12

In [33]:
best_reg_model = LogisticRegression(random_state = 1234)
best_reg_model.fit(features_train, target_train)
valid_predictions = best_reg_model.predict(features_valid)
accuracy = accuracy_score(target_valid, valid_predictions)
print('Количество итерраций', 12,'Точность',accuracy)

Количество итерраций 12 Точность 0.7216174183514774


### Вывод 3

По результатам исследования можно сдлеать следующий вывод - точность модели дерева решений при глубине 7 = 0.832, точность модели случайного леса при количестве деревьев 54 =  0.8242, точность модели логистической регрессии  = 0.7216

Рассмотрим точность модели на тестовой выборке.

In [34]:
test_predictions = best_tree_model.predict(features_test)
accuracy = accuracy_score(target_test, test_predictions)
print('Точность модели решающего леса на тестовой выборке',accuracy)

test_predictions = best_forest_model.predict(features_test)
accuracy = accuracy_score(target_test, test_predictions)
print('Точность модели случайного леса на тестовой выборке',accuracy)

test_predictions = best_reg_model.predict(features_test)
accuracy = accuracy_score(target_test, test_predictions)
print('Точность модели логистической регресиии на тестовой выборке',accuracy)

Точность модели решающего леса на тестовой выборке 0.8055987558320373
Точность модели случайного леса на тестовой выборке 0.8055987558320373
Точность модели логистической регресиии на тестовой выборке 0.7076205287713841


### Вывод 4

В случае, если выборка будет небольшой, лучше использовть модель случайного леса

Модель проверяют на адекватность используя ряд метрик - accuracy, precision, recall

In [36]:
test_predictions = best_forest_model.predict(features_test)
accuracy = accuracy_score(target_test, test_predictions)
precision = precision_score(target_test, test_predictions)
recall = recall_score(target_test, test_predictions)
print('Accuracy =', accuracy, 'Precision =', precision, 'Recall =', recall)

Accuracy = 0.8055987558320373 Precision = 0.7346938775510204 Recall = 0.5567010309278351


Используем F-оценку для оценки адеватности модели, которая показывает среднее отношение между метриками precision и recall. Если хотя бы один из параметров близок к нулю, то и F-оценка стремится к 0, в противном случаен F-оценка стремится к 1.

In [37]:
f_measure = f1_score(target_test, test_predictions)
print('F-мера =', f_measure)

F-мера = 0.6334310850439883


### Вывод 5

Для модели классификации адекватность оценивается через расчет accuracy, precision и recall. При этом качество модели лучше всего отражают precision и recall и эти метрики складываются в F-оценку как единую оценку модели. Модель получилась среднего качества. 