# Рекомендация тарифов

## Подготовим данные

In [33]:
# Импорт библиотек.
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Чтение файла с данными и сохранение в tariff.
tariff = pd.read_csv('/datasets/users_behavior.csv')

In [34]:
# Получение первых 5 строк таблицы tariff и общую информацию о данных в таблице.
display(tariff.head())
display(tariff.info())

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


None

In [35]:
# Проверим на наличие явных дубликатов
tariff.duplicated().sum()

0

Датасет состоит из 3214 строк и 5 столбцов. Пропуски и дублткаты отсутствуют, тип данных столбцов соответствует содержанию.
Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц.
- сalls — количество звонков,
- minutes — суммарная длительность звонков в минутах,
- messages — количество sms-сообщений,
- mb_used — израсходованный интернет-трафик в Мб,
- is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

Необходимо разбить данные на 3 выборки - обучающую, валидационную и тестовую. Для этого разделим датасет на 2 части (60% обучающая и 40 % остальная). Остальную выборку разделим на 2 части, на тестовую и валидационную выборки (50/50). Таким образом мы разобьем датасет на обучающую, валидационную и тестовую выборки в соотношении 3:1:1.

In [36]:
# Разделим  данные на обучающую выборку и остальную
tariff_train, tariff_other = train_test_split(tariff, test_size=0.4, random_state=1234)

# Разделим остальную выборку на валидационную и тестовую.
tariff_test, tariff_valid = train_test_split(tariff_other, test_size=0.5, random_state=1234)

In [37]:
# Прповерим соотношение выборок
display(tariff_train.shape)
display(tariff_test.shape)
display(tariff_valid.shape)

(1928, 5)

(643, 5)

(643, 5)

Разбили данные на 3 выборки:
- tariff_train - обучающая выборка (60%);
- tariff_valid - валидационная выборка (20%);
- tariff_test - тестовая выборка (20%).

## Исследуем модели

In [38]:
# Создадим признаки и целевой признак для обучающей выборки
features_train = tariff_train.drop(['is_ultra'], axis=1)
target_train = tariff_train['is_ultra']

# Создадим признаки и целевой признак для валидационной выборки
features_valid = tariff_valid.drop(['is_ultra'], axis=1)
target_valid = tariff_valid['is_ultra']

### Решающее дерево

In [39]:
# обучим модель DecisionTreeClassifier на обучающей выборке и проверим на вылидационной выборке
best_model = None
best_result = 0
best_dept = 0

for depth in range(1, 10):
    model_decision_tree = DecisionTreeClassifier(random_state=1234, max_depth=depth)
    model_decision_tree.fit(features_train, target_train)
    result = model_decision_tree.score(features_valid, target_valid)
    if result > best_result:
        best_model = model_decision_tree
        best_result = result
        best_dept = depth
           
print('Accuracy модели логистической регрессии на валидационной выборке:', best_result, 'при max_depth =', depth)

Accuracy модели логистической регрессии на валидационной выборке: 0.8055987558320373 при max_depth = 9


### Случайный лес

In [40]:
# обучим модель RandomForestClassifier на обучающей выборке и проверим на валидационной выборке
best_model = None
best_result = 0

for est in range(1, 15):
    model_random_forest = RandomForestClassifier(random_state=1234, n_estimators=est)
    model_random_forest.fit(features_train, target_train)
    result = model_random_forest.score(features_valid, target_valid)
    if result > best_result:
        best_model = model_random_forest
        best_result = result
                   
print('Accuracy модели логистической регрессии на валидационной выборке:', best_result, 'при n_estimators =', est)

Accuracy модели логистической регрессии на валидационной выборке: 0.7978227060653188 при n_estimators = 14


In [41]:
# обучим модель RandomForestClassifier на обучающей выборке и проверим на валидационной выборке
best_model = None
best_result = 0
best_est = 0
best_depth = 0

for est in range(1, 16):
    for depth in range(1, 11):
        model_random_forest = RandomForestClassifier(random_state=1234, n_estimators=est, max_depth=depth)
        model_random_forest.fit(features_train, target_train)
        result = model_random_forest.score(features_valid, target_valid)
        if result > best_result:
            best_model = model_random_forest
            best_result = result
            best_est = est
            best_depth = depth
            
                   
print('Accuracy модели логистической регрессии на валидационной выборке:', best_result, 'при n_estimators =', est, 
      'при max_depth =', depth)

Accuracy модели логистической регрессии на валидационной выборке: 0.8195956454121306 при n_estimators = 15 при max_depth = 10


### Логистическая регрессия

In [42]:
# обучим модель LogisticRegression на обучающей выбоке и проверим на валидационной выборке
model_logistic_regression = LogisticRegression(random_state=1234, C=1, class_weight=None, dual=False, 
                                               fit_intercept=True, intercept_scaling=1, 
                                               l1_ratio=None, max_iter=100,
                                               multi_class='warn', n_jobs=None, penalty='l2',
                                               solver='lbfgs', tol=0.0001, verbose=0, 
                                               warm_start=False)
model_logistic_regression.fit(features_train, target_train)
result = model_logistic_regression.score(features_valid, target_valid)

print('Accuracy модели логистической регрессии на валидационной выборке:', result)

Accuracy модели логистической регрессии на валидационной выборке: 0.744945567651633


- Модель решающего дерева показала точность 0.805 при max_depth = 9;
- Модель случайного леса на валидационной выборке показала точность 0.819 при n_estimators = 15 и max_depth = 10. Модель случайного леса лучше двух других моделей показала точность;
- Модель логистической регрессии с разными гиперпараметрами на валидационной выборке показала точность 0.744 и не прошла порог в 0.75. Проверим ее точность на тестовой выборке.

## Проверка модели на тестовой выборке

In [43]:
# Объединим обучающую и валидационныю выборки для последующего обучения
features_merged = features_train.append(features_valid)
target_merged = target_train.append(target_valid)

# Создадим признаки и целевой признак для тестовой выборки
features_test = tariff_test.drop(['is_ultra'], axis=1)
target_test = tariff_test['is_ultra']


### Решающее дерево при обучении на объединенной выборке

In [44]:
# обучим модель DecisionTreeClassifier на объединенной выборке и проверим на тестовой выборке
model_decision_tree = DecisionTreeClassifier(random_state=1234, max_depth=9)
model_decision_tree.fit(features_merged, target_merged)
model_decision_tree.predict(features_test)
result = model_decision_tree.score(features_test, target_test)

print('Accuracy модели логистической регрессии на тестовой выборке:', result)

Accuracy модели логистической регрессии на тестовой выборке: 0.8118195956454122


### Решающее дерево при обучении на обучающей выборке

In [45]:
# обучим модель DecisionTreeClassifier на обучающей выборке и проверим на тестовой выборке
model_decision_tree = DecisionTreeClassifier(random_state=1234, max_depth=9)
model_decision_tree.fit(features_train, target_train)
model_decision_tree.predict(features_test)
result = model_decision_tree.score(features_test, target_test)

print('Accuracy модели логистической регрессии на тестовой выборке:', result)

Accuracy модели логистической регрессии на тестовой выборке: 0.8180404354587869


### Случайный лес при обучении на объединенной выборке

In [47]:
# обучим модель RandomForestClassifier на объединенной выборке и проверим на тестовой выборке
model_random_forest = RandomForestClassifier(random_state=1234, n_estimators=15, max_depth=10)
model_random_forest.fit(features_merged, target_merged)
model_random_forest.predict(features_test)
result = model_random_forest.score(features_test, target_test)

print('Accuracy модели логистической регрессии на тестовой выборке:', result)

Accuracy модели логистической регрессии на тестовой выборке: 0.833592534992224


### Случайный лес при обучении на обучающей выборке

In [48]:
# обучим модель RandomForestClassifier на обучающей выборке и проверим на тестовой выборке
model_random_forest = RandomForestClassifier(random_state=1234, n_estimators=14)
model_random_forest.fit(features_train, target_train)
model_random_forest.predict(features_test)
result = model_random_forest.score(features_test, target_test)

print('Accuracy модели логистической регрессии на тестовой выборке:', result)

Accuracy модели логистической регрессии на тестовой выборке: 0.8040435458786936


In [49]:
# обучим модель RandomForestClassifier на обучающей выборке и проверим на тестовой выборке
model_random_forest = RandomForestClassifier(random_state=1234, n_estimators=15, max_depth=10)
model_random_forest.fit(features_train, target_train)
model_random_forest.predict(features_test)
result = model_random_forest.score(features_test, target_test)

print('Accuracy модели логистической регрессии на тестовой выборке:', result)

Accuracy модели логистической регрессии на тестовой выборке: 0.8304821150855366


### Логистическая регрессия при обучении на объединенной выборке

In [50]:
# обучим модель LogisticRegression на объединенной выбоке и проверим на тестовой выборке
model_logistic_regression = LogisticRegression(random_state=1234, solver='lbfgs')
model_logistic_regression.fit(features_merged, target_merged)
model_logistic_regression.predict(features_test)
result = model_logistic_regression.score(features_test, target_test)

print('Accuracy модели логистической регрессии на тестовой выборке:', result)

Accuracy модели логистической регрессии на тестовой выборке: 0.71850699844479


### Логистическая регрессия при обучении на обучающей выборке

In [51]:
# обучим модель LogisticRegression на обучающей выбоке и проверим на тестовой выборке
model_logistic_regression = LogisticRegression(random_state=1234, solver='lbfgs')
model_logistic_regression.fit(features_train, target_train)
model_logistic_regression.predict(features_test)
result = model_logistic_regression.score(features_test, target_test)

print('Accuracy модели логистической регрессии на тестовой выборке:', result)

Accuracy модели логистической регрессии на тестовой выборке: 0.7589424572317263


- Модель решающего дерева в тестовой выборке при обучении на обучающей выборке показала точность 0.818 при max_depth = 9, хотя при обучении на объединенной выборке показала точность 0.811 (увеличилась);
- Модель случайного леса в тестовой выборке при обучении на обучающей выборке показала точность 0.83 при n_estimators = 15 и max_depth = 10, а  при обучении на объединенной выборке показала точность 0.833 (уменьшилась)
- Модель логистической регрессии в тестовой выборке при обучении на обучающей выборке показала точность 0.758 (увеличилась по сравнению с валидационной выборкой и прошла минимальный порог), а при обучении на объединенной выборке показала точность 0.718, не проходила порог в 0.75, также как и на валидационной выборке. 

## Проверка модели на адекватность

Чтобы оценить адекватность модели в задачах классификации, нужно сравнить её со случайной. Так как у нас существует 2 значения целевого признака 0 и 1, то при предсказывании одного из двух случайных значений вероятность предсказать правильное значение была бы 50 % или 0.5, а модель решающего дерева показала 0.818, что превышает значение при случайном предсказывании, следовательно модель можно считать адекватной.

In [53]:
from sklearn.dummy import DummyClassifier

clf = DummyClassifier(strategy='most_frequent', random_state=1234)
clf.fit(features_train, target_train)
score = clf.score(features_test, target_test)

print('Accuracy простейшей модели на тестовой выборке:', score)

Accuracy модели простейшей модели на тестовой выборке: 0.7060653188180405


Accuracy простейшей модели, которая предсказывает наиболее часто встречающийся класс, на тестовой выборке: 0.7, что значит, что простейшая модель ошибается в 30 %, а точность модели случайного леса на тестовой выборке составляет 0.83, ошибается в 17 %, что почти в 2 раза меньше, чем у простейшей модели. Следовательно, проверка на адекватность пройдена.