<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-и-изучение-данных" data-toc-modified-id="Загрузка-и-изучение-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка и изучение данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Разбиение-данных-на-выборки" data-toc-modified-id="Разбиение-данных-на-выборки-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Разбиение данных на выборки</a></span><ul class="toc-item"><li><span><a href="#Выводы" data-toc-modified-id="Выводы-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Выводы</a></span></li></ul></li><li><span><a href="#Исследование-модели" data-toc-modified-id="Исследование-модели-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследование модели</a></span><ul class="toc-item"><li><span><a href="#Модель-«дерево-решений»" data-toc-modified-id="Модель-«дерево-решений»-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Модель «дерево решений»</a></span></li><li><span><a href="#Модель-«случайный-лес»" data-toc-modified-id="Модель-«случайный-лес»-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Модель «случайный лес»</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Проверка-модели-на-тестовой-выборке" data-toc-modified-id="Проверка-модели-на-тестовой-выборке-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка модели на тестовой выборке</a></span><ul class="toc-item"><li><span><a href="#Модель-«дерево-решений»" data-toc-modified-id="Модель-«дерево-решений»-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Модель «дерево решений»</a></span></li><li><span><a href="#Модель-«случайный-лес»" data-toc-modified-id="Модель-«случайный-лес»-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Модель «случайный лес»</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Проверка-модели-на-адекватность" data-toc-modified-id="Проверка-модели-на-адекватность-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка модели на адекватность</a></span></li></ul></div>

# Рекомендация тарифов

**Краткое описание**

Предоставлены данные о поведении клиентов, которые уже перешли на исследуемые тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф.

Необходимо построить модель с максимально большим значением *accuracy*. Долю правильных ответов нужно довести по крайней мере до 0.75.

**Цель**

Получение навыков работы с библиотекой для реализации моделей машинного обучения `sklearn`.

**Структура исследования**
1. Загрузка и изучение данных
2. Разбиение данных на выборки
3. Исследование модели
4. Проверка модели на тестовой выборке
5. Проверка модели на адекватность

**Использование дополнительных модулей и библиотек**
- `pandas` – редактор баз данных  
- `sklearn` – машинное обучение

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier

## Загрузка и изучение данных

In [2]:
df = pd.read_csv('users_behavior.csv')
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


Расшифровка названий столбцов:

`сalls` — количество звонков  
`minutes` — суммарная длительность звонков в минутах  
`messages` — количество sms-сообщений  
`mb_used` — израсходованный интернет-трафик в Мб  
`is_ultra` — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0)

In [3]:
# общие сведения о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Пропуски данных в исследуемом датафрейме отсутствуют.

In [4]:
# общая статистика числовых характеристик датафрейма
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


### Вывод
Поскольку предварительная обработка исследуемого датафрейма была выполнена ранее, данные полностью готовы для передачи в модели машинного обучения.

## Разбиение данных на выборки

In [5]:
# разделим датафрейм на полную обучающую 'df_full_train' и тестовую выборки 'df_test'
df_full_train, df_test = train_test_split(df, test_size=0.2, random_state=12345)

# разделим полную обучающую выборку на обучающую 'df_train' и валидационную 'df_val'
df_train, df_val = train_test_split(df_full_train, test_size=0.25, random_state=12345)

# извлечение 25% на валидационную выборку позволило уравнять количество строк для 'df_val' и 'df_test'
# 20% – первое разделение
# 20%/80% = 1/4 (или 0.25) – второе разделение
len(df_train), len(df_val), len(df_test)

(1928, 643, 643)

In [6]:
# сброс счетчика индексов
df_train = df_train.reset_index(drop=True)
df_val = df_val.reset_index(drop=True)
df_test = df_test.reset_index(drop=True)

In [7]:
# разделение выборки 'df_train' на признаки 'df_train_features' и метки 'df_train_target'
df_train_features = df_train.drop('is_ultra', axis=1)
df_train_target = df_train['is_ultra']

# разделение выборки 'df_val' на признаки 'df_val_features' и метки 'df_val_target'
df_val_features = df_val.drop('is_ultra', axis=1)
df_val_target = df_val['is_ultra']

# разделение выборки 'df_test' на признаки 'df_test_features' и метки 'df_test_target'
df_test_features = df_test.drop('is_ultra', axis=1)
df_test_target = df_test['is_ultra']

### Выводы
Выполнена разбивка исследуемого датафрейма на три выборки: обучающую `df_train`, валидационную `df_val` и тестовую `df_test`. Далее для каждой группы выполнено деление на выборки: `признаки` и `метки`.

## Исследование модели

### Модель «дерево решений»

In [8]:
# базовая модель
model_DTC = DecisionTreeClassifier(random_state=12345)

model_DTC.fit(df_train_features, df_train_target)

answer_DTC = model_DTC.predict(df_val_features)

accuracy_DTC = accuracy_score(df_val_target, answer_DTC)
print('accuracy =', accuracy_DTC.round(4))

accuracy = 0.7123


In [9]:
# модель с подбором гиперпараметров
best_accuracy = 0.7
best_depth = 0
best_split = 0
best_leaf = 0

for depth in range(1, 15):
    for split in range(2, 11):
        for leaf in range(1, 15):
            model_DTC_adj = DecisionTreeClassifier(random_state=12345,
                                                   max_depth=depth,
                                                   min_samples_split=split, 
                                                   min_samples_leaf=leaf)
            model_DTC_adj.fit(df_train_features, df_train_target)
            answer_DTC_adj = model_DTC_adj.predict(df_val_features)
            accuracy_DTC_adj = accuracy_score(df_val_target, answer_DTC_adj)

            if accuracy_DTC_adj > best_accuracy:
                best_accuracy = accuracy_DTC_adj
                best_depth = depth
                best_split = split
                best_leaf = leaf
                
            
print('MAX accuracy:', best_accuracy.round(4), '\n',
      'Максимальная глубина:', best_depth, '\n',
      'Минимальное количество образцов:', best_split, '\n',
      'Минимальное количество выборок:', best_leaf, '\n',)

MAX accuracy: 0.7932 
 Максимальная глубина: 10 
 Минимальное количество образцов: 2 
 Минимальное количество выборок: 14 



### Модель «случайный лес»

In [10]:
# базовая модель
model_RFC = RandomForestClassifier(random_state=12345, n_estimators=3)

model_RFC.fit(df_train_features, df_train_target)

answer_RFC = model_RFC.predict(df_val_features)

accuracy_RFC = accuracy_score(df_val_target, answer_RFC)
print('accuracy =', accuracy_RFC.round(4))

accuracy = 0.7449


In [11]:
# модель с подбором гиперпараметров
best_accuracy = 0.7
best_est = 0
best_depth = 0
best_split = 0

for est in range(1, 11):
    for depth in range(1, 11):
        for split in range(2, 10):
            model_RFC_adj = RandomForestClassifier(random_state=12345,
                                                   n_estimators=est,
                                                   max_depth=depth,
                                                   min_samples_split=split)
            model_RFC_adj.fit(df_train_features, df_train_target)
            answer_RFC_adj = model_RFC_adj.predict(df_val_features)
            accuracy_RFC_adj = accuracy_score(df_val_target, answer_RFC_adj)

            if accuracy_RFC_adj > best_accuracy:
                best_accuracy = accuracy_RFC_adj
                best_est = est
                best_depth = depth
                best_split = split
                
            
print('MAX accuracy:', best_accuracy.round(4), '\n', # <- округление до 4 знаков
      'Количество деревьев:', best_est, '\n',
      'Максимальная глубина:', best_depth, '\n',
      'Минимальное количество образцов:', best_split, '\n',)

MAX accuracy: 0.8056 
 Количество деревьев: 3 
 Максимальная глубина: 8 
 Минимальное количество образцов: 3 



### Вывод
Подбор гиперпараметров для каждой модели позволил улучшить результаты `accuracy` по сравнению с базовыми примерами, где были использованы настройки по умолчанию.

Модель «случайный лес» показала чуть лучший результат (0.8056) по сравнению с моделью «дерево решений» (0.7932) ввиду своей более лучшей приспособленности для решения задач классификации.

## Проверка модели на тестовой выборке

### Модель «дерево решений»

In [12]:
# проверка модели 'DecisionTreeClassifier' с лучшими гиперпараметрами
model_DTC_best = DecisionTreeClassifier(random_state=12345, 
                                        max_depth=10, 
                                        min_samples_split=2, 
                                        min_samples_leaf=14)

model_DTC_best.fit(df_train_features, df_train_target)

# выполняем предсказания на тестовой выборке 'df_test_features'
answer_DTC_best = model_DTC_best.predict(df_test_features)

accuracy_DTC_best = accuracy_score(df_test_target, answer_DTC_best)
print('accuracy =', accuracy_DTC_best.round(4))

accuracy = 0.7869


### Модель «случайный лес»

In [13]:
# проверка модели 'RandomForestClassifier' с лучшими гиперпараметрами
model_RFC_best = RandomForestClassifier(random_state=12345,
                                       n_estimators=3,
                                       max_depth=8,
                                       min_samples_split=3)

model_RFC_best.fit(df_train_features, df_train_target)

# выполняем предсказания на тестовой выборке 'df_test_features'
answer_RFC_best = model_RFC_best.predict(df_test_features)

accuracy_RFC_best = accuracy_score(df_test_target, answer_RFC_best)
print('accuracy =', accuracy_RFC_best.round(4))

accuracy = 0.7932


### Вывод
По результатам запуска моделей с наилучшими гиперпараметрами на тестовой выборке `df_test_features` и `df_test_target` модель «случайный лес» незначительно опережает «дерево решений» на 0.0063 пункта (или $\approx$ 0,63%).

In [14]:
# модель с подбором гиперпараметров
best_accuracy = -1
best_RFC_model = None

for est in range(1, 11):
    for depth in range(1, 11):
        for split in range(2, 10):
            model_RFC_adj = RandomForestClassifier(random_state=12345,
                                                   n_estimators=est,
                                                   max_depth=depth,
                                                   min_samples_split=split)
            model_RFC_adj.fit(df_train_features, df_train_target)
            answer_RFC_adj = model_RFC_adj.predict(df_val_features)
            accuracy_RFC_adj = accuracy_score(df_val_target, answer_RFC_adj)

            if accuracy_RFC_adj > best_accuracy:
                best_accuracy = accuracy_RFC_adj
                best_RFC_model = model_RFC_adj
                

print('Лучшая модель:', best_RFC_model)

print('Точность на валидации:', best_accuracy.round(4))

# выполняем предсказания на тестовой выборке 'df_test_features'
answer_RFC_best = best_RFC_model.predict(df_test_features)

accuracy_RFC_best = accuracy_score(df_test_target, answer_RFC_best)
print('    Точность на тесте:', accuracy_RFC_best.round(4))

Лучшая модель: RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=8, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=3,
                       min_weight_fraction_leaf=0.0, n_estimators=3,
                       n_jobs=None, oob_score=False, random_state=12345,
                       verbose=0, warm_start=False)
Точность на валидации: 0.8056
    Точность на тесте: 0.7932


## Проверка модели на адекватность

In [15]:
# запускаем простейшую модель классификации 'DummyClassifier()'
dummy_clf = DummyClassifier(random_state=12345)
dummy_clf.fit(df_train_features, df_train_target)

dummy_clf.score(df_test_features, df_test_target).round(4)

0.5754

Точность простейшего классификатора при работе на обучающей выборке `df_train_features`, `df_train_target` и последующей проверке на тестовой выборке `df_test_features`, `df_test_target` оказалась гораздо ниже (на несколько десятков процентов), по сравнению с точностью моделей где заданы параметры по умолчанию.  

Проверка на адекватность пройдена.