# Рекомендация тарифов

 
 <b> Описание проекта </b>
 
 В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»).
 
 <b>Цель проекта</b>
 
 Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.
 
 <b> Задачи проекта</b>
 
 Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.
 
 
 <b>Данной проект разделим на несколько частей:</b>
 
 <b> Изучение общей информации:</b>
 
  [ Импортируем необходимые библиотеки](#step_1)
  
  [ Изучение данных из-файла](#step_2)
  
  [Разобьем данные на выборки](#step_3)
   
  [Исследуем модели](#step_4)
  
  [Проверим модели на тестовой выборке](#step_5)
  
  [Проверим модели на адекватность](#step_6)
  
  [<b> Общий вывод </b>](#step_7)
  
  [Чек-лист готовности проекта](#step_8)

<a id="step_1"></a>
<b> Импортируем необходимые библиотеки.</b>

In [1]:
import pandas as pd #импортируем библиотеку pandas
from sklearn.tree import DecisionTreeClassifier # импортируем из библиотеки sklearn.tree функцию для обучения модели ML обучения посредством дерева решений
from sklearn.metrics import accuracy_score # импортируем из библиотеки sklearn.metrics функцию для подсчета точночти прогноза
from sklearn.ensemble import RandomForestClassifier # импортируем из библиотеки sklearn.ensemble функцию для обучения модели ML обучения посредством случайного леса
from sklearn.linear_model import LogisticRegression # импортируем из библиотеки sklearn.tree функцию для обучения модели ML обучения посредством линейной регрессии
from sklearn.model_selection import train_test_split # импортируем из библиотеки sklearn.model_selection функцию для отбора тренировочной, валидационной и тестовой выборок
from sklearn.dummy import DummyClassifier # импортируем из библиотеки sklearn.model_selection функцию DummyClassifier для обучения модели ML обучения посредством проcтейшей модели
import warnings # импортируем библиотеку warnings для предупрждения ошибок
warnings.filterwarnings('ignore') # заблокируем предупреждения об ошибках

<a id="step_2"></a>
<b> Изучение данных из файла</b>

Присвоим нашей переменной df датафайл и посмотрим из чего он состоит

In [2]:
df = pd.read_csv ('/datasets/users_behavior.csv')
df.info ()
display (df.shape)
display (df.head(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


(3214, 5)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


Наш файл состоит из 3214 строк и 5 столбцов, как сказано из задания выше, данные уже предобработами нами на предыдущем шаге

<a id="step_3"></a>
<b>Разобьем данные на выборки</b>

Создадим из нашего датасета три для корректной работы.
Датасет df_train, состоящий из 60% общих данных для обучения модели
Датасет df_valid, состоящий из 20% общих данных для валидации результатов обученной модели
Датасет df_test, состоящий из 20% общих данных для конечной проверки работоспособности модели

In [3]:
df_train, df_remains = train_test_split (
    df, test_size = 0.4, random_state = 12345)

df_test, df_valid = train_test_split (
    df_remains, test_size = 0.5, random_state = 12345)

Посмотрим на полученные результаты

In [4]:
display (df_train.shape)
display (df_test.shape)
display (df_valid.shape)

(1928, 5)

(643, 5)

(643, 5)

Данные преобразились так, как нам необходимо

<a id="step_4"></a>
<b>Исследуем модели</b>

Для исследования моделей нам необходимо подготовить данные для исследований, исследовать с разными гиперпараметрами модели обучения:
дерево решений
случайный лес
линейную регрессию

Подготовим данные с изучаемыми и целевыми признаками для каждой выборки

In [5]:
#подготовка данных
features_train = df_train.drop (['is_ultra'], axis=1)
target_train = df_train ['is_ultra']
features_valid = df_valid.drop (['is_ultra'], axis=1)
target_valid = df_valid ['is_ultra']
features_test = df_valid.drop (['is_ultra'], axis=1)
target_test = df_valid ['is_ultra']

Найдем наилучшие значения гиперпараметров для дерева решений с наилучшим результатом точночти прогноза

In [6]:
#дерево решений
best_depth = 0
best_accuracy_dtc = 0
for depth in range(1, 10):
    model = DecisionTreeClassifier (random_state = 12345, max_depth = depth) # обучим модель с заданной глубиной дерева
    model.fit (features_train, target_train)
    accuracy = model.score (features_valid, target_valid)
    if accuracy > best_accuracy_dtc:
        best_depth = depth
        best_accuracy_dtc = accuracy
print ("Лучший проход с глубиной:", best_depth, " при лучшем значении accuracy_score в:", best_accuracy_dtc)

Лучший проход с глубиной: 7  при лучшем значении accuracy_score в: 0.7993779160186625


Найдем наилучшие значения гиперпараметров для случайного леса с наилучшим результатом точночти прогноза

In [7]:
#случайный лес
best_max_features = None
best_est = 0
best_accuracy_rfc = 0
for split in ['auto', 'log2', 'sqrt']:
    for est in range(1, 11):
        model = RandomForestClassifier (random_state = 12345, n_estimators = est, max_features = split) # обучим модель с заданным количеством деревьев
        model.fit (features_train, target_train)
        accuracy = model.score (features_valid, target_valid)
        if accuracy > best_accuracy_rfc:
            best_max_features = split
            best_est = est
            best_accuracy_rfc = accuracy#  сохраним наилучшее значение метрики accuracy на валидационных данных

print("Accuracy наилучшей модели на валидационной выборке:", best_accuracy_rfc, ' при количестве деревьев:', best_est, 'при методе max_features:', best_max_features)

Accuracy наилучшей модели на валидационной выборке: 0.7869362363919129  при количестве деревьев: 8 при методе max_features: auto


In [8]:
#логистическая регрессия
model = LogisticRegression (random_state = 12345)
model.fit (features_train, target_train)
accuracy_lr_valid = model.score (features_valid, target_valid)

print("Accuracy модели логистической регрессии на валидационной выборке:", accuracy_lr_valid)

Accuracy модели логистической регрессии на валидационной выборке: 0.7402799377916018


Таким образом получаем, что наилучшими показателями себя показала модель обучения "дерево решений" с глубиной прохода равной 7

<a id="step_5"></a>
<b>Проверем модели на тестовой выборке</b>

Для проверки моделей на тестовой выборке увеличим нашу выборку путем объединения обучающей и валидационной

In [9]:
features_no_test = features_train.append (features_valid)
target_no_test = target_train.append (target_valid)
display (features_no_test.shape)
display (target_no_test.shape)

(2571, 4)

(2571,)

Для проверки нашей модели "дерево решений" возьмем наилучшую глубину равную 7, которую определили на предыдущем шаге

In [10]:
#дерево решений
model = DecisionTreeClassifier (random_state = 12345, max_depth = best_depth)
model.fit (features_no_test, target_no_test)
accuracy = model.score (features_test, target_test)
print ('accuracy_score модели дерева решений на валидационной выборке:', best_accuracy_dtc)
print ('accuracy_score модели дерева решений на тестовой выборке:', accuracy)

accuracy_score модели дерева решений на валидационной выборке: 0.7993779160186625
accuracy_score модели дерева решений на тестовой выборке: 0.8367029548989113


Мы видим, что точность прогноза на тестовой выборке увеличилась с 80% до 84%

Для проверки нашей модели "случайный лес" возьмем наилучшее количество деревьев равное 8, которое определили на предыдущем шаге

In [11]:
#случайный лес
model = RandomForestClassifier (random_state = 12345, n_estimators = best_est, max_features = "auto")
model.fit (features_no_test, target_no_test)
accuracy = model.score (features_test, target_test)
print ('accuracy_score модели случайного леса на валидационной выборке:', best_accuracy_rfc)
print ('accuracy_score модели случайного леса на тестовой выборке:', accuracy)

accuracy_score модели случайного леса на валидационной выборке: 0.7869362363919129
accuracy_score модели случайного леса на тестовой выборке: 0.9595645412130638


Наблюдаем также, что точность прогноза на тестовой выборке увеличилась с 79% до 96%

In [12]:
model = LogisticRegression (random_state = 12345)
model.fit (features_no_test, target_no_test)
accuracy = model.score (features_test, target_test)
print("Aaccuracy_score модели логистической регрессии на валидационной выборке:", accuracy_lr_valid)
print("Aaccuracy_score модели логистической регрессии на тестовой выборке:", accuracy)

Aaccuracy_score модели логистической регрессии на валидационной выборке: 0.7402799377916018
Aaccuracy_score модели логистической регрессии на тестовой выборке: 0.6936236391912908


Наблюдаем, что точность прогноза модели "логистическая регрессия" упала с 74% до 69%

Тем самым можем сделать вывод, что, для наших целей, подойдет с наилучшим результатом предсказания по модели обучения "случайный лес" с количеством деревьев, равном 8

<a id="step_6"></a>
<b>(бонус) Проверим модели на адекватность</b>

In [13]:
# обучим нашу модель простейшей моделью и посмотрим на ее точность прогноза
dummy = DummyClassifier (strategy = "most_frequent", random_state = 0)
dummy.fit (features_no_test, target_no_test)
accuracy = dummy.score (features_test, target_test)
print("Aaccuracy_score простейшей модели на тестовой выборке:", accuracy)

Aaccuracy_score простейшей модели на тестовой выборке: 0.6842923794712286


Точность прогноза на простейшей модели показало нам, что наша модель намного точнее в прогнозах. Соответственно, полностью адекватна.

<a id="step_7"></a>
<b>Общий вывод</b>

В ходе данной работы мы проделали:

- изучили полученные данные
- разбили данные на 3 выборки для обучения моделей
- провели исследования предсказаний трех моделей с изменениями из гиперпараметров
- провели тестирование на тестовой выборке выбранной модели

По результатам проведеного исследования можно рекомендовать для дальнейшей работы по предсказанию выбора тарифа модель машинного обучения "случайное дерево" с количеством деревьев, равным 8.

<a id="step_8"></a>
<b>Чек-лист готовности проекта</b>

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [x] Весь код исполняется без ошибок
- [x] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [X] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75
