# Рекомендация тарифов

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

**Цель исследования:** построить модель с наибольшим значением accuracy.
    
**Задачи исследования:**
- изучить данные и определить признаки и целевой признак
- разделить данные на обучающую, валидационную и тестовую выборки
- построить разные модели, меняя гиперпараметры
- найти модель с наибольшим значением accuracy
- проверить 

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Импортирую все нужные в исследовании библиотеки.

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Открою файл и сохраню его в переменную df.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Изучу датасет. Общий объём данных - 3214 строк.

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

В датасете есть пять столбцов - количество звонков, суммарная длительность звонков в минутах, количество sms-сообщений, израсходованный интернет-трафик в Мб и каким тарифом пользовался клиент в течение месяца.\
Моя задача - построить модель для задачи классификации, которая выберет подходящий тариф. Это значит, что целевой признак - 'is_ultra'.

In [4]:
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Сохраню признаки и целевой признак в переменные features и target.

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

**Вывод:** я изучила данные и выделила признаки и целевой признак.

## Разбейте данные на выборки

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Нужно разделить данные на три выборки: тренировочную, валидационную и тестовую. Тренировочная выборка составит 60% от всех данных, валидационная - 20%, тестовая - 20%.

In [5]:
features_train_valid, features_test, target_train_valid, target_test = \
train_test_split(features, target, test_size=0.2, random_state=12345)

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Выделю сначала тестовую выборку и сохраню её в переменные features_test и target_test. Так как тестовая выборка составляет 20% от всех данных, параметр test_size указываю равным 0.2.

In [6]:
features_train, features_valid, target_train, target_valid = \
train_test_split(features_train_valid, target_train_valid, test_size=0.25, random_state=12345)

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Выделю тренировочную и валидационную выборки и сохраню их в переменные features_train, features_valid, target_train, target_valid. Т.к. валидационная выборка составляет 25% от оставшихся после отделения тестовой выборки данных, параметр test_size указываем равным 0.25.

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

**Вывод:** я разбила данные на три части: тренировочную, валидационную и тестовую выборки.

In [15]:
display(features_train.shape)
target_train.shape

(1928, 4)

(1928,)

In [16]:
display(features_valid.shape)
target_valid.shape

(643, 4)

(643,)

In [17]:
display(features_test.shape)
target_test.shape

(643, 4)

(643,)

## Исследуйте модели

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Для решения этой задачи классификации я могу использовать два вида моделей: решающее дерево и случайный лес.

**1. Решающее дерево**

In [7]:
best_model_tree = None
best_result_tree = 0
best_depth_tree = 0

for depth_tree in range(1, 6):
    model_tree = DecisionTreeClassifier(random_state=12345, max_depth=depth_tree)
    model_tree.fit(features_train, target_train)
    if result > best_result_tree:
        best_model_tree = model_tree
        best_result_tree = result
    prediction_valid_tree = model_tree.predict(features_valid)
    result = accuracy_score(target_valid, prediction_valid_tree)
        best_depth_tree = depth_tree
    display(f'Глубина: {best_depth_tree}, Значение accuracy: {best_result_tree}')

'Глубина: 1, Значение accuracy: 0.7387247278382582'

'Глубина: 2, Значение accuracy: 0.7573872472783826'

'Глубина: 3, Значение accuracy: 0.7651632970451011'

'Глубина: 3, Значение accuracy: 0.7651632970451011'

'Глубина: 3, Значение accuracy: 0.7651632970451011'

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Рассмотрю решающее дерево. У решающего дерева есть один настраиваемый гиперпараметр - максимальная глубина. Переберу значения максимальной глубины от 1 до 5 и найду то значение максимальной глубины, при которой значение accuracy максимально.\
Наибольшее значение accuracy достигается при максимальной глубине 3 и составляет 0.765

Я вывела значение accuracy для каждого значения максимальной глубины. Можно заметить, что значение accuracy возрастает до значения максимальной глубины равного 3, затем идёт на убыль.

**2. Случайный лес**

In [8]:
best_model_forest_ax = None
best_result_forest = 0
best_depth_forest = 0
best_n_estimator = 0

for depth_forest in range(1,6):
    for est in range(10, 51, 10):
        model_forest = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth_forest)
        model_forest.fit(features_train, target_train)
        prediction_valid_forest = model_forest.predict(features_valid)
        result_forest = accuracy_score(target_valid, prediction_valid_forest)
        display(f'Глубина: {depth_forest}, количество деревьев: {est}, accuracy: {result_forest}')

'Глубина: 1, количество деревьев: 10, accuracy: 0.7309486780715396'

'Глубина: 1, количество деревьев: 20, accuracy: 0.7325038880248833'

'Глубина: 1, количество деревьев: 30, accuracy: 0.7387247278382582'

'Глубина: 1, количество деревьев: 40, accuracy: 0.7387247278382582'

'Глубина: 1, количество деревьев: 50, accuracy: 0.7465007776049767'

'Глубина: 2, количество деревьев: 10, accuracy: 0.7636080870917574'

'Глубина: 2, количество деревьев: 20, accuracy: 0.7620528771384136'

'Глубина: 2, количество деревьев: 30, accuracy: 0.76049766718507'

'Глубина: 2, количество деревьев: 40, accuracy: 0.7620528771384136'

'Глубина: 2, количество деревьев: 50, accuracy: 0.76049766718507'

'Глубина: 3, количество деревьев: 10, accuracy: 0.7713841368584758'

'Глубина: 3, количество деревьев: 20, accuracy: 0.7713841368584758'

'Глубина: 3, количество деревьев: 30, accuracy: 0.7698289269051322'

'Глубина: 3, количество деревьев: 40, accuracy: 0.7713841368584758'

'Глубина: 3, количество деревьев: 50, accuracy: 0.7667185069984448'

'Глубина: 4, количество деревьев: 10, accuracy: 0.7776049766718507'

'Глубина: 4, количество деревьев: 20, accuracy: 0.776049766718507'

'Глубина: 4, количество деревьев: 30, accuracy: 0.776049766718507'

'Глубина: 4, количество деревьев: 40, accuracy: 0.7791601866251944'

'Глубина: 4, количество деревьев: 50, accuracy: 0.7744945567651633'

'Глубина: 5, количество деревьев: 10, accuracy: 0.7776049766718507'

'Глубина: 5, количество деревьев: 20, accuracy: 0.7791601866251944'

'Глубина: 5, количество деревьев: 30, accuracy: 0.7791601866251944'

'Глубина: 5, количество деревьев: 40, accuracy: 0.7807153965785381'

'Глубина: 5, количество деревьев: 50, accuracy: 0.7791601866251944'

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Рассмотрю расчёт accuracy при каждом значении максимальной глубины и количества деревьев. Можно заметить, что с увеличением максимальной глубины и количества деревьев значение accuracy увеличивается.\
Но при этом, при одном и том же значении глубины дерева и увеличивающимся значением количества деревьев accuracy не увеличивается постоянно, т.е. при большем значении количества деревьев accuracy может уменьшиться.\
Однако при одном и том же значении количества деревьев и разных значениях глубины дерева accuracy увеличивается стабильно, т.е. при большей глубине дерева и одном и том же количестве деревьев accuracy всегда больше.

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

**Проанализирую результаты:**
1) accuracy решающего дерева при максимальной глубине 3 составляет 0.765 (наибольшее значение), accuracy случайного леса при максимальной глубине 3 составляет 0.767. Из этого следует, что при одинаковом значении максимальной глубины accuracy случайного леса выше, чем accuracy решающего дерева. Можно предположить, что случайный лес может дать наибольшее значение accuracy, превышающее наибольшее значение accuracy решающего дерева.
2) наибольшее accuracy решающего дерева составляет 0.765, случайного леса - 0.779.\
Исходя из тех выводов, которые я сделала на основе расчёта accuracy при разных значениях максимальной глубины и количества деревьев, можно предположить, что количество деревьев является тем условием, которое обеспечивает постоянное возрастание accuracy при увеличении максимальной глубины.

Конкретно в этом исследовании наибольшее значение accuracy дала модель случайного леса при максимальной глубине 5 и количестве деревьев 50. Наибольшее значение accuracy - 0.779.

In [18]:
best_result_forest = 0
best_depth_forest = 0
best_n_estimator = 0
best_model_forest = None

for depth_forest in range(1,6):
    for est in range(10, 51, 10):
        model_forest = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth_forest)
        model_forest.fit(features_train, target_train)
        prediction_valid_forest = model_forest.predict(features_valid)
        result_forest = accuracy_score(target_valid, prediction_valid_forest)
    if result_forest > best_result_forest:
        best_model_forest = model_forest
        best_result_forest = result_forest
        best_depth_forest = depth_forest
        best_n_estimator = est
display(f'Глубина: {best_depth_forest}, количество деревьев: {best_n_estimator}, accuracy: {best_result_forest}')

'Глубина: 5, количество деревьев: 50, accuracy: 0.7791601866251944'

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Рассмотрю случайный лес. У случайного леса есть два настраиваемых гиперпараметра - максимальная глубина и количество деревьев. Переберу значения максимальной глубины от 1 до 5 и значения количества деревьев от 10 до 50 с шагом 10 и найду значения, при которых accuracy достигает наибольшего значения.
Наибольшее accuracy составляет 0.779 и достигается при значениях максимальной глубины 5 и количества деревьев 50.

## Проверьте модель на тестовой выборке

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Проверю качество модели на тестовой выборке.

In [10]:
prediction_test = best_model_forest.predict(features_test)
result_test = accuracy_score(target_test, prediction_test)
result_test

0.7931570762052877

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Accuracy модели на тестовой выборке составило 0.793 - выше, чем на валидационной и выше 0.75.

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

**Итог:** я построила модель, значение accuracy которой превышает значения других моделей с другими гиперпараметрами. Это модель случайного леса с максимальной глубиной 5 и количеством деревьев 50. Её accuracy составило 0.793.

## (бонус) Проверьте модели на адекватность

In [11]:
model_log = LogisticRegression()
model_log.fit(features_test, target_test)
model_log.score(features_test, prediction_test)

0.8709175738724728

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

Обучу модель логистической регрессии на данных тестовой выборки и проверю accuracy на признаках тестовой выборки и предсказаниях модели случайного леса с наибольшим значением accuracy.

<div class="alert alert-info" style="border:solid purple 2px; padding: 20px; background-color: #e6d2f2; color: #4b0082;">

**Итоговый вывод:**
- Для достижения цели исследования было необходимо решить задачу классификации. Для её решения я рассмотрела две модели: модель решающего дерева и модель случайного леса.
- Наибольшую эффективность - наибольшее значение accuracy - показала модель случайного леса при максимальной глубине 5 и количестве деревьев 50. Её значение accuracy - 0.779.
- Я испытала лучшую модель на тестовой выборке и нашла её значение accuracy, которое составило 0.793, что даже больше, чем значение accuracy, рассчитанное на валидационной выборке.

Таким образом, я достигла цели исследования - нашла модель с наибольшим значением accuracy, которое превысило 0.75.