# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

### Шаг 0. Подключение библиотек

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split

### Шаг 1. Откройте файл с данными и изучите его. 

Сперва загрузим файл и отобразим 5 строк

In [3]:
try:
    df = pd.read_csv('users_behavior.csv')
except:
    df = pd.read_csv('D:\DDownloads/users_behavior.csv')

In [4]:
df.sample(5)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
2094,126.0,838.33,33.0,23847.0,0
3083,69.0,475.54,64.0,12479.22,0
691,24.0,136.24,11.0,15174.05,0
2045,92.0,596.72,62.0,21558.02,0
297,85.0,490.25,57.0,16663.03,0


In [5]:
df.shape

(3214, 5)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [7]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

Файл с данными находится по пути /datasets/users_behavior.csv. В нем содержится информация о поведении пользователей в мобильном приложении. Датасет содержит 5 столбцов и 3214 строк. Пропусков в данных нет. Столбец 'is_ultra' является целевым, в нем содержится информация о том, является ли клиент пользователям тарифа "Ультра".

## 2 Разбейте данные на выборки

так как спрятанной тестовой выборки нет, разбиваем данные на три части:обучающую, валидационную и тестовую в соотношении 3:1:1.

In [8]:
#Разбиваем данные на обучающую/валидационную и тестовую выборку
features_train_val, features_test, target_train_val, target_test = train_test_split(features, target, test_size=0.2, random_state=12345)

In [26]:
features_train_val.shape

(2571, 4)

In [27]:
features_test.shape

(643, 4)

In [28]:
target_train_val.shape

(2571,)

In [29]:
target_test.shape

(643,)

In [10]:
#Далее разделим обучающую и валидационную выборки
features_train, features_val, target_train, target_val = train_test_split(features_train_val, target_train_val, test_size=0.25, random_state=12345)

In [31]:
features_train.shape

(1928, 4)

In [32]:
features_val.shape

(643, 4)

In [33]:
target_train.shape

(1928,)

In [34]:
target_val.shape

(643,)

На данном этапе мы разделили исходные данные на три выборки - обучающую, валидационную и тестовую в соотношении 3:1:1. Это необходимо для обучения модели, подбора гиперпараметров и проверки ее качества на отложенной тестовой выборке. Разбиение данных позволит избежать переобучения модели и даст более объективную оценку ее работы.

## 3 Исследуйте модели

Сначала начнем с решающего дерева

In [11]:
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predicted_val = model.predict(features_val)
    accuracy = accuracy_score(target_val, predicted_val)
    print("max_depth =", depth, ": Accuracy =", accuracy)


max_depth = 1 : Accuracy = 0.7387247278382582
max_depth = 2 : Accuracy = 0.7573872472783826
max_depth = 3 : Accuracy = 0.7651632970451011
max_depth = 4 : Accuracy = 0.7636080870917574
max_depth = 5 : Accuracy = 0.7589424572317263
max_depth = 6 : Accuracy = 0.7573872472783826
max_depth = 7 : Accuracy = 0.7744945567651633
max_depth = 8 : Accuracy = 0.7667185069984448
max_depth = 9 : Accuracy = 0.7620528771384136
max_depth = 10 : Accuracy = 0.7713841368584758


как видим чем больше глубина дерева, тем больше и точность. Лучшую точность показала модель с глубиной дерева 10, Accuracy = 0.77

увеличим глубину

In [12]:
%%time

from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

for depth in range(10, 21):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predicted_val = model.predict(features_val)
    accuracy = accuracy_score(target_val, predicted_val)
    print("max_depth =", depth, ": Accuracy =", accuracy)

max_depth = 10 : Accuracy = 0.7713841368584758
max_depth = 11 : Accuracy = 0.7589424572317263
max_depth = 12 : Accuracy = 0.7558320373250389
max_depth = 13 : Accuracy = 0.749611197511664
max_depth = 14 : Accuracy = 0.7573872472783826
max_depth = 15 : Accuracy = 0.7527216174183515
max_depth = 16 : Accuracy = 0.749611197511664
max_depth = 17 : Accuracy = 0.7387247278382582
max_depth = 18 : Accuracy = 0.7418351477449455
max_depth = 19 : Accuracy = 0.7356143079315708
max_depth = 20 : Accuracy = 0.7293934681181959
Wall time: 104 ms


как видим модель столкнулась с переобучением. Лучшую точность показала модель с глубиной дерева 10, Accuracy = 0.77. 

In [13]:
best_decision_tree = DecisionTreeClassifier(random_state=12345, max_depth=10)
best_decision_tree.fit(features_train, target_train)
predicted_val = best_decision_tree.predict(features_val)
accuracy = accuracy_score(target_val, predicted_val)
print('Глубина дерева', 10,'Точность',accuracy)

Глубина дерева 10 Точность 0.7713841368584758


переберем гиперпараметр criterion:

In [36]:
best_accuracy = 0
best_criterion = ''
for criterion in ['gini', 'entropy']:
    model = DecisionTreeClassifier(random_state=12345, max_depth=10, criterion=criterion)
    model.fit(features_train, target_train)
    predicted_val = model.predict(features_val)
    accuracy = accuracy_score(target_val, predicted_val)
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_criterion = criterion
print('Лучший результат:', best_accuracy, 'при критерии', best_criterion)


Лучший результат: 0.7713841368584758 при критерии gini


с дефолтным параметром criterion модель показывает себя лучше.

Далее изучим случайный лес:

In [15]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# задаем значения гиперпараметров, которые мы будем менять
n_estimators = [10, 20, 30, 50, 100]
max_depth = [None, 2, 5, 10, 20]

# создаем цикл, который перебирает все возможные комбинации гиперпараметров
best_accuracy = 0
for n in n_estimators:
    for d in max_depth:
        # создаем модель с текущими значениями гиперпараметров
        model = RandomForestClassifier(n_estimators=n, max_depth=d, random_state=12345)
        # обучаем модель на обучающей выборке
        model.fit(features_train, target_train)
        # получаем предсказания на валидационной выборке
        predictions = model.predict(features_val)
        # оцениваем качество модели с помощью метрики accuracy
        accuracy = accuracy_score(target_val, predictions)
        # если текущее значение accuracy лучше предыдущего лучшего значения, сохраняем гиперпараметры и значение accuracy
        if accuracy > best_accuracy:
            best_accuracy = accuracy
            best_n = n
            best_d = d

print('Лучшее значение accuracy:', best_accuracy)
print('Лучшие гиперпараметры n_estimators и max_depth:', best_n, ',', best_d)


Лучшее значение accuracy: 0.7978227060653188
Лучшие гиперпараметры n_estimators и max_depth: 50 , 10


тут уже модель работает чуть лучше 0.797 vs 0.77, но максимальное количество деревьев не значит хорошо, лучший результат у n_estimators - 50

немного изменим гиперпараметры:

In [16]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# задаем значения гиперпараметров, которые мы будем менять
n_estimators = [150, 200, 250, 300, 350]
max_depth = [25, 30, 35, 40, 45]

# создаем цикл, который перебирает все возможные комбинации гиперпараметров
best_accuracy = 0
for n in n_estimators:
    for d in max_depth:
        # создаем модель с текущими значениями гиперпараметров
        model = RandomForestClassifier(n_estimators=n, max_depth=d, random_state=12345)
        # обучаем модель на обучающей выборке
        model.fit(features_train, target_train)
        # получаем предсказания на валидационной выборке
        predictions = model.predict(features_val)
        # оцениваем качество модели с помощью метрики accuracy
        accuracy = accuracy_score(target_val, predictions)
        # если текущее значение accuracy лучше предыдущего лучшего значения, сохраняем гиперпараметры и значение accuracy
        if accuracy > best_accuracy:
            best_accuracy = accuracy
            best_n = n
            best_d = d

print('Лучшее значение accuracy:', best_accuracy)
print('Лучшие гиперпараметры n_estimators и max_depth:', best_n, ',', best_d)


Лучшее значение accuracy: 0.8009331259720062
Лучшие гиперпараметры n_estimators и max_depth: 150 , 30


теперь уже модель стало лучше, результат 0,8. Лучшие гиперпараметры n_estimators и max_depth: 150 , 30

In [17]:
best_random_forest = RandomForestClassifier(random_state=12345, n_estimators=150, max_depth=30)
best_random_forest.fit(features_train, target_train)
predicted_val_random = best_random_forest.predict(features_val)
accuracy = accuracy_score(target_val, predicted_val_random)
print('Количество деревьев', 150,'Точность',accuracy)

Количество деревьев 150 Точность 0.8009331259720062


In [18]:
best_random_forest = RandomForestClassifier(random_state=12345, n_estimators=150, max_depth=30, criterion='entropy')
best_random_forest.fit(features_train, target_train)
predicted_val_random = best_random_forest.predict(features_val)
accuracy = accuracy_score(target_val, predicted_val_random)
print('Количество деревьев', 150,'Точность',accuracy)

Количество деревьев 150 Точность 0.7993779160186625


тут так же с дефолтным параметром criterion модель показывает себя лучше.

изменим гиперпараметр bootstrap:

In [37]:
best_random_forest = RandomForestClassifier(random_state=12345, n_estimators=150, max_depth=30, bootstrap=False)
best_random_forest.fit(features_train, target_train)
predicted_val_random = best_random_forest.predict(features_val)
accuracy = accuracy_score(target_val, predicted_val_random)
print('Количество деревьев', 150,'доля правильных ответов',accuracy)

Количество деревьев 150 доля правильных ответов 0.7791601866251944


проверим логистическую регрессию:

In [20]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Зададим список значений параметра регуляризации
C_values = [0.01, 0.1, 1, 10, 100]

# Инициализируем переменную для хранения лучшего значения accuracy и соответствующего параметра C
best_accuracy = 0
best_C = None

# Проходимся по всем значениям параметра C
for C in C_values:
    # Инициализируем модель с текущим значением параметра C
    model = LogisticRegression(C=C, random_state=12345)
    
    # Обучаем модель на обучающих данных
    model.fit(features_train, target_train)
    
    # Получаем предсказания на валидационных данных
    predicted_val = model.predict(features_val)
    
    # Вычисляем accuracy на валидационных данных
    accuracy = accuracy_score(target_val, predicted_val)
    
    # Сравниваем полученное значение accuracy с лучшим значением и,
    # если оно лучше, запоминаем его и соответствующее значение параметра C
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_C = C

# Обучаем модель на обучающих и валидационных данных с лучшим значением параметра C
model = LogisticRegression(C=best_C, random_state=12345)
model.fit(features_train_val, target_train_val)

print(f"Лучшее значение accuracy на валидационной выборке: {best_accuracy:.2f} (параметр C = {best_C})")



Лучшее значение accuracy на валидационной выборке: 0.73 (параметр C = 0.1)


немного подправим гиперпараметры, изменим С и солвер:

In [21]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Зададим список значений параметра регуляризации
C_values = [0.01, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]

# Инициализируем переменную для хранения лучшего значения accuracy и соответствующего параметра C
best_accuracy = 0
best_C = None

# Проходимся по всем значениям параметра C
for C in C_values:
    # Инициализируем модель с текущим значением параметра C
    model = LogisticRegression(C=C, random_state=12345, solver='liblinear')
    
    # Обучаем модель на обучающих данных
    model.fit(features_train, target_train)
    
    # Получаем предсказания на валидационных данных
    predicted_val = model.predict(features_val)
    
    # Вычисляем accuracy на валидационных данных
    accuracy = accuracy_score(target_val, predicted_val)
    
    # Сравниваем полученное значение accuracy с лучшим значением и,
    # если оно лучше, запоминаем его и соответствующее значение параметра C
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_C = C

# Обучаем модель на обучающих и валидационных данных с лучшим значением параметра C
model = LogisticRegression(C=best_C, random_state=12345)
model.fit(features_train_val, target_train_val)

print(f"Лучшее значение accuracy на валидационной выборке: {best_accuracy:.2f} (параметр C = {best_C})")



Лучшее значение accuracy на валидационной выборке: 0.73 (параметр C = 0.3)


как видим, результат точности модели одинаков 0.73, оставим как есть.

При исследовании качества разных моделей на задаче классификации пользовательского поведения было обнаружено, что модель случайного леса показала лучший результат с точностью 0.8 на тестовой выборке. Было проведено исследование с разными гиперпараметрами для каждой модели, и для случайного леса были подобраны наилучшие параметры. В сравнении с другими моделями, решающее дерево и логистическая регрессия, модель случайного леса показала более высокую точность и наилучшее качество на задаче классификации.

## 4 Проверьте модель на тестовой выборке

In [22]:
# создаем модель с лучшими гиперпараметрами
model = RandomForestClassifier(n_estimators=best_n, max_depth=best_d, random_state=12345)

# обучаем модель на обучающей выборке
model.fit(features_train, target_train)

# получаем предсказания на тестовой выборке
predictions = model.predict(features_test)

# оцениваем качество модели на тестовой выборке
accuracy = accuracy_score(target_test, predictions)

print('Accuracy на тестовой выборке:', accuracy)


Accuracy на тестовой выборке: 0.7884914463452566


Проверив качество модели случайного леса на тестовой выборке, мы получили Accuracy равную 0.788, что говорит о том, что наша модель работает достаточно хорошо на новых данных.

## 5 (бонус) Проверьте модели на адекватность

проверим модель на адекватность с помощью DummyClassifier

In [23]:
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score

# создаем модель-дамми, которая будет выбирать классы случайным образом
dummy_model = DummyClassifier(strategy="uniform", random_state=12345)

# обучаем модель-дамми на обучающей выборке
dummy_model.fit(features_train, target_train)

# получаем предсказания модели-дамми на валидационной выборке
dummy_predictions = dummy_model.predict(features_val)

# оцениваем качество модели-дамми с помощью метрики accuracy
dummy_accuracy = accuracy_score(target_val, dummy_predictions)

print('Accuracy модели-дамми:', dummy_accuracy)


Accuracy модели-дамми: 0.5023328149300156


В результате проверки моделей на вменяемость мы использовали модель-дамми, которая выбирает классы случайным образом. Мы получили значение метрики accuracy для этой модели, которое составило 0.5. Это означает, что если бы мы выбирали классы случайным образом, то с вероятностью 50% мы бы предсказали правильный класс. С другой стороны, мы также оценили качество нашей модели случайного леса на тестовой выборке и получили значение метрики accuracy, равное 0.788. Это значительно лучше, чем случайный выбор классов, что говорит о том, что наша модель действительно способна делать предсказания лучше, чем случайный выбор классов.

# Итоговый вывод

Мы провели анализ поведения пользователей и построили модель машинного обучения, которая может предсказывать, будет ли пользователь совершать определенное действие в приложении.

В результате исследования мы разделили данные на обучающую, валидационную и тестовую выборки. Затем мы исследовали качество разных моделей, меняя гиперпараметры. Из проведенных экспериментов мы установили, что модель случайного леса с количеством деревьев равным 150 и глубиной равной 30 показывает наилучшее качество.

После этого мы проверили качество модели на тестовой выборке и получили Accuracy на тестовой выборке равную 0.788.

Дополнительно мы проверили модель на вменяемость, сравнив ее результаты с результатами модели-дамми, которая выбирает классы случайным образом. Полученные результаты показывают, что модель случайного леса лучше справляется с задачей, чем модель-дамми.