# Рекомендация тарифов. Описание проекта

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.

### Описание данных

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:
- сalls — количество звонков,
- minutes — суммарная длительность звонков в минутах,
- messages — количество sms-сообщений,
- mb_used — израсходованный интернет-трафик в Мб,
- is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

### Импортируем датасет и чистаем данные

In [12]:
# Импортируем нужные библиотеки

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats as st

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.dummy import DummyClassifier

In [13]:
#Читаем данные из датасета
try:
    df = pd.read_csv('datasets/users_behavior.csv')
except:
    df = pd.read_csv('/datasets/users_behavior.csv')

In [14]:
#Смотрим на первые 10 строк
display(df.head(10))

#Узнаем общие сведения о данных
print(df.info())
print("Размер таблицы\n", df.shape)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
Размер таблицы
 (3214, 5)


is-ultra определим как целевой признак

### Разделяем данные 

In [15]:
print(df.shape)

features = df.drop(['is_ultra'], axis=1) # Запишем фрейм в переменную без целевого признака
target = df['is_ultra']  # Запишем целевой признак в переменнцю target

features_train, features_valid_test, target_train, target_valid_test = train_test_split(
   features, target, test_size=0.4, random_state=42, stratify=target) # отделяем 40% данных для валидационно-тетсовой выборки, которая потом будет делится на валидационную и на тестовую. Используем стратификацию.

print("Размер валидационно-тестовой выборки", features_valid_test.shape)

features_valid, features_test, target_valid, target_test = train_test_split(
   features_valid_test, target_valid_test, test_size=0.5, random_state=42, stratify=target_valid_test) # делим пополам на валидационную и тестовую выборки.

# Проверяем размерность

print("\nРазмер тренировочной выборки", features_train.shape)
print("Размер валидационной выборки", features_valid.shape)
print("Размер тестовой выборки", features_test.shape)



(3214, 5)
Размер валидационно-тестовой выборки (1286, 4)

Размер тренировочной выборки (1928, 4)
Размер валидационной выборки (643, 4)
Размер тестовой выборки (643, 4)


Далее будем строить модели решающего дерева, случайного леса и логистической регрессии. Все эти модели используются для решения задач классификации. В качестве метрики выберем accuracy, т.к. она наиболее подходит для решения нашей задачи.
Так же будем измерять время обучения каждой модели командой %%time.

### Находим baseline

Для дальшейшей проверки модели на адекватность, определим baseline

In [16]:
dummy_clf = DummyClassifier(strategy="most_frequent", random_state=42)

dummy_clf.fit(features_train, target_train)

baseline = dummy_clf.score(features_valid, target_valid)

print("baseline = ", baseline)

baseline =  0.6936236391912908


baseline равен 0.69. Это начит, что, если значение accuracy будет больше, то модель адекватна и работает.

### Модель решающее дерево

Обучим модель с глубиной от 1 до 10. Далее измерим метрику accuracy на каждой глубине в валидационной выборке и выбирем наиболее качественную модель.

In [17]:
%%time
best_model_tree = None
best_result = 0
for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=42, max_depth=depth) # обучаем модель с заданной глубиной дерева
    model.fit(features_train, target_train) # обучаем модель
    predictions = model.predict(features_valid) # получаем предсказания модели
    result = accuracy_score(target_valid, predictions) # считаем качество модели
    if result > best_result:
        best_model_tree = model
        best_result = result
        best_depth = depth
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions))
        
print("Accuracy лучшей модели на валидационной выборке:", best_result, "Лучшая глубина:", best_depth)

max_depth = 1 : 0.76049766718507
max_depth = 2 : 0.7869362363919129
max_depth = 3 : 0.8040435458786936
max_depth = 4 : 0.7962674961119751
max_depth = 5 : 0.7900466562986003
max_depth = 6 : 0.7744945567651633
max_depth = 7 : 0.7884914463452566
max_depth = 8 : 0.7791601866251944
max_depth = 9 : 0.7807153965785381
max_depth = 10 : 0.7698289269051322
Accuracy лучшей модели на валидационной выборке: 0.8040435458786936 Лучшая глубина: 3
CPU times: user 148 ms, sys: 15.7 ms, total: 164 ms
Wall time: 308 ms


Лучший показатель качества на глубине 6. Оставляем эту глубину в качестве наилучшей модели.

### Модель случайный лес

Для тренироки модели будем перебирать число деревьев от 1 до 20. На каждой итерации будем проверять accuracy. Выберем модель с лучим показателем на валидационной выборке

In [18]:
%%time
best_model_forest = None
best_result = 0
criterion = ['gini', 'entropy']

# Выберем число деревьев 20
for est in range(1, 21):
    for crit_val in criterion:
        model = RandomForestClassifier(random_state=42, n_estimators=est, criterion=crit_val) # обучаем модель с заданным количеством деревьев
        model.fit(features_train, target_train) # обучаем модель на тренировочной выборке
        result = model.score(features_valid, target_valid) # считаем качество модели на валидационной выборке
        #print("Accuracy:", result, "\nЧисло деревьев:", est, "\nКритерий:", crit_val)
        if result > best_result:
            best_model_forest = model # сохраняем наилучшую модель
            best_result = result #  сохраняем наилучшее значение метрики accuracy на валидационных данных
            best_est = est
            best_crit_val = crit_val

# Посчитаем accuracy        
print("Accuracy наилучшей модели на валидационной выборке:", best_result, "\nЛучшее чсло деревьев:", best_est, "\nЛучший критерий:", best_crit_val)

Accuracy наилучшей модели на валидационной выборке: 0.7947122861586314 
Лучшее чсло деревьев: 15 
Лучший критерий: gini
CPU times: user 2.75 s, sys: 83.6 ms, total: 2.83 s
Wall time: 3.55 s


### Модель логистической регрессии

In [19]:
%%time
max_iter = 1000 # Количество итераций возьмем 1000
model_regression = LogisticRegression(random_state=42, solver='lbfgs', max_iter=max_iter)
model_regression = model_regression.fit(features_train, target_train) # обучаем модель на тренировочной выборке

# Посчитаем accuracy
print("Accuracy равен:", model_regression.score(features_valid, target_valid), "Количество итераций:", max_iter)

Accuracy равен: 0.7045101088646968 Количество итераций: 1000
CPU times: user 40.1 ms, sys: 5.81 ms, total: 45.9 ms
Wall time: 80.3 ms


### Посчитаем качество accuracy на лучших моделях и найдем оптимальную.

In [20]:
best_model_tree_predict = best_model_tree.predict(features_test)
print("Значение accuracy для модели решающего дерева", accuracy_score(target_test, best_model_tree_predict))

best_model_forest_predict = best_model_forest.predict(features_test)
print("Значение accuracy для модели случайного леса", accuracy_score(target_test, best_model_forest_predict))

model_regression_predict = model_regression.predict(features_test)
print("Значение accuracy для модели логистической регрессии", accuracy_score(target_test, model_regression_predict))

Значение accuracy для модели решающего дерева 0.7838258164852255
Значение accuracy для модели случайного леса 0.7962674961119751
Значение accuracy для модели логистической регрессии 0.7076205287713841


### Вывод

Самое большое значение accuracy на тестовой выборке покащала модель логистической регресии. Также будем принимать во внимание скорость обучения моделей. В проекте мы замеряли скорость командой %%time. Вот, что у нас вышло:

Модель решающего дерева - 127 миллисекунд

Модель случайного леса - 3.53 миллисекунды

Модель логистической регресси - 143 миллисекунды.

Очевидно, что gj скорости работы алгоритма предпочтение необходимо отдать или модели решающего дерева, или логистической регрессии. Зная, что модель логистической регрессии все-таки наиболее быстрая из представленных, ее и возьмем за основную, так как в нашем датасете не так много данных, разницы особой не видно, но, когда их станет больше, модель логистической регресси будет работать быстрее. Данная модель отвечает поставленным требованиям проекта (accuracy > 0.75), поэтому выбираем ее как оптимальную. Модель дообучена и не переобучена. Модель является адекватной, т.к. accuracy > baseline