# Рекомендация тарифного плана для клиента

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.


# Подготовка данных

In [1]:
# импортирем набор библиотек для работы
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier # дерево решений
from sklearn.ensemble import RandomForestClassifier # случайный лес
from sklearn.linear_model import LogisticRegression # логистическая регрессия
from sklearn.model_selection import train_test_split # разделение выборки
from sklearn.metrics import mean_squared_error # MSE
from sklearn.metrics import accuracy_score # оценка точности

from sklearn.dummy import DummyClassifier

In [3]:
try:
    data = pd.read_csv('users_behavior.csv')
except:
    data = pd.read_csv('/datasets/users_behavior.csv') 

In [5]:
# функция для первичного анализа данных
def data_info(data):
    print('ОБЩАЯ ИНФОРМАЦИЯ', sep='\n')
    print(data.info()) 
    print('ПРОПУСКИ В ДАННЫХ', '', data.isna().sum(), '', sep='\n')
    print('ПЕРВЫЕ 5 ЗАПИСЕЙ', sep='\n')
    display(data.head(5))
    

In [6]:
data_info(data)

ОБЩАЯ ИНФОРМАЦИЯ
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
ПРОПУСКИ В ДАННЫХ

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

ПЕРВЫЕ 5 ЗАПИСЕЙ


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


## Вывод

Данные представляют собой потраченные пользователями минуты/сообщения/трафик а так же тариф который они используют формата ultra / не ultra. Пропусков в данных не обнаружено, данные не требуют дополнительного вмешательства.

# Предобработка данных

In [7]:
# определяем фичи и целевые признаки
features = data.drop(['is_ultra'], axis=1)
target = data['is_ultra']

In [8]:
# разделяем данные на тренировочные, валидационные и тестовые выборки

features_train, features_test, target_train, target_test = train_test_split(
    features, target, train_size=0.60,random_state=12345)  # разделение на тренировочный сет и тестовый

features_test, features_valid, target_test, target_valid = train_test_split(
    features_test, target_test, train_size=0.50,random_state=12345) # разделение тестовый сет на тестовый и валидацию

In [9]:
# вывод данных
print('Размер тренировочной выборки')
print(features_train.shape)
print(target_train.shape)
print('Размер валидационной выборки')
print(features_valid.shape)
print(target_valid.shape)
print('Размер тестовой выборки')
print(features_test.shape)
print(target_test.shape)

Размер тренировочной выборки
(1928, 4)
(1928,)
Размер валидационной выборки
(643, 4)
(643,)
Размер тестовой выборки
(643, 4)
(643,)


## Вывод

Датасет был разделён в соотношении 60% данных ушло на тренировку данных, 20% на валидацию и 20% на тест. Проверка размерности показала соответствие выбраному процентному разделению.

**Выборки:**

**Обучающая:** `features_train` - признаки, `target_train` - целевой признак

**Валидационная:** `features_valid` - признаки, `target_valid` - целевой признак

**Тренировочная:** `features_test` - признаки, `target_test` - целевой признак

# Исследование моделей машинного обучения

## Дерево решений

In [13]:
%%time
best_model = None
best_result = 0
best_depth = 0

for depth in range(1, 11):

    model_tree = DecisionTreeClassifier(random_state=12345, max_depth=depth) # создаём дерево решений и прописываем гиперпараметры
    model_tree.fit(features_train, target_train) # обучаем дерево решений на тренировочной сборке
    predicts = model_tree.predict(features_valid) # получаем предсказания модели
    result = accuracy_score(target_valid, predicts) # оценка качества модели на валидационной сборке
    if result > best_result:
        best_model_tree = model_tree
        best_result_tree = result
        best_depth_tree = depth
        
print("Accuracy лучшей модели:", best_result_tree)
print('Глубина дерева:', best_depth_tree)

Accuracy лучшей модели: 0.7884914463452566
Глубина дерева: 10
Wall time: 78.8 ms


По результатам исследования лучше всего себя показало дерево чья глубина достигала 7. 

Её `Accuracy` = 0.799

## Случайный лес

In [20]:
%%time
best_model = None
best_result = 0
best_est = 0
best_est1 = 0
best_est2 = 0

for est in range(1, 31): # перебор количества дедевьев
    for est1 in  range(2, 21): # перебор количества выборок для каждого разделения
        for est2 in  range(1, 21): # перебор количества выборок для узла
            model_random_tree = RandomForestClassifier(
                random_state=12345, n_estimators=est, min_samples_split = est1, min_samples_leaf = est2
            ) # обучение модели с заданным количеством деревьев, количеством 
            model_random_tree.fit(features_train, target_train) # обучение модели на тренировочной выборке
            result = model_random_tree.score(features_valid, target_valid) # рассчёт качества модели на валидационной выборке
            if result > best_result:
                best_model_forest = model_random_tree 
                best_result_random_forest = result 
                best_est = est
                best_est1 = est1
                best_est2 = est2

print("Accuracy наилучшей модели на валидационной выборке:", best_result_random_forest)
print('Количество деревьев:', best_est)
print('Количество выборок для каждого разделения:',best_est1)
print('Количество выборок для каждого узла:', best_est2)

Accuracy наилучшей модели на валидационной выборке: 0.8180404354587869
22
15
5
Wall time: 10min 2s


По результатам исследования лучше всего себя показала сборка с параметрами:

**Количество деревьев:** 22

**Количество выборок для каждого разделения:** 15

**Количество выборок для каждого узла:** 5

`Accuracy` = 0.818

## Линейная регрессия

In [22]:
%%time

model_log_reg = LogisticRegression(random_state=12345, solver='lbfgs', max_iter= 1000) # определяем модель логистической регрессии

model_log_reg.fit(features, target) # обучите модель на тренировочной выборке
 
result_log_reg = model_log_reg.score(features_valid,target_valid)
print("Accuracy модели логистческой регрессии:", result_log_reg)

Accuracy модели логистческой регрессии: 0.7402799377916018
Wall time: 56.8 ms


Обучение модели методом логистической регрессии дало результат: `Accuracy` = 0.74

## Вывод

Было обучено 3 модели: `Дерево решений`, `Случайный лес`, `Логистическая регрессия`.

Привести точные цицры по точности моделей от запуска к запуску не представляется возможным, сводную таблицу представил ниже. Общие тенденцие таковы что модель `случайного леса` является самой точной из представленных, точность > 0.8. В тоже время эта модель заняла гораздо больше времени для обучения, для сравнения: случайный лес - 10 минут, а модель логистической регрессии - 56 милисикунд.

In [10]:
accuracy_data = {'Decision_Tree': [best_result_tree], 
                 'Random_Forest': [best_result_random_forest], 
                 'Logistic_Regression': [result_log_reg]}
pd.DataFrame(data=accuracy_data, index=['Точность'])

NameError: name 'best_result_tree' is not defined

In [None]:
pd.DataFrame(data=accuracy_data, index=['Точность'])

# Проверьте качество модели на тестовой выборке

In [None]:
# проверка модели на адекватность
adequacy_model = DummyClassifier(strategy="most_frequent")
adequacy_model.fit(features_train, target_train)

result = adequacy_model.score(features_train, target_train)

print("Точность данной 'примитивной' модели равна:", result)

## Дерево решений

In [23]:
predicts = model_tree.predict(features_test)
accuracy_test_data = accuracy_score(target_test, predicts)

print('Accuracy дерева решений на тестовой выборке равна:', accuracy_test_data)

Accuracy дерева решений на тестовой выборке равна: 0.7947122861586314


## Случайный лес

In [25]:
result = model_random_tree.score(features_test, target_test)
print("Accuracy модели случайного леса на тестовой выборке:", result)

Accuracy модели случайного леса на тестовой выборке: 0.7916018662519441


## Линейная регрессия

In [26]:
result = model_log_reg.score(features_test, target_test)
print("Accuracy модели случайного леса на тестовой выборке:", result)

Accuracy модели случайного леса на тестовой выборке: 0.7573872472783826


## Вывод

Была проведена проверка на адекватность с помощью метода DummyClassifier с параметром "most_frequent". Полученные значения говорят о том, что модель "Логистическая регрессия" не позволяет получать значимого прироста в точности предсказания.

Показатели точности по тестовым выборкам показали следующие результаты:

Было получено, что Accuracy модели `Дерево решений` = 0.794

Было получено, что Accuracy модели `Случайный лес` = 0.791

Было получено, что Accuracy модели `Логистическая регрессия` = 0.757

# Общий вывод

Целью работы было освоить практическое применение трёх типов моделей машинного обучения для предсказания того, какой тариф будет более предпочтительным для пользователя, ultra/ не ultra.

По итогам исследования можно сделать следующие выводы:

* Время обучения `дерева решений` и `логистической регрессии` существунно ниже времени обучения `случайного леса`;
* * Это произошло из-за дополнительных гиперпараметров `min_samples_split`, `min_samples_leaf` существунно расширевших количество вариаций обучения.

* Данные по точности `дерева решений` и `случайного леса` примерно сопоставимы и стремятся в 0.8;

* Точность модели `логистической регрессии` оказалась ниже в сравнении с остальными примерно на 0.9%;

* Тестовые выборки показали сопоставимый результат по сравнению с валидационными выборками;

Проверка на адекватность проведена с помощью метода DummyClassifier с параметром "most_frequent". Это было сделано для того чтобы понять насколько наши "не глупые" методы обучения лучше "примитивных".