# Рекомендация тарифов

## Оглавление
**[1. Открытие файла с данными и изучение общей информации](#чтение_файла)**
   
**[2. Разделение данных на выборки](#разделение_данных_на_выборки)**

**[3. Исследование моделей](#исследование_моделей)**
   * [3.1 Решающее дерево](#исследование_моделей__решающее_дерево)
   * [3.2 Случайный лес](#исследование_моделей__случайный_лес)
   * [3.3 Логистическая регрессия](#исследование_моделей__логистическая_регрессия)

**[4. Проверка моделей на тестовой выборке](#проверка_моделей_на_тестовой_выборке)**
   * [4.1 Решающее дерево](#проверка_моделей_на_тестовой_выборке__решающее_дерево)
   * [4.2 Случайный лес](#проверка_моделей_на_тестовой_выборке__случайный_лес)
   * [4.3 Логистическая регрессия](#проверка_моделей_на_тестовой_выборке__логистическая_регрессия)
   
**[5. Проверка модели на адекватность](#проверка_моделей_на_адекватность)**

**[6. Общий вывод](#общий_вывод)**

## 1. Открытие файла с данными и изучение общей информации. <a id="чтение_файлов"></a>

In [61]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import time

In [62]:
df = pd.read_csv()

Воспользуемся функцией для быстрого вывода общей информации о DataFrame.

In [63]:
def information(DataFrame):
    display(DataFrame.head(20))
    display(DataFrame.info())
    display(DataFrame.describe())
    print('Количество дубликатов в DataFrame:', DataFrame.duplicated().sum())
    
information(df) 

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


None

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


Количество дубликатов в DataFrame: 0


### Выводы
Изучили общую инфомрацию о предоставленных данных. Проверили наличие пропущенных значений и дубликатов. Можно сделать следующие выводы:
* DataFrame содердит 3214 объектов, 4 признака (***calls, minutes, messages, mb_used***) и 1 целевой признак (***is_ultra***);
* 4 признака (***calls, minutes, messages, mb_used***) имеют тип данных float64, а целевой признак (***is_ultra***) имеет тип данных int64;
* 69.3% клиентов из выборки используют тариф **Smart**, 30.7% клиентов из выборки используют тариф **Ultra**;
* Пропущенных значений нет;
* Дубликатов нет;
* Средние значения, медианы, стандартные отклонения адекватны.  

Предобработки данных не требуется.

## 2. Разделение данных на выборки<a id="разделение_данных_на_выборки"></a>

Разделим исходную выборку на обучающую, валидационнуюи тестовую выборки в следующей пропорции:
* Обучающая выборка - 60%;
* Валидационная выборка - 20%;
* Тестовая выборка - 20%.

In [64]:
df_train, df_valid_test = train_test_split(df, test_size=0.4, random_state=12345)
df_valid, df_test = train_test_split(df_valid_test, test_size=0.5, random_state=12345)

Проверим размерности выборок.

In [42]:
print('Размерность df_train:', len(df_train))
print('Размерность df_valid:', len(df_valid))
print('Размерность df_test:', len(df_test))

Размерность df_train: 1928
Размерность df_valid: 643
Размерность df_test: 643


### Выводы
Разделим исходную выборку на обучающую, валидационную и тестовую выборки в следующих пропорциях:

**Выборка**  | **Количество объектов** | **Доля**
:-------------: | :-------------: | :-------------:
Обучающая | 1928 | 0.6
Валидационная | 643 | 0.2
Тестовая | 643 | 0.2


## 3. Исследование моделей<a id="исследование_моделей"></a>

Исследовать будем следующие модели: 
* Решающее дерево (decision tree);
* Случайный лес (random forest); 
* Логистическая регрессия (logistic regression).

Извлечем признаки и целевой признак для каждой выборки.

In [43]:
features_train = df_train.drop('is_ultra', axis = 1)
features_valid = df_valid.drop('is_ultra', axis = 1)
features_test  = df_test.drop('is_ultra', axis = 1)

target_train = df_train['is_ultra'];
target_valid = df_valid['is_ultra'];
target_test  = df_test['is_ultra'];

## 3.1 Решающее дерево<a id="исследование_моделей__решающее_дерево"></a>

Обучим модель с разными значениями max_depth (максимальная глубина дерева) на тестовой выборке и затем посчитаем accuracy (отношение числа правильных ответов к размеру тестовой выборки) на валидационной выборке и выберем лучшую модель.

In [44]:
best_model_DecisionTree = None
best_result = 0
time_best_model = 0
best_depth = 0
for depth in range(1, 6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    start_time = time.time()
    predictions = model.predict(features_valid)
    time_current = 1000*(time.time() - start_time)
    result = accuracy_score(target_valid, predictions)
    if result > best_result:
        best_model_DecisionTree = model
        best_result = result
        best_depth = depth
        time_best_model = time_current
        
print("Accuracy наилучшей модели на валидационной выборке:", best_result, "Максимальная глубина:", best_depth)
print("Время выполнения {:.4f} мс".format(time_best_model))

Accuracy наилучшей модели на валидационной выборке: 0.7853810264385692 Максимальная глубина: 5
Время выполнения 0.8957 мс


Наилучшее значение accuracy = 0.7853 для решающего дерева получается при max_depth = 3.

## 3.2 Случайный лес<a id="исследование_моделей__случайный_лес"></a>

Обучим модель с разными значениями max_depth (максимальная глубина дерева) и n_estimators (количество деревьев) на тестовой выборке и затем посчитаем accuracy (отношение числа правильных ответов к размеру тестовой выборки) на валидационной выборке и выберем лучшую модель.

In [45]:
best_model_RandomForest = None
best_result = 0
best_depth = 0
best_est = 0
time_best_model = 0
for est in range(1, 51, 10):
    for depth in range (1, 11):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth)
        model.fit(features_train, target_train)
        start_time = time.time()
        predictions = model.predict(features_valid)
        time_current = 1000*(time.time() - start_time)
        result = accuracy_score(target_valid, predictions)
        if result > best_result:
            best_model_RandomForest = model
            best_result = result
            best_depth = depth
            best_est = est
            time_best_model = time_current
        
print("Accuracy наилучшей модели на валидационной выборке:", best_result, "Количество деревьев:", best_est, "Максимальная глубина:", best_depth)
print("Время выполнения {:.4f} мс".format(time_best_model))

Accuracy наилучшей модели на валидационной выборке: 0.8195956454121306 Количество деревьев: 41 Максимальная глубина: 9
Время выполнения 8.5876 мс


Наилучшее значение accuracy = 0.8071 для случайного леса получается при max_depth = 8 и n_estimators = 41.

## 3.3 Логистическая регрессия<a id="исследование_моделей__логистическая_регрессия"></a>

Обучим модель на тестовой выборке и затем посчитаем accuracy (отношение числа правильных ответов к размеру тестовой выборки)на валидационной выборке.

In [46]:
model_LogisticRegression = LogisticRegression(random_state=12345)
model_LogisticRegression.fit(features_train, target_train)
start_time = time.time()
predictions = model_LogisticRegression.predict(features_valid)
time_best_model = 1000*(time.time() - start_time)
result = accuracy_score(target_valid, predictions)

print("Accuracy модели логистической регрессии на валидационной выборке:", result)
print("Время выполнения {:.4f} мс".format(time_best_model))

Accuracy модели логистической регрессии на валидационной выборке: 0.71850699844479
Время выполнения 1.0426 мс




### Выводы
В итоге получаем следующие результаты:

**Модель**  | **Accuracy** | **Время выполнения, мс** | **Гиперпараметры**
:-------------: | :-------------: | :-------------: | :-------------:
Решающее дерево | 0.7853 | **0.9589** | max_depth = 3
Случайный лес | **0.8071** | 8.5864 | max_depth = 8, n_estimators = 41
Логистическая регрессия | 0.7589 | 1.0469 | -

Самая **точная** модель - **Случайный лес** (accuracy = **0.8071**)  
Самая **быстрая** модель - **Решающее дерево** (Время выполнения = **0.9589 мс**)

## 4. Проверка моделей на тестовой выборке<a id="проверка_моделей_на_тестовой_выборке"></a>

## 4.1 Решающее дерево<a id="проверка_моделей_на_тестовой_выборке__решающее_дерево"></a>

In [47]:
predictions = best_model_DecisionTree.predict(features_test)
result = accuracy_score(target_test, predictions)
print("Accuracy наилучшей модели (Решающее дерево) на тестовой выборке:", result)

Accuracy наилучшей модели (Решающее дерево) на тестовой выборке: 0.8118195956454122


## 4.2 Случайный лес<a id="проверка_моделей_на_тестовой_выборке__случайный_лес"></a>

In [48]:
predictions = best_model_RandomForest.predict(features_test)
result = accuracy_score(target_test, predictions)
print("Accuracy наилучшей модели (Случайный лес) на тестовой выборке:", result)

Accuracy наилучшей модели (Случайный лес) на тестовой выборке: 0.8102643856920684


## 4.3 Логистическая регрессия<a id="проверка_моделей_на_тестовой_выборке__логистическая_регрессия"></a>

In [49]:
predictions = model_LogisticRegression.predict(features_test)
result = accuracy_score(target_test, predictions)
print("Accuracy наилучшей модели (Случайный лес) на тестовой выборке:", result)

Accuracy наилучшей модели (Случайный лес) на тестовой выборке: 0.7107309486780715


### Выводы
Добавим в таблицу результаты accuracy по тестовой выборке:

**Модель**  | **Accuracy_valid** | **Accuracy_test** | **Время выполнения, мс** | **Гиперпараметры**
:-------------: | :-------------: | :-------------: | :-------------: | :-------------:
Решающее дерево | 0.7853 | 0.7791 | **0.9589** | max_depth = 3
Случайный лес | **0.8071** | **0.7978** | 8.5864 | max_depth = 8, n_estimators = 41
Логистическая регрессия | 0.7589 | 0.7402 | 1.0469 | -

Если заказчику необходима **точность**, то стоит выбрать модель **Случайный лес** с **accuracy** по тестовой выборке **0.7978**, но эта модель **самая медленная**. Она в 8.5 раз медленее остальных моделей.  
Если заказчику необходима **скорость** работы модели, то стоит выбрать модель **Решающее дерево** с **accuracy** по тестовой выборке **0.7791**. Эта модель **самая быстрая**, но менее точная, чем модель Случайный лес. 

## 5. Проверка модели на адекватность<a id="проверка_моделей_на_адекватность"></a>

Чтобы проверить модель на адекватность, необходимо сравнить ей со случвйной моделью для которой accuracy = 0.5. Напомню, что в нашей выборке 69.3% клиентов из выборки используют тариф Smart, 30.7% клиентов из выборки используют тариф Ultra. Предположим, что есть модель, которая всегда предсказывает, что необходимо выбрать тариф Smart. Точность такой модели составит 0.693. Поэтому, чтобы наша модель была адекватна, необходимо, чтобы accuracy нашей модели было больше, чем 0.693.  

Accuracy нашей лучшей модели составляет 0.7978, что больше, чем 0.693, соответсвтенно, наша модель адекватна.

## 6. Общий вывод<a id="общий_вывод"></a>

В результа проведенного анализа создали и обучили три модели: Решающее дерево, Случайный лес, Логистическая регрессия.  
Получили следующие результаты:  

**Модель**  | **Accuracy_valid** | **Accuracy_test** | **Время выполнения, мс** | **Гиперпараметры**
:-------------: | :-------------: | :-------------: | :-------------: | :-------------:
Решающее дерево | 0.7853 | 0.7791 | **0.9589** | max_depth = 3
Случайный лес | **0.8071** | **0.7978** | 8.5864 | max_depth = 8, n_estimators = 41
Логистическая регрессия | 0.7589 | 0.7402 | 1.0469 | -

Если заказчику необходима **точность**, то стоит выбрать модель **Случайный лес** с **accuracy** по тестовой выборке **0.7978**, но эта модель **самая медленная**. Она в 8.5 раз медленее остальных моделей.  
Если заказчику необходима **скорость** работы модели, то стоит выбрать модель **Решающее дерево** с **accuracy** по тестовой выборке **0.7791**. Эта модель **самая быстрая**, но менее точная, чем модель Случайный лес.

Также проверили модель на адекватность. Все три модели являются адекватными.