# Рекомендация тарифов

В нашем распоряжении данные о поведении клиентов, которые уже перешли на определенный тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф.

Построим модель со значением *accuracy* по крайней мере 0.75.

**Цели исследования:**
Необходимо построить модель для задачи классификации, которая выберет подходящий тариф.

**Описание данных:**
Датасет с информацией о клиентах, уже перешедших на один из заданных тарифов: количество звонков, их суммарная длительность, израсходованный интернет-трафик и т.д.

**План работы:**

1 ***Откроем и изучим файл***

1.1 Импортируем необходимые библиотеки, считаем данные из csv-файла в датафрейм, сохраним в переменную df и выведем ее на экран

1.2 Выведем основную информацию о датафрейме

2 ***Разбивка данных на выборки***

3 ***Исследование моделей***

3.1 Создадим переменные с признаками и целевым признаком для тренировочной и валидационной выборок

3.2 Исследуем модель, обученную при помощи алгоритма Decision Tree

3.3 Исследуем модель, обученную при помощи алгоритма Random Forest

3.4 Исследуем модель, обученную при помощи алгоритма Logistic Regression

4 ***Проверка модели на тестовой выборке***

4.1 Создадим переменные с признаками и целевым признаком для тестовой выборки

4.2 Проверим выбранную модель на тестовой выборке

5 ***Общий вывод***

## Откроем и изучим файл

**1.1 Импортируем необходимые библиотеки, считаем данные из csv-файла в датафрейм, сохраним в переменную df и выведем ее на экран**

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

In [2]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/users_behavior.csv')

df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


**1.2 Выведем основную информацию о датафрейме**

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## Разбивка данных на выборки

In [4]:
# Разобьем датасет на выборку df_1 и тестовую выборку df_test:

df_1, df_test = train_test_split(df, test_size=0.25, random_state=12345)

In [5]:
# Разобьем df_1 на тренировочную и валидационную выборки:

df_train, df_valid = train_test_split(df_1, test_size=0.25, random_state=12345)

## Исследование моделей

**3.1 Создадим переменные с признаками и целевым признаком для тренировочной и валидационной выборок**

In [6]:
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

**3.2 Исследуем модель, обученную при помощи алгоритма Decision Tree**

In [7]:
# Создадим цикл для перебора значения гиперпараметра max_depth от 1 до 5-ти:
for depth in range(1, 6):

# Обучим модель на тренировочной выборке:
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)

# Применим ее к валидационной выборке:
    predictions_valid = model.predict(features_valid)

# Выведем на экран оценку accuracy для каждого значения max_depth:
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))

max_depth = 1 : 0.7495854063018242
max_depth = 2 : 0.7761194029850746
max_depth = 3 : 0.7943615257048093
max_depth = 4 : 0.7893864013266998
max_depth = 5 : 0.7877280265339967


**3.3 Исследуем модель, обученную при помощи алгоритма Random Forest**

In [8]:
# Создадим цикл для перебора значения гиперпараметра est от 1 до 11-ти:
for est in range(1, 11):

    model = RandomForestClassifier(random_state=12345, n_estimators=est)
    model.fit(features_train, target_train)

    predictions_valid = model.predict(features_valid)

# Выведем на экран оценку accuracy для каждого значения n_estimators:
    print("n_estimators =", est, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))

n_estimators = 1 : 0.736318407960199
n_estimators = 2 : 0.7711442786069652
n_estimators = 3 : 0.7661691542288557
n_estimators = 4 : 0.7827529021558872
n_estimators = 5 : 0.7810945273631841
n_estimators = 6 : 0.7993366500829188
n_estimators = 7 : 0.7976782752902156
n_estimators = 8 : 0.7943615257048093
n_estimators = 9 : 0.7943615257048093
n_estimators = 10 : 0.7943615257048093


**3.4 Исследуем модель, обученную при помощи алгоритма Logistic Regression**

In [9]:
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model.fit(features_train, target_train)

model.predict(features_valid)

print(accuracy_score(target_valid, predictions_valid))

0.7943615257048093


**Вывод:**

К тренировочной выборке были применены следующие алгоритмы классификации:

1) Решающее дерево - с перебором гиперпараметра depth от 1 до 5-ти;

2) Случайный лес - с перебором гиперпараметра n_estimators от 1 до 10-ти;

3) Логистическая регрессия.

В результате проверки обученных моделей на валидационной выборке, наилучшим образом себя показал алгоритм Random Forest с n_estimators=6. При оценке по метрике качества значение accuracy составило 0.7993366500829188

## Проверка модели на тестовой выборке

**4.1 Создадим переменные с признаками и целевым признаком для тестовой выборки**

In [10]:
features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']

**4.2 Проверим выбранную модель на тестовой выборке**

In [11]:
model = RandomForestClassifier(random_state=12345, n_estimators=6)

model.fit(features_train, target_train)

predictions_test = model.predict(features_test)

print(accuracy_score(target_test, predictions_test))

0.7736318407960199


## Общий вывод


Для задачи проекта лучше всего подойдет модель, обученная при помощи алгоритма Random Forest со значением гиперпараметра n_estimators=6. В результате проверки на тестовой выборке, значение accuracy составило 0.7736318407960199.