# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

Подключение необходимых библиотек - **pandas** и **sklearn**.

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Общая информация о датасете.

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


Первые пять строк датасета.

## Разбейте данные на выборки

In [4]:
df_main, df_test = train_test_split(df, test_size=0.2, random_state=12345)
df_train, df_valid = train_test_split(df_main, test_size=0.25, random_state=12345)

features_train = df_train.drop('is_ultra', axis=1)
target_train = df_train['is_ultra']

features_valid = df_valid.drop('is_ultra', axis=1)
target_valid = df_valid['is_ultra']

Данные были разбиты на обучающую, валидационную и тестовую выборки.

## Исследуйте модели

**Модель - DecisionTreeClassifier.**

In [5]:
for depth in range(1, 6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid)) 

max_depth = 1 : 0.7387247278382582
max_depth = 2 : 0.7573872472783826
max_depth = 3 : 0.7651632970451011
max_depth = 4 : 0.7636080870917574
max_depth = 5 : 0.7589424572317263


С использованием модели DecisionTreeClassifier лучше всего параметр accuracy получается при гиперпараметре max_depth равном 4 (0.7978227060653188)

**Модель - RandomForestClassifier.**

In [6]:
for est in range(1, 6):
    model = RandomForestClassifier(random_state=12345, n_estimators=est)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    print('n_estimators =', est, ': ', end='')
    print(accuracy_score(target_valid, predictions_valid))

n_estimators = 1 : 0.702954898911353
n_estimators = 2 : 0.7573872472783826
n_estimators = 3 : 0.744945567651633
n_estimators = 4 : 0.7651632970451011
n_estimators = 5 : 0.7620528771384136


С использованием модели RandomForestClassifier лучше всего параметр accuracy получается при гиперпараметре n_estimators равном 2 (0.7589424572317263)

В качестве лучшей модели выберем DecisionTreeClassifier с гиперпараметром max_depth равным 4.

## Проверьте модель на тестовой выборке

In [9]:
features_test = df_test.drop('is_ultra', axis=1)
target_test = df_test['is_ultra']

best_model = DecisionTreeClassifier(random_state=12345, max_depth=4)
best_model.fit(features_train, target_train)
best_predictions = best_model.predict(features_test)
print(f'Точность модели: {accuracy_score(target_test, best_predictions)}')

Точность модели: 0.7651632970451011


Выбранная модель - **DecisionTreeClassifier** - отлично показала себя на тестовых данных: точность 77%.

## Вывод

Был проанализирован датафрейм с информацией о поведении клиентов и их тарифах. Данные были разбиты на выборки - обучающая, валидационная и тестовая. Затем были исследованы две модели - **DecisionTreeClassifier** и **RandomForestClassifier**. На валидационной выборке лучше всего себя показала модель **DecisionTreeClassifier** с гиперпараметром *max_depth* равным 4. Далее данная модель была проверена на тестовой выборке - она отлично показала себя на тестовых данных с точностью (*accuracy*) **77%**.