# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/users_behavior.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


**Выводы**
1. С помощью библиотеки pandas загрузили файл users_behavior.csv
2. С помощью функции info() помсмотрели основные параметры датасета

## Разбейте данные на выборки

In [2]:
from sklearn.model_selection import train_test_split

In [3]:
data_train, data_split = train_test_split(
    data, test_size=0.40, random_state=12345)

data_test, data_valid = train_test_split(
    data_split, test_size=0.50, random_state=12345)

features_train = data_train.drop('is_ultra', axis=1)
target_train = data_train['is_ultra']

features_test = data_test.drop('is_ultra', axis=1)
target_test = data_test['is_ultra']

features_valid = data_valid.drop('is_ultra', axis=1)
target_valid = data_valid['is_ultra']

In [4]:
data_train.shape

(1928, 5)

In [5]:
data_test.shape

(643, 5)

In [6]:
data_valid.shape

(643, 5)

**Выводы**

1. Данные были разбиты на выборки data_train, data_test и data_valid в соотношении 3:1:1
2. Из выборок были выделены признаки (features_train, features_test и features_valid) и целевые признаки - (target_train, target_test и target_valid) 


## Исследуйте модели

In [7]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [8]:
best_model_1 = None
best_result_1 = 0
for depth in range(10, 200, 10):
    model_1 = DecisionTreeClassifier(random_state=12345, max_depth=depth, min_samples_split=100, min_samples_leaf=10) # обучаем модель с заданной глубиной дерева от 1 до 6
    model_1.fit(features_train, target_train) # обучаем модель
    result = model_1.score(features_valid, target_valid)
    if result > best_result_1:
        best_model_1 = model_1 # сохраняем наилучшую модель
        best_result_1 = result #  сохраняем наилучшее значение метрики accuracy на валидационных данных
        
print("Accuracy наилучшей модели на валидационной выборке:", best_result_1)
best_model_1

Accuracy наилучшей модели на валидационной выборке: 0.8040435458786936


DecisionTreeClassifier(max_depth=10, min_samples_leaf=10, min_samples_split=100,
                       random_state=12345)

In [9]:
from sklearn.ensemble import RandomForestClassifier

In [10]:
best_model_2 = None
best_result_2 = 0
for est in range(10, 200, 10):
    model_2 = RandomForestClassifier(random_state=12345, n_estimators=est, min_samples_split=30, min_samples_leaf=6) # обучите модель с заданным количеством деревьев
    model_2.fit(features_train, target_train) # обучите модель на тренировочной выборке
    result = model_2.score(features_valid, target_valid) # посчитайте качество модели на валидационной выборке
    if result > best_result_2:
        best_model_2 = model_2 # сохраните наилучшую модель
        best_result_2 = result #  сохраните наилучшее значение метрики accuracy на валидационных данных

print("Accuracy наилучшей модели на валидационной выборке:", best_result_2)
best_model_2

Accuracy наилучшей модели на валидационной выборке: 0.8118195956454122


RandomForestClassifier(min_samples_leaf=6, min_samples_split=30,
                       random_state=12345)

In [11]:
from sklearn.linear_model import LogisticRegression

In [12]:
model_3 = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000) 
model_3.fit(features_train, target_train)
result = model_3.score(features_valid, target_valid)
print("Accuracy наилучшей модели на валидационной выборке:", result)
model_3

Accuracy наилучшей модели на валидационной выборке: 0.6842923794712286


LogisticRegression(max_iter=1000, random_state=12345)

**Выводы**

1. Обучили на тренировычных данных три модели (DecisionTreeClassifier, RandomForestClassifier и LogisticRegression)
2. Были подобраны гипперпарамметры для моделей DecisionTreeClassifier и RandomForestClassifier которые позволили получить долю правильных ответов(accuracy) 0.8040435458786936 для DecisionTreeClassifier и 0.8118195956454122 для RandomForestClassifier
3. Лучший показатель доли правильных ответов у RandomForestClassifier (0.8118195956454122), а худший у LogisticRegression (0.6842923794712286)

## Проверьте модель на тестовой выборке

In [13]:
print("Accuracy на тестовой выборке:", best_model_1.score(features_test, target_test))
best_model_1

Accuracy на тестовой выборке: 0.7838258164852255


DecisionTreeClassifier(max_depth=10, min_samples_leaf=10, min_samples_split=100,
                       random_state=12345)

In [14]:
print("Accuracy на тестовой выборке:", best_model_2.score(features_test, target_test))
best_model_2

Accuracy на тестовой выборке: 0.7931570762052877


RandomForestClassifier(min_samples_leaf=6, min_samples_split=30,
                       random_state=12345)

In [15]:
print("Accuracy на тестовой выборке:", model_3.score(features_test, target_test))
model_3

Accuracy на тестовой выборке: 0.7107309486780715


LogisticRegression(max_iter=1000, random_state=12345)

**Выводы**

Проверили модели на тестовых выборках:
- DecisionTreeClassifier доля правильных ответов(accuracy)- 0.7869362363919129
- RandomForestClassifier доля правильных ответов(accuracy)- 0.7931570762052877 (лучший показатель)
- LogisticRegression доля правильных ответов(accuracy)- 0.7107309486780715 (хучший показатель)

## (бонус) Проверьте модели на адекватность

In [16]:
from sklearn.dummy import DummyClassifier

In [17]:
dclf = DummyClassifier(strategy = 'most_frequent', random_state = 12345)
dclf.fit(features_train, target_train)
score = dclf.score(features_test, target_test)
score

0.7060653188180405

<div class="alert alert-info">
    
**Вывод** \
С помощью фиктивного классифиактора DummyClassifier со стратегией 'most_frequent' мы убедились что наша лучшая модель RandomForestClassifier с показателем 0.8118195956454122 лучше случайной модели.
    



Из иследуемых моделей самые точные результаты демонстрирует модель RandomForestClassifier(min_samples_leaf=6,min_samples_split=30, n_estimators=9, random_state=12345)


