# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

Цель проекта в нахождении модели с максимально большим значением accuracy.

Задача использовать разные модели для нахождения лучшей модели

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')
df

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.90,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
...,...,...,...,...,...
3209,122.0,910.98,20.0,35124.90,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## Разбейте данные на выборки

In [4]:
df_train, df_valid = train_test_split(df, test_size=0.25, random_state=12345)
df_valid, df_test = train_test_split(df_valid,test_size = 0.5, random_state=12345)
print(df_train.shape[0])
print(df_valid.shape[0])

2410
402


## Исследуйте модели

In [5]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

valid_features = df_valid.drop(['is_ultra'], axis=1)
valid_target = df_valid['is_ultra']

train_features = df_train.drop(['is_ultra'], axis=1)
train_target = df_train['is_ultra']

test_features = df_test.drop(['is_ultra'], axis=1)
test_target = df_test['is_ultra']
print(valid_features.shape[0])
print(train_features.shape[0])
print(test_features.shape[0])

402
2410
402


In [6]:
depths = []
DTC_accuracies = []

for depth in range(1,10):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth, criterion='gini', min_samples_split=2)
    model.fit(train_features,train_target)
    predictions = model.predict(valid_features)
    score = accuracy_score(valid_target, predictions)
    depths.append(depth)
    DTC_accuracies.append(score)
    print('Depth:', depth, end='')
    print('        Accuracy:', score)

Depth: 1        Accuracy: 0.763681592039801
Depth: 2        Accuracy: 0.7935323383084577
Depth: 3        Accuracy: 0.7985074626865671
Depth: 4        Accuracy: 0.7985074626865671
Depth: 5        Accuracy: 0.7985074626865671
Depth: 6        Accuracy: 0.7786069651741293
Depth: 7        Accuracy: 0.7885572139303483
Depth: 8        Accuracy: 0.7835820895522388
Depth: 9        Accuracy: 0.7786069651741293


In [7]:
estimators = []
RFC_accuracies = []

for estim in range(10,51,4):
    model = RandomForestClassifier(random_state=12345, n_estimators=estim)
    model.fit(train_features, train_target)
    predictions = model.predict(valid_features)
    score = accuracy_score(valid_target, predictions)
    estimators.append(estim)
    RFC_accuracies.append(score)
    print('Estimator:', estim, end='')
    print('        Accuracy:', score)

Estimator: 10        Accuracy: 0.7960199004975125
Estimator: 14        Accuracy: 0.7935323383084577
Estimator: 18        Accuracy: 0.7960199004975125
Estimator: 22        Accuracy: 0.7960199004975125
Estimator: 26        Accuracy: 0.7860696517412935
Estimator: 30        Accuracy: 0.7935323383084577
Estimator: 34        Accuracy: 0.7935323383084577
Estimator: 38        Accuracy: 0.7985074626865671
Estimator: 42        Accuracy: 0.7985074626865671
Estimator: 46        Accuracy: 0.8009950248756219
Estimator: 50        Accuracy: 0.8009950248756219


In [8]:
neighbors_list = []
KNC_accuracies = []

for neighbors in range(1,35,4):
    model = KNeighborsClassifier(n_neighbors = neighbors)
    model.fit(train_features, train_target)
    predictions = model.predict(valid_features)
    score = accuracy_score(valid_target, predictions)
    neighbors_list.append(neighbors)
    KNC_accuracies.append(score)
    print('Neighbors:', neighbors, end='')
    print('        Accuracy:', score)

Neighbors: 1        Accuracy: 0.7313432835820896
Neighbors: 5        Accuracy: 0.7786069651741293
Neighbors: 9        Accuracy: 0.7786069651741293
Neighbors: 13        Accuracy: 0.7786069651741293
Neighbors: 17        Accuracy: 0.7761194029850746
Neighbors: 21        Accuracy: 0.7810945273631841
Neighbors: 25        Accuracy: 0.7736318407960199
Neighbors: 29        Accuracy: 0.7686567164179104
Neighbors: 33        Accuracy: 0.7711442786069652


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


Было исследовано  дерево решений, ближайшие соседи, случайный лес.

Вывод:

У дерева решений при 3,4,5 деревьях Accuracy: 0.7985074626865671

У соседей при 4 соседях Accuracy: 0.7910447761194029

У случайного леса при 30 деревьях Accuracy: 0.7935323383084577

Самый лучший Accuracy: 0.7985074626865671

## Проверьте модель на тестовой выборке

In [9]:
model = DecisionTreeClassifier(random_state=12345, max_depth=7)
model.fit(train_features,train_target)
predictions = model.predict(test_features)
score = accuracy_score(test_target, predictions)
depths.append(depth)
DTC_accuracies.append(score)
print('Accuracy:', score)

Accuracy: 0.7910447761194029


Дерево решений на тестовой выборке при глубине 7Accuracy: 0.7985074626865671

## (бонус) Проверьте модели на адекватность

In [10]:
print('Model Accuracy:', model.score(train_features, train_target))

Model Accuracy: 0.8394190871369295


Проверка точности предсказаний модели

Было проведено иследование машинного обучения с целью найти максимально большой Accuracyl это дерево решений на тестовой выборке при глубине 4.

Модели показывают большую точность, они выявили закономерности, позволяющие предложить новым пользователям тариф Ультра.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [x] Весь код исполняется без ошибок
- [x] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [x] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75
