# Рекомендация тарифов

В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — мы её уже сделали.

Построим модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверим *accuracy* на тестовой выборке.

## 1. Откройте и изучите файл

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import ExtraTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier
from collections import Counter

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv') #загружаем файл с значениями поведения людей

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## 2. Разбейте данные на выборки

In [5]:
#df_test = df.head(314) # возьмем первые 314 значаний для тестовой выборки

In [6]:
#df = df.tail(2900)

In [7]:
df_train, df_valid_test = train_test_split(df, test_size=0.30, random_state=12345)
# формирование тренировочной и валидационноой выборки

In [8]:
df_test, df_valid = train_test_split(df_valid_test, test_size=0.50, random_state=12345)

In [9]:
features_train = df_train.drop(['is_ultra'], axis=1) # тренировочные признаки
target_train = df_train['is_ultra'] # тренировочные целевые признаки

In [10]:
features_test = df_test.drop(['is_ultra'], axis=1) # тестовые признаки
target_test = df_test['is_ultra'] # тестовые целевые признаки

In [11]:
features_valid = df_valid.drop(['is_ultra'], axis=1) # валидационные признаки
target_valid = df_valid['is_ultra'] # валидационные целевые признаки

## 3. Исследуйте модели

In [12]:
#DecisionTree
for depth in range(1, 40, 2):
    model_1 = DecisionTreeClassifier(random_state=12345, max_depth = depth)
    model_1.fit(features_train, target_train)
    predicted_valid = model_1.predict(features_valid)
    accuracy = accuracy_score(target_valid, predicted_valid)
    print("accuracy:", accuracy)
print()


accuracy: 0.7412008281573499
accuracy: 0.7888198757763976
accuracy: 0.7515527950310559
accuracy: 0.7867494824016563
accuracy: 0.7888198757763976
accuracy: 0.7784679089026915
accuracy: 0.7494824016563147
accuracy: 0.722567287784679
accuracy: 0.7060041407867494
accuracy: 0.7122153209109731
accuracy: 0.6894409937888198
accuracy: 0.6977225672877847
accuracy: 0.6956521739130435
accuracy: 0.6956521739130435
accuracy: 0.6956521739130435
accuracy: 0.6956521739130435
accuracy: 0.6956521739130435
accuracy: 0.6956521739130435
accuracy: 0.6956521739130435
accuracy: 0.6956521739130435



In [13]:
#ExtraTree
for depth in range(1, 40, 2):    
    model_2 = ExtraTreeClassifier(random_state=12345, max_depth = depth)
    model_2.fit(features_train, target_train)
    predicted_valid = model_2.predict(features_valid)
    accuracy = accuracy_score(target_valid, predicted_valid)
    print("accuracy:", accuracy)
print()

accuracy: 0.6956521739130435
accuracy: 0.7267080745341615
accuracy: 0.7701863354037267
accuracy: 0.7432712215320911
accuracy: 0.782608695652174
accuracy: 0.772256728778468
accuracy: 0.7598343685300207
accuracy: 0.7412008281573499
accuracy: 0.7412008281573499
accuracy: 0.7287784679089027
accuracy: 0.7287784679089027
accuracy: 0.6915113871635611
accuracy: 0.6873706004140787
accuracy: 0.6873706004140787
accuracy: 0.6873706004140787
accuracy: 0.6873706004140787
accuracy: 0.6873706004140787
accuracy: 0.6873706004140787
accuracy: 0.6873706004140787
accuracy: 0.6873706004140787



In [14]:
#RandomForest
for depth in range(5, 11):
    print('depth',depth)
    for num in range(10, 30):
        model_3 = RandomForestClassifier(random_state=12345, max_depth=depth, n_estimators = num)
        model_3.fit(features_train, target_train)
        predicted_valid = model_3.predict(features_valid)
        predicted_train = model_3.predict(features_train)
        accuracy_train = accuracy_score(target_train, predicted_train)
        accuracy_valid = accuracy_score(target_valid, predicted_valid)
        if accuracy_valid > 0.826:
            print('num',num)
            print("accuracy_rtain:", accuracy_train)
            print("accuracy_valid:", accuracy_valid)
    print()
print()

depth 5

depth 6

depth 7
num 15
accuracy_rtain: 0.8554913294797688
accuracy_valid: 0.8260869565217391

depth 8
num 27
accuracy_rtain: 0.8719430858159182
accuracy_valid: 0.8260869565217391

depth 9

depth 10




### Выводы

Исходя из исследования моделей Решающего дерева, Экстар деревтев и Случайного леса выбираем модель Решающего дерева как самую быструю и при достижении до правельных ответов 0.8260(больше 0.75)

## 4. Проверьте модель на тестовой выборке

In [15]:
model_3 = RandomForestClassifier(random_state=12345, max_depth = 7,n_estimators = 15)
model_3.fit(features_train, target_train)
test_predictions = model_3.predict(features_test)
test_accuracy = accuracy_score(target_test, test_predictions)
print("Accuracy")
print("Тестовая выборка:",test_accuracy)

Accuracy
Тестовая выборка: 0.7925311203319502


На тестовой выборке получаем долю правельных ответов 0.7925. Это больше 0.75.

## 5. (бонус) Проверьте модели на адекватность

In [16]:
dummy_clf = DummyClassifier(strategy='uniform', random_state=12345)
dummy_clf.fit(features_train, target_train)
y_pred = dummy_clf.predict(features_test)
dummy_clf.score(features_test, target_test)

0.520746887966805

Доля правельных ответов значительно больше доли случайныз ответов. Модель принимается.

# Выводы.
1. Наиболее производитетельная модель с максимальной долей правельных ответов 0.80 достигнута с помощью дерева решений с максимальной глубиной 9.
2. Проверка модели на тестовой выборки показа лучшую долю правельных ответов 0.90.
3. Проверка модели на адекватность положительная.