# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv('/datasets/users_behavior.csv')
df.head(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [3]:
df['is_ultra'].value_counts()

0    2229
1     985
Name: is_ultra, dtype: int64

Количество пользователей (по тарифам):
 - «Ультра» — 985, 
 - «Смарт» — 2229

## Разбейте данные на выборки

In [4]:
#определим признаки и целевой признак
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

In [5]:
#Разделим исходные данные на обучающую, валидационную и тестовую выборки
features_train, features_test, target_train, target_test  = train_test_split(features, target, train_size=0.6, random_state=1)
features_test, features_valid, target_test, target_valid = train_test_split(features_test, target_test, test_size=0.5, random_state=1)

In [6]:
#посмотрим количество записей в выборках
print('train:', features_train.shape[0], 'entries')
print('valid:', features_valid.shape[0], 'entries')
print('test:',features_test.shape[0], 'entries')

train: 1928 entries
valid: 643 entries
test: 643 entries


Теперь данные разбиты на три части: обучающую, валидационную и тестовую. Исходные данные разделены в соотношении 3:1:1 (60%, 20%, 20%).

## Исследуйте модели

In [7]:
#1.Дерево решений

best_model = None
best_result = 0
for depth in range(1, 6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_model = model
        best_result = result           
print("Accuracy наилучшей модели:", best_result,'с глубиной:', best_model.max_depth)

Accuracy наилучшей модели: 0.7916018662519441 с глубиной: 5


In [8]:
#2.Случайный лес

best_model = None
best_result = 0
for est in range(1, 11):
    model = RandomForestClassifier(random_state=12345, n_estimators=est)
    model.fit(features_train, target_train)
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_model = model
        best_result = result           
print("Accuracy наилучшей модели:", best_result,'с количеством деревьев', best_model.n_estimators)

Accuracy наилучшей модели: 0.8040435458786936 с количеством деревьев 10


In [9]:
#3.Логистическая регрессия

model = LogisticRegression(random_state=12345) 
model.fit(features_train, target_train)
result = model.score(features_valid, target_valid)

print("Accuracy модели логистической регрессии", result)

Accuracy модели логистической регрессии 0.7433903576982893




В ходе исследования было выяснено, что качество (accuracy)
- Самое высокое у случайного леса: для лучшего результата понадобилось 10 деревьев.
- На втором месте оказалось дерево решений, максимальная глубина которого достигла 5.
- Самое низкое качество предсказания у логистической регрессии. 

Как и ожидалось, победила модель случайного леса, ее качество оказалось самым лучшим.

## Проверьте модель на тестовой выборке

In [10]:
model = RandomForestClassifier(random_state=12345, n_estimators=10)
model.fit(features_train, target_train)
result = model.score(features_test, target_test)
print("Accuracy модели логистической регрессии", result)

Accuracy модели логистической регрессии 0.7776049766718507


Качество модели случайного леса проверено на тестовой выборке. Доля правильных ответов (accuracy) оказалась выше 0.75.

## (бонус) Проверьте модели на адекватность

In [11]:
model = DummyClassifier(strategy="most_frequent")
model.fit(features_train, target_train)
result = model.score(features_test, target_test)
print("Accuracy:", result)

Accuracy: 0.6640746500777605


Фиктивный «классификатор» на основе наивных показателей DummyClassifier cпрогнозировал наиболее частотные значения. Качество ранее выбранной модели случайного леса оказалось выше, значит эта модель прошла проверку на адекватность.