# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score
from joblib import dump
from sklearn.linear_model import LogisticRegression 
import numpy as np
from sklearn.dummy import DummyClassifier

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')
display(df)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.90,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
...,...,...,...,...,...
3209,122.0,910.98,20.0,35124.90,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


В нашем датафрейме достаточное кол-во данных. ***Признаками*** у нас являются столбцы с данными:
- Кол-во звонков
- Минуты
- Сообщения
- Кол-во мб 

А ***целевым признаком*** является: 
- Тариф

Соответственно нам необходимо на основании признаков предсказать какой тариф подойдет пользователям (целевой признак).

## Разбейте данные на выборки

In [4]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']
features_train,  features_test, target_train, target_test = train_test_split(features, target, 
                                                                              test_size=0.2, random_state=12345)
features_train,  features_valid, target_train, target_valid = train_test_split(features_train, target_train, 
                                                                             test_size=0.2, random_state=12345)
print(features.shape, features_train.shape, features_test.shape, features_valid.shape)
print(target.shape, target_train.shape, target_test.shape, target_valid.shape)

(3214, 4) (2056, 4) (643, 4) (515, 4)
(3214,) (2056,) (643,) (515,)


Разбиваем данные на тестовую, обучающую и валидационную. в пропорции 3:1:1

## Исследуйте модели

### Модель: Дерево решений

In [5]:
best_model = None
best_result = 0
for depth in range(1, 10):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    result = accuracy_score(target_valid, predictions)
    if result > best_result:
        best_model = model
        best_result = result
        
print("Accuracy лучшей модели:", best_result, "Глубина дерева:", depth)

Accuracy лучшей модели: 0.7650485436893204 Глубина дерева: 9


Модель Дерево решений с глубиной дерева 9 имеет неплохую обучаемость на валидационной выборке в 0,76.

In [6]:
best_model = None
best_result = 0
for depth in range(1, 10):
    model = DecisionTreeClassifier(random_state=12345, criterion='entropy', max_depth=depth)
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    result = accuracy_score(target_valid, predictions)
    if result > best_result:
        best_model = model
        best_result = result
        
print("Accuracy лучшей модели:", best_result, "Глубина дерева:", depth)

Accuracy лучшей модели: 0.7747572815533981 Глубина дерева: 9


### Модель: Случайный лес

In [7]:
best_model = None
best_result = 0
for est in range(1, 100, 10):
    model = RandomForestClassifier(random_state=12345, n_estimators=est) 
    model.fit(features_train, target_train) 
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_model = model
        best_result = result
print("Accuracy наилучшей модели на валидационной выборке:", best_result, "Количество деревьев:", est)

Accuracy наилучшей модели на валидационной выборке: 0.7844660194174757 Количество деревьев: 91


Модель Случайный лес с количеством деревьев 91 имеет лучшую обучаемость на валидационной выборке в 0,78.


In [8]:
best_model = None
best_result = 0
for est in range(1, 100, 10):
    model = RandomForestClassifier(random_state=12345, criterion='entropy', n_estimators=est) 
    model.fit(features_train, target_train) 
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_model = model
        best_result = result
print("Accuracy наилучшей модели на валидационной выборке:", best_result, "Количество деревьев:", est)

Accuracy наилучшей модели на валидационной выборке: 0.7805825242718447 Количество деревьев: 91


С критерием Энтропия результат совсем ненамного , но хуже

### Модель: Логистическая регрессия

In [9]:
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model.fit(features_train, target_train) 
model.predict(features_valid)
print(model.score(features_valid, target_valid))

0.7165048543689321


In [10]:
model = LogisticRegression(random_state=12345, solver='newton-cg', max_iter=1000)
model.fit(features_train, target_train) 
model.predict(features_valid)
print(model.score(features_valid, target_valid))

0.7165048543689321




In [11]:
model = LogisticRegression(random_state=12345, solver='sag', max_iter=1000)
model.fit(features_train, target_train) 
model.predict(features_valid)
print(model.score(features_valid, target_valid))

0.683495145631068




In [12]:
model = LogisticRegression(random_state=12345, solver='saga', max_iter=1000)
model.fit(features_train, target_train) 
model.predict(features_valid)
print(model.score(features_valid, target_valid))

0.6796116504854369




Модель Логистическая регрессия имеет худшую обучаемость на валидационной выборке в 0,71.

## Проверьте модель на тестовой выборке

Объединяем обучающие и валидационные данные для обучения на тест

In [13]:
features_train_test = pd.DataFrame(features_valid.append(features_train, 
                  ignore_index = True))
target_train_test = pd.DataFrame(target_valid.append(target_train, 
                  ignore_index = True))
print(features_train_test.shape)
target_train_test.shape

(2571, 4)


(2571, 1)

In [24]:
model = RandomForestClassifier(random_state=12345, n_estimators=91)
model.fit(features_train_test, target_train_test) 
predictions = model.predict(features_test)
accuracy = accuracy_score(target_test, predictions)

print("Accuracy:", accuracy)


  model.fit(features_train_test, target_train_test)


Accuracy: 0.7822706065318819


Как мы видим модель Случайный лес показывает отличный результат на тестовой выборке

## (бонус) Проверьте модели на адекватность

In [23]:
model = RandomForestClassifier(random_state=12345, n_estimators=91)
model.fit(features_train_test, target_train_test) 
model.score(features_test, target_test)

  model.fit(features_train_test, target_train_test)


0.7822706065318819

In [22]:
clf = DummyClassifier(strategy='most_frequent', random_state=0)
clf.fit(features_train_test, target_train_test)
DummyClassifier(random_state=0, strategy='most_frequent')
clf.score(features_test, target_test)


0.6951788491446346