# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from joblib import dump
from sklearn.linear_model import LogisticRegression 
from sklearn.ensemble import RandomForestClassifier




In [2]:
data = pd.read_csv('/datasets/users_behavior.csv')

Добавляем необходимые библтотеки, грузим дата сет

In [3]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None


In [4]:
print(data['is_ultra'].value_counts())

0    2229
1     985
Name: is_ultra, dtype: int64


## Разбейте данные на выборки

In [5]:
data_train, data_valid_test = train_test_split(data, test_size=0.4, random_state=12345)
data_valid, data_test = train_test_split(data_valid_test, test_size=0.5, random_state=12345)


Разбиваем дата сет на 2 как 6 к 4, для того что бы потом разделить весь дата сет как 6 к 2 к 2. (Возможно как-то сразу делить на 3 блока?)

In [6]:
print(data_train.shape)
print(data_valid.shape)
print(data_test.shape)

(1928, 5)
(643, 5)
(643, 5)


Проверяем соотношение

## Исследуйте модели

In [7]:
features_train = data_train.drop(['is_ultra'], axis=1)
target_train = data_train['is_ultra']
features_valid = data_valid.drop(['is_ultra'], axis=1)
target_valid = data_valid['is_ultra']
features_test = data_test.drop(['is_ultra'], axis=1)
target_test = data_test['is_ultra']

Модель - LogisticRegression

In [8]:
model_lor = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=3000) 
model_lor.fit(features_train, target_train) 

model_lor.predict(features_valid) 

print(model_lor.score(features_valid, target_valid))


0.7107309486780715


При анализе данной модели наилучший результат 0.7107309486780715, результат не плохой, но более корректный достичь не удалось.

Модель - RandomForestClassifier

In [9]:
best_model_rfc = None
best_result_rfc = 0
for est in range(1, 25):
    model_rfc = RandomForestClassifier(random_state=12345, n_estimators=est) 
    model_rfc.fit(features_train,target_train) 
    result_rfc = model_rfc.score(features_valid,target_valid) 
    if result_rfc > best_result_rfc:
        best_model_rfc = model_rfc 
        best_result_rfc = result_rfc 

print("Accuracy наилучшей модели на валидационной выборке:", best_result_rfc)

Accuracy наилучшей модели на валидационной выборке: 0.7947122861586314


При анализе данной модели наилучший результат 0.78, этот результат подходит для решения задачи. 

## Проверьте модель на тестовой выборке

Проверяем на тестовой выборке

Модель - RandomForestClassifier

In [25]:
print(best_model_rfc.score(features_test, target_test))

0.7807153965785381
