# Рекомендация тарифов

**Описание проекта**

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф.

**Описание данных**

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:

* сalls — количество звонков,
* minutes — суммарная длительность звонков в минутах,
* messages — количество sms-сообщений,
* mb_used — израсходованный интернет-трафик в Мб,
* is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

**Цель проекта:**

Построить модель с максимально большим значением accuracy, довести долю правильных ответов минимум до 0.75. Проверить accuracy на тестовой выборке.

## Открыть и изучить файл

Импортируем все необходимые библиотеки и структуры данных

In [1]:
!pip install -U fast_ml

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting fast_ml
  Downloading fast_ml-3.68-py3-none-any.whl (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.1/42.1 KB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: fast_ml
Successfully installed fast_ml-3.68


In [2]:
import pandas as pd
from fast_ml.model_development import train_valid_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [3]:
!wget https://code.s3.yandex.net/datasets/users_behavior.csv

--2023-02-28 08:07:48--  https://code.s3.yandex.net/datasets/users_behavior.csv
Resolving code.s3.yandex.net (code.s3.yandex.net)... 93.158.134.158, 2a02:6b8::2:158
Connecting to code.s3.yandex.net (code.s3.yandex.net)|93.158.134.158|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 134358 (131K) [application/octet-stream]
Saving to: ‘users_behavior.csv’


2023-02-28 08:07:49 (316 KB/s) - ‘users_behavior.csv’ saved [134358/134358]



In [4]:
users_behavior = pd.read_csv("users_behavior.csv")

In [5]:
users_behavior.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [6]:
users_behavior.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [7]:
users_behavior['messages']=users_behavior['messages'].astype("int")

In [8]:
users_behavior.duplicated().sum()

0

In [9]:
users_behavior.columns

Index(['calls', 'minutes', 'messages', 'mb_used', 'is_ultra'], dtype='object')

In [10]:
users_behavior.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


# **Вывод**

1. Перед нами DataFrame с 5 колонками и 3214 строчками
2. Преобразовали тип данных в столбце 'messages' в 'Int'
3. С регистром все в порядке 
4. Дубликатов в DataFrame нет

## Разбить данные на выборки

Разделим исходные данные на обучающую, валидационную и тестовую выборки.

In [11]:
features_train, target_train, features_valid, target_valid, features_test, target_test = train_valid_test_split(
    users_behavior, target='is_ultra', train_size=0.60, valid_size=0.2, test_size=0.2)

In [12]:
features_train.shape

(1928, 4)

In [13]:
target_train.shape

(1928,)

In [14]:
features_valid.shape

(643, 4)

In [15]:
target_valid.shape

(643,)

In [16]:
features_test.shape

(643, 4)

In [17]:
target_test.shape

(643,)

## Исследовать модели

Исследуем качество разных моделей, изменяя гиперпараметры. 

Начнем с исследования модели Random Forest.

### Random Forest

In [18]:
best_model_random_forest = None
best_accuracy_random_forest = 0
best_est_random_forest = 0
best_depth_random_forest = 0
for est in range(2,51,10):
    for depth in range(2,50):
        model_RF = RandomForestClassifier(random_state = 123456, n_estimators = est, max_depth = depth, n_jobs=-1)
        model_RF.fit(features_train,target_train)
        prediction_valid_random_forest = model_RF.predict(features_valid)
        accuracy_random_forest = accuracy_score(target_valid, prediction_valid_random_forest)
        if best_accuracy_random_forest < accuracy_random_forest:
            best_model_random_forest = model_RF
            best_depth_random_forest = depth
            best_est_random_forest = est
            best_accuracy_random_forest = accuracy_random_forest

In [19]:
print("Accuracy Random Forest:", best_accuracy_random_forest, "количество деревьев", best_est_random_forest, "глубина дерева", best_depth_random_forest )

Accuracy Random Forest: 0.8040435458786936 количество деревьев 22 глубина дерева 8


Исследуем модель Decision Tree

In [20]:
best_decision_tree = None
best_accuracy_decision_tree = 0
best_depth_decision_tree = 0
for depth in range(2,51):
    model_DF = DecisionTreeClassifier(random_state = 12345, max_depth = depth)
    model_DF.fit(features_train,target_train)
    prediction_valid_decision_tree = model_DF.predict(features_valid)
    accuracy_decision_tree = accuracy_score(prediction_valid_decision_tree, target_valid)
    if best_accuracy_decision_tree < accuracy_decision_tree:
        best_decision_tree = model_DF
        best_accuracy_decision_tree = accuracy_decision_tree
        best_depth_decision_tree = depth

In [21]:
print("Accuracy Decision Tree", best_accuracy_decision_tree, "глубина дерева:", best_depth_decision_tree )

Accuracy Decision Tree 0.7962674961119751 глубина дерева: 9


Исследуем модель Logistic Regression

In [22]:
model_logistic_regression = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model_logistic_regression.fit(features_train, target_train)
prediction_valid_logistic_regression = model_logistic_regression.predict(features_valid)
accuracy_logistic_regression = accuracy_score(prediction_valid_logistic_regression, target_valid)

In [23]:
print("Accuracy Logistic Regression:", accuracy_logistic_regression)

Accuracy Logistic Regression: 0.749611197511664


# **Вывод**

Наиболее высокий результат предсказаний делает модель Random Forest, это видно по accuracy на валидационной выборке.

## Проверить модель на тестовой выборке

Проверим модель на тестовой выборке.

In [24]:
best_model_random_forest.fit(
    features_test,
    target_test
)
prediction_test_random_forest = best_model_random_forest.predict(features_test)
accuracy_test_random_forest = accuracy_score(target_test, prediction_test_random_forest)
print("Accuracy на тестовой выборке", accuracy_test_random_forest)

Accuracy на тестовой выборке 0.8833592534992224


In [25]:
best_decision_tree.fit(
    features_test,
    target_test
)
prediction_test_decision_tree = best_decision_tree.predict(features_test)
accuracy_test_decision_tree = accuracy_score(target_test, prediction_test_decision_tree)
print("Accuracy на тестовой выборке", accuracy_test_decision_tree)

Accuracy на тестовой выборке 0.8709175738724728


In [26]:
model_logistic_regression.fit(
    features_test,
    target_test
)
prediction_test_logistic_regression = model_logistic_regression.predict(features_test)
accuracy_logistic_regression_test = accuracy_score(target_test, prediction_test_logistic_regression)
print("Accuracy на тестовой выборке", accuracy_logistic_regression_test)

Accuracy на тестовой выборке 0.7433903576982893


Наиболее высокий accuracy на тестовой выборке делает Random Forest.

Объединим данные (обучающие и валидационные) и проверим accuracy.

In [27]:
features_full_train = pd.concat([features_train, features_valid])
target_full_train = pd.concat([target_train, target_valid])

In [28]:
best_model_random_forest.fit(features_full_train, target_full_train)

RandomForestClassifier(max_depth=8, n_estimators=22, n_jobs=-1,
                       random_state=123456)

In [29]:
prediction_full_random_forest = best_model_random_forest.predict(features_test)

In [30]:
accuracy_full_random_forest = accuracy_score(target_test, prediction_full_random_forest)
print("Accuracy на объединенной выборке", accuracy_full_random_forest)

Accuracy на объединенной выборке 0.7962674961119751


In [31]:
best_decision_tree.fit(features_full_train,target_full_train)

DecisionTreeClassifier(max_depth=9, random_state=12345)

In [32]:
prediction_full_decision_tree = best_decision_tree.predict(features_test)

In [33]:
accuracy_full_decision_tree = accuracy_score(target_test, prediction_full_decision_tree)
print("Accuracy на объединенной выборке", accuracy_full_decision_tree)

Accuracy на объединенной выборке 0.776049766718507


In [34]:
model_logistic_regression.fit(features_full_train, target_full_train)

LogisticRegression(max_iter=1000, random_state=12345)

In [35]:
prediction_full_logistic_regression = model_logistic_regression.predict(features_test)

In [36]:
accuracy_full_logistic_regression = accuracy_score(target_test, prediction_full_logistic_regression)
print("Accuracy на объединенной выборке", accuracy_full_logistic_regression)

Accuracy на объединенной выборке 0.7013996889580093


## (бонус) Проверить модели на адекватность

In [37]:
dummy_prediction_1 = [1 for i in range(643)]

In [38]:
dummy_accuracy_score_1 = accuracy_score(dummy_prediction_1, target_test) 
dummy_accuracy_score_1

0.3094867807153966

In [39]:
dummy_prediction_0 = [0 for i in range(643)]

In [40]:
dummy_accuracy_score_0 = accuracy_score(dummy_prediction_0, target_test) 
dummy_accuracy_score_0

0.6905132192846034

## Вывод

Изучены исходные данные. Исходные данные разделены на обучающую, валидационную и тестовую выборки. Исследовано качество разных моделей, с различными гиперпараметрами. 

1.   Наиболее высокий результат предсказаний делает модель Random Forest, это видно по accuracy на валидационной выборке.
2.   Проверено качество модели на тестовой выборке. Наиболее высокий accuracy на тестовой выборке делает Random Forest.
3.  Проверено качество модели на объединенной выборке валидационная и тестовая. Наиболее высокий accuracy на этой выборке делает Random Forest.
4.  Модель проверена на вменяемость. Аccuracy_score для "глупой модели" оказался ниже, чем у лучшей модели, значит модель обладает предиктивной силой и может считаться адекватной.