# Рекомендация тарифов

Оператор мобильной связи "Мегалайн" хотят проанализировать поведение клиентов и предложить пользователям с архивными тарифами новый тариф: «Смарт» или «Ультра». В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы.
    
    
Цель исследования: построить модель, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». 
    
Задачи:
1. Изучить исходные данные
2. Разбить данные на выборки
3. Определить какую задачу будем решать: с учителем / без учителя, классификации / регрессии и тд
4. Выбрать подходящие модели, настроить гиперпараметры и исследовать модели на валидационной выборке
5. Определить лучшую модель и проверить ее на тестовой выборке
6. Сделать вывод по исследованию лучшей модели



In [1]:
import pandas as pd
import numpy as np

from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score 
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier#случайный лес
from sklearn.linear_model import LogisticRegression#логистическая регрессия 


# Откройте и изучите файл

In [2]:
data = pd.read_csv('C:/Users/Lubov/jupyter/ds/users_behavior.csv')

In [3]:
data.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
data.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


In [6]:
data['calls'] = data['calls'].astype(int)#так как число звонков и сообщений целые числа, поменяю тип столбцов
data['messages'] = data['messages'].astype(int)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   int32  
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   int32  
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(2), int32(2), int64(1)
memory usage: 100.6 KB


In [6]:
data.isna().sum()#посмотрю наличие пропусков

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

In [7]:
data.duplicated().sum()#проверю на полные дупликаты

0

# Разбейте данные на выборки

Так как я буду рассматривать модель линейной регрессии нужно избежать мультиколлинеарности (возникает, когда одна независимая переменная в регрессионной модели линейно коррелирует с другой независимой переменной).

Для этого создам матрицу корреляции

In [7]:
data.corr()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
calls,1.0,0.982083,0.177385,0.286442,0.207122
minutes,0.982083,1.0,0.17311,0.280967,0.206955
messages,0.177385,0.17311,1.0,0.195721,0.20383
mb_used,0.286442,0.280967,0.195721,1.0,0.198568
is_ultra,0.207122,0.206955,0.20383,0.198568,1.0


Получается между звонками и минутами связь очень сильная, поэтому для избежания мультиколлинеальности не буду использовать столбец минуты, между остальными параметрами связь очень слабая, это хорошо.

Объявлю две переменные: features  —  признаки и target  — целевой признак.

In [12]:
features = data.drop(['is_ultra', 'minutes'],axis=1)
target = data['is_ultra']

Разделю набор данных на обучающую (train) и валидационную (valid) выборки. В валидационной выборке — 40% исходных данных. В random_state значение 12345, stratify=target чтобы сохранить соотношение классов при разбиении.

In [13]:
features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.4,random_state=12345, stratify=target)

Разделю валидационную выборку на валидационную и тестову. В валидационной выборке — 50% валидационных данных. В random_state  значение 12345, stratify=target чтобы сохранить соотношение классов при разбиении. 
В итоге получается соотношение тренировочные/валидационные/тестовые=60/20/20

In [14]:
features_valid, features_test, target_valid, target_test = train_test_split(features_valid, target_valid, test_size=0.5,random_state=12345, stratify=target_valid)

In [15]:
features_train.shape

(1928, 3)

In [16]:
features_valid.shape

(643, 3)

In [17]:
target_train.shape

(1928,)

In [18]:
target_valid.shape

(643,)

In [19]:
features_test.shape 

(643, 3)

In [20]:
target_test.shape

(643,)

# Исследуйте модели

Рассмотрю первую модель - дерево решений.
Попробую разные значения максимальной глубины, max_depth.

In [21]:
best_model = None
best_result = 0
best_depth = 1
for depth in range(1, 81):
	model = DecisionTreeClassifier(random_state=12345, max_depth=depth) 
	model.fit(features_train, target_train) 
	result = model.score(features_valid, target_valid)
	if result > best_result:
		best_model = model
		best_result = result
		best_depth = depth
        
print("Accuracy лучшей модели:", best_result)
print("Лучшая глубина:", best_depth)

Accuracy лучшей модели: 0.7900466562986003
Лучшая глубина: 8


Рассмотрю вторую модель - Случайный лес (Random Forest).
Попробую разные значения количества деревьев и мин.кол-во выборок, которые должен содержать внутренний узел для разделения на другие узлы.

In [22]:
best_model = None
best_result = 0
for est in range(1, 51):
    for m in range(2, 7):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, min_samples_split=m) 
        model.fit(features_train, target_train)#обучу модель на тренировочной выборке
        result = model.score(features_valid, target_valid)#посчитаю качество модели на валидационной выборке
        if result > best_result:
            best_model = model
            best_result = result
            best_est = est
            best_m = m

print("Accuracy наилучшей модели:", best_result)
print("Лучшее количество:", best_est)
print("Мин.кол-во выборок, которые должен содержать внутренний узел для разделения на другие узлы:", best_m)

Accuracy наилучшей модели: 0.8102643856920684
Лучшее количество: 40
Мин.кол-во выборок, которые должен содержать внутренний узел для разделения на другие узлы: 5


Рассмотрю третью модель - Логистическая регрессия.

In [23]:
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model.fit(features_train, target_train)
result = model.score(features_valid, target_valid)
print("Accuracy модели:", result)

Accuracy модели: 0.7402799377916018


На остновании трех моделей можно сделать вывод, что лучшие результаты у модели случайного леса (Random Forest).

# Проверка модели на тестовой выборке

Посчитаю правильность лучшей модели (Random Forest) на тестовой выборке.

In [24]:
model = RandomForestClassifier(random_state=12345, n_estimators=best_est, min_samples_split=best_m) 
model.fit(features_train, target_train)#обучу модель на тренировочной выборке 
result2 = model.score(features_test, target_test)#посчитаю качество модели на тестовой выборке
print("Accuracy модели случайный лес:", result2)

Accuracy модели случайный лес: 0.8118195956454122


# Проверка модели на адекватность

In [26]:
dummy_clf = DummyClassifier(strategy="most_frequent")
dummy_clf.fit(features_train, target_train)
print("Accuracy модели DummyClassifier:",dummy_clf.score(features_test, target_test))

Accuracy модели DummyClassifier: 0.6936236391912908


Это говорит о том, что модель выдает более высокое качество, нежели Dummy модель.

# Вывод
Лучшие предсказания делает случайный лес (Random Forest), так как самая высокая точность предсказания Accuracy=0.81.