## Начало

In [2]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier

In [3]:
df = pd.read_csv('/datasets/users_behavior.csv')

In [4]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


### Мини-вывод:
Первым делом мы открыли и изучили файл. Что можно сказать: таблица небольшая,все данные структурированы.Признаками можно обозначить столбцы calls, minutes, messages и mb_used. Целевым признаком можно обозначить стобец is_ultra.

## Разбиение данных на выборки

In [6]:
df_train, df_valid = train_test_split(df, test_size=0.4, random_state=12345)
df_valid, df_test = train_test_split(df_valid, test_size=0.5, random_state=12345)
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop(['is_ultra'], axis=1)
features_test = df_test.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']
target_test = df_test['is_ultra']

## Исследование моделей

Рассмотрим три разные модели на валидационной и обучающей выборках поочередности и выберем лучшую. Так как целевой признак у нас категориальный, то мы решаем задачу квалификации.

In [7]:
best_result_train = 0
for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_train = model.predict(features_train)
    result_train = accuracy_score(target_train, predictions_train)
    if result_train > best_result_train:
        best_result_train = result_train
display("Accuracy лучшей модели на обучающей выборке:", best_result_train)

'Accuracy лучшей модели на обучающей выборке:'

0.8890041493775933

Первой моделью на обучающей выборке я использую решающее дерево. Я решил перебрать значения max_depth от 1 до 10 для того,чтобы перебрать больше вариантов и найти лучший процент accuracy.Результат на валидационной выборке неплох,скорость высокая.Перейдем к другой модели.

In [8]:
best_result_train = 0
for est in range(10, 51, 10):
    for depth in range(1, 11):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth) 
        model.fit(features_train, target_train)
        predictions_train = model.predict(features_train)
        result_train = accuracy_score(target_train, predictions_train)
        if result_train > best_result_train:
            best_result_train = result_train
display("Accuracy лучшей модели на обучающей выборке:", best_result_train)

'Accuracy лучшей модели на обучающей выборке:'

0.8947095435684648

Второй моделью я рассмотрел случайный лес.Я также решил перебрать значения max_depth от 1 до 10, а также значения n_estimators от 10 до 50 с шагом 10.На данный момент модель случайного леса показала результат хуже,чем решающее дерево, на обучающей выборке,но скорость у данной модели не самая высокая.

In [9]:
best_result_train = 0
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model.fit(features_train, target_train)
predictions_train = model.predict(features_train)
result_train = accuracy_score(target_train, predictions_train)
if result_train > best_result_train:
    best_result_train = result_train
display("Accuracy лучшей модели на обучающей выборке:", best_result_train)

'Accuracy лучшей модели на обучающей выборке:'

0.7131742738589212

Последней моделью я рассмотрел логическую регрессию.Скорость у данной модели высокая,результат такой же,как у случайного леса.

In [10]:
best_result_valid = 0
for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    result_valid = accuracy_score(target_valid, predictions_valid)
    if result_valid > best_result_valid:
        best_result_valid = result_valid
display("Accuracy лучшей модели на валидационной выборке:", best_result_valid)

'Accuracy лучшей модели на валидационной выборке:'

0.7853810264385692

Первой моделью на валидационной выборке я использую решающее дерево. Я решил перебрать значения max_depth от 1 до 10 для того,чтобы перебрать больше вариантов и найти лучший процент accuracy.Результат на валидационной выборке неплох,скорость высокая.Перейдем к другой модели.

In [11]:
best_result_valid = 0
for est in range(10, 51, 10):
    for depth in range(1, 11):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth) 
        model.fit(features_train, target_train)
        predictions_valid = model.predict(features_valid)
        result_valid = accuracy_score(target_valid, predictions_valid)
        if result_valid > best_result_valid:
            best_result_valid = result_valid
display("Accuracy лучшей модели на валидационной выборке:", best_result_valid)

'Accuracy лучшей модели на валидационной выборке:'

0.8087091757387247

Второй моделью я рассмотрел случайный лес.Я также решил перебрать значения max_depth от 1 до 10, а также значения n_estimators от 10 до 50 с шагом 10.На данный момент модель случайного леса показала наилучший результат на валидационной выборке,но скорость у данной модели не самая высокая.

In [12]:
best_result_valid = 0
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)
result_valid = accuracy_score(target_valid, predictions_valid)
if result_valid > best_result_valid:
    best_result_valid = result_valid
display("Accuracy лучшей модели на валидационной выборке:", best_result_valid)

'Accuracy лучшей модели на валидационной выборке:'

0.7107309486780715

Последней моделью я рассмотрел логическую регрессию.Скорость у данной модели высокая,но результат не очень.Данная модель показала худший результат на валидационной выборке

## Проверка моделей на тестовой выборке

Пройдемся по тем же моделям,но проверять будем на тренировочных выборках.

In [13]:
best_result_test = 0
for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_test = model.predict(features_test)
    result_test = accuracy_score(target_test, predictions_test)
    if result_test > best_result_test:
        best_result_test = result_test
display("Accuracy лучшей модели на тестовой выборке:", best_result_test)

'Accuracy лучшей модели на тестовой выборке:'

0.7993779160186625

На тренировочной выборке модель решающего дерево показало неплохой результат accuracy

In [14]:
best_result_test = 0
for est in range(10, 51, 10):
    for depth in range(1, 11):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth) 
        model.fit(features_train, target_train)
        predictions_valid = model.predict(features_test)
        result_valid = accuracy_score(target_test, predictions_test)
        if result_test > best_result_test:
            best_result_test = result_test
display("Accuracy лучшей модели на обучающей выборке:", best_result_test)

'Accuracy лучшей модели на обучающей выборке:'

0.7884914463452566

Модель случайного леса показала на данный момент результат хуже,чем решающее дерево,но не сильно.

In [15]:
best_result_test = 0
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model.fit(features_train, target_train)
predictions_valid = model.predict(features_test)
result_valid = accuracy_score(target_test, predictions_test)
if result_test > best_result_test:
    best_result_test = result_test
display("Accuracy лучшей модели на обучающей выборке:", best_result_test)

'Accuracy лучшей модели на обучающей выборке:'

0.7884914463452566

На обучающей выборке модель линейной регрессии показала неплохой результат,такой же,как у случайного леса

### Мини-вывод:
Мы рассмотрели три разные модели на трех разных выборках. 

На обучающей выборке лучший результат показала модель решающего дерева.Результаты случайного леса и логической регрессии равны.

На валидационной выборке лучший результат показала модель случайного леса,а худший модель логической регресси, что удивительно,ибо данная модель по точности обычно идет второй после модели случайного леса.

На тренировочной выборке все позиции относительно результата сохранились. Лучший результат показала модель случайного леса, худший - модель логической регрессии.

Мне удалось добиться лучших результатов на обучающей выборке - 0.7993779160186625, валидационной выборке - 0.8087091757387247, а на тренировочной выборке - 0.8947095435684648.

##  Проверка модели на адекватность

In [17]:
dummy_clf = DummyClassifier(strategy="most_frequent")
dummy_clf.fit(features_test, target_test)
DummyClassifier(strategy='most_frequent')
display(f'Качество валидационной выборки: {dummy_clf.score(features_valid, target_valid)}')
display(f'Качество тренирочной выборки: {dummy_clf.score(features_test, target_test)}')

'Качество валидационной выборки: 0.7060653188180405'

'Качество тренирочной выборки: 0.6842923794712286'

### Мини-вывод:
Чтобы понять переобучена модель или нет мы должны посмотреть на разность значения accuracy между валидационной и тренировочной выборок.Наилучшая разница в этом плане в модели линейной регрессии,т.к там результаты практически равны друг другу.Худшая модель в этом плане - случайный лес. Разница accuracy между валидационной и тренировочной выборок у модели случайного леса небольшая и равна примерно 2.Можно сказать,что модель непереучена.

Качество валидационной и тренировочной выборок находятся примерно равны друг другу. Поэтому,можно сказать,что модель решающего дерева наиболее подходящая модель для решения этой задачи

Поэтому, проверку на адекватность модели модель случайного леса прошла.

# Вывод:
В данном проекте в моем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. Моя задача заключалась в  построении модели для задачи классификации, которая выберет подходящий тариф.

Сначала нам необходимо было разделить выборки на валидационную и тренировочную, с этим я успешно справился. Потом начался анализ, я брал различные модели и рассматривали их в контексте валидационной и тренировочной выборки,а потом проверял модели на адекватность.

После всех действий я пришел к тому, что лучшего всего с данной задачей справляется модель решающего дерева. Поэтому,для решения данной задачи я рекомендую использовать модель случайного леса,она наиболее точная,но есть проблема в том,что она работает дольше,чем остальные модели.