## 1. Изучаем данные

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error

In [2]:
df = pd.read_csv ('/datasets/users_behavior.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [4]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [5]:
df.shape

(3214, 5)

#### За целевой признак примем значения столбца is_ultra и будем предсказывать его по остальным признакам.

## 2. Разбиваем данные на выборки

In [6]:
df_train, df_valid = train_test_split(df, test_size=0.40, random_state = 42)

In [7]:
features_train = df_train.drop ('is_ultra', axis=1)
display(features_train.shape)
target_train = df_train['is_ultra']
display(target_train.shape)

(1928, 4)

(1928,)

In [8]:
df_valid, df_test = train_test_split(df_valid, test_size=0.50, random_state = 42)

In [9]:
features_valid = df_valid.drop ('is_ultra', axis=1)
display(features_valid.shape)
target_valid = df_valid['is_ultra']
display(target_valid.shape)

(643, 4)

(643,)

In [10]:
features_test = df_test.drop ('is_ultra', axis=1)
display(features_test.shape)
target_test = df_test['is_ultra']
display(target_test.shape)

(643, 4)

(643,)

## 3. Исследуем модели

#### Исследуем модель классификатора Дерева решений 

In [11]:
for depth in range (1, 11):
    model = DecisionTreeClassifier(random_state = 42, max_depth = depth)
    model.fit(features_train, target_train)
    predict = model.predict(features_valid)
    predict_train = model.predict(features_train)
    accuracy = accuracy_score(target_valid, predict)
    accuracy_train = accuracy_score(target_train, predict_train)
    print("На обучающей выборке")
    print('Глубина:',depth, 'Точность предсказаний:', accuracy_train)
    print("На валидационной выборке")
    print('Глубина:',depth, 'Точность предсказаний:', accuracy)

На обучающей выборке
Глубина: 1 Точность предсказаний: 0.7479253112033195
На валидационной выборке
Глубина: 1 Точность предсказаний: 0.7309486780715396
На обучающей выборке
Глубина: 2 Точность предсказаний: 0.7816390041493776
На валидационной выборке
Глубина: 2 Точность предсказаний: 0.7822706065318819
На обучающей выборке
Глубина: 3 Точность предсказаний: 0.7971991701244814
На валидационной выборке
Глубина: 3 Точность предсказаний: 0.7916018662519441
На обучающей выборке
Глубина: 4 Точность предсказаний: 0.8086099585062241
На валидационной выборке
Глубина: 4 Точность предсказаний: 0.7807153965785381
На обучающей выборке
Глубина: 5 Точность предсказаний: 0.8153526970954357
На валидационной выборке
Глубина: 5 Точность предсказаний: 0.7729393468118196
На обучающей выборке
Глубина: 6 Точность предсказаний: 0.8226141078838174
На валидационной выборке
Глубина: 6 Точность предсказаний: 0.776049766718507
На обучающей выборке
Глубина: 7 Точность предсказаний: 0.8386929460580913
На валидационно

#### Начиная с глубины дерева в 5 модель склонна переобучаться. Самые точные предсказания при глубине дерева = 4.

In [12]:
predict = model.predict(features_test)
accuracy = accuracy_score(target_test, predict)
print("На тестовой выборке")
print('Глубина:', 4, 'Точность предсказаний:', accuracy)

На тестовой выборке
Глубина: 4 Точность предсказаний: 0.7947122861586314


#### Исследуем модель классификатора Случайного леса

In [13]:
for estimators in range (1, 110, 10):
    for depth in range (1, 33, 3):
        model = RandomForestClassifier(random_state= 42, n_estimators = estimators, max_depth = depth,
                                   n_jobs = -1, min_samples_split = 3)
        model.fit(features_train, target_train)
        predict = model.predict(features_valid)
        predict_train = model.predict(features_train)
        accuracy = accuracy_score(target_valid, predict)
        accuracy_train = accuracy_score(target_train, predict_train)
        print("На обучающей выборке")
        print('Деревьев:',estimators, 'Глубина:', depth, 'Точность предсказаний:', accuracy_train)
        print("На валидационной выборке")
        print('Деревьев:',estimators, 'Глубина:', depth, 'Точность предсказаний:', accuracy)

На обучающей выборке
Деревьев: 1 Глубина: 1 Точность предсказаний: 0.7453319502074689
На валидационной выборке
Деревьев: 1 Глубина: 1 Точность предсказаний: 0.7558320373250389
На обучающей выборке
Деревьев: 1 Глубина: 4 Точность предсказаний: 0.8013485477178424
На валидационной выборке
Деревьев: 1 Глубина: 4 Точность предсказаний: 0.7978227060653188
На обучающей выборке
Деревьев: 1 Глубина: 7 Точность предсказаний: 0.8267634854771784
На валидационной выборке
Деревьев: 1 Глубина: 7 Точность предсказаний: 0.7978227060653188
На обучающей выборке
Деревьев: 1 Глубина: 10 Точность предсказаний: 0.845954356846473
На валидационной выборке
Деревьев: 1 Глубина: 10 Точность предсказаний: 0.7807153965785381
На обучающей выборке
Деревьев: 1 Глубина: 13 Точность предсказаний: 0.8589211618257261
На валидационной выборке
Деревьев: 1 Глубина: 13 Точность предсказаний: 0.7465007776049767
На обучающей выборке
Деревьев: 1 Глубина: 16 Точность предсказаний: 0.8796680497925311
На валидационной выборке
Дерев

In [14]:
model_winner = RandomForestClassifier(random_state= 42, n_estimators = 11, max_depth = 13,
                                   n_jobs = -1, min_samples_split = 3)
model_winner.fit(features_train, target_train)
predict = model_winner.predict(features_valid)
predict_train = model_winner.predict(features_train)
accuracy = accuracy_score(target_valid, predict)
accuracy_train = accuracy_score(target_train, predict_train)
print("На обучающей выборке")
print('Деревьев:',11, 'Глубина:', 13, 'Точность предсказаний:', accuracy_train)
print("На тестовой выборке")
print('Деревьев:',11, 'Глубина:', 13, 'Точность предсказаний:', accuracy)

На обучающей выборке
Деревьев: 11 Глубина: 13 Точность предсказаний: 0.9175311203319502
На тестовой выборке
Деревьев: 11 Глубина: 13 Точность предсказаний: 0.807153965785381


#### Как видно, модель начинает переобучаться как при большом количестве деревьев и малой глубине, так и наоборот при малом количестве деревьев и большой глубине. На мой взгляд лучшим сочетанием количества деревьев и их глубины являются   11 деревьев с глубиной 13. Модель несколько переобучена, но при этом начинает показывать максимально точные предсказания.   
Гиперпараметром n_jobs мы задействовали все ядра процессора для ускорения обучения модели.
- На обучающей выборке
- Деревьев: 11 Глубина: 13 Точность предсказаний: 0.9175311203319502
- На тестовой выборке
- Деревьев: 11 Глубина: 13 Точность предсказаний: 0.807153965785381

#### Исследуем модель классификатора Логистической регрессии

In [15]:
model = LogisticRegression(random_state = 42, solver='lbfgs')
model.fit(features_train, target_train)
accuracy = model.score(features_valid, target_valid)
accuracy_t = model.score(features_test, target_test)
print('Точность предсказаний на валидационной выборке:', accuracy)
print('Точность предсказаний на тестовой выборке:', accuracy_t)

Точность предсказаний на валидационной выборке: 0.7402799377916018
Точность предсказаний на тестовой выборке: 0.7682737169517885




#### Данная модель в условиях конкретной задачи оказалась наименее точной в своих предсказаниях, хотя она и выигрывает в скорости

## 4. Проверка модели на тестовой выборке

#### В качестве модели выберем модель случайного леса, как самую точную

In [16]:
predict_test = model_winner.predict(features_test)
predict_train = model_winner.predict(features_train)
accuracy_test = accuracy_score(target_test, predict_test)
accuracy_train = accuracy_score(target_train, predict_train)
print("На обучающей выборке")
print('Деревьев:',11, 'Глубина:', 13, 'Точность предсказаний:', accuracy_train)
print("На тестовой выборке")
print('Деревьев:',11, 'Глубина:', 13, 'Точность предсказаний:', accuracy_test)

На обучающей выборке
Деревьев: 11 Глубина: 13 Точность предсказаний: 0.9175311203319502
На тестовой выборке
Деревьев: 11 Глубина: 13 Точность предсказаний: 0.8118195956454122


### Вывод:
- самой точной из представленных моделей является модель случайного леса, показавшая прирост производительности по сравнению с деревом решений на 1.3% и по сравнению с логистической моделью на 3.9% на тестовой выборке;  
- данная модель менее склонна к переобучению, чем дерево решений;   
- из минусов - это медленная скорость работы по сравнению с остальными.  
Если точность в 3.9% не является критичной, в отличае от скорости работы, то можно использовать логистическую регрессию

## 5. Проверяем модели на адекватность

In [17]:
target = df['is_ultra']
predictions = pd.Series(target.mean(), index=target.index)
mse = mean_squared_error(target, predictions)
rmse = mse**0.5
print('RMSE:', rmse)

RMSE: 0.46102797293043907


#### Вывод:
- корень из среднеквадратичной ошибки нашей 'случайной модели' 0.46, что соответствует 46% слепых угадываний. Провереные нами модели показали эфективность от 71%, что считаю успешным экспериментом. 
- адекватность наших моделей доказана.

#### Воспользуемся DummyClassifier со стратегией случайного предсказания для создания упрощенной модели предсказания

In [18]:
from sklearn.dummy import DummyClassifier

In [19]:
new = DummyClassifier(strategy="uniform", random_state = 42)
new.fit(features_train, target_train)
print('Точность предсказаний на валидационной выборке:', new.score (features_valid, target_valid))
print('Точность предсказаний на тестовой выборке:', new.score (features_test, target_test))

Точность предсказаний на валидационной выборке: 0.5194401244167963
Точность предсказаний на тестовой выборке: 0.5101088646967341


#### Вывод:
- при создании модели с простыми правилами предсказания на тестовой выборке мы получили точность около 51%, что доказывает, что слепые предсказания в данном конкретном случае имеют ~50% шанс на угадывание тарифа;
- Все из представленых нами моделей по эффективности превосходят этот показатель всреднем на 25%, что доказывает адекватность обученных нами моделей.