<br><center>
# Построение первой модели для задачи классификации
</center></br>

**Цель работы**: Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. 

**Цель применния** :Оператор мобильной связи «Мегалайн» хочет построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

**Исходные данные**:В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы ( проект курса «Статистический анализ данных»). 

## 1. Общая информация и импорт библиотек

### 1.1. Импорт библиотек

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
import warnings
warnings.filterwarnings('ignore')
from sklearn.dummy import DummyClassifier

### 1.2. Импорт данных

In [2]:
df= pd.read_csv('users_behavior.csv')

## 2. Предобработка данных 

### 2.1. Изучение данных

In [3]:
print(df.head())
df.info()

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Данные представлены в виде таблицы, включающей в себя 3214 строк и 5 столбцов.  
При этом 1 столбец с целочисленными данными  тип < int64 >, 4 с числовыми данными типа < float64>.  
Разберём какие в таблице столбцы и какую информацию они содержат:
* calls — количество звонков
* minutes — суммарная длительность звонков в минутах
* messages — количество sms-сообщений
* mb_used — израсходованный интернет-трафик в Мб
* is_ultra —  каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0) 

### 2.2. Общая предобработка данных

Из условия задания 
>***Предобработка данных не понадобится*** 

### 2.3. Деление данных на выборки

Создадим две переменные 
* features — запишем в неё признаки
* target —  запишем в нее целевой признак

In [4]:
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

Делим данные на {обучающий + проверочный набор} и {тестовый набор}

In [5]:
features_trainval,features_test,target_trainval, target_test = train_test_split(
features, target,test_size=0.2, random_state=4212)

Делим обучающий + проверочный набор на {обучающий} и {проверочный} 

In [6]:
features_train, features_valid, target_train, target_valid = train_test_split(
features_trainval,target_trainval,test_size=0.25, random_state=4212)

In [7]:
print("Размер обучающего набора: {}\nРазмер проверочного набора: {}\nРазмер тестового набора:"
" {}\n".format(features_trainval.shape[0], features_valid.shape[0], features_test.shape[0]))

Размер обучающего набора: 2571
Размер проверочного набора: 643
Размер тестового набора: 643



## 3. Рассмотрение  разных моделей

Процесс отбора параметров и оценки модели  будем проводить с помощью **GridSearchCV**


Вместо разбиения на **обучающий** (набор для построения модели) и **проверочный** ((валидационный) набор для выбора параметров модели),а также
**тестовый** набор для оценки качества работы выбранных параметров, для GridSearchCV достаточно разделить данные на
обучающий и тестовый наборы

In [8]:
X_train, X_test, y_train, y_test = train_test_split(features, target,test_size=0.25, random_state=42)  

print("Размер обучающего набора: {}\nРазмер тестового набора:"
 " {}\n".format(X_train.shape[0], X_test.shape[0]))

Размер обучающего набора: 2410
Размер тестового набора: 804



<br><center>
<span style="color:green; font-weight: bold; font-size:12pt">Основные гиперпараметры каждого из методов </span>
 </center></br>

1.**Логистическая регрессия**
* Константа регуляризации (С)
* Вид регулятора (penalty)
* Число итерация (max_iter)


2.**Случайный лес**
* Минимальное число объектов в листе (min_sample_leaf)
* Максимальная глубина дерева (max_depth)
* Количество деревьев (n_estimators)
* Минимальное число объектов, необходимое для того, чтобы узел дерева мог бы расщепиться(min_samples_split)

3.**Решающее дерево**
* Минимальное число объектов в листе (min_sample_leaf)
* Максимальная глубина дерева (max_depth)
* Минимальное число объектов, необходимое для того, чтобы узел дерева мог бы расщепиться(min_samples_split)

<br><center>
## Логистическая регрессия
 </center></br>

In [9]:
parameters_for_LogisticRegression   = {
'C': list(range(1,15,1)),
'max_iter': list(range(80, 100,2))
}    

In [10]:
grid_search_LogisticRegression = GridSearchCV(LogisticRegression(random_state=4212), parameters_for_LogisticRegression, cv=5)
grid_search_LogisticRegression.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=LogisticRegression(random_state=4212),
             param_grid={'C': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
                         'max_iter': [80, 82, 84, 86, 88, 90, 92, 94, 96, 98]})

In [11]:
print("Наилучшие значения параметров: {}".format(grid_search_LogisticRegression.best_params_))
print("Наилучшее значение кросс-валидац. правильности:{:.3f}".format(grid_search_LogisticRegression.best_score_))

Наилучшие значения параметров: {'C': 8, 'max_iter': 92}
Наилучшее значение кросс-валидац. правильности:0.722


<br><center>
## Случайный лес
 </center></br>

In [12]:
parameters_for_RandomForestClassifier  = {
'min_samples_leaf': list(range(1, 4, 1)),
'max_depth': list(range(6, 9,1)),
'n_estimators': list(range(9, 13, 1)),
'min_samples_split': list(range(5, 9, 1))
}    

In [13]:
%%time
grid_search_RandomForestClassifier= GridSearchCV(RandomForestClassifier(random_state=4212), 
                         parameters_for_RandomForestClassifier, cv=5,) 
grid_search_RandomForestClassifier.fit(X_train, y_train)

Wall time: 54.7 s


GridSearchCV(cv=5, estimator=RandomForestClassifier(random_state=4212),
             param_grid={'max_depth': [6, 7, 8], 'min_samples_leaf': [1, 2, 3],
                         'min_samples_split': [5, 6, 7, 8],
                         'n_estimators': [9, 10, 11, 12]})

In [14]:
print("Наилучшие значения параметров: {}".format(grid_search_RandomForestClassifier.best_params_))
print("Наилучшее значение кросс-валидац. правильности:{:.3f}".format(grid_search_RandomForestClassifier.best_score_))

Наилучшие значения параметров: {'max_depth': 8, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 10}
Наилучшее значение кросс-валидац. правильности:0.800


<br><center>
## Решающее дерево
 </center></br>

In [15]:
parameters_for_DecisionTreeClassifier  = {
'min_samples_leaf': list(range(9, 16, 1)),
'max_depth': list(range(5, 12,1)),
'min_samples_split': list(range(2, 7, 1))
}    

In [16]:
grid_search_DecisionTreeClassifier = GridSearchCV(DecisionTreeClassifier(random_state=4212), parameters_for_DecisionTreeClassifier, cv=5) 
grid_search_DecisionTreeClassifier.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=4212),
             param_grid={'max_depth': [5, 6, 7, 8, 9, 10, 11],
                         'min_samples_leaf': [9, 10, 11, 12, 13, 14, 15],
                         'min_samples_split': [2, 3, 4, 5, 6]})

In [17]:
print("Наилучшие значения параметров: {}".format(grid_search_DecisionTreeClassifier.best_params_))
print("Наилучшее значение кросс-валидац. правильности:{:.3f}".format(grid_search_DecisionTreeClassifier.best_score_))

Наилучшие значения параметров: {'max_depth': 8, 'min_samples_leaf': 11, 'min_samples_split': 2}
Наилучшее значение кросс-валидац. правильности:0.790


 ### 3.1. Проверка качества моделей

In [18]:
print("**Случайный лес** - Правильность на тестовом наборе: {:.2f}"
      .format(grid_search_RandomForestClassifier.score(X_test, y_test)))

print("**Решающее дерево** - Правильность на тестовом наборе: {:.2f}"
      .format(grid_search_DecisionTreeClassifier.score(X_test, y_test)))

print("**Логистическая регрессия** - Правильность на тестовом наборе: {:.2f}"
      .format(grid_search_LogisticRegression.score(X_test, y_test)))

**Случайный лес** - Правильность на тестовом наборе: 0.82
**Решающее дерево** - Правильность на тестовом наборе: 0.81
**Логистическая регрессия** - Правильность на тестовом наборе: 0.71


## 4. Дополнительное задание

In [19]:
dummy_clf = DummyClassifier(strategy="most_frequent", random_state=4212)

dummy_clf.fit(X_test, y_test)

dummy_clf.score(X_test, y_test)

0.7027363184079602

Мы получили 70%-ную правильностью без какого-либо обучения. Сравним этот результат с результатом, полученным с
помощью наших моделей:


## Вывод
Построили 3 разные модели
>**Случайный лес** - Правильность на тестовом наборе: 0.82  
**Решающее дерево** - Правильность на тестовом наборе: 0.81  
**Логистическая регрессия** - Правильность на тестовом наборе: 0.71  

Выбрали основные гиперпараметры для каждого способа и подобрали автоматически с помощью  GridSearchCV   
Все 3 модели успешно проверили на адекватность