<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Обзор-данных" data-toc-modified-id="Обзор-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Обзор данных</a></span></li><li><span><a href="#Разделение-исходных-данных-на-выборки" data-toc-modified-id="Разделение-исходных-данных-на-выборки-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Разделение исходных данных на выборки</a></span></li><li><span><a href="#Исследование-качества-моделей" data-toc-modified-id="Исследование-качества-моделей-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследование качества моделей</a></span><ul class="toc-item"><li><span><a href="#DecisionTreeClassifier" data-toc-modified-id="DecisionTreeClassifier-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>DecisionTreeClassifier</a></span></li><li><span><a href="#RandomForestClassifier" data-toc-modified-id="RandomForestClassifier-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>RandomForestClassifier</a></span></li><li><span><a href="#LogisticRegression" data-toc-modified-id="LogisticRegression-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>LogisticRegression</a></span></li></ul></li><li><span><a href="#Проверка-качества-модели-на-тестовой-выборке" data-toc-modified-id="Проверка-качества-модели-на-тестовой-выборке-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка качества модели на тестовой выборке</a></span></li><li><span><a href="#Проверка-модели-на-вменяемость" data-toc-modified-id="Проверка-модели-на-вменяемость-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверка модели на вменяемость</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

# Проект для оператора мобильной связи "Мегалайн"

**Описание проекта**  
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами.  
Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».  
В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.  
Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.  


*Описание данных*    
Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц.  
Известно:  
сalls — количество звонков,  
minutes — суммарная длительность звонков в минутах,  
messages — количество sms-сообщений,  
mb_used — израсходованный интернет-трафик в Мб,  
is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).  

### Обзор данных 

In [38]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

In [39]:
df = pd.read_csv(r'C:\Users\Susanna\Downloads\users_behavior.csv')
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


**Вывод**    
Таблица содержит 3214 строк и 5 столбцов. Пропусков нет.

### Разделение исходных данных на выборки  

In [41]:
df_train, df_2 = train_test_split(df, test_size=0.4, random_state=12345)
df_valid, df_test=train_test_split(df_2, test_size=0.5, random_state=12345)
print('Тренировочная (обучающая) выборка:', len(df_train))
print('Валидационная выборка:', len(df_valid))
print('Тестовая выборка:', len(df_test))

Тренировочная (обучающая) выборка: 1928
Валидационная выборка: 643
Тестовая выборка: 643


**Вывод**    
Разделила исходные данные на обучающую, валидационную и тестовую выборки в соотношении 3:1:1

### Исследование качества моделей

In [42]:
#Выборка тренировочная
train_features = df_train.drop(['is_ultra'], axis=1)
train_target = df_train['is_ultra']

#Выборка валидационная
valid_features = df_valid.drop(['is_ultra'], axis=1)
valid_target = df_valid['is_ultra']

#Выборка тестовая
test_features = df_test.drop(['is_ultra'], axis=1)
test_target = df_test['is_ultra']

#### DecisionTreeClassifier

In [43]:
#Попробую разные настройки для обучения решающего дерева
for i in range(1, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=i)
    model.fit(train_features, train_target)
    
    valid_predictions=model.predict(valid_features)
    accuracy = accuracy_score(valid_target, valid_predictions)
    print('max_depth', i, ':', accuracy)

max_depth 1 : 0.7542768273716952
max_depth 2 : 0.7822706065318819
max_depth 3 : 0.7853810264385692
max_depth 4 : 0.7791601866251944
max_depth 5 : 0.7791601866251944
max_depth 6 : 0.7838258164852255
max_depth 7 : 0.7822706065318819
max_depth 8 : 0.7791601866251944
max_depth 9 : 0.7822706065318819
max_depth 10 : 0.7744945567651633


#### RandomForestClassifier

In [44]:
#Попробую значения n_estimators от 1 до 10 для обучите модели случайного леса 
for i in range(1,15):
    model = RandomForestClassifier(random_state=12345, n_estimators=i, max_depth=10)
    model.fit(train_features, train_target)
    predictions_valid=model.predict(valid_features)
    accuracy = accuracy_score(valid_target, predictions_valid)
    print('estim=',i,':' ,accuracy)    

estim= 1 : 0.7729393468118196
estim= 2 : 0.7698289269051322
estim= 3 : 0.7729393468118196
estim= 4 : 0.7744945567651633
estim= 5 : 0.7807153965785381
estim= 6 : 0.7822706065318819
estim= 7 : 0.7853810264385692
estim= 8 : 0.7791601866251944
estim= 9 : 0.7869362363919129
estim= 10 : 0.7916018662519441
estim= 11 : 0.7916018662519441
estim= 12 : 0.7900466562986003
estim= 13 : 0.7947122861586314
estim= 14 : 0.7916018662519441


#### LogisticRegression

In [45]:
#Обучу модель логистической регрессии без настройки каких-либо гиперпараметром
model = LogisticRegression()
model.fit(train_features, train_target)
predictions_valid=model.predict(valid_features)
accuracy = accuracy_score(valid_target, predictions_valid)
accuracy

0.7107309486780715

**Вывод**  
Получила разные значения accuracy. Самое высокое значение accuracy=0.7947122861586314 у модели случайного леса с параметром n_estimators=13. 

### Проверка качества модели на тестовой выборке  

In [46]:
model = RandomForestClassifier(random_state=12345, n_estimators=13, max_depth=10)
model.fit(train_features, train_target)

#Проверяю качество модели на тестовой выборке
test_predictions=model.predict(test_features)
accuracy = accuracy_score(test_target, test_predictions)
accuracy

0.8040435458786936

**Вывод**    
Модель оказалась вполе приемлемой при проверке на тестовой модели. Показала значение accuracy=0.80

### Проверка модели на вменяемость

In [47]:
df['is_ultra'].value_counts()

0    2229
1     985
Name: is_ultra, dtype: int64

Больше значенй 0. Посмотрим какое было бы accuracy, если бы модель выдала все 0.

In [48]:
len(df.query('is_ultra==0'))/len(df)

0.693528313627878

**Вывод**    
Получившееся значение accuracy 0.80 больше того accuracy 0.69, которое получилось бы, если бы модель выдавала только ответы 0. Следовательно модель вменяема.

### Общий вывод  
Исходный файл содержал 3214 строк с данными о поведении клиентов.
Я построила модель для задачи классификации, которая выбирает подходящий тариф в зависимости от того как пользователь пользуется звонками, сообщениями и интернетом.  
При проверке на тестовой выборке модель показала долю правильных ответов 0.80.
При проверке на вмесняемость, модель оказалась вменяемой.