# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

In [21]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error

## Откройте и изучите файл

In [4]:
df = pd.read_csv(r'C:\Users\andre\Рабочий стол\Практикум\Специалист по Data Science Плюс. Часть 5\06 Проект\users_behavior.csv')
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


## Разбейте данные на выборки

In [5]:
target = df['is_ultra']
features = df.drop('is_ultra', axis=1)

In [6]:
train_features, test_features, train_target, test_target = train_test_split(features, target, test_size=0.25, random_state=42)

## Исследуйте модели

### Дерево решений

In [10]:
best_depth, best_result = 0,0
for depth in range(1, 10):
    des_tree = DecisionTreeClassifier(max_depth=depth)
    des_tree.fit(train_features, train_target)
    prediction = des_tree.predict(test_features)
    score = metrics.accuracy_score(test_target, prediction)
    if score > best_result:
        best_result = score
        best_depth = depth
print(best_result,best_depth)

0.8072139303482587 4


### Случайный лес

In [20]:
best_depth, best_result, best_est = 0,0,0
for est in range(1, 51, 10):
    for sample in range(1, 51):
        for depth in range(1, 10):
            rand_forest = RandomForestClassifier(n_estimators=est, max_depth=depth, max_samples=sample)
            rand_forest.fit(train_features, train_target)
            prediction = rand_forest.predict(test_features)
            score = metrics.accuracy_score(test_target, prediction)
            if score > best_result:
                best_result = score
                best_depth = depth
                best_est = est
print(best_result,best_depth,best_est)

0.8134328358208955 9 31


### Логистическая регрессия

In [18]:
log_reg = LogisticRegression(max_iter=1000, solver='lbfgs')
log_reg.fit(train_features, train_target)
prediction = log_reg.predict(test_features)
score = metrics.accuracy_score(test_target, prediction)
print(score)

0.7549751243781094


## Проверьте модель на тестовой выборке

## (бонус) Проверьте модели на адекватность

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [ ] Весь код исполняется без ошибок
- [ ] Ячейки с кодом расположены в порядке исполнения
- [ ] Выполнено задание 1: данные загружены и изучены
- [ ] Выполнено задание 2: данные разбиты на три выборки
- [ ] Выполнено задание 3: проведено исследование моделей
    - [ ] Рассмотрено больше одной модели
    - [ ] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [ ] Написаны выводы по результатам исследования
- [ ] Выполнено задание 3: Проведено тестирование
- [ ] Удалось достичь accuracy не меньше 0.75


Конечно! Давайте рассмотрим понятия "точность" (precision) и "полнота" (recall) в контексте задач классификации. Оба показателя используются для оценки качества модели.

### Precision (Точность)
Точность показывает, какая доля предсказанных положительных примеров действительно является положительными.

**Формула**:
$$ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} $$

- **TP (True Positive)** - количество истинно положительных предсказаний (когда модель правильно предсказала положительный класс).
- **FP (False Positive)** - количество ложно положительных предсказаний (когда модель ошибочно предсказала положительный класс).

**Пример**:
Если модель определяет наличие заболевания, и из 100 предсказанных положительных случаев 80 действительно больны, а 20 здоровы, то точность будет:
$$ \text{Precision} = \frac{80}{80 + 20} = 0.8 $$

### Recall (Полнота)
Полнота показывает, какую долю положительных примеров модель правильно распознала.

**Формула**:
$$ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} $$

- **TP (True Positive)** - количество истинно положительных предсказаний.
- **FN (False Negative)** - количество ложно отрицательных предсказаний (когда модель не распознала положительный класс).

**Пример**:
Если из 100 фактически больных людей модель правильно определила 80, а пропустила 20, то полнота будет:
$$ \text{Recall} = \frac{80}{80 + 20} = 0.8 $$

### Взаимосвязь
Оба показателя важны для оценки качества модели. При высоком значении точности модель делает меньше ложных положительных предсказаний, а при высоком значении полноты - меньше ложных отрицательных. Баланс между ними можно найти с помощью F1-меры, которая является гармоническим средним точности и полноты:
$$ \text{F1 Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} $$

Надеюсь, это описание помогло вам лучше понять точность и полноту! Если у вас есть дополнительные вопросы или нужен пример с кодом, дайте знать!