Теперь попробуем реализовать классификацию и вычислить разобранные метрики.
Для начала подгружаем библиотеки:

In [1]:
from sklearn.model_selection import train_test_split # функция, чтобы разбить данные на трейн и тест
from sklearn.linear_model import LogisticRegression # наша модель для классификации

Воспользуемся встроенным датасетом, который содержит информацию об опухолях груди:



In [2]:
from sklearn.datasets import load_breast_cancer # подгружаем датасет
breast_cancer = load_breast_cancer()

Теперь зададим зависимую и независимые переменные:



In [3]:
Y = breast_cancer.target ## Наша целевая переменная, 0 — если рака нет, 1 — если есть 
X = breast_cancer.data # X - признаки, по которым мы будем предсказывать рак 

Разбиваем выборку на обучающую и тестовую и обучаем нашу модель:



In [4]:
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size = 0.3)
model = LogisticRegression()
model.fit(X_train, Y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

Готово! Теперь осталось только вычислить необходимые метрики:



In [5]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

Y_predicted = model.predict(X_val)
print(accuracy_score(Y_val,Y_predicted))
print(precision_score(Y_val,Y_predicted))
print(recall_score(Y_val,Y_predicted))
print(f1_score(Y_val,Y_predicted))

0.9473684210526315
0.9727272727272728
0.9469026548672567
0.9596412556053813


### Задание 3B.2.1
Вы создали классификатор, который разделяет экономические и политические новости на два разных Telegram-канала, и хотите проверить его качество. За день вышло 15 политических новостей и 20 экономических.  
Ваш алгоритм из 15 политических новостей отметил 9 как экономические, а из 20 экономических — 6 как политические.  
Найдите метрику $Accuracy$ .  
Ответ округлите до сотых. Пример ввода: 5.55.

In [6]:
accuracy = (6+14)/(15+20)
round(accuracy,2)

0.57

### Задание 3B2.2
Загрузите встроенный в библиотеку `sklearn` датасет про ирисы с помощью функции `load_iris`. Обучите модель логистической регрессии (random_state=50, размер тестовой выборки 0.3) и укажите полученное значение метрики $Accuracy$.  
Ответ округлите до сотых. Пример ввода: 5.55.

In [7]:
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LogisticRegression 

In [8]:
import warnings
warnings.filterwarnings("ignore")

In [9]:
from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state=50)
model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(round(accuracy_score(y_pred, y_test),2))

0.91


## 3B.3. Классификация. Практика
У вас есть датасет с параметрами мобильных телефонов. Переменная `price_range` отвечает за то, к какой категории относится телефон: 1 — дорогие, 0 — дешевые.  
Ваша задача состоит в том, чтобы наиболее точно научиться классифицировать телефоны по этим двум категориям на основании других параметров.

In [10]:
import pandas as pd

In [11]:
data = pd.read_csv('./Unit_5_data/train_mobile.csv', sep =';')

### Шаг 1
Для начала нам надо отобрать признаки, с помощью которых мы будем предсказывать категорию телефона.

### Задание 3B.3.1 Отбор признаков
Выберите пять признаков, у которых наибольшая взаимосвязь с целевой переменной (с помощью корреляции). Отметьте отобранные признаки:

In [12]:
for feat in abs(data.corr().price_range).sort_values(ascending=False).index.drop('price_range')[:5]: print (feat)

ram
battery_power
px_width
px_height
touch_screen


### ШАГ 2
Теперь необходимо обучить алгоритм.  Для начала разбейте выборку на тестовую и обучающую, размер тестовой задайте `0.2`. Параметр `random_state=31`. В качестве модели возьмите логистическую регрессию. В качестве предикторов возьмите пять ранее отобранных признаков.

Рассчитайте метрику, которая покажет, какая доля телефонов, обозначенных классификатором как дорогие, действительно относится к этой категории. 

### Задание 3B.3.2 Выбор метрики

In [13]:
column_to_fit = abs(data.corr().price_range).sort_values(ascending=False).index.drop('price_range')[:5]

In [14]:
y = data.price_range
X = data.drop(columns='price_range')[column_to_fit]

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=31)

model = LogisticRegression(random_state=31)
model.fit(X_test,y_test)

y_pred = model.predict(X_test)

precision = precision_score(y_test,y_pred)

### 3B.3.3 Значение метрики
Введите полученное значение, округлите до четырех знаков после запятой. Целую и десятичную часть разделите точкой. Пример ввода: 5.5555.

In [15]:
round(precision,4)

0.9103