# Классификация

**Что делает классификация?**

Разделяет объекты по заранее известному признаку. Носки по цветам, документы по языкам, музыку по жанрам

Сегодня используют для:

* Спам-фильтры
* Определение языка
* Поиск похожих документов
* Анализ тональности
* Распознавание рукописных букв и цифр
* Определение подозрительных транзакций

(А вообще,это было на лекции, так что можно и не повторять)

![image.png](attachment:image.png)

Хорошая статья (для гуманитариев!) про это лежит тут https://vas3k.ru/blog/machine_learning/?fbclid=IwAR1yU_u4RquJ0aNLYdH-DnzkyoxCI-XLK8_Ktu05kXvgKUV1e_amNN-gFaA

Оттуда: "Классификация вещей — самая популярная задача во всём машинном обучении. Машина в ней как ребёнок, который учится раскладывать игрушки: роботов в один ящик, танки в другой. Опа, а если это робот-танк? Штош, время расплакаться и выпасть в ошибку. Для классификации всегда нужен учитель — размеченные данные с признаками и категориями, которые машина будет учиться определять по этим признакам. Дальше классифицировать можно что угодно: пользователей по интересам — так делают алгоритмические ленты, статьи по языкам и тематикам — важно для поисковиков, музыку по жанрам — вспомните плейлисты Спотифая и Яндекс.Музыки, даже письма в вашем почтовом ящике."

### Итак, пришло время практики!

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [None]:
from sklearn.datasets import load_breast_cancer, load_iris
breast_cancer = load_breast_cancer()
print(breast_cancer.DESCR)

Теперь задаем Y (то есть, класс) и Х (признаки, с помощью которых будем классифицировать)

In [None]:
Y = breast_cancer.target
X = breast_cancer.data

Разделяем на обучающую и тестовую выборки:

In [None]:
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size = 0.3, random_state=123)

Выбираем модель:

In [None]:
model = LogisticRegression()

In [None]:
model.fit(X_train, Y_train)

Как оценить качество классификации?

Можно вычислить метрики, которые вы уже знаете:

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score
Y_predicted = model.predict(X_val)

In [None]:
print(accuracy_score(Y_val,Y_predicted))

Вычислите остальные метрики:

In [None]:
# YOUR CODE

## Задание

Решите задачу классификации и рассчитайте метрики для задачи об Ирисах:

In [None]:
iris = load_iris()
X = # YOUR CODE
y = # YOUR CODE

# YOUR CODE

## Визуализация

Зачем оно нам надо?

Вспоминаем или узнаем заново материал из лекции:

Конечно, можно было бы рисовать диаграммы так....

![alt text](https://media.giphy.com/media/YBIxUwCdysgaJgkmsP/giphy.gif "Гифка1")

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np

## Библиотека Matplotlib 
 - <a href="http://http://matplotlib.org/">matplotlib</a> - основная библиотека для базовой визуализации данных

### Характеристики графиков

#### Оформление
- Заголовок области рисования -> plt.title();
- Подпись оси абсцисс OX -> plt.xlabel();
- Подпись оси ординат OY -> plt.ylabel();
- Легенда -> plt.legend()
- Деления на оси абсцисс OX -> plt.xticks()
- Деления на оси ординат OY -> plt.yticks()

#### Размер:
- plt.figure(figsize = (width, heigth))  - задаем размер графика в дюймах 

Попробуем потренироваться на точке:

In [None]:
fig = plt.figure()   # Создание объекта Figure
plt.scatter(1.0, 1.0)   # scatter - метод для нанесения маркера в точке (1.0, 1.0)
plt.xlabel('Ось х точечки')#в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси х
plt.ylabel('Ось y точечки')#в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси у
plt.show()

А еще можно изменить размеры текста у подписей осей!

In [None]:
fig = plt.figure()   
plt.scatter(1.0, 1.0)   # scatter - метод для нанесения маркера в точке (1.0, 1.0)
plt.xlabel('Ось х точечки',fontsize=42)#добавили аргумент, отвечающий за размер шрифта
plt.ylabel('Ось y точечки', fontsize=65)#добавили аргумент, отвечающий за размер шрифта
plt.show()

А теперь добавим еще точечке заголовок:

In [None]:
fig = plt.figure()   # Создание объекта Figure
plt.scatter(1.0, 1.0)   # scatter - метод для нанесения маркера в точке (1.0, 1.0)
plt.xlabel('Ось х точечки') #в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси х
plt.ylabel('Ось y точечки') #в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси у
plt.title('Название графика с точечкой') #в скобках в кавычках вводим название графика (оно появится сверху над ним)
plt.show()

Размер шрифта названия менять, естественно, тоже можно!(только не увлекайтесь)

In [None]:
fig = plt.figure()   # Создание объекта Figure
plt.scatter(1.0, 1.0)   # scatter - метод для нанесения маркера в точке (1.0, 1.0)
plt.xlabel('Ось х точечки')#в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси х
plt.ylabel('Ось y точечки')#в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси у
plt.title('Название графика с точечкой',  fontsize = 35)
plt.show()

### Научились обзывать графики и подписывать оси, теперь едем дальше: настроим деления осей

За деления осей отвечают xticks и yticks

In [None]:
fig = plt.figure()   # Создание объекта Figure
plt.scatter(1.0, 1.0)   # scatter - метод для нанесения маркера в точке (1.0, 1.0)
plt.xlabel('Ось х точечки')#в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси х
plt.ylabel('Ось y точечки')#в скобках в кавычках вводим текст, который должен появиться в качестве подписи оси у
plt.title('Название графика с точечкой',  fontsize = 35)
plt.xticks(np.arange(5), ('Tom', 'Dick', 'Harry', 'Sally', 'Sue'))
#итак, что у нас происходит сверху? сначала мы сказали, что у нас вся ось х будет от 0 до 4
#5 не будет, так как в питоне последняя циферка не включительно
#значит, сказали, что вся ось от 0 до 4
#потом сказали, что хотим, чтобы она была подписана не чиселками 0,1,2,3,4,
#а именами 'Tom', 'Dick', 'Harry', 'Sally', 'Sue'
plt.yticks(np.arange(3), ('Чиселка 0', 'Чиселка 1', 'Чиселка 2'))
# c осью y сделали примерно то же самое
plt.show()

УРА, мы научились настраивать область графика!!!!

Кстати, вам понадобятся названия цветов:

![alt text](https://i.stack.imgur.com/lFZum.png "Цвета")

### Виды графиков:

Очень важно выбрать нужный тип визуализации! Можно использовать для этого этот путеводитель по графикам, давайте повторим основные типы и сферы их использования:

![alt text](http://bigdata.black/wp-content/uploads/2016/04/best-chart-1.png "Гифка1")

#### Ломаная линия
- plt.plot() </br>
<b>Зачем:</b> Будем использовать его, если хотим показать характер зависимости двух переменных. По сути, просто линия, которая строится по заданным точкам.

Задание: построить график

In [None]:
x = pd.Series(list(range(10)))
y = x**4
#Постройте график по значениям y и x
#Подпишите название графика
#Подпишите ось x
#Подпишите ось y
plt.show()

#### Точечный график
- plt.scatter()

<b>Зачем:</b> можно демонстрировать распределение объектов, используется для построения диаграммы, илюстрирующей силу связи (при проведении корреляционного анализа)

In [None]:
plt.scatter(x,y)

#### Столбчатая диаграмма
- plt.bar()

<b> Зачем: </b> Можно продемонстрировать распределение значений по категориям, сравнивать их между собой.

Попробуем отрисовать сразу два графика на одном рисунке:

In [None]:
X = [1,0,8,3,4]
Y = [1,8,2,4,8]

#Задайте еще 2 вектора такой же размерности
X2 = # YOUR CODE HERE

Y2 = # YOUR CODE HERE


plt.bar(X,Y, label="Bar1", color='r')
#YOUR CODE HERE: график для X2 и Y2

#Подпишите название графика, названия осей и добавьте легенду:

#YOUR CODE HERE

plt.show()

Попробуем посмотреть другие варианты оформления (а заодно вспомним про циклы): с помощью дополнительного условия можно автоматически перекрашивать часть столбцов по вашему усмотрению.

In [None]:
x = np.arange(5)
y = np.random.randn(5)
vert_bars = plt.bar(x, y, color='lightblue', align='center')

# Можно покрасить часть столбцов в другой цвет
for bar, height in zip(vert_bars, y):
    if height < 0:
        bar.set(edgecolor='darkred', color='salmon', linewidth=3)
        
#Задайте размер графика на Ваше усмотрение:
# YOUR CODE HERE

plt.show()

#### Круговая диаграмма
- plt.pie()

<b>Зачем: </b> С помощью круговой диаграммы удобно показывать, какую часть от целого занимает категория переменной.

In [None]:
# Задайте вектор, который будет содержать количество часов, которое Вы тратите на сон, еду, учебу/работу и развлечения (всего 4 значения)
slices = # YOUR CODE HERE


# Labels
activities = ['Сон','Еда','Учеба/Работа','Развлечения']

#Задайте список из 4 цветов:
cols = # YOUR CODE HERE
plt.pie(slices, labels=activities, colors=cols)

plt.title # YOUR CODE HERE

plt.show()

#### Гистограмма
- plt.hist() - гистограмма

<b> Зачем: </b> Можно показать распределение объектов по частоте их появления.


По оси x отложены интервалы значений, а по у количество наблюдений в данном интервале.

In [None]:
from numpy.random import normal
sample = normal(size=1000)     #1000 значений из нормального распределения
plt.hist(sample)               
plt.title("Gaussian Histogram")
plt.xlabel("Value")
plt.ylabel("Frequency")

#### Boxplot (ящик с усами)

- plt.hist() - гистограмма

Один из самых информативных графиков для демонстрации основных характер выборки, на иллюстрации ниже можно видеть, как интерпретировать данный график:

![alt text](https://justinsighting.com/wp-content/uploads/2016/12/boxplot-description.png "Боксплот")

Задание: Построить боксплот по сгенерированной для гистограммы выборке

In [None]:
# YOUR CODE HERE

### Несколько графиков в поле
Возможно, Вам понадобится вывести несколько графиков на одно поле <br />
Для этого можно использовать функцию subplots: <br />
fig, axes = plt.subplots(nrows=2, ncols=2, figsize = (width, height))

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2, figsize = (7, 7)) # Мы задали 4 области для графика: 2 сверху и 2 снизу
x = pd.Series(list(range(10)))
y = x**4
axes[0, 0].plot(x,y) #График пояится слева сверху

# Придумайте еще 3 функции для y и постройте их в оставшихся областях:

# YOUR CODE HERE