# Машинное обучение за час #

*Внимание! Этот ноутбук не способен заменить полноценный курс по ML или даже одну его лекцию. Цель данного ноутбука — показать, что это круто, интересно и даже может работать.*

<img src="files/ml.jpg">

Если вы хотите и изучить теоретические и практические основы ML, авторы рекомендуют:
1. [Курс машинному обучению от Воронцова](http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29)
2. Любой другой курс на Coursera
3. Очень, очень много практики

## 1. Постановка задачи ##

На [IMDb](https://www.imdb.com/) к каждому фильму расставлены теги (например, Comedy, Romance, Animation, Adventure). Давайте попробуем решить следующую задачу: по кадру из фильма определить, является ли этот фильм анимацией, или нет.  
Подобная задача называется **задачей классификации** (это когда нам нужно отнести каждый объект к определённому классу, ещё есть **задача регрессии** — например, предсказывание температуры воздуха, и **задача ранжирования** — например, определение более релевантных документов в поисковой выдаче)

<img src="files/hesher.jpg">
<h4><i><center>Это не анимация</center></i></h4>

<img src="files/secret_kells.jpg">
<h4><i><center>Это анимация</center></i></h4>

Как бы задача не была приближена к реальности, всегда стоит ввести более-менее формальную постановку задачи: мы должны ввести метрику качества, на основе которой будем принимать решение, а также понять входные и выходные параметры метода.

**Вопрос.** Что у на входе алгоритма? Что на выходе? Какая метрика качества?

*Что я думаю по этому поводу*

## 2. Загрузка данных ##

Как правило, в таких задачах есть открытая выборка, ответы для которой доступны всем, и закрытая, на которой производится итоговое тестирование алгоритма. В нашем случае открытая выборка описывается в файле *train_dataset.json*, а закрытая в *test_dataset.json*  

In [4]:
import json

def load_json_from_file(filename):
    with open(filename, "r") as f:
        return json.load(f, strict=False)

In [5]:
train_data = load_json_from_file('train_dataset.json')
train_data[0]

{'idx': 0,
 'image': 'train_data/images/0.jpg',
 'title': 'バトル・ロワイアル',
 'is_animation': False,
 'score': 7.3}

In [6]:
test_data = load_json_from_file('test_dataset.json')
test_data[0]

{'idx': 0,
 'image': 'test_data/images/0.jpg',
 'title': 'The Human Centipede (First Sequence)',
 'is_animation': False,
 'score': 4.9}

In [None]:
import matplotlib.pyplot as plt
from PIL impor

Информация о каждом фильме хранится в виде списка из словарей. Чтобы удобнее работать с такими данными, лучше представить их в виде именованных таблиц. Для этого нам поможет библиотека pandas:

In [None]:
import pandas as pd

In [None]:
train_df = pd.DataFrame(train_data)
test_df = pd.DataFrame(test_data)
train_df.head()

In [None]:
test_df.iloc[32:34]

Зачем это нужно? Например, мы можем в одну строку посмотреть только те фильмы, которые являются анимационными:

In [None]:
train_df[train_df.is_animation == True]

Или посмотреть на самые высокооценённые фильмы:

In [None]:
train_df.sort_values(by='score', ascending=False).head(20)

In [None]:
train_df[train_df.is_animation == False]

**Теперь мы можем ответить на вопрос, какую метрику использовать**

Давайте также посмотрим на примеры картинок, с которыми мы будем работать

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
sns.set_context('poster')
plt.rcParams['font.family'] = 'Arial'

import cv2

In [None]:
import numpy as np
def visualize_examples(images, cols=3, titles=None):
    assert len(images) == len(titles)
    n_images = len(images)
    fig = plt.figure()
    for n, (image, title) in enumerate(zip(images, titles)):
        a = fig.add_subplot(cols, int(np.ceil(n_images/float(cols))), n + 1)
        if image.ndim == 2:
            plt.gray()
        plt.imshow(image)
        plt.axis('off')
        a.set_title(title, font='DejaVu Sans')
    fig.set_size_inches(np.array(fig.get_size_inches()) * n_images)
    plt.show()

In [None]:
# Проверка для использования названий только с печатаемыми буквами
def is_latin_or_cyrillic(text):
    allowed_chars = '0123456789' \
                  + 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ' \
                  + 'АаБбВвГгДдЕеЁёЖжЗзИиЙйКкЛлМмНнОоПпРрСсТтУуФфХхЦцЧчШшЩщЪъЫыЬьЭэЮюЯя' \
                  + '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'
    return len(set(text) - set(allowed_chars)) == 0

In [None]:
train_animation_sample = train_df[(train_df.is_animation == True) & (train_df.title.apply(is_latin_or_cyrillic))].head(9)
animation_examples = [cv2.imread(path)[:, :, ::-1] for path in train_animation_sample['image']]
visualize_examples(animation_examples, titles=train_animation_sample['title'])

In [None]:
train_not_animation_sample = train_df[(train_df.is_animation == False) & (train_df.title.apply(is_latin_or_cyrillic))].head(9)
regular_examples = [cv2.imread(path)[:, :, ::-1] for path in train_not_animation_sample['image']]
visualize_examples(regular_examples, titles=train_not_animation_sample['title'])

## 3. Придумываем признаки ##

Как и в случае с детектором смен сцен, нам нужно придумать признаки, которые бы неплохо описывали природу исходного изображения 

**Вопрос.** Какие признаки будем использовать?

In [None]:
from tqdm.notebook import tqdm

In [None]:
def features_function(image):
    return {'pixel': image[0, 0, 0]}

In [None]:
def generate_table(data):
    table = []
    for node in tqdm(data):
        current_features = {}
        image = cv2.imread(node['image'])
        
        current_features.update(features_function(image))
        
        current_features['is_animation'] = node['is_animation']
        table.append(current_features)
    return table

In [None]:
train_features = pd.DataFrame(generate_table(train_data))
test_features = pd.DataFrame(generate_table(test_data))

In [None]:
train_features

## 4. Science staff ##

<img src="files/science.jpg">

Если бы мы решали задачу обычным способом, то нам пришлось бы писать какие-то условия, выставлять пороги и т.д поверх наших признаков. По сути, машинное обучение будет решать эту задачу за нас.  
Существует очень много методов машинного обучения, каждый из них в определённых условиях может работать лучше. Чтобы понимать заранее, когда какой метод лучше использовать, нужно понимать их теорию, но мы всегда сможем перебрать все способы :3

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
train_X = train_features.drop('is_animation', axis=1)
train_y = train_features['is_animation']

In [None]:
test_X = test_features.drop('is_animation', axis=1)
test_y = test_features['is_animation']

In [None]:
clf = LogisticRegression()

In [None]:
clf.fit(train_X, train_y)

In [None]:
train_Y = clf.predict(train_X)
test_Y = clf.predict(test_X)

In [None]:
print('Метрика на тренировочной выборке', {Ваша метрика}(train_y, train_Y))
print('Метрика на контрольной выборке', {Ваша метрика}(test_y, test_Y))

**Вопрос.** Почему на тренировочной выборке метрика лучше, чем на контрольной? Верно ли, что если на тренировочной выборке у одного алгоритма качество лучше, чем у второго, то будет ли метрика лучше на контрольной?

## 5. Эксперименты и что может пойти не так ##

Во-первых, нам немного повезло — у нас есть контрольная выборка, на которой мы всегда можем проверить качество на ней. Вообще стоит сказать, что в первую очередь стоит обращать внимание на качество именно на контрольной выборке (на которой мы не обучались), так как она именно показывает способность обобщать знания, полученные на тренировочной выборке.

В задача детектора смены сцен контрльной выборке нет — её нужно создать самому, отделив какую-то часть из тренировочной.

In [None]:
from sklearn.model_selection import train_test_split
# Разделить выборку на тренировочную и валидационную. В валидационной выборке окажется 20% всех примеров
new_train, new_val = train_test_split(train_data, test_size=0.2) 

Другой вариант — использовать кросс-валидацию, когда алгоритм обучается несколько раз, для каждого алгоритма исключается из тренировочной выборки небольшая часть примеров, на которых затем замеряются метрики.

<img src="files/cv.png">

Что ещё может пойти не так при замере метрик? В тренировочной и контрольной выборки должны быть более-менее независимые примеры. Например, в задании выше вполне могло оказаться, чтобы кадр из "Истории игрушек" был в обучении, а кадр из "Истории игрушек 2" оказался в контрольной выборке. Так делать нельзя, и такие ошибки приводят к большим расстройствам при оглашении результатов задания. 

Во-вторых, нам немного повезло, что мы достаточно быстро получили хорошее решение, и мы не пытаемся никак его улучшить. Улучшить алгоритм можно несколькими способами — например, добавить новые признаки, или опробовать новый классификатор. Важно использовать принцип "одно изменение = один эксперимент", т.е нельзя сравнивать алгоритм с предыдущей версией после 10 изменений — можно пропустить и хорошее изменение вместе с несколькими плохими, и наоборот, добавить несколько плохих изменений вместе с хорошими

В-третьих, данных может быть мало. Чтобы увеличить выборку, можно попробовать поворачивать/увеличивать/обрезать/менять яркость или контрастность. Это называется аугментацией

## 6. Немного контрольных вопросов ##

Попробуйте ответить на следующие вопросы:
* Пусть мы пытаемся определить фотографии кошек от фотографий собак. В тренировочной выборке около 500 кошек и 500 собак. Какие метрики качества можно использовать?
* Какие признаки стоит ещё попробовать для решения текущей задачи?
* Представим, что в текущей задаче было бы не по одному кадру из фильма, а по 10-20 штук. Как в таком случае разделить выборку на тренировочную и контрольную самым правильным способом?