[Caffe](https://ru.wikipedia.org/wiki/Caffe)

[Caffe](https://en.wikipedia.org/wiki/Caffe_(software))

[CUDA](https://ru.wikipedia.org/wiki/CUDA)

[LLVM](https://ru.wikipedia.org/wiki/LLVM)

[Keras](https://ru.wikipedia.org/wiki/Keras)

[Keras.io documentation generator](https://github.com/keras-team/keras-io)

[TensorFlow](https://ru.wikipedia.org/wiki/TensorFlow)

[TensorFlow Examples](https://github.com/tensorflow/examples)

[Тензорный процессор Google](https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BD%D0%B7%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80_Google)

[Tensor Processing Unit](https://en.wikipedia.org/wiki/Tensor_Processing_Unit)

[Torch](https://ru.wikipedia.org/wiki/Torch)

[Torch (github)](https://github.com/torch)

[Torch](https://en.wikipedia.org/wiki/Torch_(machine_learning))

[MATLAB](https://en.wikipedia.org/wiki/MATLAB)

[MATLAB](https://ru.wikipedia.org/wiki/MATLAB)

[Mathematica](https://ru.wikipedia.org/wiki/Mathematica)

[Wolfram Mathematica](https://en.wikipedia.org/wiki/Wolfram_Mathematica)

[PyTorch Lightning](https://en.wikipedia.org/wiki/PyTorch_Lightning)

[GNU Octave](https://ru.wikipedia.org/wiki/GNU_Octave)

[GNU Octave](https://en.wikipedia.org/wiki/GNU_Octave)

[PyTorch Lightning](https://pypi.org/project/pytorch-lightning/)

[]()

# Обзор библиотек/фреймворков для глубокого обучения

## CUDA

CUDA (**Compute Unified Device Architecture**) — **программно-аппаратная архитектура параллельных вычислений**, которая позволяет существенно увеличить вычислительную производительность благодаря использованию графических процессоров фирмы **Nvidia**.

CUDA SDK позволяет программистам реализовывать на специальных упрощённых диалектах языков программирования **C, C++ и Фортран** алгоритмы, выполнимые на графических и тензорных процессорах Nvidia.

Функции, ускоренные при помощи CUDA, можно вызывать из различных языков, в том числе **Python**, **MATLAB** и т. п.

### Преимущества

По сравнению с традиционным подходом к организации вычислений общего назначения посредством возможностей графических API, у архитектуры CUDA отмечают следующие преимущества в этой области:
- Интерфейс программирования приложений CUDA (CUDA API) основан на стандартном **яыке программирования C** некоторыми ограничениями. По мнению разработчиков, это должно упростить и сгладить процесс изучения архитектуры CUDA.
- **Разделяемая между потоками память (shared memory)** размером в 16 Кб может быть использована под организованный пользователем **с более широкой полосой пропускания**чем при выборке из обычных текстур.
- Более **эфективные транзакции между памятью ЦП и видеопамятью**.
- Полная **аппаратная поддержка целочисленных и побитовых операций**.
- Поддержка компиляции кода GPU средствами открытого проекта **LLVM**. LLVM (Low Level Virtual Machine) — проект программной инфраструктуры для создания компиляторов и сопутствующих им утилит. Написан на C++, обеспечивает оптимизации на этапах компиляции, компоновки и исполнения.

### Ограничения

- Все функции, выполнимые на устройстве, **не поддерживают рекурсии** (в версии CUDA Toolkit 3.1 поддерживает указатели и рекурсию) и имеют некоторые другие ограничения.

### Пример кода (C)

```c
// System includes
#include <stdio.h>
#include <assert.h>

// CUDA runtime
#include <cuda_runtime.h>

// helper functions and utilities to work with CUDA
#include <helper_functions.h>
#include <helper_cuda.h>

#ifndef MAX
#define MAX(a, b) (a > b ? a : b)
#endif

__global__ void testKernel(int val) {
  printf("[%d, %d]:\t\tValue is:%d\n", blockIdx.y * gridDim.x + blockIdx.x,
         threadIdx.z * blockDim.x * blockDim.y + threadIdx.y * blockDim.x +
             threadIdx.x,
         val);
}

int main(int argc, char **argv) {
  int devID;
  cudaDeviceProp props;

  // This will pick the best possible CUDA capable device
  devID = findCudaDevice(argc, (const char **)argv);

  // Get GPU information
  checkCudaErrors(cudaGetDevice(&devID));
  checkCudaErrors(cudaGetDeviceProperties(&props, devID));
  printf("Device %d: \"%s\" with Compute %d.%d capability\n", devID, props.name,
         props.major, props.minor);

  printf("printf() is called. Output:\n\n");

  // Kernel configuration, where a two-dimensional grid and
  // three-dimensional blocks are configured.
  dim3 dimGrid(2, 2);
  dim3 dimBlock(2, 2, 2);
  testKernel<<<dimGrid, dimBlock>>>(10);
  cudaDeviceSynchronize();

  return EXIT_SUCCESS;
}
```

## MATLAB

## Octave

GNU Octave — свободная программная система для математических вычислений, использующая совместимый с MATLAB язык высокого уровня.

Octave представляет интерактивный командный интерфейс для решения линейных и нелинейных математических задач, а также проведения других численных экспериментов. 

Octave — интерпретируемый язык программирования. Он похож на Си и поддерживает большинство основных функций стандартной библиотеки Си, а также основные команды и системные вызовы Unix. С другой стороны, он не поддерживает передачу аргументов по ссылке (особенность дизайна).

Синтаксис языка **очень похож на MATLAB**, и грамотно написанные скрипты будут запускаться как в Octave, так и в MATLAB.

<img src="images/gnu_octave_example_1.jpg" width="700"/>

<img src="images/gnu_octave_example_2.png" width="700"/>

<img src="images/gnu_octave_example_3.gif" width="700"/>

## Wolfram Mathematica

Mathematica — проприетарная система компьютерной алгебры, широко используемая для научных, инженерных, математических расчётов. 

Разработана в 1988 году Стивеном Вольфрамом, дальнейшим развитием системы занята основанная им совместно с Теодором Греем компания Wolfram Research.

**Wolfram — интерпретируемый язык функционального программирования, составляющий лингвистическую основу системы**, позволяющий расширять её возможности; более того, система Mathematica в значительной степени написана на языке Wolfram, хотя некоторые функции, особенно относящиеся к линейной алгебре, в целях оптимизации реализованы на Си.

<img src="images/wolfram_mathematica_interface.jpg" width="700"/>

<img src="images/wolfram_mathematica.jpg" width="700"/>

Основные аналитические возможности:
- решение систем полиномиальных и тригонометрических уравнений и неравенств, а также трансцендентных уравнений, сводящихся к ним;
- решение рекуррентных уравнений;
- упрощение выражений;
- нахождение пределов;
- интегрирование и дифференцирование функций;
- нахождение конечных и бесконечных сумм и произведений;
- решение дифференциальных уравнений и уравнений в частных производных;
- преобразования Фурье и Лапласа, а также Z-преобразование;
- преобразование функции в ряд Тейлора, операции с рядами Тейлора: сложение, умножение, композиция, получение обратной функции;
- вейвлет-анализ.

Система также осуществляет численные расчёты: 
- определяет значения функций (в том числе специальных) с произвольной точностью, 
- осуществляет полиномиальную интерполяцию функции от произвольного числа аргументов по набору известных значений, 
- рассчитывает вероятности.

Теоретико-числовые возможности:
- определение простого числа по его порядковому номеру,
- определение количества простых чисел, не превосходящих данное; 
- дискретное преобразование Фурье; 
- разложение числа на простые множители, 
- нахождение НОД и НОК.

Также в систему заложены линейно-алгебраические возможности:
- работа с матрицами (сложение, умножение, нахождение обратной матрицы, умножение на вектор, вычисление экспоненты, взятие определителя), 
- поиск собственных значений и собственных векторов.

Программы могут использовать внешние динамические библиотеки, в том числе **поддерживается интеграция с CUDA** и OpenCL.

## TensorFlow

TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией **Google** для решения задач построения и тренировки нейронной сети с целью автоматического **нахождения и классификации образов**, достигая качества человеческого восприятия.

Основной **API** для работы с библиотекой реализован для **Python**, также существуют реализации для **R, C Sharp, C++, Haskell, Java, Go и Swift**.

TensorFlow хорошо **подходит для автоматизированной аннотации изображений** в таких системах как DeepDream.

Google использует систему RankBrain для **увеличения релевантности ранжировки поисковой выдачи (самообучающаяся система обрабатывающая отклики поисковой системы)** Google. RankBrain основан на TensorFlow.

В мае 2016 года Google сообщила о применении для задач DL аппаратного ускорителя собственной разработки — **тензорного процессора (TPU) — специализированной интегральной схемы, адаптированной под задачи для TensorFlow**, и обеспечивающей высокую производительность в арифметике пониженной точности (например, для 8-битной архитектуры) и направленной скорее на **применение моделей, чем на их обучение**.

Сообщалось, что после использования **TPU** в собственных задачах Google по обработке данных удалось добиться **на порядок лучших показателей продуктивности на ватт затраченной энергии**.

### Пример кода (Python)

```python
"""Train.
"""

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

from absl import app

import tensorflow as tf
from tensorflow_examples.models.nmt_with_attention import nmt
from tensorflow_examples.models.nmt_with_attention import utils


class Train(object):
  """Train class.
  Attributes:
    epochs: Number of epochs.
    enable_function: Decorate function with tf.function.
    encoder: Encoder.
    decoder: Decoder.
    inp_lang: Input language tokenizer.
    targ_lang: Target language tokenizer.
    batch_size: Batch size.
    per_replica_batch_size: Batch size per replica for sync replicas. Same as
      batch_size for non distributed training.
    optimizer: Optimizer.
    loss_object: Object of the loss class.
    train_loss_metric: Mean metric to keep track of the train loss value.
    test_loss_metric: Mean metric to keep track of the test loss value.
  """

  def __init__(self, epochs, enable_function, encoder, decoder, inp_lang,
               targ_lang, batch_size, per_replica_batch_size):
    self.epochs = epochs
    self.enable_function = enable_function
    self.encoder = encoder
    self.decoder = decoder
    self.inp_lang = inp_lang
    self.targ_lang = targ_lang
    self.batch_size = batch_size
    self.per_replica_batch_size = per_replica_batch_size
    self.optimizer = tf.keras.optimizers.Adam()
    self.loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
        from_logits=True, reduction=tf.keras.losses.Reduction.NONE)
    self.train_loss_metric = tf.keras.metrics.Mean(name='train_loss')
    self.test_loss_metric = tf.keras.metrics.Mean(name='test_loss')

  def loss_function(self, real, pred):
    mask = tf.math.logical_not(tf.math.equal(real, 0))
    loss_ = self.loss_object(real, pred)

    mask = tf.cast(mask, dtype=loss_.dtype)
    loss_ *= mask

    return tf.reduce_sum(loss_) * 1. / self.batch_size

  def train_step(self, inputs):
    """One train step.
    Args:
      inputs: tuple of input tensor, target tensor.
    """

    loss = 0
    enc_hidden = self.encoder.initialize_hidden_state()

    inp, targ = inputs

    with tf.GradientTape() as tape:
      enc_output, enc_hidden = self.encoder(inp, enc_hidden)
      dec_hidden = enc_hidden
      dec_input = tf.expand_dims(
          [self.targ_lang.word_index['<start>']] * self.per_replica_batch_size,
          1)

      for t in range(1, targ.shape[1]):
        # passing enc_output to the decoder
        predictions, dec_hidden, _ = self.decoder(
            dec_input, dec_hidden, enc_output)
        loss += self.loss_function(targ[:, t], predictions)
        # using teacher forcing
        dec_input = tf.expand_dims(targ[:, t], 1)

    batch_loss = (loss / int(targ.shape[1]))
    variables = (self.encoder.trainable_variables +
                 self.decoder.trainable_variables)
    gradients = tape.gradient(loss, variables)
    self.optimizer.apply_gradients(zip(gradients, variables))

    self.train_loss_metric(batch_loss)

  def test_step(self, inputs_test):
    """One test step.
    Args:
      inputs_test: tuple of input tensor, target tensor.
    """

    loss = 0
    enc_hidden = self.encoder.initialize_hidden_state()

    inp_test, targ_test = inputs_test

    enc_output, enc_hidden = self.encoder(inp_test, enc_hidden)
    dec_hidden = enc_hidden
    dec_input = tf.expand_dims(
        [self.targ_lang.word_index['<start>']] * self.per_replica_batch_size,
        1)

    for t in range(1, targ_test.shape[1]):
      predictions, dec_hidden, _ = self.decoder(
          dec_input, dec_hidden, enc_output)
      loss += self.loss_function(targ_test[:, t], predictions)

      prediction_id = tf.argmax(predictions, axis=1)
      # passing the predictions back to the model as the input.
      dec_input = tf.expand_dims(prediction_id, 1)

    batch_loss = (loss / int(targ_test.shape[1]))

    self.test_loss_metric(batch_loss)

  def training_loop(self, train_ds, test_ds):
    """Custom training and testing loop.
    Args:
      train_ds: Training dataset
      test_ds: Testing dataset
    Returns:
      train_loss, test_loss
    """

    if self.enable_function:
      self.train_step = tf.function(self.train_step)
      self.test_step = tf.function(self.test_step)

    template = 'Epoch: {}, Train Loss: {}, Test Loss: {}'

    for epoch in range(self.epochs):
      self.train_loss_metric.reset_states()
      self.test_loss_metric.reset_states()

      for inp, targ in train_ds:
        self.train_step((inp, targ))

      for inp_test, targ_test in test_ds:
        self.test_step((inp_test, targ_test))

      print (template.format(epoch,
                             self.train_loss_metric.result().numpy(),
                             self.test_loss_metric.result().numpy()))

    return (self.train_loss_metric.result().numpy(),
            self.test_loss_metric.result().numpy())


def run_main(argv):
  del argv
  kwargs = utils.flags_dict()
  main(**kwargs)


def main(epochs, enable_function, buffer_size, batch_size, download_path,
         num_examples=70000, embedding_dim=256, enc_units=1024, dec_units=1024):
  file_path = utils.download(download_path)
  train_ds, test_ds, inp_lang, targ_lang = utils.create_dataset(
      file_path, num_examples, buffer_size, batch_size)
  vocab_inp_size = len(inp_lang.word_index) + 1
  vocab_tar_size = len(targ_lang.word_index) + 1

  encoder = nmt.Encoder(vocab_inp_size, embedding_dim, enc_units, batch_size)
  decoder = nmt.Decoder(vocab_tar_size, embedding_dim, dec_units)

  train_obj = Train(epochs, enable_function, encoder, decoder,
                    inp_lang, targ_lang, batch_size, batch_size)
  print ('Training ...')
  return train_obj.training_loop(train_ds, test_ds)

if __name__ == '__main__':
  utils.nmt_flags()
  app.run(run_main)
```

### Тензорный процессор Google

Тензорный процессор Google (Google Tensor Processing Unit, Google TPU) — тензорный процессор, относящийся к классу **нейронных процессоров**, являющийся специализированной интегральной схемой, разработанной корпорацией Google и предназначенной **для использования с библиотекой машинного обучения TensorFlow**.

<img src="images/tpu_3_0.jpg" width="700"/>

По сравнению с GPU, рассчитан на более **высокий объём вычислений с пониженной точностью** (например, всего 8-разрядную точность) при более **высокой производительности на ватт** и **отсутствии модуля для растризации и текстурных блоков**.

Различные типы процессоров подходят для разных типов моделей машинного обучения, **TPU хорошо подходят для CNN**, в то время как **GPU имеют преимущества для некоторых полносвязных нейронных сетей**, а **CPU могут иметь преимущества для RNN**.

### Пример кода (Python & TPU)

```python
"""Example for using Keras Application models using TPU Strategy."""

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

from absl import flags

import numpy as np
import tensorflow.compat.v1 as tf
from tensorflow.contrib import cluster_resolver as contrib_cluster_resolver
from tensorflow.contrib import distribute as contrib_distribute


# Define a dictionary that maps model names to their model classes inside Keras
MODELS = {
    "vgg16": tf.keras.applications.VGG16,
    "vgg19": tf.keras.applications.VGG19,
    "inceptionv3": tf.keras.applications.InceptionV3,
    "xception": tf.keras.applications.Xception,
    "resnet50": tf.keras.applications.ResNet50,
    "inceptionresnetv2": tf.keras.applications.InceptionResNetV2,
    "mobilenet": tf.keras.applications.MobileNet,
    "densenet121": tf.keras.applications.DenseNet121,
    "densenet169": tf.keras.applications.DenseNet169,
    "densenet201": tf.keras.applications.DenseNet201,
    "nasnetlarge": tf.keras.applications.NASNetLarge,
    "nasnetmobile": tf.keras.applications.NASNetMobile,
}

flags.DEFINE_enum(
    "model",
    None,
    list(MODELS.keys()),
    "Name of the model to be run",
    case_sensitive=False)
flags.DEFINE_string("tpu", None, "Name of the TPU to use")
flags.DEFINE_integer("batch_size", 128, "Batch size to be used for model")
flags.DEFINE_integer("epochs", 10, "Number of training epochs")
flags.DEFINE_bool("use_synthetic_data", False,
                  "Use synthetic data instead of Cifar; used for testing")

FLAGS = flags.FLAGS


class Cifar10Dataset(object):
  """CIFAR10 dataset, including train and test set.
  Each sample consists of a 32x32 color image, and label is from 10 classes.
  Note: Some models such as Xception require larger images than 32x32 so one
  needs to write a tf.data.dataset for Imagenet or use synthetic data.
  """

  def __init__(self, batch_size):
    """Initializes train/test datasets.
    Args:
      batch_size: int, the number of batch size.
    """
    self.input_shape = (32, 32, 3)
    self.num_classes = 10
    (x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar10.load_data()
    self.num_train_images = len(x_train)
    self.num_test_images = len(x_test)

    x_train, x_test = x_train / 255.0, x_test / 255.0
    y_train, y_test = y_train.astype(np.int64), y_test.astype(np.int64)
    y_train = tf.keras.utils.to_categorical(y_train, self.num_classes)
    y_test = tf.keras.utils.to_categorical(y_test, self.num_classes)

    self.train_dataset = (tf.data.Dataset.from_tensor_slices((x_train, y_train))
                          .repeat()
                          .shuffle(2000)
                          .batch(batch_size, drop_remainder=True))
    self.test_dataset = (tf.data.Dataset.from_tensor_slices((x_test, y_test))
                         .shuffle(2000)
                         .batch(batch_size, drop_remainder=True))


class SyntheticDataset(object):
  """Synthetic dataset, including train and test set.
  Each sample consists of a 100x100 color image, and label is from 10 classes.
  """

  def __init__(self, batch_size):
    """Initializes train/test datasets.
    Args:
      batch_size: int, the number of batch size.
    """
    image_size = 75
    self.input_shape = (image_size, image_size, 3)
    self.num_train_images = 2 * batch_size  # Run 2 steps
    self.num_test_images = batch_size  # Run 1 step
    self.num_classes = 10

    x_train = np.random.randn(
        self.num_train_images, image_size, image_size, 3).astype(np.float32)
    y_train = np.random.randint(self.num_classes, size=self.num_train_images,
                                dtype=np.int32)
    y_train = y_train.reshape((self.num_train_images, 1))

    x_test = np.random.randn(
        self.num_test_images, image_size, image_size, 3).astype(np.float32)
    y_test = np.random.randint(self.num_classes, size=self.num_test_images,
                               dtype=np.int32)
    y_test = y_test.reshape((self.num_test_images, 1))

    y_train, y_test = y_train.astype(np.int64), y_test.astype(np.int64)
    y_train = tf.keras.utils.to_categorical(y_train, self.num_classes)
    y_test = tf.keras.utils.to_categorical(y_test, self.num_classes)

    self.train_dataset = (tf.data.Dataset.from_tensor_slices((x_train, y_train))
                          .repeat()
                          .shuffle(2000)
                          .batch(batch_size, drop_remainder=True))
    self.test_dataset = (tf.data.Dataset.from_tensor_slices((x_test, y_test))
                         .shuffle(2000)
                         .batch(batch_size, drop_remainder=True))


def run():
  """Run the model training and return evaluation output."""
  resolver = contrib_cluster_resolver.TPUClusterResolver(tpu=FLAGS.tpu)
  contrib_distribute.initialize_tpu_system(resolver)
  strategy = contrib_distribute.TPUStrategy(resolver)

  model_cls = MODELS[FLAGS.model]
  if FLAGS.use_synthetic_data:
    data = SyntheticDataset(FLAGS.batch_size)
  else:
    data = Cifar10Dataset(FLAGS.batch_size)

  with strategy.scope():
    model = model_cls(weights=None, input_shape=data.input_shape,
                      classes=data.num_classes)

    optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.001)
    model.compile(loss="categorical_crossentropy",
                  optimizer=optimizer,
                  metrics=["accuracy"])

    history = model.fit(
        data.train_dataset,
        epochs=FLAGS.epochs,
        steps_per_epoch=data.num_train_images // FLAGS.batch_size,
        validation_data=data.test_dataset,
        validation_steps=data.num_test_images // FLAGS.batch_size)

    return history.history


def main(argv):
  del argv
  run()


if __name__ == "__main__":
  tf.app.run(main)
```

## Keras

Keras — открытая библиотека, **написанная на языке Python** и обеспечивающая взаимодействие с искусственными нейронными сетями.

Основной автор и ведущий разработчик — инженер **Google** Франсуа Шолле (фр. François Chollet).

**Keras действует как интерфейс для библиотеки TensorFlow.**

Начиная с версии 2.4 **поддерживается только TensorFlow**.

Модели, созданные в Keras, могут быть развёрнуты не только на серверных узлах, но и на смартфонах (под управлением iOS и Android) и в браузере (TF.js).

### Пример кода (Python)

```python
"""
Title: Convolutional autoencoder for image denoising
Author: [Santiago L. Valdarrama](https://twitter.com/svpino)
Date created: 2021/03/01
Last modified: 2021/03/01
Description: How to train a deep convolutional autoencoder for image denoising.
"""

"""
Introduction

This example demonstrates how to implement a deep convolutional autoencoder
for image denoising, mapping noisy digits images from the MNIST dataset to
clean digits images. This implementation is based on an original blog post
titled [Building Autoencoders in Keras](https://blog.keras.io/building-autoencoders-in-keras.html)
by [François Chollet](https://twitter.com/fchollet).
"""

"""
Setup
"""

import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

from tensorflow.keras import layers
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Model


def preprocess(array):
    """
    Normalizes the supplied array and reshapes it into the appropriate format.
    """

    array = array.astype("float32") / 255.0
    array = np.reshape(array, (len(array), 28, 28, 1))
    return array


def noise(array):
    """
    Adds random noise to each image in the supplied array.
    """

    noise_factor = 0.4
    noisy_array = array + noise_factor * np.random.normal(
        loc=0.0, scale=1.0, size=array.shape
    )

    return np.clip(noisy_array, 0.0, 1.0)


def display(array1, array2):
    """
    Displays ten random images from each one of the supplied arrays.
    """

    n = 10

    indices = np.random.randint(len(array1), size=n)
    images1 = array1[indices, :]
    images2 = array2[indices, :]

    plt.figure(figsize=(20, 4))
    for i, (image1, image2) in enumerate(zip(images1, images2)):
        ax = plt.subplot(2, n, i + 1)
        plt.imshow(image1.reshape(28, 28))
        plt.gray()
        ax.get_xaxis().set_visible(False)
        ax.get_yaxis().set_visible(False)

        ax = plt.subplot(2, n, i + 1 + n)
        plt.imshow(image2.reshape(28, 28))
        plt.gray()
        ax.get_xaxis().set_visible(False)
        ax.get_yaxis().set_visible(False)

    plt.show()


"""
Prepare the data
"""

""" Since we only need images from the dataset to encode and decode, we won't use the labels. """
(train_data, _), (test_data, _) = mnist.load_data()

""" Normalize and reshape the data """
train_data = preprocess(train_data)
test_data = preprocess(test_data)

""" Create a copy of the data with added noise """
noisy_train_data = noise(train_data)
noisy_test_data = noise(test_data)

""" Display the train data and a version of it with added noise """
display(train_data, noisy_train_data)

"""
Build the autoencoder

We are going to use the Functional API to build our convolutional autoencoder.
"""

input = layers.Input(shape=(28, 28, 1))

""" Encoder """
x = layers.Conv2D(32, (3, 3), activation="relu", padding="same")(input)
x = layers.MaxPooling2D((2, 2), padding="same")(x)
x = layers.Conv2D(32, (3, 3), activation="relu", padding="same")(x)
x = layers.MaxPooling2D((2, 2), padding="same")(x)

""" Decoder """
x = layers.Conv2DTranspose(32, (3, 3), strides=2, activation="relu", padding="same")(x)
x = layers.Conv2DTranspose(32, (3, 3), strides=2, activation="relu", padding="same")(x)
x = layers.Conv2D(1, (3, 3), activation="sigmoid", padding="same")(x)

""" Autoencoder """
autoencoder = Model(input, x)
autoencoder.compile(optimizer="adam", loss="binary_crossentropy")
autoencoder.summary()

"""
Now we can train our autoencoder using `train_data` as both our input data
and target. Notice we are setting up the validation data using the same
format.
"""

autoencoder.fit(
    x=train_data,
    y=train_data,
    epochs=50,
    batch_size=128,
    shuffle=True,
    validation_data=(test_data, test_data),
)

"""
Let's predict on our test dataset and display the original image together with
the prediction from our autoencoder.

Notice how the predictions are pretty close to the original images, although
not quite the same.
"""

predictions = autoencoder.predict(test_data)
display(test_data, predictions)

"""
Now that we know that our autoencoder works, let's retrain it using the noisy
data as our input and the clean data as our target. We want our autoencoder to
learn how to denoise the images.
"""

autoencoder.fit(
    x=noisy_train_data,
    y=train_data,
    epochs=100,
    batch_size=128,
    shuffle=True,
    validation_data=(noisy_test_data, test_data),
)

"""
Let's now predict on the noisy data and display the results of our autoencoder.

Notice how the autoencoder does an amazing job at removing the noise from the
input images.
"""

predictions = autoencoder.predict(noisy_test_data)
display(noisy_test_data, predictions)
```

## Torch

Torch — библиотека для языка программирования **Lua** с открытым исходным кодом, предоставляет большое количество алгоритмов для глубинного обучения и научных расчётов.

Ядро написано на Си, прикладная часть выполняется на LuaJIT, поддерживается распараллеливание вычислений средствами CUDA и OpenMP.

**Стиль работы с массивами схож с Matlab и Octave, в связи с чем иногда определяется как "Matlab-подобное окружение для машинного обучения".**

По состоянию на 2018 год **Torch больше не находится в активной разработке**. Однако по состоянию на август 2022 года **PyTorch, основанный на библиотеке Torch, активно развивается**.

### Пример кода (Lua)

```lua
require 'torch'   -- torch
require 'image'   -- for image transforms
require 'nn'      -- provides all sorts of trainable modules/layers

----------------------------------------------------------------------
-- parse command line arguments
if not opt then
   print '==> processing options'
   cmd = torch.CmdLine()
   cmd:text()
   cmd:text('SVHN Model Definition')
   cmd:text()
   cmd:text('Options:')
   cmd:option('-model', 'convnet', 'type of model to construct: linear | mlp | convnet')
   cmd:option('-visualize', true, 'visualize input data and weights during training')
   cmd:text()
   opt = cmd:parse(arg or {})
end

----------------------------------------------------------------------
print '==> define parameters'

-- 10-class problem
noutputs = 10

-- input dimensions
nfeats = 3
width = 32
height = 32
ninputs = nfeats*width*height

-- number of hidden units (for MLP only):
nhiddens = ninputs / 2

-- hidden units, filter sizes (for ConvNet only):
nstates = {64,64,128}
filtsize = 5
poolsize = 2
normkernel = image.gaussian1D(7)

----------------------------------------------------------------------
print '==> construct model'

if opt.model == 'linear' then

   -- Simple linear model
   model = nn.Sequential()
   model:add(nn.Reshape(ninputs))
   model:add(nn.Linear(ninputs,noutputs))

elseif opt.model == 'mlp' then

   -- Simple 2-layer neural network, with tanh hidden units
   model = nn.Sequential()
   model:add(nn.Reshape(ninputs))
   model:add(nn.Linear(ninputs,nhiddens))
   model:add(nn.Tanh())
   model:add(nn.Linear(nhiddens,noutputs))

elseif opt.model == 'convnet' then

   if opt.type == 'cuda' then
      -- a typical modern convolution network (conv+relu+pool)
      model = nn.Sequential()

      -- stage 1 : filter bank -> squashing -> L2 pooling -> normalization
      model:add(nn.SpatialConvolutionMM(nfeats, nstates[1], filtsize, filtsize))
      model:add(nn.ReLU())
      model:add(nn.SpatialMaxPooling(poolsize,poolsize,poolsize,poolsize))

      -- stage 2 : filter bank -> squashing -> L2 pooling -> normalization
      model:add(nn.SpatialConvolutionMM(nstates[1], nstates[2], filtsize, filtsize))
      model:add(nn.ReLU())
      model:add(nn.SpatialMaxPooling(poolsize,poolsize,poolsize,poolsize))

      -- stage 3 : standard 2-layer neural network
      model:add(nn.View(nstates[2]*filtsize*filtsize))
      model:add(nn.Dropout(0.5))
      model:add(nn.Linear(nstates[2]*filtsize*filtsize, nstates[3]))
      model:add(nn.ReLU())
      model:add(nn.Linear(nstates[3], noutputs))

   else
      -- a typical convolutional network, with locally-normalized hidden
      -- units, and L2-pooling

      -- Note: the architecture of this convnet is loosely based on Pierre Sermanet's
      -- work on this dataset (http://arxiv.org/abs/1204.3968). In particular
      -- the use of LP-pooling (with P=2) has a very positive impact on
      -- generalization. Normalization is not done exactly as proposed in
      -- the paper, and low-level (first layer) features are not fed to
      -- the classifier.

      model = nn.Sequential()

      -- stage 1 : filter bank -> squashing -> L2 pooling -> normalization
      model:add(nn.SpatialConvolutionMM(nfeats, nstates[1], filtsize, filtsize))
      model:add(nn.Tanh())
      model:add(nn.SpatialLPPooling(nstates[1],2,poolsize,poolsize,poolsize,poolsize))
      model:add(nn.SpatialSubtractiveNormalization(nstates[1], normkernel))

      -- stage 2 : filter bank -> squashing -> L2 pooling -> normalization
      model:add(nn.SpatialConvolutionMM(nstates[1], nstates[2], filtsize, filtsize))
      model:add(nn.Tanh())
      model:add(nn.SpatialLPPooling(nstates[2],2,poolsize,poolsize,poolsize,poolsize))
      model:add(nn.SpatialSubtractiveNormalization(nstates[2], normkernel))

      -- stage 3 : standard 2-layer neural network
      model:add(nn.Reshape(nstates[2]*filtsize*filtsize))
      model:add(nn.Linear(nstates[2]*filtsize*filtsize, nstates[3]))
      model:add(nn.Tanh())
      model:add(nn.Linear(nstates[3], noutputs))
   end
else

   error('unknown -model')

end

----------------------------------------------------------------------
print '==> here is the model:'
print(model)

----------------------------------------------------------------------
-- Visualization is quite easy, using itorch.image().

if opt.visualize then
   if opt.model == 'convnet' then
      if itorch then
	 print '==> visualizing ConvNet filters'
	 print('Layer 1 filters:')
	 itorch.image(model:get(1).weight)
	 print('Layer 2 filters:')
	 itorch.image(model:get(5).weight)
      else
	 print '==> To visualize filters, start the script in itorch notebook'
      end
   end
end
```

### Пример кода (Lua & CUDA)

```lua
require 'cutorch'

t1 = torch.randn(1000):cuda()
t2 = torch.randn(1000):cuda()

t1:add(t2)

t1_f = t1:float()

print{t1}
print{t1_f}
```

## PyTorch

<img src="images/pytorch_logo.png"/>

PyTorch — это платформа машинного обучения **с открытым исходным кодом, основанная на библиотеке Torch**, используемая для таких приложений, как компьютерное зрение и обработка естественного языка, в первую очередь разработанная **Meta AI**. 

Хотя интерфейс Python более совершенен и находится в центре внимания разработки, PyTorch также имеет интерфейс C++.

Также вокруг этого фреймворка выстроена экосистема, состоящая из различных библиотек, разрабатываемых сторонними командами: **PyTorch Lightning** и **Fast.ai**, упрощающие процесс обучения моделей, **Pyro**, модуль для вероятностного программирования, от Uber, **Flair**, для обработки естественного языка и **Catalyst**, для обучения DL и RL моделей.

```python
import torch
dtype = torch.float
device = torch.device("cpu") # This executes all calculations on the CPU
# device = torch.device("cuda:0") # This executes all calculations on the GPU

# Creation of a tensor and filling of a tensor with random numbers
a = torch.randn(2, 3, device=device, dtype=dtype)
print(a) # Output of tensor A
# Output: tensor([[-1.1884,  0.8498, -1.7129],
#                  [-0.8816,  0.1944,  0.5847]])

# Creation of a tensor and filling of a tensor with random numbers
b = torch.randn(2, 3, device=device, dtype=dtype)
print(b) # Output of tensor B
# Output: tensor([[ 0.7178, -0.8453, -1.3403],
#                  [ 1.3262,  1.1512, -1.7070]])

print(a*b) # Output of a multiplication of the two tensors
# Output: tensor([[-0.8530, -0.7183,  2.58],
#                  [-1.1692,  0.2238, -0.9981]])

print(a.sum()) # Output of the sum of all elements in tensor A
# Output: tensor(-2.1540)

print(a[1,2]) # Output of the element in the third column of the second row
# Output: tensor(0.5847)

print(a.min()) # Output of the minimum value in tensor A
# Output: tensor(-1.7129)
```

## Caffe

Caffe (**Convolution Architecture For Feature Extraction** = Свёрточная архитектура для извлечения признаков) — среда для глубокого обучения, разработанная Яньцинем Цзя (Yangqing Jia) в процессе подготовки своей диссертации в университете Беркли. 

Caffe является открытым программным обеспечением, распространяемым под лицензией BSD license. 

Написано на языке C++, и поддерживает **интерфейс на языке Python**.

Caffe поддерживает много типов машинного обучения, нацеленных в первую очередь на решение задач **классификации** и **сегментации изображений**. 

Для ускорения обучения применяется система графических процессоров (GPU), поддерживаемая архитектурой **CUDA** и иcпользующих библиотеку CuDNN от фирмы **Nvidia**.

**В мае 2018 команды Caffe2 и PyTorch объединились. С тех пор код Caffe2 перенесён в репозиторий PyTorch и является частью последнего.**

## PyTorch Lightning

<img src="images/pytorch_lightning_logo.png"/>

PyTorch Lightning — это библиотека Python с открытым исходным кодом, которая предоставляет **высокоуровневый интерфейс для PyTorch**, популярной среды глубокого обучения.

Он предназначен для создания **масштабируемых моделей глубокого обучения**, которые могут легко работать на распределенном оборудовании, сохраняя при этом **аппаратно-независимые модели**.

Lightning применяет следующую структуру к вашему коду, что делает его повторно используемым и доступным:
- Исследовательский код (LightningModule). 
- Инженерный код (вы удаляете, а обрабатывается Трейнером). 
- Несущественный исследовательский код (логирование и т. д., это относится к обратным вызовам).
- Данные (используйте PyTorch DataLoaders или организуйте их в LightningDataModule).

**Как только вы это сделаете, вы сможете тренироваться на нескольких GPU, TPU, CPU, IPU, HPU и даже с 16-битной точностью без изменения кода!**