# **PyTorch**

In [None]:
conda create --name myenv
conda activate myenv
conda install jupiter
conda install notebook

# https://pytorch.org/get-started/locally/ <- CUDA

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

import sys
print(sys.executable)

import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.cuda.current_device())
print(torch.cuda.device_count())
print(torch.cuda.get_device_name(0))

## **Tensors**

In [None]:
t = torch.empty(3, 5, 2, dtype=torch.int32) #создание тензора из случайных чисел
t = torch.tensor([[1, 2, 3], [4, 5, 6]]) #создание тензора на основе списка
t = torch.tensor(arr, dtype=torch.float32, requires_grad=True) #создание тензора с передачей ранее созданного списка
t = torch.from_numpy(nympy_arr) #создание тензора на основе numpy массива
                                #при изменении массива numpy тензор torch изменяется!

t = torch.tensor([[2, 3], [4, 5]], device=torch.device('cuda:0')) #разместить тензор на GPU
t = t.cpu()     #перевод тензора с GPU на CPU
t = t.to('cpu') #

t = t.cuda()     #перевод тензора с CPU на GPU
t = t.to('cuda') #

t.device #проверить, где лежит тензор: на CPU или GPU

t[0, 0].item() #получить значение из тензора
               #t[0, 0] без item() вернет tensor(228.)
               #t[0, 0].item() вернет 228.0

t = torch.zeros(2, 3, dtype=torch.int32)  #тензор из нулей
t = torch.zeros_like(tensor)  #тензор из нулей той же размерности, что и tensor

t = torch.ones(2, 3, dtype=torch.int32)  #тензор из единиц
t = torch.eye(2, 3, dtype=torch.int32)  #единичная матрица
t = torch.full((2, 4), 5, dtype=torch.int32)  #тензор 2x4, заполненный пятерками
t = torch.full_like(tensor, 88)  #тензор из чисел 88той же размерности, что и tensor

a = torch.arange(7) #диапазон чисел от 0 до 6
a = torch.arange(5, 50, 10) #числа от 5 до 50 с шагом 10
a = torch.linspace(1, 10, 100) #100 точек между 1 и 10

t = torch.diag(torch.tensor([5, 4, 3])) #создает диагональную матрицу 3х3 из переданных элементов
t = torch.tril(torch.tensor([[5, 4, 3], [1, 2, 2], [1, 2, 2]])) #нижнетреугольная матрица из переданной
t = torch.triu(torch.tensor([[5, 4, 3], [1, 2, 2], [1, 2, 2]])) #верхнетреугольная матрица из переданной

torch.cat([t1, t2], dim=1) #объединение тензоров по оси

r = torch.rand(2, 3) #тензор, заполненный случайными значениями из (0, 1)
r = torch.randn(2, 3) #тензор из нормального распределения чисел со средним 0 и ст. отклонением 1

torch.manual_seed(54) #воспроизводимость случайных чисел

d = t.reshape(27)      #
d = t.reshape(3, 9)    #изменение размерности тензора
d = t.reshape(3, 3, 3) #

c = torch.matmul(a, b) #матричное умножение С транслированием
d = torch.mm(a, b) #матричное умножение БЕЗ транслирования
e = torch.bmm(a, b) #матричное умножение для батчей 
d = torch.dot(a, b) #скалярное произведение
e = torch.outer(a, b) #внешнее произведение
r = torch.mv(a, b) #умножение матрицы на вектор
rank = torch.linalg.matrix_rank(a) #вычисление ранга матрицы
s = torch.linalg.solve(A, y) #вычисление решения уравнения Ax=y

d = t.view(27)      #
d = t.view(3, 9)    #изменение размерности тензора
d = t.view(3, 3, 3) #

r = t.resize_(2, 2) #выбрать часть тензора

v = t.ravel() #вытянуть тензор в вектор

t.permute(1, 0) #поменять оси 1 и 0 местами (транспонирование)
t.mT            #аналогично

torch.unsqeeze(t, dim=0) #добавление одноэлементной оси на первое место
t.unsqeeze(0)            #
t.unsqeeze(-1) #добавление одноэлементной оси на последнее место

torch.unsqeeze(t) #удаление одноэлементных осей
t.squeeze()       #
t.squeeze(dim=3)  #если третья ось одноэлементна, то она удалится

torch.unsqeeze(x, ) #добавление оси

m = t.sum(dim=0)
m = t.max(dim=0) #возвращает два списка: индексы и значения
m = t.max(dim=0).values
m = t.max(dim=1).indices
m = t.amax(dom=0) #сразу возвращает значения
m = t.amin(dom=0) #

m = torch.abs(t)   #
m = torch.round(t) #или через inplace методы
m = torch.log(t)   #

torch.sin(x)
torch.cos(x)
torch.tan(x)

torch.median(x)    #
torch.var(x)       #
torch.std(x)       #статистика
torch.corrcoef(x)  #
torch.cov(x)       #

m = t.mean(dim=1, keepdim=True) #вычисляем среднее по строкам, 
                                #keepdim оставляет ту ось, по которой было усреднение

tensor_half = tensor.half()      #torch.float16     #
tensor_float = tensor.float()    #torch.float32     #
tensor_double = tensor.double()  #torch.float64     #
tensor_short = tensor.short()    #torch.int16       #преобразование типов
tensor_int = tensor.int()        #torch.int32       #
tensor_long = tensor.long()      #torch.int64       #
tensor_char = tensor.char()      #torch.int8        #
tensor_byte = tensor.byte()      #torch.uint8       #
tensor_bool = tensor.bool()      #torch.bool        #

**In-place (mutable)** методы изменяют текущий тензор.

In [None]:
t.add_(5)
t.mul_(2)
t.zero_()
t.fill_(-0.8)
t.random_(1, 7) 
t.uniform_(0, 1)
t.normal_(0, 1)

**Immutable методы:** Эти методы не изменяют текущий тензор, а создают новый.

In [None]:
t.add(5)
t.mul(2)
t.zero()
t.fill(-0.8)
t.random(1, 7) 
t.uniform(0, 1)
t.normal(0, 1)

## **Adaptive optimization methods**

### **Momentum**

- **Идея**: Метод оптимизации, вдохновленный инерцией. Он добавляет "память" о предыдущих градиентах, чтобы ускорить обучение.
- **Принцип**: Обновление параметров учитывает не только текущий градиент, но и накопленное движение (скорость).
- **Формула**:
  $$
  v_t = \beta v_{t-1} + (1 - \beta) g_t
  $$
  $$
  \theta_{t+1} = \theta_t - \eta \cdot v_t
  $$
  где:
  - $v_t$ — скорость (направление и величина изменений),
  - $g_t$ — текущий градиент,
  - $\beta$ — коэффициент моментума,
  - $\eta$ — скорость обучения.

### **RMSprop (Root Mean Square Propagation)**

- **Идея**: Адаптирует скорость обучения для каждого параметра, используя скользящее среднее квадратов градиентов. Это помогает стабилизировать обновления.
- **Принцип**: Для каждого параметра накапливается среднеквадратичное значение градиентов, что позволяет учитывать только последние градиенты.
- **Формула**:
  $$
  v_t = \beta v_{t-1} + (1 - \beta) g_t^2
  $$
  $$
  \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{v_t + \epsilon}} \cdot g_t
  $$
  где:
  - $v_t$ — скользящее среднее квадратов градиентов,
  - $\beta$ — коэффициент для скользящего среднего,
  - $\eta$ — скорость обучения,
  - $\epsilon$ — маленькое число для стабилизации.

### **Adam (Adaptive Moment Estimation)**

- **Идея**: Сочетает **Momentum** и **RMSprop**. Использует как первый момент (градиенты), так и второй момент (квадраты градиентов) для адаптации скорости обучения.
- **Принцип**: Адаптирует скорость обучения для каждого параметра, используя скользящее среднее градиентов и квадратов градиентов.
- **Формула**:
  $$
  v_t = \beta_1 v_{t-1} + (1 - \beta_1) g_t
  $$
  $$
  s_t = \beta_2 s_{t-1} + (1 - \beta_2) g_t^2
  $$
  $$
  \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{s_t + \epsilon}} \cdot v_t
  $$
  где:
  - $v_t$ и $s_t$ — моменты первого и второго порядка,
  - $\beta_1$, $\beta_2$ — коэффициенты для моментов,
  - $\eta$ — скорость обучения,
  - $\epsilon$ — стабилизирующий коэффициент.

### **Adagrad (Adaptive Gradient Algorithm)**

- **Идея**: Адаптивный метод оптимизации, который изменяет скорость обучения для каждого параметра в зависимости от величины его градиента.
- **Принцип**: Накапливается сумма квадратов градиентов для каждого параметра, и это накопление влияет на скорость обучения.
- **Формула**:
  $$
  \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \cdot g_t
  $$
  где:
  - $G_t$ — накопленная сумма квадратов градиентов,
  - $\epsilon$ — маленькое число для стабилизации.