# Neural Networks: Introduction

**Исполнители (ФИО):** Your answer here

---

Здравствуйте, классическое Машинное Обучение подошло к концу. Далее вы познакомитесь с Введением в Глубокое Обучение и научитесь работать с полносвязными нейронными сетями прямого распространенния

`В данном блокноте вы будете работать с библиотекой PyTorch, для комфортной работы и чтобы не тратить время на установку, воспользуйтесь сервисом Google Collab, в которой этот инструмент уже предустановлен`

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torch
import torch.nn as nn

Полносвязная нейронная сеть прямого распространения состоит из последовательных и связанным между собой слоев, каждый слой состоит из набора перцептронов (нейронов)

Перцептрон выражается формулой $f(\sum\limits_{i}w_{i}x_{i} + b)$, где $w_{i},b$ - веса, $x_{i}$ - входы, на первом слое - фичи, на последующих - выходы нейронов предыдущего слоя, $f$ - функция активации. Перцептрон является моделью линейной регрессии с нелинейной функцией активации

## Задача 1

Сгенерируйте данные вида Круг и Кольцо вокруг Круга

In [None]:
#Your code here

Создайте свой Перцептрон, используя пример ниже

In [None]:
# Пример Перцептрона

class Perceptron:

    def __init__(self, n_features, act):
        
        # инициализация весов и функции активации
        # requires_grad = True - для обучаемости весов (подсчета градиента)
        self.W = torch.normal(0, 0.1, (1, n_features), requires_grad = True)
        self.bias = torch.normal(0, 0.1, (1, 1), requires_grad = True)
        self.act = act

    def forward(self, x):
        
        # f(w* x + b)
        return self.act(torch.matmul(self.W, x.T) + self.bias)

    def parameters(self):
        return [self.W, self.bias]

In [None]:
#Your code here

Чтобы обучить нейронную сеть, нужно 
1. посчитать предсказание
2. посчитать штраф (функцию потерь)
3. занулить градиент
4. посчитать градиент штрафа
5. сделать шаг градиентного спуска

In [None]:
criterion = #ваша функция потерь, например nn.BCELoss()

optimizer = #оптимизатор, например torch.optim.SGD()

n_epochs = 10 # количество эпох обучения

model = Perceptron() # нейронная сеть

for i in range(n_epochs):
    
    y_pred = model.forward(X) # предсказание
    loss = criterion(y_pred, y_true) # штраф
    
    optimizer.zero_grad() # зануляем градиенты с предыдущей итерации
    loss.backward() # считаем градиент
    optimizer.step() # шаг градиентного спуска

Если вы хотите использовать возможности видеокарты для обучения, необходимо перенести обучаемые веса и данные на *GPU* с помощью метода *.to(device)*

In [None]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'

model.to(device)
train_data.to(device)

Обычно градиент вычисляется последовательно не от всех данных, а по кусочкам, которые называют *batch*

Обучите Перцептрон на ваших данных, сравните результат с логистической регрессией. Постройте кривую обучения Перцептрона (зависимость функции потерь и метрики от эпохи на тренировочных и валидационных данных)

In [None]:
#Your code here

Теперь попробуйте взять несколько перцептронов с разными начальными весами и собрать их в один слой (для измените класс *Perceptron*, чтобы он содержал несколько нейронов) 

Подумайте как аггрегировать вместе предсказания нескольких нейронов (слоя)

In [None]:
#Your code here

Сравните Перцептрон, Логистическую Регрессиию и Слой Перцептронов

In [None]:
#Your code here

**Вопрос:** Какая модель оказалась лучше? Есть ли различие в их работе? Предположите, почему?

*Your answer here*

## Задача 2

In [None]:
class NeuralNetwork(nn.Module):
    def __init__(self):
        
        super().__init__()
        
        self.flatten = nn.Flatten()

        # n_i количество перцептронов на i слое
        # соответствует количеству входов на i + 1 слое
        self.layers_stack = nn.Sequential(
            nn.Linear(n_features, n1),
            nn.ReLU(), # функция активации после первого слоя
            nn.Linear(n1, n2),
            nn.ReLU(), # функция активации после второго слоя
            nn.Linear(n2, n_classes)
        )

    def forward(self, x):
        x = self.flatten(x) # делаем данные плоскоми
        logits = self.layers_stack(x) # применяем последовательно слои
        return logits

Загрузите датасет *richters_whole_2.csv*

In [None]:
#Your code here

Постройте полносвязную нейронную сеть, используя пример выше, для классификации на ваших данных

In [None]:
#Your code here

Попробуйте разные архитектуры нейронной сети, произвольно меняя параметры: 
1. количество слоев
2. количество перцептронов в слое
3. функции активации слоя

Постройте кривую обучения Нейронной сети (зависимость функции потерь и метрики от эпохи на тренировочных и валидационных данных)

In [None]:
#Your code here

**Вопрос:** Какая архитектура нейронной сети оказалась наилучшей для решения данной задачи?

*Your answer here*

## Задача 3

Для удобного деления данных на батчи используйте *torch.utils.data.DataLoader* 

Это необходимо, поскольку зачастую невозможно все данные поместить на *GPU*

*batch_size* ограничен сверху оперативной паматью видеокарты, а снизу - тем, что тем меньше взять данных в батч, тем хуже будет обучение весов

In [None]:
from torch.utils.data import DataLoader

train_dataloader = DataLoader(train_data, batch_size, shuffle = True)
test_dataloader = DataLoader(test_data, batch_size, shuffle = False)

Загрузите датасет [МNIST](https://docs.pytorch.org/vision/main/generated/torchvision.datasets.MNIST.html)

In [None]:
#Your code here

Постройте нейросеть и обучите её с разбиением на батчи. Постарайтесь добиться качества около 95%

In [None]:
#Your code

**Вопрос:** Какую архитектуру подобрали и на сколько батчей разбивали данные?

*Your answer here*

## Задача 4

Важным математическим результатом теории нейросетей является [Теорема Цыбенко](https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%A6%D1%8B%D0%B1%D0%B5%D0%BD%D0%BA%D0%BE), которая гласит, что для любой непрерывной функции можно подобрать веса нейросети с одним скрытым слоем и сигмоидальной функцией активации таким образом, чтобы сколько угодно точно приблизить её

В файле *signal_sample_2.csv* содержатся данные о физическом сигнале $X(t)$. Проверьте теорему Цыбенко на этих данных

In [None]:
#Your code here

Визуализируйте сигнал и подобранную нейросетью функцию

In [None]:
#Your code here

**Вопрос:** С какой точностью получилось восстановить функцию сигнала?

*Your answer here*