<a href="https://colab.research.google.com/github/Whereamiactually/lyceumcompling11/blob/main/NeuralNetworks_perceptrons.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Перцептрон

(Основано на [этом](https://timeweb.cloud/tutorials/machine-learning/kak-napisat-prostuyu-nejroset-na-python) и [этом](https://proglib.io/p/pishem-neyroset-na-python-s-nulya-2020-10-07) материалах.)

### Архитектура

**Перцептрон** — это один из самых простых типов нейронных сетей, который состоит из одного или нескольких слоев нейронов. Каждый нейрон в перцептроне имеет свои веса и смещение, которые позволяют ему обрабатывать входные данные и выдавать выходные значения.

**Перцептроны** часто используются **для задач классификации**, таких как определение, является ли изображение котом или собакой.

### Определение весов и смещений

Когда нейронная сеть получает на вход некоторые данные, она проходит через **несколько слоев, состоящих из нейронов**. Каждый нейрон обрабатывает данные и выдает некоторый результат, который передается следующему слою нейронов.

Чтобы нейронная сеть могла правильно работать, ей необходимо научиться извлекать признаки из данных, то есть определять, какие входные значения наиболее важны для принятия решения. Для этого **каждый нейрон в нейронной сети имеет свой вес и смещение**. **Веса** определяют, насколько каждый входной параметр важен для определения выхода нейрона, а **смещение** позволяет нейрону изменять свой выход в зависимости от входных данных.

В процессе обучения нейронная сеть корректирует значения весов и смещений таким образом, чтобы минимизировать ошибку на выходе.

Внутри нейрона происходят три операции:

1. Значения входов умножаются на **веса**;
2. Взвешенные входы складываются и к ним прибавляется значение **порога b**;
3. Полученная сумма проходит через **функцию активации**.

### Функция активации

**Функция активации** играет ключевую роль в работе нейронной сети. Она применяется к выходу каждого нейрона и определяет, должен ли он быть активирован и передать свое значение на следующий слой нейронов.

Существует несколько типов функций активации, но одной из самых популярных является функция **ReLU** (**Rectified Linear Unit**). Она имеет вид `f(x) = max(0, x)` и позволяет нейрону передавать значение, если оно положительно, а иначе – передавать нулевое значение.  

Другие функции активации, такие как **сигмоида**, также используются в нейронных сетях, но они менее эффективны, чем функция ReLU. **Сигмоида** выдает результаты в интервале (0, 1). Можно представить, что она «упаковывает» интервал от минус бесконечности до плюс бесконечности в (0, 1): большие отрицательные числа превращаются в числа, близкие к 0, а большие положительные – к 1.

### Пример

w = [0, 1] (веса), b = 4 (порог), x = [2, 3] (входные данные)

((w1 \* x1) + (w2 \* x2)) + b = 0 \* 2 + 1 \* 3 + 4 = 7

sigmoid(7) = 0.999...

Посмотрим, как реализовать такую нейронную сеть.

In [1]:
import numpy as np

In [2]:
def sigmoid(x):
  # наша функция активации
  return 1 / (1 + np.exp(-x))

class Neuron:
  def __init__(self, weights, bias):
    self.weights = weights
    self.bias = bias

  def feedforward(self, inputs):
    # умножаем входы на веса, прибавляем порог, затем используем функцию активации
    total = np.dot(self.weights, inputs) + self.bias
    return sigmoid(total)

weights = np.array([0, 1]) # w1 = 0, w2 = 1
bias = 4                   # b = 4
n = Neuron(weights, bias)

x = np.array([2, 3])       # x1 = 2, x2 = 3

print(n.feedforward(x))

0.9990889488055994


### Ещё один пример

In [3]:
class OurNeuralNetwork:
  '''
  Нейронная сеть с:
    - 2 входами
    - скрытым слоем с 2 нейронами (h1, h2)
    - выходным слоем с 1 нейроном (o1)
  Все нейроны имеют одинаковые веса и пороги:
    - w = [0, 1]
    - b = 0
  '''

  def __init__(self):
    weights = np.array([0, 1])
    bias = 0

    # используем класс Neuron из предыдущего раздела
    self.h1 = Neuron(weights, bias)
    self.h2 = Neuron(weights, bias)
    self.o1 = Neuron(weights, bias)

  def feedforward(self, x):
    out_h1 = self.h1.feedforward(x)
    out_h2 = self.h2.feedforward(x)

    # входы для o1 - это выходы h1 и h2
    out_o1 = self.o1.feedforward(np.array([out_h1, out_h2]))

    return out_o1

network = OurNeuralNetwork()
x = np.array([2, 3])

print(network.feedforward(x))

0.7216325609518421


### Создадим простой перцептрон

Попробуем создать и обучить нейросеть, которая будет на основе трёх входов выдавать ожидаемый результат. У нас получится перцептрон со следующей архитектурой:

На вход нейросеть получает **3 параметра**. Во время обучения нейросеть выберет **оптимальные веса**. В конце нейрон прогонит **перемноженные веса и параметры через функцию активации**.

In [4]:
import pandas as pd

In [5]:
colnames = ['First entry', 'Second entry', 'Third entry', 'Result']
pd.DataFrame([[1, 0, 0, 1], [1, 1, 1, 1], [0, 1, 1, 0], [1, 0, 1, 1], [0, 0, 1, 0], [1, 1, 1, '?']], columns = colnames)

Unnamed: 0,First entry,Second entry,Third entry,Result
0,1,0,0,1
1,1,1,1,1
2,0,1,1,0
3,1,0,1,1
4,0,0,1,0
5,1,1,1,?


Для начала установим библиотеку **numpy**, которая используется для математических операция. В неё вложены в том числе матричные операции, которые особенно важны в нейронных сетях.

Напишем функцию активации - сигмоиду.

In [6]:
def sigmoid(x):
  return 1/(1 + np.exp(-x))

И создадим массив с обучающими данными.

In [7]:
training_inputs = np.array ([[1, 0, 0], [1, 1, 1], [0, 1, 1], [1, 0, 1]]) # здесь лежат тренировочные входные данные

training_outputs = np.array([[1, 1, 0, 1]]).T # здесь лежат тренировочные выходные данные

In [8]:
training_inputs

array([[1, 0, 0],
       [1, 1, 1],
       [0, 1, 1],
       [1, 0, 1]])

In [9]:
training_outputs

array([[1],
       [1],
       [0],
       [1]])

Выберем случайные веса.

In [10]:
np.random.seed(1)
synaptic_weights = 2 * np.random.random((3, 1)) - 1

In [11]:
np.random.seed(1)
np.random.random((3, 1))

array([[4.17022005e-01],
       [7.20324493e-01],
       [1.14374817e-04]])

И обучим нейросеть.

В следующем кусочке кода нейросеть итерационно подбирает оптимальные веса. С каждой итерацией она становится всё ближе к правильным значениями.  

In [12]:
for i in range(100000):
   input_layer = training_inputs
   outputs = sigmoid(np.dot(input_layer, synaptic_weights))

   err = training_outputs - outputs
   adjustments = np.dot(input_layer.T, err * (outputs)) # скалярное произведение векторов
   synaptic_weights += adjustments

print("Веса после обучения:")
print(synaptic_weights)

Веса после обучения:
[[16.63610024]
 [-3.49710652]
 [-1.98790846]]


Проверим текущий результат.

In [13]:
print("Результат:")
print(outputs)

Результат:
[[0.99999994]
 [0.99998564]
 [0.00413135]
 [0.99999957]]


Проверим на незнакомом примере.

In [14]:
new_input = np.array([[0, 0, 1]])

print(sigmoid(np.dot(new_input, synaptic_weights)))

[[0.12047831]]


### Перцептрон на более реальных данных

In [15]:
colnames = ['Имя', 'Вес', 'Рост', 'Пол']
people = pd.DataFrame([['Алиса', 54.4, 165.1, 'женский'], ['Боб', 65.44, 183, 'мужской'], ['Чарли', 62.2, 178, 'мужской'], ['Диана', 49, 152, 'женский']], columns = colnames)
people

Unnamed: 0,Имя,Вес,Рост,Пол
0,Алиса,54.4,165.1,женский
1,Боб,65.44,183.0,мужской
2,Чарли,62.2,178.0,мужской
3,Диана,49.0,152.0,женский


Вначале сдвинем данные, чтобы с ними было удобнее работать.

In [18]:
weight = people['Вес'] - sum(people['Вес']) / len(people['Вес'])
weight

0   -3.36
1    7.68
2    4.44
3   -8.76
Name: Вес, dtype: float64

In [17]:
height = people['Рост'] - sum(people['Рост']) / len(people['Рост'])
height

0    -4.425
1    13.475
2     8.475
3   -17.525
Name: Рост, dtype: float64

Напишем функцию, которая считает среднюю квадратичную ошибку (потери).

**Обучение нейронной сети = минимизация её потерь**.

In [19]:
def mse_loss(y_true, y_pred):
  # y_true и y_pred - массивы одинаковой длины
  return ((y_true - y_pred) ** 2).mean()

y_true = np.array([1, 0, 0, 1])
y_pred = np.array([0, 0, 0, 0])

print(mse_loss(y_true, y_pred)) # 0.5

0.5


Теперь нам надо минимизировать потери нейронной сети.

Мы можем изменять веса и пороги нейронов, чтобы изменить предсказания.

Процесс обучения сети будет выглядеть примерно так:

1. Выбираем одно наблюдение из набора данных. Именно то, что мы работаем только с одним наблюдением, делает наш градиентный спуск [стохастическим](https://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D1%82%D0%BE%D1%85%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B9_%D1%81%D0%BF%D1%83%D1%81%D0%BA).
2. Считаем все частные производные функции потерь по всем весам и порогам (dL/dw1, dL/dw2 и т.д.)
3. Используем формулу обновления, чтобы обновить значения каждого веса и порога.
4. Снова переходим к шагу 1.

In [None]:
def sigmoid(x):
  # сигмоидная функция активации: f(x) = 1 / (1 + e^(-x))
  return 1 / (1 + np.exp(-x))

def deriv_sigmoid(x):
  # производная сигмоиды: f'(x) = f(x) * (1 - f(x))
  fx = sigmoid(x)
  return fx * (1 - fx)

def mse_loss(y_true, y_pred):
  # y_true и y_pred - массивы одинаковой длины
  return ((y_true - y_pred) ** 2).mean()

class OurNeuralNetwork:
  '''
  Нейронная сеть с:
    - 2 входами
    - скрытым слоем с 2 нейронами (h1, h2)
    - выходной слой с 1 нейроном (o1)

  Следующий код простой и обучающий, но НЕ оптимальный.
  Код реальных нейронных сетей совсем на него не похож, но он всё равно даёт представление об их работе.
  '''
  def __init__(self):
    # Веса
    self.w1 = np.random.normal()
    self.w2 = np.random.normal()
    self.w3 = np.random.normal()
    self.w4 = np.random.normal()
    self.w5 = np.random.normal()
    self.w6 = np.random.normal()

    # Пороги
    self.b1 = np.random.normal()
    self.b2 = np.random.normal()
    self.b3 = np.random.normal()

  def feedforward(self, x):
    # x - массив с двумя элементами
    h1 = sigmoid(self.w1 * x[0] + self.w2 * x[1] + self.b1)
    h2 = sigmoid(self.w3 * x[0] + self.w4 * x[1] + self.b2)
    o1 = sigmoid(self.w5 * h1 + self.w6 * h2 + self.b3)
    return o1

  def train(self, data, all_y_trues):
    '''
    - data - массив (n x 2), n = количество наблюдений в наборе
    - all_y_trues - массив с n элементами
      Элементы all_y_trues соответствуют наблюдениям в data.
    '''
    learn_rate = 0.1
    epochs = 1000 # сколько раз пройти по всему набору данных

    for epoch in range(epochs):
      for x, y_true in zip(data, all_y_trues):
        # --- прямой проход (эти значения нам понадобятся позже)
        sum_h1 = self.w1 * x[0] + self.w2 * x[1] + self.b1
        h1 = sigmoid(sum_h1)

        sum_h2 = self.w3 * x[0] + self.w4 * x[1] + self.b2
        h2 = sigmoid(sum_h2)

        sum_o1 = self.w5 * h1 + self.w6 * h2 + self.b3
        o1 = sigmoid(sum_o1)
        y_pred = o1

        # --- считаем частные производные.
        # --- имена: d_L_d_w1 = "частная производная L по w1"
        d_L_d_ypred = -2 * (y_true - y_pred)

        # нейрон o1
        d_ypred_d_w5 = h1 * deriv_sigmoid(sum_o1)
        d_ypred_d_w6 = h2 * deriv_sigmoid(sum_o1)
        d_ypred_d_b3 = deriv_sigmoid(sum_o1)

        d_ypred_d_h1 = self.w5 * deriv_sigmoid(sum_o1)
        d_ypred_d_h2 = self.w6 * deriv_sigmoid(sum_o1)

        # нейрон h1
        d_h1_d_w1 = x[0] * deriv_sigmoid(sum_h1)
        d_h1_d_w2 = x[1] * deriv_sigmoid(sum_h1)
        d_h1_d_b1 = deriv_sigmoid(sum_h1)

        # нейрон h2
        d_h2_d_w3 = x[0] * deriv_sigmoid(sum_h2)
        d_h2_d_w4 = x[1] * deriv_sigmoid(sum_h2)
        d_h2_d_b2 = deriv_sigmoid(sum_h2)

        # --- обновляем веса и пороги
        # нейрон h1
        self.w1 -= learn_rate * d_L_d_ypred * d_ypred_d_h1 * d_h1_d_w1
        self.w2 -= learn_rate * d_L_d_ypred * d_ypred_d_h1 * d_h1_d_w2
        self.b1 -= learn_rate * d_L_d_ypred * d_ypred_d_h1 * d_h1_d_b1

        # нейрон h2
        self.w3 -= learn_rate * d_L_d_ypred * d_ypred_d_h2 * d_h2_d_w3
        self.w4 -= learn_rate * d_L_d_ypred * d_ypred_d_h2 * d_h2_d_w4
        self.b2 -= learn_rate * d_L_d_ypred * d_ypred_d_h2 * d_h2_d_b2

        # нейрон o1
        self.w5 -= learn_rate * d_L_d_ypred * d_ypred_d_w5
        self.w6 -= learn_rate * d_L_d_ypred * d_ypred_d_w6
        self.b3 -= learn_rate * d_L_d_ypred * d_ypred_d_b3

      # --- считаем полные потери в конце каждой эпохи
      if epoch % 10 == 0:
        y_preds = np.apply_along_axis(self.feedforward, 1, data)
        loss = mse_loss(all_y_trues, y_preds)
        print("Epoch %d loss: %.3f" % (epoch, loss))

# определим набор данных
data = np.array([
  [-3.36, -4.425],  # Алиса
  [7.68, 13.475],   # Боб
  [4.44, 8.475],   # Чарли
  [-8.76, -17.525], # Диана
])
all_y_trues = np.array([
  1, # Алиса
  0, # Боб
  0, # Чарли
  1, # Диана
])

# обучаем нашу нейронную сеть
network = OurNeuralNetwork()
network.train(data, all_y_trues)

In [22]:
emily = np.array([-7, -3])
frank = np.array([20, 2])
print("Эмили: %.3f" % network.feedforward(emily)) # 0.951 - Ж
print("Фрэнк: %.3f" % network.feedforward(frank)) # 0.039 - М

Эмили: 0.944
Фрэнк: 0.039


### Многослойный перцептрон

С использованием фреймворка для глубокого обучения Keras (на основе вот [этой работы](https://kpfu.ru/portal/docs/F_1458204831/Nejronnye.seti.na.Python.pdf)).

Будем решать задачу классификации одежды на датасете [Fashion MNIST](https://github.com/zalandoresearch/fashion-mnist). Всего 10 классов одежды:

1. Trouser (брюки)
2. Pullover (пуловер)
3. Dress (платье)
4. Coat (пальто)
5. Sandal (сандалии)
6. Shirt (рубашка)
7. Sneaker (кеды)
8. Bag (сумка)
9. Ankle boot (ботильоны)
10. T-shirt/top (футболка/топ)

In [23]:
import numpy as np # как обычно, для работы с массивами и матрицами
from sklearn.metrics import accuracy_score
import tensorflow as tf # библиотека для решения задач построения и тренировки нейронной сети
import keras # библиотека для быстрой реализации нейронных сетей, является надстройкой над TensorFlow
import keras.models as M
import keras.layers as L
import keras.backend as K

* x_train - изображения одежды (28 на 28 пикселей) для обучения,
* y_train - правильные ответы к соответствующим изображениям,
* x_val - изображения одежды для валидационной выборки,
* y_val - правильные ответы к соответствующим изображениям.

In [25]:
(x_train, y_train), (x_val, y_val) = tf.keras.datasets.fashion_mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz


Преобразуем правильные ответы y_train и y_val в one-hot encode. То есть, представим правильный ответ в виде вектора, размерность которого равна количеству классов в нашей задаче.

Пусть данный объект принадлежим классу с номером i. Тогда в i-ой
позиции у данного вектора будет стоять 1, а остальные значения равны 0.

In [26]:
y_train_oh = keras.utils.to_categorical(y_train, 10)
y_val_oh = keras.utils.to_categorical(y_val, 10)

In [31]:
K.clear_session()
model = M.Sequential()
model.add(L.Dense(output_dim = 128, input_dim = 784, activation = 'elu'))
model.add(L.Dense(output_dim = 128, activation = 'elu'))
model.add(L.Dense(output_dim = 10, activation = 'softmax'))

In [30]:
model.compile(
 loss = 'categorical_crossentropy', # минимизируем кросс-энтропию
 optimizer = 'adam',
 metrics = ['accuracy'] # выводим процент правильных ответов
)

In [32]:
x_train_float = x_train.astype(np.float) / 255 - 0.5
x_val_float = x_val.astype(np.float) / 255 - 0.5

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  x_train_float = x_train.astype(np.float) / 255 - 0.5
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  x_val_float = x_val.astype(np.float) / 255 - 0.5


In [34]:
model.fit(
 x_train_float.reshape(-1, 28*28),
 y_train_oh,
 batch_size=64, # 64 объекта для подсчета градиента на каждом шаге
 epochs=10, # 10 проходов по датасету
 validation_data=(x_val_float.reshape(-1, 28*28), y_val_oh)
)

### Другие нейронные сети

1. Рекуррентные нейронные сети (используются, например, для предсказания следующего слова в тексте),
2. Сверточные нейронные сети (используются для, например, классификации изображений),
3. Глубокие нейронные сети (Используются для, например, распознавания речи),
4. Генеративные нейронные сети...