# Спочатку імпортуємо бібліотеку

In [1]:
import numpy as np

# Далі ініціалізуємо параметри
Ваги та зсуви (biases). Входи будуть передаватись через ці ваги та зсуви для отримання вихідного значення.

* `n_inputs` - кількість входів (feature dimension)
* `n_neurons` - кількість нейронів у шарі


In [2]:
n_inputs = 3
n_neurons = 4

# ініціалізація ваг
weights = 0.01 * np.random.randn(n_inputs, n_neurons)

# ініціалізація зсувів (biases)
biases = np.zeros((1, n_neurons))

print("Weights:\n", weights)
print("Biases:\n", biases)

Weights:
 [[-0.01828668  0.00942478 -0.01208182  0.00639839]
 [ 0.00856773  0.00131158 -0.00384495  0.00379481]
 [ 0.00865689 -0.00230207 -0.00231195  0.0055007 ]]
Biases:
 [[0. 0. 0. 0.]]


# Пряме поширення (forward pass)

Тепер, коли ваги та зсуви ініціалізовані, можна здійснити пряме поширення, що означає розрахунок виходу для певного входу.

* Вхідні дані (`inputs`) можуть бути або задані вручну, або отримані з реального набору даних. Для прикладу буде створено випадкові дані.

In [3]:
# припустимо, що є 2 приклади вхідних даних
inputs = np.random.randn(2, n_inputs)


# вихід шару нейронної мережі = XW + b
layer_output = np.dot(inputs, weights) + biases

print("Layer output before activation:\n", layer_output)
print(inputs.shape, weights.shape, layer_output.shape, biases.shape)

Layer output before activation:
 [[-0.01626915  0.01266822 -0.02042697  0.01422049]
 [ 0.02572744 -0.01219034  0.01411903 -0.00625193]]
(2, 3) (3, 4) (2, 4) (1, 4)


$X$ - це матриця входів, $W$ - матриця ваг, $b$ - матриця зсувів (biases)

# Активаційна функція ReLU

До вихідного шару буде застосовано функцію активації ReLU (Rectified Linear Unit), що перетворює всі негативні значення на нулі, що додає нелінійності моделі

In [5]:
# реалізація функції ReLU
def relu(x):
  return np.maximum(0, x)

# застосування ReLU до вихідного шару
output = relu(layer_output)

print("Layer output after ReLU activation:\n", output)

Layer output after ReLU activation:
 [[0.         0.01266822 0.         0.01422049]
 [0.02572744 0.         0.01411903 0.        ]]


# Реалізація функції зворотного поширення (backward pass)

Щоб зробити навчання нейронної мережі можливим, потрібно реалізувати зворотне поширення. Проте, оскільки мета цього проєкту - прости шар, то обчислимо лише градієнти для ваг та зсувів

In [6]:
# приклад градієнту для вихідного шару (одиничні градієнти для прикладу)
dvalues = np.ones_like(output)

# градієнт ReLU для входу
drelu = dvalues.copy()
drelu[layer_output <= 0] = 0
# drelu, layer_output <= 0

# градієнт щодо ваг
dweights = np.dot(inputs.T, drelu)
# градієнт щодо зсувів
dbiases = np.sum(drelu, axis=0, keepdims=True)
# градієнт вихідного шару
dinputs = np.dot(drelu, weights.T)

print("dWeights:\n", dweights)
print("dBiases:\n", dbiases)
print("dInputs:\n", dinputs)

dWeights:
 [[-1.24575204  1.41149282 -1.24575204  1.41149282]
 [ 0.0931002   0.53002041  0.0931002   0.53002041]
 [ 0.24825473  0.57772328  0.24825473  0.57772328]]
dBiases:
 [[1. 1. 1. 1.]]
dInputs:
 [[ 0.01582317  0.00510639  0.00319863]
 [-0.0303685   0.00472278  0.00634495]]


# Оновлення параметрів

Останній крок - оновлення ваг та зсувів та основі обчислених градієнтів. Це основа процесу навчання нейронної мережі

In [7]:
learning_rate = 0.001

# оновлення ваг та зсувів
weights -= learning_rate * dweights
biases -= learning_rate * dbiases

print("Updated Weights:\n", weights)
print("Updated Biases:\n", biases)

Updated Weights:
 [[-0.01704092  0.00801329 -0.01083607  0.00498689]
 [ 0.00847463  0.00078156 -0.00393805  0.00326479]
 [ 0.00840864 -0.0028798  -0.0025602   0.00492298]]
Updated Biases:
 [[-0.001 -0.001 -0.001 -0.001]]


# Про проект

Цей проект демонструє, як реалізувати **базовий повнозв'язний шар** (fully connected layer) нейронної мережі, використовуючи лише бібліотеку NumPy. Такий шар є ключовим будівельним блоком багатьох сучасних нейронних мереж.

## Суть проекту
1. **Повнозв'язний шар**:

 * Повнозв'язний шар отримує на вході вектор (або набір векторів, якщо розглядається кілька прикладів одночасно) та перетворює його на інший вектор з допомогою матричного множення та додавання зсуву (bias). Кожен нейрон у шарі має свої ваги та зсув.
 * Вихід цього шару є лінійною комбінацією вхідних даних.

2. **Функція активації**:

 * Після того, як лінійна комбінація обчислена, на неї застосовується **функція активації** (у цьому проекті це ReLU — Rectified Linear Unit). Функція активації додає нелінійність у модель, що дозволяє нейронній мережі вчитися моделювати складні функції.
 * ReLU перетворює всі негативні значення на нулі, залишаючи позитивні значення без змін. Це допомагає нейронній мережі краще відокремлювати класи в задачах класифікації.

3. **Зворотне поширення (Backward Pass)**:

 * **Зворотне поширення** — це процес, за допомогою якого нейронна мережа вчиться на помилках. На основі різниці між передбаченням і правильними відповідями (похибкою) обчислюються градієнти параметрів (ваг і зсувів).
 * Ці градієнти використовуються для коригування параметрів шару так, щоб зменшити похибку на наступних ітераціях.

## Що робить цей проект?
* **Вхідні дані**: Вектор або набір векторів, що представляють приклади даних.
* **Ваги та зсуви**: Параметри шару, які впливають на вихід.
* **Вихід**: Новий вектор, отриманий шляхом множення вхідного вектора на ваги та додавання зсуву, до якого застосовується функція активації ReLU.
* **Оновлення параметрів**: На основі обчислених градієнтів параметри оновлюються, що дозволяє мережі навчатися.

## Для чого це потрібно?
* **Розуміння основ**: Проект дозволяє зрозуміти, як працює основний компонент будь-якої нейронної мережі — повнозв'язний шар, і як дані трансформуються на кожному етапі проходження через нього.
* **Практика з лінійною алгеброю**: Ви застосовуєте матричне множення, що є основою для роботи з нейронними мережами.
* **Базове навчання нейронних мереж**: Хоча ми не реалізували повну нейронну мережу, цей проект дає базове уявлення про те, як відбувається процес навчання, як обчислюються градієнти, і як ці градієнти використовуються для покращення моделі.


Таким чином, цей проект дає вам фундаментальні знання та навички, необхідні для побудови складніших моделей машинного навчання.