##  Setup

In [1]:
import Pkg
Pkg.add("Flux")
Pkg.add("Zygote")

[32m[1m   Resolving[22m[39m package versions...
[32m[1m      Compat[22m[39m entries added for Flux
[32m[1m    Updating[22m[39m `~/Repos/AWiD/MyMlp/Project.toml`
  [90m[587475ba] [39m[92m+ Flux v0.16.4[39m
[32m[1m    Updating[22m[39m `~/Repos/AWiD/MyMlp/Manifest.toml`
  [90m[082447d4] [39m[92m+ ChainRules v1.72.4[39m
  [90m[bbf7d656] [39m[92m+ CommonSubexpressions v0.3.1[39m
  [90m[163ba53b] [39m[92m+ DiffResults v1.1.0[39m
  [90m[b552c78f] [39m[92m+ DiffRules v1.15.1[39m
  [90m[f151be2c] [39m[92m+ EnzymeCore v0.8.11[39m
  [90m[587475ba] [39m[92m+ Flux v0.16.4[39m
  [90m[f6369f11] [39m[92m+ ForwardDiff v1.0.1[39m
  [90m[d9f16b24] [39m[92m+ Functors v0.5.2[39m
  [90m[7869d1d1] [39m[92m+ IRTools v0.4.14[39m
  [90m[7e8f7934] [39m[92m+ MLDataDevices v1.10.0[39m
  [90m[0b1bfda6] [39m[92m+ OneHotArrays v0.2.10[39m
  [90m[3bd65402] [39m[92m+ Optimisers v0.4.6[39m
  [90m[33c8b6b6] [39m[92m+ ProgressLogging v0.1.4[39m
  [90

In [1]:
include("../MyReverseDiff.jl")
include("../MyEmbedding.jl")
include("../MyMlp.jl")

using .MyReverseDiff
using .MyEmbedding
using .MyMlp
using Printf
using LinearAlgebra
using Random
using Flux
using Zygote


##  Przygotowanie danych testowych

In [2]:
# Mini słownik (bardzo mały dla prostoty)
vocab = ["good", "bad", "movie", "very", "<PAD>"]
vocab_size = length(vocab)
embedding_dim = 3  # Małe embedding dla łatwych obliczeń
sequence_length = 4  # Długość sekwencji
num_of_words = 5  # Liczba słów w słowniku

println("Słownik:")
for (i, word) in enumerate(vocab)
    println("$i: $word")
end

println("\nParametry:")
println("- Rozmiar słownika: $vocab_size")
println("- Wymiar embedding: $embedding_dim")
println("- Długość sekwencji: $sequence_length")
println("- Liczba słów w słowniku: $num_of_words")

# Sekwencje tekstowe jako indeksy
# Sekwencja 1: "very good movie <PAD>" → [5, 2, 4, 1] → pozytywna (klasa 1)
# Sekwencja 2: "very bad movie <PAD>" → [5, 3, 4, 1] → negatywna (klasa 0)

sequence_1 = Float32[4, 1, 3, 5]  # very good movie <PAD>
sequence_2 = Float32[4, 2, 3, 5]  # very bad movie <PAD>

# Konwertuj na format batch (sequence_length, batch_size)
X_batch = zeros(Float32, sequence_length, 2)
X_batch[:, 1] = sequence_1
X_batch[:, 2] = sequence_2

# Etykiety: sekwencja 1 → pozytywna (1), sekwencja 2 → negatywna (0)
y_batch = Float32[1.0 0.0]  # (1, 2) 

println("Sekwencja 1 (pozytywna): ", [vocab[Int(i)] for i in sequence_1])
println("Indeksy: ", sequence_1)
println("\nSekwencja 2 (negatywna): ", [vocab[Int(i)] for i in sequence_2])
println("Indeksy: ", sequence_2)
println("\nShape danych X: ", size(X_batch))
println("Etykiety y: ", y_batch)
println("Shape etykiet: ", size(y_batch))

# Embedding weights - każde słowo ma swój unikalny wektor
embedding_weights = Float32[
    1.0  -1.0   0.5  0.0 0.0;   # wymiar 1: <PAD>, good, bad, movie, very
    0.5   0.5   0.0  1.0 0.0;   # wymiar 2
    1.0  -1.0   1.0  0.0 0.0    # wymiar 3
]

for (i, word) in enumerate(vocab)
    vec = embedding_weights[:, i]
    println("$word: $vec")
end

Słownik:
1: good
2: bad
3: movie
4: very
5: <PAD>

Parametry:
- Rozmiar słownika: 5
- Wymiar embedding: 3
- Długość sekwencji: 4
- Liczba słów w słowniku: 5
Sekwencja 1 (pozytywna): ["very", "good", "movie", "<PAD>"]
Indeksy: Float32[4.0, 1.0, 3.0, 5.0]

Sekwencja 2 (negatywna): ["very", "bad", "movie", "<PAD>"]
Indeksy: Float32[4.0, 2.0, 3.0, 5.0]

Shape danych X: (4, 2)
Etykiety y: Float32[1.0 0.0]
Shape etykiet: (1, 2)
good: Float32[1.0, 0.5, 1.0]
bad: Float32[-1.0, 0.5, -1.0]
movie: Float32[0.5, 0.0, 1.0]
very: Float32[0.0, 1.0, 0.0]
<PAD>: Float32[0.0, 0.0, 0.0]


##  Warstwa embedding - Flux

In [3]:
# Tworzymy warstwę embedding: 5 tokenów (słownik), każdy reprezentowany przez wektor 3-wymiarowy
embedding_layer = Flux.Embedding(5, 3)

embedding_layer.weight .= embedding_weights  # Ustawiamy wagi embeddingu na nasze predefiniowane wartości

x_batch = Int64.(X_batch)  # Konwersja do Int64, ponieważ Flux.Embedding oczekuje indeksów jako Int

4×2 Matrix{Int64}:
 4  4
 1  2
 3  3
 5  5

In [6]:
# Używamy pullback, aby uzyskać wynik przejścia "forward" i funkcję do propagacji wstecznej
# Chcemy gradienty względem parametrów warstwy, więc musimy je "wyciągnąć" z modelu
params = Flux.params(embedding_layer)
y_output, back = Flux.pullback(() -> embedding_layer(x_batch), params)

println("--- PRZEJŚCIE W PRZÓD ---")
println("Wynik z embedding_layer(X_batch):")
println("Shape: ", size(y_output))

y_output

--- PRZEJŚCIE W PRZÓD ---
Wynik z embedding_layer(X_batch):
Shape: (3, 4, 2)


3×4×2 Array{Float32, 3}:
[:, :, 1] =
 0.0  1.0  0.5  0.0
 1.0  0.5  0.0  0.0
 0.0  1.0  1.0  0.0

[:, :, 2] =
 0.0  -1.0  0.5  0.0
 1.0   0.5  0.0  0.0
 0.0  -1.0  1.0  0.0

##  Warstwa embedding - Flux Backward

In [8]:
# Załóżmy, że gradient spływający z góry (z kolejnych warstw/funkcji straty)
# to tensor samych jedynek o takim samym kształcie jak wyjście `y_output`.
# W terminologii Zygote, ten gradient nazywa się `Δy` (delta y).
Δy = ones(Float32, size(y_output))

println("\n--- PRZEJŚCIE W TYŁ ---")
println("Gradient spływający z góry (Δy) to same jedynki o kształcie: ", size(Δy))

# Wywołujemy funkcję `back`, aby obliczyć gradienty.
# Przekazujemy jej nasz sfabrykowany gradient `Δy`.
grads = back(Δy)

# `grads` to obiekt typu Zygote.Grads, z którego możemy wyciągnąć gradient dla wag
embedding_weight_gradients = grads[embedding_layer.weight]

println("\nObliczony gradient dla wag embeddingu (embedding_layer.weight):")
println("Shape: ", size(embedding_weight_gradients))

embedding_weight_gradients


--- PRZEJŚCIE W TYŁ ---
Gradient spływający z góry (Δy) to same jedynki o kształcie: (3, 4, 2)

Obliczony gradient dla wag embeddingu (embedding_layer.weight):
Shape: (3, 5)


3×5 Matrix{Float32}:
 1.0  1.0  2.0  2.0  2.0
 1.0  1.0  2.0  2.0  2.0
 1.0  1.0  2.0  2.0  2.0