Proyek ini merupakan implementasi sederhana dari Decoder-Only Transformer menggunakan NumPy murni, tanpa bantuan framework deep learning seperti PyTorch atau TensorFlow.
Tujuannya adalah untuk memahami cara kerja internal attention mechanism, positional encoding, layer normalization, dan feed-forward network dari dasar.
-
Kloning atau unduh repositori ini:
git clone https://github.com/username/transformer-from-scratch.git cd transformer-from-scratch
-
Pastikan Python sudah terinstal (versi β₯ 3.8).
-
Instal dependensi:
pip install numpy
-
Jalankan notebook:
jupyter notebook transformer_from_scratch.ipynb
-
Atau jalankan langsung melalui terminal (opsional):
python transformer_from_scratch.py
.
βββ transformer_from_scratch.ipynb # Notebook utama berisi implementasi Transformer
βββ README.md
- Python β₯ 3.8
- NumPy
Uji coba dilakukan menggunakan input acak berukuran (batch=2, seq_len=8, vocab_size=50)
:
- Dimensi logits:
(2, 8, 50)
- Dimensi softmax:
(2, 50)
- Jumlah probabilitas: β 1.0 per batch
- Causal masking berhasil menonaktifkan token masa depan.