## Training nanoGPT on Arabic poems

### Install packages

In [None]:
!pip install gitpython

Collecting gitpython
  Downloading GitPython-3.1.40-py3-none-any.whl (190 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.6/190.6 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting gitdb<5,>=4.0.1 (from gitpython)
  Downloading gitdb-4.0.11-py3-none-any.whl (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.7/62.7 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting smmap<6,>=3.0.1 (from gitdb<5,>=4.0.1->gitpython)
  Downloading smmap-5.0.1-py3-none-any.whl (24 kB)
Installing collected packages: smmap, gitdb, gitpython
Successfully installed gitdb-4.0.11 gitpython-3.1.40 smmap-5.0.1


In [None]:
!pip install torch numpy transformers datasets tiktoken wandb tqdm

Collecting datasets
  Downloading datasets-2.15.0-py3-none-any.whl (521 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m521.2/521.2 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting tiktoken
  Downloading tiktoken-0.5.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m22.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting wandb
  Downloading wandb-0.16.0-py3-none-any.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m81.7 MB/s[0m eta [36m0:00:00[0m
Collecting pyarrow-hotfix (from datasets)
  Downloading pyarrow_hotfix-0.6-py3-none-any.whl (7.9 kB)
Collecting dill<0.3.8,>=0.3.0 (from datasets)
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m14.8 MB/s[0m eta [36m0:00:00[0m
Collecting multiprocess (from datasets)
  Do

### Change working directory to nanoGPT folder

In [None]:
import os
os.chdir('nanoGPT')

### Download & prepare our data

Our preprocessed data can be found in https://raw.githubusercontent.com/neyadi/arabic_poem/main/input.txt

In [6]:
!python3 data/arabicpoetry_char/prepare.py

length of dataset in characters: 34,389,599
all the unique characters: 
 ءآأؤإئابةتثجحخدذرزسشصضطظعغفقكلمنهوىي
vocab size: 38
train has 30,950,639 tokens
val has 3,438,960 tokens


### Train our models

#### A. Using default parameters

In [12]:
!python3 train.py config/train_arabicpoetry_char.py --out_dir="out-arabicpoetry-char-default"

Overriding config with config/train_arabicpoetry_char.py:
# train a miniature character-level arabicpoetry model

out_dir = 'out-arabicpoetry-char'
eval_interval = 250
eval_iters = 200
log_interval = 10 

always_save_checkpoint = False

wandb_log = False 
wandb_project = 'arabicpoetry-char'
wandb_run_name = 'mini-gpt'

dataset = 'arabicpoetry_char'
gradient_accumulation_steps = 1
batch_size = 64
block_size = 256

n_layer = 6
n_head = 6
n_embd = 384
dropout = 0.2

learning_rate = 1e-3 
max_iters = 5000
lr_decay_iters = 5000 
min_lr = 1e-4 
beta2 = 0.99 

warmup_iters = 100 
Overriding: out_dir = out-arabicpoetry-char-default
tokens per iteration will be: 16,384
found vocab_size = 38 (inside data/arabicpoetry_char/meta.pkl)
Initializing a new model from scratch
number of parameters: 10.64M
num decayed parameter tensors: 26, with 10,729,728 parameters
num non-decayed parameter tensors: 13, with 4,992 parameters
using fused AdamW: True
compiling the model... (takes a ~minute)
step 0: train

#### B. Using adjusted parameters

We adjust the following parameters: batch size, number of layers, and number of attention heads.

In [13]:
!python3 train.py config/train_arabicpoetry_char.py --out_dir="out-arabicpoetry-char-adjusted" --batch_size=256 --n_layer=12 --n_head=12

Overriding config with config/train_arabicpoetry_char.py:
# train a miniature character-level arabicpoetry model

out_dir = 'out-arabicpoetry-char'
eval_interval = 250
eval_iters = 200
log_interval = 10 

always_save_checkpoint = False

wandb_log = False 
wandb_project = 'arabicpoetry-char'
wandb_run_name = 'mini-gpt'

dataset = 'arabicpoetry_char'
gradient_accumulation_steps = 1
batch_size = 64
block_size = 256

n_layer = 6
n_head = 6
n_embd = 384
dropout = 0.2

learning_rate = 1e-3 
max_iters = 5000
lr_decay_iters = 5000 
min_lr = 1e-4 
beta2 = 0.99 

warmup_iters = 100 
Overriding: out_dir = out-arabicpoetry-char-adjusted
Overriding: batch_size = 256
Overriding: n_layer = 12
Overriding: n_head = 12
tokens per iteration will be: 65,536
found vocab_size = 38 (inside data/arabicpoetry_char/meta.pkl)
Initializing a new model from scratch
number of parameters: 21.26M
num decayed parameter tensors: 50, with 21,346,560 parameters
num non-decayed parameter tensors: 25, with 9,600 parameters

### Test our models (Generate poems)

#### A. nanoGPT model with default parameters

In [15]:
!python sample.py --out_dir=out-arabicpoetry-char-default

Overriding: out_dir = out-arabicpoetry-char-default
number of parameters: 10.64M
Loading meta from data/arabicpoetry_char/meta.pkl...

ويختال كل معاني    من الملك والمستفاد
فحرص الدار أصغر    حرص من العرين وراد
على أن أزالوا بالبرد    وراحوا بالموت والبرد
وبعد الهادي المزيد    وبعد الترديد
وبالباع يسقط في    ملوك المحمود والعند
ووالدا من العود    وجاء مرتعد السعد
وبالحق يهدي للغو    مى وهو الصليح الشهد
فأنت فيه شادوا الفو    ع بلا صليح ولا رقد
وخالف بالله والسعد    ما للبقاء المنطق العقد
وساقه المشرق من ولج    ت تقد ومن أقصى المشرق
وأمسى برودانه في    الأسماع والمبرق
فأين الوجود والبها    يحمي الضعاف والوجد
وكل الحق أول أول    
---------------

وأقذت به قبل الوجود بواكف    لكن بمن حتم ومن لا يتعب
أرى الله يوما فتحسب من وصل    فما عن وصلكم من أم أنت والحب
وأولت إلا بين العز منهم    لقد طلبوا من عز منك ومن ثبوا
فباتوا منارا فلا يساموا ولا    تباهي وكن من نابوا ولا عبوا
فرب كوكب إبراهيم واحد    وقد كان في الأمر والأمر ذاك والخب
مقدامة لم تستر إلا لمعنى    ولا تستر عرفان شر إلى عرش ولا
يسا

#### B. nanoGPT model with adjusted parameters

In [18]:
!python sample.py --out_dir=out-arabicpoetry-char-adjusted

Overriding: out_dir = out-arabicpoetry-char-adjusted
number of parameters: 21.26M
Loading meta from data/arabicpoetry_char/meta.pkl...

ويختم بالمعالي والمعالي    ويضرب بالمعارف والمعالي
غدا للحرب من نسل وهندي    ومن فخر الفتوح من النزال
له في كل حادثة يد    على يده أراه من الرحال
هو البدر المضيء عليه ذكرى    ملوك الأرض زانت في الوصال
ومن فرعون في الشرف المفدى    هو البحر المفدى في المآل
هو السلطان سيان المعالي    هو الشهم المعظم في الكوالي
أقام خطابه في كل خطب    وذم على الضراغم في المعالي
هو العلياء من بعد التتامي    ومن عجب الشمائل من عوال
ومن في ليلة المختار سارت    يضيء ببرج وجه وانتقال
ومن هم الأنام بهم كرام    أقاموا بالص
---------------

وأقعد بنفسي صبرا جميلا    بأن الصبر للتذكار ينهى
وأعرض عن أويقاتي كثيرا    ووصل الحب للتنزيه دمه
وأكثر في الحوادث من حياتي    وأجزع في الحياة وأنت فهمه
فما من دون ذاك النطق إلا    بأن تضرب وتفرس من جهوله
ومن يك طائفا بالخوف تنفي    وينفذ كل من يهواه يهوى
ويصبح في الممالك كل بذل    به الأقوام لا ترعوي خلوله
وما الأعمال إلا رافعات    تخالس في الم