In [None]:
%pip install datasets --quiet
%pip install git+https://github.com/huggingface/transformers --quiet
%pip install git+https://github.com/huggingface/accelerate --quiet
%pip install git+https://github.com/huggingface/peft --quiet
%pip install bitsandbytes --quiet
%pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --quiet

In [1]:
DATASET = "DRAGOO/dataset_dyal_darija"  
LIMIT_SIZE = 500000

In [22]:
import torch
from datasets import load_dataset

In [3]:
### Downloading the darija dataset

In [5]:
data = load_dataset(DATASET)
text = data['train']['text'][:LIMIT_SIZE]

with open('cleaned_data.txt', 'w', encoding='utf-8') as f:
  f.write('\n'.join(text))

In [None]:
### Loading the dataset

In [25]:
with open('cleaned_data.txt', 'r', encoding='utf-8') as f:
  text = f.read()

In [7]:
print(f'Character count in dataset: {len(text)}')

Character count in dataset: 37440616


In [11]:
# Calculate vocab_size
chars = sorted(list(set(text)))
vocab_size = len(chars)
print('Unique characters: {count}'.format(count=' '.join(chars)))
print(f'Vocab size: {vocab_size}')

Unique characters: 
   ! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~    ¤ ¥ © « ¬ ­ ° ² · » ¿ À Ç É Ö × à á â ç è é ê í î ï ñ ò ó ô ö ù ú û ü ğ ı ş ͠ ב ג ח ט י ע ת ، ؛ ؜ ؟ ء آ أ ؤ إ ئ ا ب ة ت ث ج ح خ د ذ ر ز س ش ص ض ط ظ ع غ ـ ف ق ك ل م ن ه و ى ي ً ٌ ٍ َ ُ ِ ّ ْ ٓ ٔ ٕ ٠ ١ ٢ ٣ ٤ ٥ ٦ ٧ ٨ ٩ ٪ ٭ ٰ ٱ پ ځ ڄ چ ډ ڜ ڤ ڨ ک ڭ گ ہ ۃ ۅ ی ۔ ۗ ۚ ۣ ݣ ߘ ‌ ‍ ‎ ‏ – ‘ ’ “ ” „ • … ‫ ‬ ‼ ⁉ ⁦ ⁧ ⁩ → ↘ ↙ ↩ ↪ √ ∞ ⏩ ⏪ ⏭ ⏯ ⏰ ⏳ ⏸ ■ ▶ ● ◻ ◽ ☀ ☁ ★ ☆ ☉ ☘ ☝ ☹ ☺ ♀ ♂ ♠ ♡ ♣ ♤ ♥ ♦ ♧ ♨ ♪ ♬ ♾ ⚘ ⚜ ⚡ ⛅ ⛔ ⛼ ✅ ✈ ✋ ✌ ✍ ✏ ✒ ✔ ✨ ✳ ❄ ❌ ❗ ❤ ➖ ⬅ ⬇ ⭐ ⭕ 《 》 〽 ﮓ ﴾ ﴿ ️ ﺀ ﺁ ﺂ ﺃ ﺄ ﺆ ﺇ ﺊ ﺋ ﺌ ﺍ ﺎ ﺏ ﺐ ﺑ ﺒ ﺓ ﺔ ﺕ ﺖ ﺗ ﺘ ﺙ ﺚ ﺛ ﺜ ﺝ ﺞ ﺟ ﺠ ﺡ ﺢ ﺣ ﺤ ﺥ ﺧ ﺨ ﺩ ﺪ ﺫ ﺬ ﺭ ﺮ ﺯ ﺰ ﺱ ﺲ ﺳ ﺴ ﺵ ﺶ ﺷ ﺸ ﺹ ﺺ ﺻ ﺼ ﺽ ﺾ ﺿ ﻀ ﻁ ﻂ ﻃ ﻄ ﻈ ﻉ ﻊ ﻋ ﻌ ﻍ ﻏ ﻐ ﻑ ﻒ ﻓ ﻔ ﻕ ﻖ ﻗ ﻘ ﻙ ﻚ ﻛ ﻜ ﻝ ﻞ ﻟ ﻠ ﻡ ﻢ ﻣ ﻤ ﻥ ﻦ ﻧ ﻨ ﻩ ﻪ ﻫ ﻬ ﻭ ﻮ ﻯ ﻰ ﻱ ﻲ ﻳ ﻴ ﻷ ﻹ ﻻ ﻼ ﻿ 🇦 🇲 🇵 🇸 🇺 🌃 🌄 🌅 🌆 🌊 🌌 🌏 🌑 🌒 🌓 🌗 🌘 🌙 🌚 🌝 🌞 🌟 🌠 🌤 🌥 🌱 🌷 🌸 🌹 🌺 🌻 🌼 🌾 🌿 🍀 🍁 🍂 🍃 🍆 🍇 🍋 🍑 🍓 🍭 🍯 🍰 🍷 🍾 🎀 🎁 🎂 🎄 🎇 🎈

In [19]:
# Create char2idx and idx2char
char2idx = {char: idx for idx, char in enumerate(chars)}
idx2char = {idx: char for idx, char in enumerate(chars)}

encode = lambda x: [char2idx[char] for char in x]
decode = lambda x: ''.join([idx2char[idx] for idx in x])

In [26]:
sentence = "السلام عليكم ورحمة الله وبركاته"
encoded_text = encode(sentence)
decoded_text = decode(encoded_text)

print(f'Original text: {sentence}')
print(f'Encoded text: {encoded_text}')
print(f'Decoded text: {decoded_text}')

Original text: السلام عليكم ورحمة الله وبركاته
Encoded text: [154, 178, 166, 178, 154, 179, 1, 172, 178, 184, 177, 179, 1, 182, 164, 160, 179, 156, 1, 154, 178, 178, 181, 1, 182, 155, 164, 177, 154, 157, 181]
Decoded text: السلام عليكم ورحمة الله وبركاته


We can use tiktoken by openai to use sub-word tokenizer

In [30]:
# Transforme data to tensor

data = torch.tensor(encode(text), dtype=torch.long)

print(f'Tensor shape: {data.shape}')

Tensor shape: torch.Size([37440616])


In [48]:
print(f'Tensor data: {data[:500]}')

Tensor data: tensor([180, 154, 166,   1, 155, 162, 154, 182,   1, 157, 184, 157, 155, 154,
        177, 154, 182,   1, 182, 155, 162, 184, 157,   1, 157, 180, 181, 162,
        164,   1, 155,   1, 180, 175, 172, 178,   1, 155, 160, 154, 178,   1,
        152, 178, 183,   1, 157, 180, 181, 162, 184,   1, 154, 178, 180, 154,
        166,   0, 180, 154, 166,   1, 155, 162, 154, 182,   1, 157, 184, 157,
        155, 154, 177, 154, 182,   1, 182, 155, 162, 184, 157,   1, 157, 180,
        181, 162, 164,   1, 155,   1, 180, 175, 172, 178,   1, 155, 160, 154,
        178,   1, 152, 178, 183,   1, 157, 180, 181, 162, 184,   1, 154, 178,
        180, 154, 166,   0, 155, 177, 184, 157,   1, 182, 154, 178, 180, 154,
        166,   1, 177, 178, 181, 179,   1, 166, 177, 157, 182,   1, 182, 154,
        180, 154,   1, 159, 154, 180, 184,   1, 178, 172, 159, 155,   1, 175,
        164, 154, 166, 184,   1, 155, 160, 154, 178,   1, 152, 178, 183,   1,
        177, 180, 160, 178, 179,   0, 180, 154, 169

In [51]:
s = data[:500]
# convert tensor to array
s = s.numpy()
print(f'Tensor data: {decode(s)}')

Tensor data: ناس بداو تيتباكاو وبديت تنهدر ب نفعل بحال إلى تنهدي الناس
ناس بداو تيتباكاو وبديت تنهدر ب نفعل بحال إلى تنهدي الناس
بكيت والناس كلهم سكتو وانا جاني لعجب فراسي بحال إلى كنحلم
ناض كلشي كيسلم عليا أو كيهدرو معايا نص بكى ونص لاخر مافهمتوش
تعردنا لعشا و كان لعشا كافي لكلشي المعرودين
دوزنا يامات زوينة ما عمري ما ننساها
كملت قرايتي في المعهد بزز
ماكنتش كان قرا مزيان
خدمت في واحد من السبيطارات لي قراب من الدار الحمد لله أموري متيسرة و كنعيش مع والديى
قررت نجمع الصداق لمراتي كانت الخدمة غادة مزيان و حيت 
