This is a small effort to build a darija language model, i use Moroccan Darija Wikipedia to train an [AWD_LSTM](https://arxiv.org/abs/1708.02182) model using fastai, it is a small dataset which means that this language model won't be perfect for language generation but it might be useful to finetune it on a task like text classification following the [ULMFiT](https://arxiv.org/abs/1801.06146) approach, where you train a language model on Wikipedia text like we do in this notebook to gain some knowledge about the language of your choice, then finetune it on domain-specific data using the same objective of your pretrained language model, to bridge the gap between the language used in wikipedia text and the language used in your dataset(e.g., formal language -> informal language), and finally, we finetune our language model on our task of text classification.

This model can be improved by:


*   Throwing more data at it of course
*   Some text preprocessing
*   Tuning the hyperparameters
*   I thought also about pretraining on arabic which might be a good idea given the similarities between arabic and darija


---




Let's start by upgrading fastai and installing SentencePiece to use for subword tokenization

In [2]:
!pip install fastai -q --upgrade 
!pip install -q sentencepiece!=0.1.90,!=0.1.91 

In [3]:
import sys
from gensim.corpora import WikiCorpus
from fastai.text.all import *
import torch as torch
import pandas as pd
import numpy as np

In [4]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [5]:
path = Path('/content/drive/MyDrive/ml/projects/darija/')
dls_path = path/'dls'
model_path = path/'models'
spm_path = model_path/'spm'

dls_path.mkdir(exist_ok=True, parents=True)
model_path.mkdir(exist_ok=True, parents=True)
spm_path.mkdir(exist_ok=True, parents=True)

This is how we can download The Moroccan Darija Wikipedia data, it's available in this [link](https://dumps.wikimedia.org/arywiki/20210520/)

In [6]:
!wget https://dumps.wikimedia.org/arywiki/latest/arywiki-latest-pages-articles.xml.bz2 -O '/content/drive/MyDrive/ml/projects/darija/arywiki-latest-pages-articles.xml.bz2'

--2021-08-28 19:55:19--  https://dumps.wikimedia.org/arywiki/latest/arywiki-latest-pages-articles.xml.bz2
Resolving dumps.wikimedia.org (dumps.wikimedia.org)... 208.80.154.7, 2620:0:861:1:208:80:154:7
Connecting to dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.7|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4178623 (4.0M) [application/octet-stream]
Saving to: ‘/content/drive/MyDrive/ml/projects/darija/arywiki-latest-pages-articles.xml.bz2’


2021-08-28 19:55:20 (5.61 MB/s) - ‘/content/drive/MyDrive/ml/projects/darija/arywiki-latest-pages-articles.xml.bz2’ saved [4178623/4178623]



We make use of [WikiCorpus](https://radimrehurek.com/gensim/corpora/wikicorpus.html) from gensim to convert the XML file we downloaded to a text corpus. 



In [30]:
def make_corpus(in_f, out_f):

  """Convert Wikipedia xml dump file to text corpus"""

  output = open(out_f, 'w')
  wiki = WikiCorpus(in_f)

  for i, text in enumerate(wiki.get_texts()):
    output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')

    if (i % 1000 == 0):
      print('Processed ' + str(i) + ' articles')
    
  output.close()
  print('Processing complete!')


make_corpus(f'{path}/arywiki-latest-pages-articles.xml.bz2', f'{path}/wiki_darija.txt')

Processed 0 articles
Processed 1000 articles
Processed 2000 articles
Processed 3000 articles
Processing complete!


In [7]:
path.ls()

(#10) [Path('/content/drive/MyDrive/ml/projects/darija/arwiki.xml.bz2'),Path('/content/drive/MyDrive/ml/projects/darija/dls'),Path('/content/drive/MyDrive/ml/projects/darija/models'),Path('/content/drive/MyDrive/ml/projects/darija/arwiki-latest-pages-articles.xml.bz2'),Path('/content/drive/MyDrive/ml/projects/darija/wiki_arabic.txt'),Path('/content/drive/MyDrive/ml/projects/darija/Untitled0.ipynb'),Path('/content/drive/MyDrive/ml/projects/darija/Copie de darija_lm.ipynb'),Path('/content/drive/MyDrive/ml/projects/darija/arywiki-latest-pages-articles.xml.bz2'),Path('/content/drive/MyDrive/ml/projects/darija/wiki_darija.txt'),Path('/content/drive/MyDrive/ml/projects/darija/darija_lm.ipynb')]

Now we load our text data as a pandas dataframe, and we take a look at it using the most advanced EDA technique 😄, we can see that there are words from other languages that will most likely disappear  due to their low frequency, and we can tell fastai the minimum word frequency (by default it’s 3) we can tolerate using fastai DataBlocks that we discuss below.

In [6]:
df = pd.read_csv(path/'wiki_darija.txt', header=None, names=['text'])
df.head()

Unnamed: 0,text
0,آبطح جماعة ترابية قروية كاينة إقليم عمالة طان طان جهة ݣلميم واد نون ساكنين فيها واحد على حسب لإحصاء لعام تعليم نسبة لأمية اس ما كايعرفوش يقراو ولا يكتبو نسبة كان قاريين فوق انوي تانوي جامعة اقتصاد نسبة اس شيطين يقدرو يخدمو نسبة لبطالة اس ما خدامينش تايقلبو على خدمة نسبة اس اللي خدامين ولة ولا لعاطلين اللي سبق ليهوم خدمو نسبة اس اللي خدامين في لقطاع لخاص ولا لعاطلين اللي سبق ليهوم خدمو عيون لكلام تصنيف جهة ݣلميم واد نون
1,آسفي بالأمازيغية ⴰⵙⴼⵉ هي مدينة مغربية جات إقليم آسفي جهة مراكش آسفي آسفي معروفة بالفخار والحوت وخصوصا السردين ومكنيين عليها حاضرة المحيط الحطة ديال آسفي جات كاطل على المحيط الأطلسي بين الجديدة والصويرة في آسفي كاين بزاف دالبني لي قديم وتاريخي وهي من بين المدون القديمة في المغرب ساكنين فيها واحد على حسب لإحصاء لعام تعليم نسبة لأمية اس ما كايعرفوش يقراو ولا يكتبو نسبة كان قاريين فوق انوي تانوي جامعة اقتصاد نسبة اس شيطين يقدرو يخدمو نسبة لبطالة اس ما خدامينش تايقلبو على خدمة نسبة اس اللي خدامين ولة ولا لعاطلين اللي سبق ليهوم خدمو نسبة اس اللي خدامين في لقطاع لخاص ولا لعاطلين اللي سبق ليهوم خد...
2,آلبرخت دورر بالألمانية albrecht dürer ماي أبريل رسام صانع طباعة وم كاينتامي لعصر النهضة الألمانية تزاد في نورمبرݣ دورر أسس للسمعة والتأثير ديالو عبر أوروبا فالوقت اللي مازالا فالعشرينات من عمرو نتيجة لجودة نقوشاتو الخشبية كان فاتصال مع أكبر الفنانين الإيطاليين فالعصر ديالو بما فيهم رفائيل جيوڤاني بيليني وليوناردو دا ڤينتشي وابتداء من كان كي اخد الدعم من عند الإمبراطور ماكسيميليان الأول تم تشييع دورر فالكنيستين اللوثرية والأسقفية بجوج كتشمل مجموعة أعمال دورر الواسعة النقوش أسلوبو المفضل في طبعاتو الأخيرة الأعمال الفنية فالكنائس altarpieces پورتريهات پورتريهات ذاتية لوحات مائية وك النقوش الخ...
3,آمتدي جماعة ترابية قروية كاينة إقليم عمالة ݣلميم جهة ݣلميم واد نون ساكنين فيها واحد على حسب لإحصاء لعام تعليم نسبة لأمية اس ما كايعرفوش يقراو ولا يكتبو نسبة كان قاريين فوق انوي تانوي جامعة اقتصاد نسبة اس شيطين يقدرو يخدمو نسبة لبطالة اس ما خدامينش تايقلبو على خدمة نسبة اس اللي خدامين ولة ولا لعاطلين اللي سبق ليهوم خدمو نسبة اس اللي خدامين في لقطاع لخاص ولا لعاطلين اللي سبق ليهوم خدمو عيون لكلام تصنيف جهة ݣلميم واد نون
4,آنفݣ جماعة ترابية قروية كاينة إقليم عمالة سيدي إيفني جهة ݣلميم واد نون ساكنين فيها واحد على حسب لإحصاء لعام تعليم نسبة لأمية اس ما كايعرفوش يقراو ولا يكتبو نسبة كان قاريين فوق انوي تانوي جامعة اقتصاد نسبة اس شيطين يقدرو يخدمو نسبة لبطالة اس ما خدامينش تايقلبو على خدمة نسبة اس اللي خدامين ولة ولا لعاطلين اللي سبق ليهوم خدمو نسبة اس اللي خدامين في لقطاع لخاص ولا لعاطلين اللي سبق ليهوم خدمو عيون لكلام تصنيف جهة ݣلميم واد نون


Subword tokenization refers to constructing our vocabulary using the most frequently occurring groups of letters, for instance, the word “transformer” could be split into “trans” and “former”. I find it better to use subword tokenization with a relatively smaller vocabulary size in the case of a small dataset, to avoid the p>>n problem (where the number of features exceeds the number of training examples), and also because if we decide to use words as our tokens, we are going to have a lot of words that appear only a few times throughout the corpus, and the model won’t be given a decent chance to learn about them.

I use a maximum vocab size (max_vocab_sz) of 1000 but you can use less or more, its another hyperparamter you can tune based on the metric you care about.

The data block API is provided by fastai to customize the creation of our dataloaders, `blocks` parameter is used to specify the type of our independent and dependent variables, when `TextBlock` is passed, fastai takes care of preprocessing for us, we just need to pass it our subword tokenizer since it uses word tokenization by default, we also tell fastai that we are building this for a language modeling with `is_lm` and that our text is in a dataframe.

And finally we create our dataloaders, it's a dataloader with s because it includes the training and validation dataloaders.






In [7]:
bs=128

tok = SubwordTokenizer(cache_dir=spm_path, max_vocab_sz=10_00)

dls_lm = DataBlock(blocks=TextBlock.from_df('text', is_lm=True, tok=tok),
                   splitter=RandomSplitter(0.1, seed=42),
                   get_x=ColReader('text')
                   ).dataloaders(df, bs=bs)

  return array(a, dtype, copy=False, order=order)


We save our dataloader since we can't afford to create it each time because of our huge dataset.

In [11]:
torch.save(dls_lm, dls_path/'dls_lm.pkl')

This is how our preprocessed text looks like, spaces in the original text are replaced by ▁, xxbos is a special token added by fastai to signify the beginning of a sentence, fastai also adds other special tokens to make learning easier for the model, we can see them when we check our vocab below.

In [16]:
dls_lm.show_batch(max_n=6)

Unnamed: 0,text,text_
0,▁xxbos ▁لأعض اء ▁منضم ة ▁التعاون ▁شانݣ اي ▁لمنضم ة ▁التعاون ▁شانݣ اي ▁هي ▁منضم ة ▁دولية ▁سياسية ▁قتصاد ية ▁أمن ية ▁تأسس ات ▁نهار ▁ يونيو ▁شانݣ اي ▁من ▁لبلدان ▁هي ▁الشينوا ▁كازاخ ستان ▁ كيرݣي ستان ▁روسيا ▁ طادجيكي ستان ▁أوزباك ستان ▁هاد ▁لبلدان ▁كامل ة ▁من ▁غير ▁أوزباك ستان ▁كانت ▁داخل ة ▁مع ▁مجموع ة ▁شانݣ اي ▁لخ ماس ية ▁اللي ▁تأسس ات ▁أبر يل ▁شانݣ اي ▁نيت ▁من,▁لأعض اء ▁منضم ة ▁التعاون ▁شانݣ اي ▁لمنضم ة ▁التعاون ▁شانݣ اي ▁هي ▁منضم ة ▁دولية ▁سياسية ▁قتصاد ية ▁أمن ية ▁تأسس ات ▁نهار ▁ يونيو ▁شانݣ اي ▁من ▁لبلدان ▁هي ▁الشينوا ▁كازاخ ستان ▁ كيرݣي ستان ▁روسيا ▁ طادجيكي ستان ▁أوزباك ستان ▁هاد ▁لبلدان ▁كامل ة ▁من ▁غير ▁أوزباك ستان ▁كانت ▁داخل ة ▁مع ▁مجموع ة ▁شانݣ اي ▁لخ ماس ية ▁اللي ▁تأسس ات ▁أبر يل ▁شانݣ اي ▁نيت ▁من ▁داب
1,▁خت ها ▁زي ادا تان ▁لشي ▁أفلام ▁سينمائي ة ▁عيون ▁لكلام ▁تصنيف ▁ممتل ة ▁مغريبية ▁xxbos ▁محمد ▁مشا لي ▁تزاد ▁توف ى ▁يوليو ز ▁هو ▁طبيب ▁مصري ▁متخصص ▁طب ▁لباط ني ▁و تعرف ▁طبيب ▁لفقر اء ▁ݣ راف يتي ▁مدين ة ▁لمحمدي ة ▁لمغريب ▁داروه ▁مجموع ة ▁من ▁شباب ▁تكريم ا ▁طبيب ▁لمصري ▁محمد ▁مشا لي ▁نشرات و ▁ جريد ة ▁ال عمق ▁لقراي ة ▁تزاد ▁محمد ▁مشا لي ▁محافض ة ▁لبح,ها ▁زي ادا تان ▁لشي ▁أفلام ▁سينمائي ة ▁عيون ▁لكلام ▁تصنيف ▁ممتل ة ▁مغريبية ▁xxbos ▁محمد ▁مشا لي ▁تزاد ▁توف ى ▁يوليو ز ▁هو ▁طبيب ▁مصري ▁متخصص ▁طب ▁لباط ني ▁و تعرف ▁طبيب ▁لفقر اء ▁ݣ راف يتي ▁مدين ة ▁لمحمدي ة ▁لمغريب ▁داروه ▁مجموع ة ▁من ▁شباب ▁تكريم ا ▁طبيب ▁لمصري ▁محمد ▁مشا لي ▁نشرات و ▁ جريد ة ▁ال عمق ▁لقراي ة ▁تزاد ▁محمد ▁مشا لي ▁محافض ة ▁لبح ير
2,▁ محاكم ة ▁عادل ة ▁لحق ▁لحري ة ▁التعبير ▁لحق ▁لحباس ة ▁الت طبيب ▁ضروف ▁مزيان ة ▁ل حبس ▁لحق ▁ال تنظيم ▁ج ت ماع ات ▁عيون ▁لكلام ▁لمزا ود ▁لم وقع ▁ديال ▁لجمعي ة ▁لمغربي ة ▁لحقوق ▁لإنسان ▁تصنيف ▁حقوق ▁لإنسان ▁تصنيف ▁جمعي ة ▁مغريبية ▁xxbos ▁آݣد ز ▁جماع ة ▁ترابية ▁حضري ة ▁كاين ة ▁إقليم ▁عمال ة ▁زاݣور ة ▁جه ة ▁درع ا ▁تافيلالت ▁ساكنين ▁فيها ▁واحد ▁عل ى ▁حسب,محاكم ة ▁عادل ة ▁لحق ▁لحري ة ▁التعبير ▁لحق ▁لحباس ة ▁الت طبيب ▁ضروف ▁مزيان ة ▁ل حبس ▁لحق ▁ال تنظيم ▁ج ت ماع ات ▁عيون ▁لكلام ▁لمزا ود ▁لم وقع ▁ديال ▁لجمعي ة ▁لمغربي ة ▁لحقوق ▁لإنسان ▁تصنيف ▁حقوق ▁لإنسان ▁تصنيف ▁جمعي ة ▁مغريبية ▁xxbos ▁آݣد ز ▁جماع ة ▁ترابية ▁حضري ة ▁كاين ة ▁إقليم ▁عمال ة ▁زاݣور ة ▁جه ة ▁درع ا ▁تافيلالت ▁ساكنين ▁فيها ▁واحد ▁عل ى ▁حسب ▁ل
3,▁تايق لبو ▁عل ى ▁خدم ة ▁نسبة ▁اس ▁اللي ▁خدامين ▁ول ة ▁ولا ▁لعاط لين ▁اللي ▁سبق ▁ل يهوم ▁خدمو ▁نسبة ▁اس ▁اللي ▁خدامين ▁في ▁لقطاع ▁لخاص ▁ولا ▁لعاط لين ▁اللي ▁سبق ▁ل يهوم ▁خدمو ▁عيون ▁لكلام ▁تصنيف ▁جه ة ▁الرباط ▁سلا ▁القنيطرة ▁xxbos ▁پيك ين ▁لا ▁ب يجين ݣ ▁الشينوي ة ▁ 北 京 ▁هي ▁ل عاصم ة ▁ديال ▁الشينوا ▁تاني ▁أكب ر ▁مدين ة ▁فيها ▁مورا ▁شانݣ هاي ▁پيك ين,لبو ▁عل ى ▁خدم ة ▁نسبة ▁اس ▁اللي ▁خدامين ▁ول ة ▁ولا ▁لعاط لين ▁اللي ▁سبق ▁ل يهوم ▁خدمو ▁نسبة ▁اس ▁اللي ▁خدامين ▁في ▁لقطاع ▁لخاص ▁ولا ▁لعاط لين ▁اللي ▁سبق ▁ل يهوم ▁خدمو ▁عيون ▁لكلام ▁تصنيف ▁جه ة ▁الرباط ▁سلا ▁القنيطرة ▁xxbos ▁پيك ين ▁لا ▁ب يجين ݣ ▁الشينوي ة ▁ 北 京 ▁هي ▁ل عاصم ة ▁ديال ▁الشينوا ▁تاني ▁أكب ر ▁مدين ة ▁فيها ▁مورا ▁شانݣ هاي ▁پيك ين ▁هي
4,▁كامل ين ▁مع م ▁رين ▁أ جهز ة ▁لمراقب ة ▁ل حض ية ▁لخو ▁لكبير ▁عم ▁رو ▁ما ▁كايبان ▁ديما ▁كايت ص و ▁وجه ▁راجل ▁عندو ▁عام ▁ل اغ م ▁كايشوف ▁لعينين ▁ نيشان ▁واحد ▁كل ▁كاي ر هب ▁عل ى ▁حساب ▁يواي ة ▁سمي ة ▁لخو ▁لكبير ▁هو ▁أس ▁لحي زب ▁لوحيد ▁لبلاد ▁عندو ▁بز ▁اف ▁لبوطول ات ▁لإنجاز ات ▁الثور ية ▁لحرب ية ▁لقضي ة ▁ديال ▁أنه ▁كايبقا ▁ديما ▁صغير,ين ▁مع م ▁رين ▁أ جهز ة ▁لمراقب ة ▁ل حض ية ▁لخو ▁لكبير ▁عم ▁رو ▁ما ▁كايبان ▁ديما ▁كايت ص و ▁وجه ▁راجل ▁عندو ▁عام ▁ل اغ م ▁كايشوف ▁لعينين ▁ نيشان ▁واحد ▁كل ▁كاي ر هب ▁عل ى ▁حساب ▁يواي ة ▁سمي ة ▁لخو ▁لكبير ▁هو ▁أس ▁لحي زب ▁لوحيد ▁لبلاد ▁عندو ▁بز ▁اف ▁لبوطول ات ▁لإنجاز ات ▁الثور ية ▁لحرب ية ▁لقضي ة ▁ديال ▁أنه ▁كايبقا ▁ديما ▁صغير ▁سب
5,ة ▁تين غير ▁جه ة ▁درع ا ▁تافيلالت ▁ساكنين ▁فيها ▁واحد ▁عل ى ▁حسب ▁ل إحصاء ▁لعام ▁تعليم ▁نسبة ▁لأمي ة ▁اس ▁ما ▁كايعرفو ش ▁يقرا و ▁ولا ▁يكتب و ▁نسبة ▁كان ▁ قاريين ▁فوق ▁ انوي ▁تانوي ▁جامع ة ▁اقتصاد ▁نسبة ▁اس ▁شيط ين ▁ يقدرو ▁ يخدمو ▁نسبة ▁لبطال ة ▁اس ▁ما ▁خدامين ش ▁تايق لبو ▁عل ى ▁خدم ة ▁نسبة ▁اس ▁اللي ▁خدامين ▁ول ة ▁نسبة ▁اس ▁اللي ▁خدامين,▁تين غير ▁جه ة ▁درع ا ▁تافيلالت ▁ساكنين ▁فيها ▁واحد ▁عل ى ▁حسب ▁ل إحصاء ▁لعام ▁تعليم ▁نسبة ▁لأمي ة ▁اس ▁ما ▁كايعرفو ش ▁يقرا و ▁ولا ▁يكتب و ▁نسبة ▁كان ▁ قاريين ▁فوق ▁ انوي ▁تانوي ▁جامع ة ▁اقتصاد ▁نسبة ▁اس ▁شيط ين ▁ يقدرو ▁ يخدمو ▁نسبة ▁لبطال ة ▁اس ▁ما ▁خدامين ش ▁تايق لبو ▁عل ى ▁خدم ة ▁نسبة ▁اس ▁اللي ▁خدامين ▁ول ة ▁نسبة ▁اس ▁اللي ▁خدامين ▁في


In [17]:
print(dls_lm.vocab[:20])

['xxunk', 'xxpad', 'xxbos', 'xxeos', 'xxfld', 'xxrep', 'xxwrep', 'xxup', 'xxmaj', 'ة', '▁', '▁ل', 'و', '▁ديال', '▁ال', '▁اللي', 'ات', 'ا', '▁نسبة', '▁من']


In [10]:
learn = language_model_learner(dls_lm, AWD_LSTM, 
    metrics=[accuracy, Perplexity()], pretrained=False)



In [None]:
learn.lr_find()



In [None]:
learn.unfreeze()
learn.fit_one_cycle(100, 1e-2)

epoch,train_loss,valid_loss,accuracy,perplexity,time
0,5.834657,5.780706,0.050297,323.987976,00:27
1,5.786645,5.777408,0.046491,322.92099,00:27
2,5.771509,5.716337,0.057275,303.790161,00:26
3,5.335208,5.050761,0.110819,156.141281,00:26
4,4.643136,4.369634,0.198885,79.014679,00:26
5,4.215887,4.142004,0.225452,62.928776,00:26
6,3.989751,3.972366,0.243707,53.110031,00:26
7,3.835457,3.810618,0.269873,45.178349,00:26
8,3.643807,3.611234,0.298628,37.011711,00:26
9,3.452805,3.463478,0.321055,31.927832,00:26


In [None]:
learn.save(model_path/'darija_lm_100')

Path('/content/drive/MyDrive/ml/projects/darija/models/darija_lm_100.pth')

In [None]:
def decoder(sentence):
  s = ''.join(sentence)
  return s.split('▁')

In [None]:
text = 'على حسب لإحصاء لعام'
n_words = 100
n_sentences = 2
preds = [learn.predict(text, n_words, temperature=0.75, decoder=decoder)
        for _ in range(n_sentences)]

In [None]:
preds

[' xxbos على حسب لإحصاء لعام تابعة للنظام ديال لإسلام للمنطقة لحمر فيها ربعا ليستيقلال ديالها شمال إفريقيا لجزائر وعاصمة دزاير تونس جنوب شرقي ديال تلاتة لمليون ليلى فلبلاد هي لعاصمة ديالها هي لينثان اللغة الرسمية فلبلاد هوما النݣليزية لفرانساوية لينݣليزية لفلوس اللي كاتخد هي لكولون أوݣ',
 ' xxbos على حسب لإحصاء لعام تعليم نسبة لأمية اس ما كايعرفوش يقراو ولا يكتبو نسبة كان قاريين فوق انوي تانوي جامعة اقتصاد نسبة اس شيطين يقدرو يخدمو نسبة لبطالة اس ما خدامينش تايقلبو على خدمة نسبة اس اللي خدامين ولة ولا لعاطلين اللي سبق ليهوم خدمو نسبة اس اللي خدامين في لقطاع لخاص ولا لعاطلين اللي سبق ليهوم خدمو مصادر تصنيف جهة الشرق xxbos هشام السنوي خلاق دجنبر توفا كوايري مغربي']