# A Mongolian News Language Model from Scratch

Big thanks to [Florian Leuerer](https://github.com/floleuerer) for his ULMFiT notebooks for German ([repo link](https://github.com/floleuerer/fastai_ulmfit_german)). They helped significantly!

We will be using the smaller [Eduge dataset](https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/eduge.csv.gz) provided by Bolorsoft LLC for this language model. This first language model is more a proof of concept that will be scaled up in later notebooks.

## Library Installs and Imports

We will need several libraries to get started. Each should be installed and upgraded to ensure it works. This notebook was created in February 2020 and should work with the following major verisons:

- Fast.ai version 2.x
- Fastcore version: 1.x
- Pandas version: 1.x
- Numpy version: 1.x

In [None]:
!pip install -Uqq fastai --upgrade
!pip install -Uqq fastcore --upgrade
!pip install -Uqq pandas==1.1.0

[K     |████████████████████████████████| 194kB 12.7MB/s 
[K     |████████████████████████████████| 12.8MB 21.9MB/s 
[K     |████████████████████████████████| 61kB 8.8MB/s 
[K     |████████████████████████████████| 776.8MB 23kB/s 
[31mERROR: torchtext 0.9.0 has requirement torch==1.8.0, but you'll have torch 1.7.1 which is incompatible.[0m
[K     |████████████████████████████████| 10.5MB 13.7MB/s 
[?25h

In [None]:
import fastai
import fastcore
print('Fast.ai version:', fastai.__version__)
print('Fastcore version:', fastcore.__version__)

Fast.ai version: 2.2.7
Fastcore version: 1.3.19


In [None]:
from fastai.text.all import *
from fastai.callback.progress import CSVLogger
import pandas as pd
import numpy as np
print('Pandas version:', pd.__version__)
print('numpy version:', np.__version__)

Pandas version: 1.1.5
numpy version: 1.19.5


We will be using Google Drive to store our files. Please change the directory for the `cd` command to wherever your notebook is located. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd '/content/drive/MyDrive/DataScience/NLP/01_eduge_classification'

/content/drive/MyDrive/DataScience/NLP/01_eduge_classification


## Create Data Loader for Language Model

We will be using data in a Pandas Dataframe to build our language model. However, you could also use txt files. 

In [None]:
df = pd.read_csv('data/news.csv')

In [None]:
df = df.rename(columns={'news':'text'})

In [None]:
df.head(2)

Unnamed: 0,text,label
0,"Киноны кадраас «Юрийн галавын үе» кино прокатад тавигдсныхаа дараах эхний амралтын өдрөөр хамгийн их орлого оллоо гэж Business Insider хэвлэл мэдээлэв. Хойд Америкт л гэхэд эхний амралтын өдрүүдэд 204,6 сая доллар цуглуулж чадлаа. Гадаад орнуудын үзүүлэлт нь 307,2 сая ам.доллар байв. Нийт кассын орлого 511,8 сая ам.доллар болжээ. Энэхүү үзүүлэлт нь Universal кино компанийн дээд амжилт төдийгүй дэлхийн кино аж үйлдвэрийн томоохон үсрэлт боллоо. Үүнээс өмнө амралтын эхний өдрүүдэд 500 сая долларын босго давсан их мөнгө цуглуулж байсан түүх байхгүй. «Гарри Поттер ба үхлийн тахил: II хэсэг» 48...",урлаг соёл
1,"“Universal” кино компани Жадд Апатоугийн найруулж, “Lonely Island” гэдэг хошин шогийн хамтлагийнхны гол дүрүүдэд нь тоглож байгаа киног 2016 оны зургадугаар сарын 3-нд дэлгэцнээ гаргахаар төлөвлөсөн тухай The Hollywood Reporter мэдээлж байна. Шинэ киноны нэрийг одоохондоо өгөөгүй гэнэ. Кинонд инээдмийн жүжигчид Энди Сэмберг, Йорма Таккоме, Акива Шаффер нар тогложээ. Сүүлийн жилүүдэд гарч ирсэн баримтат киноны элэглэл нь шинэ кино болох ёстой. Энд Жастин Бибер, Кэти Перри нарын элэглэл хамгийн түрүүнд дүрслэгдэх аж. “Lonely Island” хошин шогийн хамтлагийнхан “Saturday Night Live” гэдэгт нэв...",урлаг соёл


We will be using the ColSplitter, which expects a column called is_valid (with a boolean) to generate the validation set. We will randomly assign 10% to the validation set.

In [None]:
np.random.seed(42)

In [None]:
df['is_valid'] = np.random.choice([0,1], size=len(df), p=[0.9, 0.1])

We will set the batch size to 128 and the `seq_len` to 80. These can be changed depending on your GPU. 

The `is_lm` is set to `True` because we are training a language model. We are using a `get_x` but not a `get_y` because our target variable will be generated for us by the fastai library. 

In [None]:
bs = 128

In [None]:
dblock = DataBlock(blocks=TextBlock.from_df('text', is_lm=True),
                   get_x=ColReader('text'),
                   splitter=ColSplitter())

dls = dblock.dataloaders(df, bs=bs, seq_len=80)

  return array(a, dtype, copy=False, order=order)


Now you can see the `text_` column, which is our target variable. Our language model will be attempting to predict the next token in the sequence. 

In [None]:
dls.show_batch(max_n=2)

Unnamed: 0,text,text_
0,"xxbos нээлттэй мэдлэг боловсролын сангаас ерөнхий боловсролын сургуулийн багш нарт зориулж , мэдээллийн технологийн үндэсний паркт "" хан академийн математикийн видео хичээлүүдийг сургалтад ашиглах нь "" сэдэвт сургалтыг 11 дүгээр сарын 18-ны өдөр зохион байгууллаа . энэ сургалтад 60 орчим ебс - иудын математикийн багш , багш нарын мэргэжил дээшлүүлэх институтын сургагч багш нарыг хамруулж , монгол хэл дээр хөрвүүлсэн дунд , ахлах ангийн математикийн цахим хичээлийг сурагч , бие даан суралцагсдад хэрхэн хүргэх , сургалтын xxunk хэрхэн хослуулж ажиллаж","нээлттэй мэдлэг боловсролын сангаас ерөнхий боловсролын сургуулийн багш нарт зориулж , мэдээллийн технологийн үндэсний паркт "" хан академийн математикийн видео хичээлүүдийг сургалтад ашиглах нь "" сэдэвт сургалтыг 11 дүгээр сарын 18-ны өдөр зохион байгууллаа . энэ сургалтад 60 орчим ебс - иудын математикийн багш , багш нарын мэргэжил дээшлүүлэх институтын сургагч багш нарыг хамруулж , монгол хэл дээр хөрвүүлсэн дунд , ахлах ангийн математикийн цахим хичээлийг сурагч , бие даан суралцагсдад хэрхэн хүргэх , сургалтын xxunk хэрхэн хослуулж ажиллаж ,"
1,"орон нэгдээд орчихсон байгаа ” гэдгийг онцолж байв . ▁ гишүүдийн зүгээс гэм буруу нь тогтоогдоогүй хүнийг удаан хугацаанд барьж хорьж буй талаар шүүмжлэлтэй байгаагаа хэлж байсан бөгөөд хууль зүйн сайд д.дорлигжав “ олон оролцогчтой хэргийн хувьд ийм асуудал бий . эрүүгийн байцаан шийтгэх хуульд шинжээч дүгнэлт гаргана гэж байдаг . гэтэл шинжээч олдож өгдөггүй . арай гэж шинжээч томилоход бүрэлдэхүүн хэрэг болдог , мөнгө нь хүрдэггүй . гэхдээ хуулийн хугацаандаа л багтаадаг . удаан хугацаанд барьж хорьж байна гэж","нэгдээд орчихсон байгаа ” гэдгийг онцолж байв . ▁ гишүүдийн зүгээс гэм буруу нь тогтоогдоогүй хүнийг удаан хугацаанд барьж хорьж буй талаар шүүмжлэлтэй байгаагаа хэлж байсан бөгөөд хууль зүйн сайд д.дорлигжав “ олон оролцогчтой хэргийн хувьд ийм асуудал бий . эрүүгийн байцаан шийтгэх хуульд шинжээч дүгнэлт гаргана гэж байдаг . гэтэл шинжээч олдож өгдөггүй . арай гэж шинжээч томилоход бүрэлдэхүүн хэрэг болдог , мөнгө нь хүрдэггүй . гэхдээ хуулийн хугацаандаа л багтаадаг . удаан хугацаанд барьж хорьж байна гэж шүүмжилж"


Our training set is 2563 sequences of 128 tokens. Our validation hold out set is 290 sequences. 

In [None]:
len(dls.train), len(dls.valid)

(2573, 280)

Here we can move to the language model training, or if the training is already compplete, move to below to test the model.

## Training The Language Model

In [None]:
notebook_path = Path('')

We will be using the AWD_LSTM architecture for our language model. We set the `pretrained` option to `False` as we will not be using a pretrained language model (that's what we are doing!).

In [None]:
learn = language_model_learner(dls, AWD_LSTM, drop_mult=0.5, pretrained=False, 
                               metrics=[accuracy, Perplexity()]).to_fp16()

In [None]:
learn.path = notebook_path.absolute()

Here we set our learning rate. Ideally we would find our ideal learning rate for our data. 

**Note:** *room for improvement*

In [None]:
lr = 1e-2
lr *= bs/48  # Scale learning rate by batch size

In [None]:
learn.unfreeze()
learn.fit_one_cycle(10, lr, moms=(0.8, 0.7, 0.8))

epoch,train_loss,valid_loss,accuracy,perplexity,time
0,5.010145,4.984835,0.244893,146.179474,13:46
1,4.780202,4.697772,0.26057,109.702431,13:55
2,4.575651,4.53076,0.272153,92.829063,13:45
3,4.456594,4.384329,0.28363,80.184425,13:49
4,4.389636,4.262297,0.293055,70.972832,13:47
5,4.206402,4.135806,0.304262,62.539982,13:47
6,4.08191,4.012477,0.315865,55.283634,13:49
7,3.925559,3.901985,0.326687,49.500607,13:53
8,3.81261,3.828632,0.335756,45.999584,13:50
9,3.747586,3.813747,0.337875,45.319931,13:51


We acheived a 33% accuracy, which isn't bad for such a small dataset. Now that we have it trained we will save two files:

- The model itself, called `mn_eduge.pth`. 
- The vocabulary the model contains, called `mn_eduge_voacb.pkl`.
- The encoder, called `mn_encoder.pth`.

Both are saved in the `notebook_path/models` directory (Fast.ai by default saves into `models` for wherever your learner path is.

In [None]:
learn.to_fp32().save('mn_eduge_lm', with_opt=False)

Path('/content/drive/My Drive/DataScience/NLP/01_eduge_classification/models/mn_eduge_lm.pth')

In [None]:
with open('models/mn_eduge_vocab.pkl', 'wb') as f:
      pickle.dump(learn.dls.vocab, f)

In [None]:
learn.save_encoder('mn_eduge_lm_encoder')

## Test out the model

We won't expect the results to be very good, but we can at least see if the language model is learning reasonably decent. 

In [None]:
lm_fns = ['models/mn_eduge_lm', 'models/mn_eduge_vocab']

In [None]:
learn = language_model_learner(dls, AWD_LSTM, drop_mult=0.5, pretrained=True, 
                               pretrained_fnames=lm_fns, model_dir='', metrics=[accuracy, Perplexity()]).to_fp16()



In [None]:
TEXT = "Барилга угсралт их засварын ажил"

In [None]:
preds = []
N_WORDS = 50
N_SENTENCES = 1
preds = [learn.predict(TEXT, N_WORDS, temperature=0.75) 
         for _ in range(N_SENTENCES)]

In [None]:
print("\n".join(preds))

барилга угсралт их засварын ажил болон барилгын ажил явуулахад чанар муу болж байгаа талаар уих - ын гишүүн с.ганбаатар хэллээ . судалгааны дүнгээр улсын төсвийн хөрөнгө оруулалтаар барилга угсралтын ажил хийгдсэн бөгөөд барилгын ажлыг энэ сарын 31-ний өдрөөс эхлэн хийж дуусгах , барилгын ажлыг эхлүүлэх , 30 хувийн саналаар уг ажлыг эхлүүлэх юм байна .
