# Large Mongolian News Language Model

Big thanks to [Florian Leuerer](https://github.com/floleuerer) for his ULMFiT notebooks for German ([repo link](https://github.com/floleuerer/fastai_ulmfit_german)). They helped significantly!

We will be using a large corpus of [Mongolian news articles](https://github.com/tugstugi/mongolian-nlp#datasets) (see online news corpus, 700 million words). 

Some basic cleaning was done to remove very short lines, and a 40% random sample was takent to reduce the total words to about 225 million.

## Library Installs and Imports

We will need several libraries to get started. Each should be installed and upgraded to ensure it works. This notebook was created in February 2020 and should work with the following major verisons:

- Fast.ai version 2.x
- Fastcore version: 1.x
- Pandas version: 1.x
- Numpy version: 1.x

In [None]:
!pip install -Uqq torchtext==0.8.0
!pip install -Uqq fastai
!pip install -Uqq fastcore
!pip install -Uqq pandas==1.1.0

[K     |████████████████████████████████| 7.0MB 7.8MB/s 
[K     |████████████████████████████████| 194kB 7.9MB/s 
[K     |████████████████████████████████| 12.8MB 10.8MB/s 
[K     |████████████████████████████████| 776.8MB 22kB/s 
[K     |████████████████████████████████| 61kB 9.0MB/s 
[K     |████████████████████████████████| 10.5MB 8.0MB/s 
[?25h

In [None]:
import fastai
import fastcore
from fastai.text.all import *
from fastai.callback.progress import CSVLogger

print('Fast.ai version:', fastai.__version__)
print('Fastcore version:', fastcore.__version__)

Fast.ai version: 2.2.7
Fastcore version: 1.3.19


In [None]:
import pandas as pd
import numpy as np

print('Pandas version:', pd.__version__)
print('numpy version:', np.__version__)

Pandas version: 1.1.5
numpy version: 1.19.5


For this project we will be using a Sentence Piece tokenizer. Fast.ai supports this, but we need to have the package installed first. 

In [None]:
!pip install -Uqq sentencepiece!=0.1.90,!=0.1.91

[?25l[K     |▎                               | 10kB 26.2MB/s eta 0:00:01[K     |▌                               | 20kB 16.9MB/s eta 0:00:01[K     |▉                               | 30kB 14.5MB/s eta 0:00:01[K     |█                               | 40kB 13.1MB/s eta 0:00:01[K     |█▍                              | 51kB 8.1MB/s eta 0:00:01[K     |█▋                              | 61kB 8.8MB/s eta 0:00:01[K     |██                              | 71kB 9.0MB/s eta 0:00:01[K     |██▏                             | 81kB 9.3MB/s eta 0:00:01[K     |██▌                             | 92kB 9.4MB/s eta 0:00:01[K     |██▊                             | 102kB 8.0MB/s eta 0:00:01[K     |███                             | 112kB 8.0MB/s eta 0:00:01[K     |███▎                            | 122kB 8.0MB/s eta 0:00:01[K     |███▌                            | 133kB 8.0MB/s eta 0:00:01[K     |███▉                            | 143kB 8.0MB/s eta 0:00:01[K     |████                   

In [None]:
!pip install -Uqq gdown

In [None]:
import gdown

We will be using Google Drive to store our files. Please change the directory for the `cd` command to wherever your notebook is located. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd '/content/drive/MyDrive/DataScience/NLP/02_mongolian_language_model'

/content/drive/MyDrive/DataScience/NLP/02_mongolian_language_model


## Download Data

In [None]:
url = 'https://drive.google.com/uc?id=1oX4poQhCPlno2g131ohfQlSZ2VfMOKYt'
output = 'data/20_news.txt'
gdown.download(url, output, quiet=False)

## Create Data Loader for Language Model

We will be using data in a Pandas Dataframe to build our language model. However, you could also use txt files. 

In [None]:
%ls data

20_news.txt


In [None]:
df = pd.read_csv('data/20_news.txt', header=None, names=['text','len'])

In [None]:
df.head()

Unnamed: 0,text,len
0,"Гэр хорооллын дахин төлөвлөлт хийхэд газраа өгсөн иргэд барилга ашиглалтад ортол амьдрах газар байдаггүй нь асуудал болдог. Гэр хорооллын дахин төлөвлөлтөд орсон айлуудыг газрыг нь чөлөөлүүлж авсан даруйдаа Түрээсийн орон сууцанд байлгаж болох талаар Барилга хот байгуулалтын сайд Ц.Баярсайхан Засгийн газрын ""11 11 төв""-д ажиллахдаа хэллээ. Түрээсийн орон сууцыг Голланд, Тайланд зэрэг орнуудад түгээмэл ашигладаг бөгөөд манай улсад гэр хорооллын дахин төлөвлөлтөд орсон айлуудад ашиглах бүрэн боломжтой аж. Тийм орон сууцыг зөвхөн төр хариуцахгүй бөгөөд хувийн хэвшилтэй хамтарч ашиглалтад оруу...",102
1,"хэргээр шалгана Улсын ерөнхий прокурор Д.Дорлигжав өчигдөр олны анхаарал татаж буй хоёр хэргийн талаар мэдээлэл өглөө. Тэрээр асуултад хариулах боломжгүй хэмээсэн учраас мэдээллийг товчлон хүргэе. 1. Алтанхүү гэдэг залууг хамтран амьдрагч эмэгтэйгээ зодож хөнөөсөн гээд хэвлэлээр бичсэн. Үүнийг тойроод маш олон мэдээлэл гарч, хүмүүсийн сэтгэл санааг түгшээгээд байна. Зарим нь оносон, нөгөө хэсэг нь ташаа мэдээлэл түгээж байна. Ерөнхийдөө энэ хоёр хүн хамтран амьдарч байсан. Хамтарч ууж идэж, наргиж явдаг байсан. Үүнийг нь найз нөхөд, үеэлүүд нь ч мэддэг, хэлдэг. Архи уусан үедээ эрэгтэй нь ...",830
2,"Тайланд улс сүүлийн хэдэн сарын турш дэлхийн уйл явдлын халуун цэгт тооцогдон бослого тэмцэл өрнөсөн энэ газар босогчдын гарт орж, дайны хөлд үрэгдэж, дарийн утаа ханхалсан айдас хүйдсээр дүүрэн гэсэн ойлголт олон хүнд төрсөн. Тиймээс нөхцөл байдал ямap байгааг газар дээрээс нь сурвалжлан хүргэх үүргийг манай сонин Уул уурхай, эдийн засгийн мэдээллийн албаны дарга П.Ядамдорж, гэрэл зургийн сурвалжлагч Б.Ганбаяр нартаа өгч алс холын Тайланд руу илгээсэн юм. Манай хоёр очих газраа сайн яваад хүрчээ. ""Хүннү эйр"" компанийн агаарын хөлгөөр зургаан цаг нисээд Бангкокт үүрээр буухад агаарын хэм +...",477
3,"Бүгд Найрамдах Түрк улсын Кайсери хотод суугаа Монгол Улсын Өргөмжит консул, ноён Хасан Хаскараманы санаачлагаар зохиолч Рыфат Сэртоглугийн бичсэн ""Чингис хааны Монгол"" ном түрк хэл дээр хэвлэгдэн гарлаа. Уг номыг дунд сургуулийн хүүхдүүдэд зориулж товч, энгийн хэллэгээр бичсэн бөгөөд Чингис хааны бага болон залуу насны амьдрал, тархай бутархай олон аймгийг нэгтгэн Их Монгол Улсыг байгуулан хаан ширээнд суусан түүх, түүний байлдан дагуулалт, цэргийн зохион байгуулалт, хүчин чадлын тухай өгүүлжээ. Мөн өнөөгийн Монгол Улс, нийслэл Улаанбаатар хотын эдийн засаг, нийгэм, соёл, боловсролын хөгж...",164
4,"Монголын оюутны спортын холбооноос энэ онд жүдо, гандбол, волейбол, шатар, ширээний теннис, тэквондо, сагсан бөмбөг, чөлөөт бөх, футзал, модон бөмбөг гэсэн спортын арван төрлөөр УАШТ-ийг зохион байгуулж байгаа билээ. Тэгвэл волейболын тэмцээн хоёрдугаар сарын 28-наас гуравдугаар сарын 3-нд МУИС-ийн Эдийн Засгийн сургуулийн спортын зааланд боллоо. Тэмцээнд нийслэл болон хөдөө орон нутгийн 13 их, дээд сургуулийн эрэгтэй 13, эмэгтэй 10 баг өрсөлдснөөс эрэгтэйчүүдээс Г.Галбадрах дасгалжуулагчтай М.Мөнхсайхан ахлагчтай МУИС-ийн баг аваргалж, спортын мастер С. Амгаабазар дасгалжуулагчтай Б.Наран...",136


In [None]:
df = df.dropna()

In [None]:
df.shape

(284159, 2)

We will be using the ColSplitter, which expects a column called is_valid (with a boolean) to generate the validation set. We will randomly assign 20% to the validation set.

In [None]:
np.random.seed(42)

In [None]:
df['is_valid'] = np.random.choice([0,1], size=len(df), p=[0.8, 0.2])

We can set our batch size with the `bs` argument.

The `is_lm` is set to `True` because we are training a language model. We are using a `get_x` but not a `get_y` because our target variable will be generated for us by the fastai library. 

In [None]:
bs = 128

In [None]:
tok = SentencePieceTokenizer(lang='mn', cache_dir='models/spm/lm')

In [None]:
dblock = DataBlock(blocks=TextBlock.from_df('text', is_lm=True, tok=tok),
                   get_x=ColReader('text'),
                   splitter=ColSplitter())

dls = dblock.dataloaders(df, bs=bs, seq_len=80)

  return array(a, dtype, copy=False, order=order)


Now you can see the `text_` column, which is our target variable. Our language model will be attempting to predict the next token in the sequence. 

In [None]:
dls.show_batch()

Unnamed: 0,text,text_
0,"▁xxbos ▁сэлэнгэ ▁аймгийн ▁итх - ын ▁xxrep ▁3 ▁i ▁хуралдаан 11 - р ▁сарын ▁16- ны ▁өдөр ▁болж ▁89 ▁хувийн ▁ирц тэйгээр ▁хуралдлаа . ▁энэ ▁удаагийн ▁хуралдаанаар ▁аймгийн ▁засаг ▁даргын ▁2016-2020 ▁оны ▁үйл ▁ажиллагааны ▁хөтөлбөр , ▁байгалийн ▁ургамал ▁ашигласан ы ▁хэмжээг ▁шинэчлэн ▁тогтоох ▁тухай ▁төслийг ▁тус ▁бүр ▁хэлэлцлээ . ▁аймгийн ▁эдийн ▁засаг , ▁нийгмийн ▁хөгжлийн ▁хурдыг ▁ахиулах , ▁хүрсэн ▁үр ▁дүнг ▁бататган ▁хөгжлийн ▁шинэ ▁ололт , ▁амжилт уудаар ▁баяжуулах ыг ▁зорьж ▁боловсруулсан ▁аймгийн ▁засаг ▁даргын ▁үйл ▁ажиллагааны ▁хөтөлбөрийн ▁төслийг ▁""","▁сэлэнгэ ▁аймгийн ▁итх - ын ▁xxrep ▁3 ▁i ▁хуралдаан 11 - р ▁сарын ▁16- ны ▁өдөр ▁болж ▁89 ▁хувийн ▁ирц тэйгээр ▁хуралдлаа . ▁энэ ▁удаагийн ▁хуралдаанаар ▁аймгийн ▁засаг ▁даргын ▁2016-2020 ▁оны ▁үйл ▁ажиллагааны ▁хөтөлбөр , ▁байгалийн ▁ургамал ▁ашигласан ы ▁хэмжээг ▁шинэчлэн ▁тогтоох ▁тухай ▁төслийг ▁тус ▁бүр ▁хэлэлцлээ . ▁аймгийн ▁эдийн ▁засаг , ▁нийгмийн ▁хөгжлийн ▁хурдыг ▁ахиулах , ▁хүрсэн ▁үр ▁дүнг ▁бататган ▁хөгжлийн ▁шинэ ▁ололт , ▁амжилт уудаар ▁баяжуулах ыг ▁зорьж ▁боловсруулсан ▁аймгийн ▁засаг ▁даргын ▁үйл ▁ажиллагааны ▁хөтөлбөрийн ▁төслийг ▁"" монгол"
1,"▁байсан ▁... ▁/ ▁xxmaj ▁pa ul et te ▁xxmaj ▁k el ly ▁"" цэцэг "" ▁шүлэг ▁/ ▁онцлох , ▁олны ▁анхаарлын ▁төвд ▁байгаа ▁мэдээ ▁мэдээллийг ▁хүлээн ▁авахыг ▁хүсвэл ▁манай ▁фэйсбүүк ▁мессенжерт ▁холбогдоорой ! ▁ < !-- ▁xxbos ▁нийтэлсэн : ▁2014 - 05 -01 ▁13 :06 :13 ▁улсын ▁мөрдөн ▁байцаах ▁газраас ▁цаг ▁үеийн ▁асуудлаар ▁өчигдөр ▁мэдээлэл ▁хийсэн . ▁энэхүү ▁мэдээллийг ▁багц лан ▁хүргэе . ▁тухайлбал , ▁хар ▁тамхины ▁хэргээр ▁өнөөдрийн ▁байдлаар ▁монголын ▁таван ▁иргэн ▁цааз луулж ээ . ▁2002-200 9 ▁онд","▁... ▁/ ▁xxmaj ▁pa ul et te ▁xxmaj ▁k el ly ▁"" цэцэг "" ▁шүлэг ▁/ ▁онцлох , ▁олны ▁анхаарлын ▁төвд ▁байгаа ▁мэдээ ▁мэдээллийг ▁хүлээн ▁авахыг ▁хүсвэл ▁манай ▁фэйсбүүк ▁мессенжерт ▁холбогдоорой ! ▁ < !-- ▁xxbos ▁нийтэлсэн : ▁2014 - 05 -01 ▁13 :06 :13 ▁улсын ▁мөрдөн ▁байцаах ▁газраас ▁цаг ▁үеийн ▁асуудлаар ▁өчигдөр ▁мэдээлэл ▁хийсэн . ▁энэхүү ▁мэдээллийг ▁багц лан ▁хүргэе . ▁тухайлбал , ▁хар ▁тамхины ▁хэргээр ▁өнөөдрийн ▁байдлаар ▁монголын ▁таван ▁иргэн ▁цааз луулж ээ . ▁2002-200 9 ▁онд ▁буюу"
2,"▁ч ▁гаргасан ▁алдаа н ▁дээрээ ▁суралцсан ▁болов ▁уу . ▁гол ▁нь ▁сонгуулиар ▁бэлэн ▁мөнгө ▁амалж ▁болдоггүй н ▁гашуун ▁сургамж ийг ▁манай ▁улстөрчид ▁авсан ▁байгаасай ▁гэж ▁найд ъя . ▁сонгууль ▁болгон оор ▁намууд ▁бие , ▁биенээсээ ▁өрсөлдөж , ▁бэлэн ▁амалж ▁халамж ийг ▁хавтгай р уулсны ▁үр ▁дагавар т ▁монгол ▁хүний ▁хөдөлмөрийн ▁үнэлэмж ▁шал даа ▁буусан ▁гэж ▁хэлж ▁болно . ▁хөдөлмөрийн ▁үнэлэмж гүй ▁газарт ▁бүтээмж ийн ▁тухай ▁ярих ▁ч ▁хэрэггүй ▁юм . ▁хямрал ын ▁гурав ▁дахь ▁сайн ▁тал ▁нь ▁монголчууд ▁"" ажил","▁гаргасан ▁алдаа н ▁дээрээ ▁суралцсан ▁болов ▁уу . ▁гол ▁нь ▁сонгуулиар ▁бэлэн ▁мөнгө ▁амалж ▁болдоггүй н ▁гашуун ▁сургамж ийг ▁манай ▁улстөрчид ▁авсан ▁байгаасай ▁гэж ▁найд ъя . ▁сонгууль ▁болгон оор ▁намууд ▁бие , ▁биенээсээ ▁өрсөлдөж , ▁бэлэн ▁амалж ▁халамж ийг ▁хавтгай р уулсны ▁үр ▁дагавар т ▁монгол ▁хүний ▁хөдөлмөрийн ▁үнэлэмж ▁шал даа ▁буусан ▁гэж ▁хэлж ▁болно . ▁хөдөлмөрийн ▁үнэлэмж гүй ▁газарт ▁бүтээмж ийн ▁тухай ▁ярих ▁ч ▁хэрэггүй ▁юм . ▁хямрал ын ▁гурав ▁дахь ▁сайн ▁тал ▁нь ▁монголчууд ▁"" ажил ▁хийвэл"
3,"▁ажлыг ▁өнгөрсөн ▁жилийн ▁зургаадугаар ▁сард ▁эхэлсэн . ▁ол ле ▁гэдэг ▁нь ▁же жү гийн ▁эртний ▁ая л гаар ▁"" гудамж ▁талбайгаас ▁гэрийн ▁хашаа ▁хүртэлх ▁нарийхан ▁зам "" ▁гэсэн ▁утгатай ▁үг ▁юм . ▁бнсу - д ▁2006 ▁оноос ▁хойш ▁че жу ▁ арлыг ▁тойрсон ▁26 ▁курс , ▁4 25 ▁км ▁явган ▁аяллын ▁чиглэлийг ▁тэмдэг жүүлсэн ▁байдаг ▁аж . ▁ол лэ ▁явган ▁аяллын ▁замд ▁байгалийн ▁өнгө ▁үзэмж ийг ▁өөрчлөх ▁сандал , ▁амрах ▁цэгүүд ▁байхгүй . ▁ол ле ▁явган ▁аяллын ▁чиглэл ▁солонгост ▁хурдан","▁өнгөрсөн ▁жилийн ▁зургаадугаар ▁сард ▁эхэлсэн . ▁ол ле ▁гэдэг ▁нь ▁же жү гийн ▁эртний ▁ая л гаар ▁"" гудамж ▁талбайгаас ▁гэрийн ▁хашаа ▁хүртэлх ▁нарийхан ▁зам "" ▁гэсэн ▁утгатай ▁үг ▁юм . ▁бнсу - д ▁2006 ▁оноос ▁хойш ▁че жу ▁ арлыг ▁тойрсон ▁26 ▁курс , ▁4 25 ▁км ▁явган ▁аяллын ▁чиглэлийг ▁тэмдэг жүүлсэн ▁байдаг ▁аж . ▁ол лэ ▁явган ▁аяллын ▁замд ▁байгалийн ▁өнгө ▁үзэмж ийг ▁өөрчлөх ▁сандал , ▁амрах ▁цэгүүд ▁байхгүй . ▁ол ле ▁явган ▁аяллын ▁чиглэл ▁солонгост ▁хурдан ▁хөгжиж"
4,"▁хэсгээр ▁шөнөдөө ▁3-8 ▁хэм , ▁өдөртөө ▁6-11 хэм ▁дулаан ▁байна . ▁отрын ▁нутаг ▁хэрлэнбаян - улаан ▁орчмоор : ▁үүлшинэ . ▁шөнөдөө ▁хур ▁тунадас ▁орохгүй , ▁өдөртөө ▁хур ▁тунадас , ▁нойтон ▁цас ▁орно . ▁салхи ▁баруун ▁өмнөөс ▁хойш ▁эргэж ▁секундэд ▁8-13 ▁метр , ▁зарим ▁үед ▁секундэд ▁18-20 ▁метр ▁хүрч ▁шороон ▁болон ▁цасан ▁шуурга ▁шуурна . ▁шөнөдөө ▁0-2 ▁хэм , ▁өдөртөө ▁3-5 ▁хэм ▁дулаан ▁байна . ▁говийн ▁аймгуудын ▁нутгаар : ▁үүлшинэ . ▁хур ▁тунадас ▁орохгүй . ▁салхи ▁баруун ▁өмнөөс ▁баруун ▁хойш ▁эргэж","▁шөнөдөө ▁3-8 ▁хэм , ▁өдөртөө ▁6-11 хэм ▁дулаан ▁байна . ▁отрын ▁нутаг ▁хэрлэнбаян - улаан ▁орчмоор : ▁үүлшинэ . ▁шөнөдөө ▁хур ▁тунадас ▁орохгүй , ▁өдөртөө ▁хур ▁тунадас , ▁нойтон ▁цас ▁орно . ▁салхи ▁баруун ▁өмнөөс ▁хойш ▁эргэж ▁секундэд ▁8-13 ▁метр , ▁зарим ▁үед ▁секундэд ▁18-20 ▁метр ▁хүрч ▁шороон ▁болон ▁цасан ▁шуурга ▁шуурна . ▁шөнөдөө ▁0-2 ▁хэм , ▁өдөртөө ▁3-5 ▁хэм ▁дулаан ▁байна . ▁говийн ▁аймгуудын ▁нутгаар : ▁үүлшинэ . ▁хур ▁тунадас ▁орохгүй . ▁салхи ▁баруун ▁өмнөөс ▁баруун ▁хойш ▁эргэж ▁секундэд"
5,"-2015"" ▁нээлттэй ▁өдөрлөгийг ▁монголын ▁үндэсний ▁худалдаа ▁аж ▁үйлдвэрийн ▁танхимтай ▁хамтран ▁мэдээлэл ▁технологийн ▁үндэсний ▁паркийн ▁30 2 ▁тоот ▁танхимд ▁зохион ▁байгуулна . ▁09:00 ▁цагт ▁эрүүл ▁мэндийн ▁салбарын ▁хүрээнд ▁бодлогоо ▁тодорхойлж , ▁авч ▁хэрэгжүүлэх ▁үйл ▁ажиллагаанд ▁чиглэсэн ▁асуудлуудаа ▁хэлэлцэх ▁эрүүл ▁мэндийн ▁салбарын ▁удирдах ▁ажилтны ▁зөвлөгөөн ▁эрүүл ▁мэнд , ▁спортын ▁яамны ▁а ▁зааланд ▁эхэлнэ . ▁11:00 ▁цагт ▁махн - ын ▁дэргэдэх ▁ардчилал ▁шударга ▁ёс ▁монголын ▁залуучуудын ▁холбоо ▁ахмадуудаа ▁хүлээн ▁авч , ▁хүндэтгэл ▁үзүүлж , ▁нэг ▁ахмад ▁настанд ▁гэр ▁бэлэглэнэ ▁үйл ▁ажиллагаа ▁махн -","▁нээлттэй ▁өдөрлөгийг ▁монголын ▁үндэсний ▁худалдаа ▁аж ▁үйлдвэрийн ▁танхимтай ▁хамтран ▁мэдээлэл ▁технологийн ▁үндэсний ▁паркийн ▁30 2 ▁тоот ▁танхимд ▁зохион ▁байгуулна . ▁09:00 ▁цагт ▁эрүүл ▁мэндийн ▁салбарын ▁хүрээнд ▁бодлогоо ▁тодорхойлж , ▁авч ▁хэрэгжүүлэх ▁үйл ▁ажиллагаанд ▁чиглэсэн ▁асуудлуудаа ▁хэлэлцэх ▁эрүүл ▁мэндийн ▁салбарын ▁удирдах ▁ажилтны ▁зөвлөгөөн ▁эрүүл ▁мэнд , ▁спортын ▁яамны ▁а ▁зааланд ▁эхэлнэ . ▁11:00 ▁цагт ▁махн - ын ▁дэргэдэх ▁ардчилал ▁шударга ▁ёс ▁монголын ▁залуучуудын ▁холбоо ▁ахмадуудаа ▁хүлээн ▁авч , ▁хүндэтгэл ▁үзүүлж , ▁нэг ▁ахмад ▁настанд ▁гэр ▁бэлэглэнэ ▁үйл ▁ажиллагаа ▁махн - ын"
6,"т ▁шарил ▁байрнаас аа ▁зүй ▁бусаар ▁хөндөгдсөн ▁зохисгүй ▁тохиолдол ▁гарсан ▁бөгөөд ▁тухайн ▁7 ▁дугаар ▁10-11- ний ▁өдөр ▁газар ▁нутагт ▁нь ▁гэнэтийн ▁цочир ▁хүйтрэл ▁болж , ▁хүйтэн ▁бороо , ▁цас ▁орж ▁нутгийн ▁хэд ▁хэдэн ▁айлын ▁мал ▁олноор ▁үхэж ▁үрэгдсэн ▁явдал ▁гарчээ . ▁үүнийг ▁шүтээн ийг ▁зүй ▁бусаар ▁хөндсөн тэй ▁холбоотой ▁хэмээн ▁архангай ▁аймгийн ▁цахир т ▁сумын ▁сүсэгтэн ▁олон ▁үздэг ▁байна . ▁мөн ▁монголдоо ▁буй ▁эдгээр ▁шүтээн ий ▁ гайхамшгийг ▁мэдэрч , ▁сайтар ▁засч ▁сэлбэ н ▁сэргээ снээр ▁итгэл т ▁хамба ▁болон","▁шарил ▁байрнаас аа ▁зүй ▁бусаар ▁хөндөгдсөн ▁зохисгүй ▁тохиолдол ▁гарсан ▁бөгөөд ▁тухайн ▁7 ▁дугаар ▁10-11- ний ▁өдөр ▁газар ▁нутагт ▁нь ▁гэнэтийн ▁цочир ▁хүйтрэл ▁болж , ▁хүйтэн ▁бороо , ▁цас ▁орж ▁нутгийн ▁хэд ▁хэдэн ▁айлын ▁мал ▁олноор ▁үхэж ▁үрэгдсэн ▁явдал ▁гарчээ . ▁үүнийг ▁шүтээн ийг ▁зүй ▁бусаар ▁хөндсөн тэй ▁холбоотой ▁хэмээн ▁архангай ▁аймгийн ▁цахир т ▁сумын ▁сүсэгтэн ▁олон ▁үздэг ▁байна . ▁мөн ▁монголдоо ▁буй ▁эдгээр ▁шүтээн ий ▁ гайхамшгийг ▁мэдэрч , ▁сайтар ▁засч ▁сэлбэ н ▁сэргээ снээр ▁итгэл т ▁хамба ▁болон ▁түвдийн"
7,"▁дуулж , ▁бичих ээ ▁ойлгохгүй ▁явна ▁даа ▁2018-05-1 5 ▁02 :05 :36 ▁яруу ▁найрагч ▁а . эрдэнэ - очир ▁таалал ▁төгслөө ▁2018-05-1 4 ▁14 :05 :45 ▁а . эрдэнэ - очир ▁мзэ - ийг ▁тэр г үүлнэ ▁2017 -10- 07 ▁05 :10 :23 ▁а . эрдэнэ - очир ▁нарын ▁30 ▁найрагч ▁шүлгээ ▁дуу д на ▁2017 -01 -24 ▁05 : 01 :35 ▁сэтгэгдэл ▁үлдээх ▁уншигчдын ▁бичсэн ▁сэтгэгдэлд ▁olloo . mn ▁хариуцлага ▁хүлээхгүй ▁болно . ▁ххзх - ны ▁журмын ▁дагуу ▁з",", ▁бичих ээ ▁ойлгохгүй ▁явна ▁даа ▁2018-05-1 5 ▁02 :05 :36 ▁яруу ▁найрагч ▁а . эрдэнэ - очир ▁таалал ▁төгслөө ▁2018-05-1 4 ▁14 :05 :45 ▁а . эрдэнэ - очир ▁мзэ - ийг ▁тэр г үүлнэ ▁2017 -10- 07 ▁05 :10 :23 ▁а . эрдэнэ - очир ▁нарын ▁30 ▁найрагч ▁шүлгээ ▁дуу д на ▁2017 -01 -24 ▁05 : 01 :35 ▁сэтгэгдэл ▁үлдээх ▁уншигчдын ▁бичсэн ▁сэтгэгдэлд ▁olloo . mn ▁хариуцлага ▁хүлээхгүй ▁болно . ▁ххзх - ны ▁журмын ▁дагуу ▁з v"
8,"▁нотолсон ▁тохиолдолд ▁татвар ▁төлөх ▁хугацааг ▁нь ▁2 ▁жил ▁хүртэлх ▁хугацаагаар ▁сунгах ▁боломжийг ▁олгоно ▁зэргээр ▁хуульд ▁тусгасан . ▁иргэдийг ▁орон ▁сууцжуулах ▁замаар ▁агаарын ▁бохирдлыг ▁бууруулах ▁бодлогыг ▁засгийн ▁газар ▁тууштай ▁дэмжинэ . ▁үүний ▁нэг ▁илрэл ▁бол ▁иргэд ▁орон ▁сууц ▁худалдан ▁авахад ▁үзүүлдэг ▁татварын ▁хөнгөлөлтийн ▁хэмжээг ▁2 ▁дахин ▁нэмэгдүүлэх , ▁ипотекийн ▁зээлээр ▁орон ▁сууц ▁худалдан ▁авах ▁үйл ▁ажиллагааг ▁татварын ▁бодлогоор ▁дэмжих ▁зохицуулалтыг ▁төсөлд ▁тусгасан ▁гэдгийг ▁ерөнхий ▁сайд ▁хэллээ . ▁дэлхийн ▁хүчирхэг ▁эдийн ▁засагтай ▁улс ▁орнууд ▁бүгд ▁л ▁хувийн ▁хэвшил дээ ▁тулгуурлан ▁хөгжиж ▁дэв","▁тохиолдолд ▁татвар ▁төлөх ▁хугацааг ▁нь ▁2 ▁жил ▁хүртэлх ▁хугацаагаар ▁сунгах ▁боломжийг ▁олгоно ▁зэргээр ▁хуульд ▁тусгасан . ▁иргэдийг ▁орон ▁сууцжуулах ▁замаар ▁агаарын ▁бохирдлыг ▁бууруулах ▁бодлогыг ▁засгийн ▁газар ▁тууштай ▁дэмжинэ . ▁үүний ▁нэг ▁илрэл ▁бол ▁иргэд ▁орон ▁сууц ▁худалдан ▁авахад ▁үзүүлдэг ▁татварын ▁хөнгөлөлтийн ▁хэмжээг ▁2 ▁дахин ▁нэмэгдүүлэх , ▁ипотекийн ▁зээлээр ▁орон ▁сууц ▁худалдан ▁авах ▁үйл ▁ажиллагааг ▁татварын ▁бодлогоор ▁дэмжих ▁зохицуулалтыг ▁төсөлд ▁тусгасан ▁гэдгийг ▁ерөнхий ▁сайд ▁хэллээ . ▁дэлхийн ▁хүчирхэг ▁эдийн ▁засагтай ▁улс ▁орнууд ▁бүгд ▁л ▁хувийн ▁хэвшил дээ ▁тулгуурлан ▁хөгжиж ▁дэв ж"


Our code below show the number of sequences of 80 tokens for our training and validation sets. 

In [None]:
len(dls.train), len(dls.valid)

(11791, 2991)

Here we can move to the language model training, or if the training is already compplete, move to below to test the model.

## Training The Language Model

In [None]:
notebook_path = Path('')

We will be using the AWD_LSTM architecture for our language model. We set the `pretrained` option to `False` as we will not be using a pretrained language model (that's what we are doing!).

In [None]:
learn = language_model_learner(dls, AWD_LSTM, drop_mult=0.5, pretrained=False, 
                               metrics=[accuracy, Perplexity()]).to_fp16()

In [None]:
learn.path = notebook_path.absolute()

Here we set our learning rate. Ideally we would find our ideal learning rate for our data. 

In [None]:
lr = 1e-2
#lr *= bs/48  # Scale learning rate by batch size

In [None]:
cbs=[CSVLogger(fname='history_20_news_lm.csv')]

In [None]:
learn.unfreeze()
learn.fit_one_cycle(10, lr, moms=(0.8, 0.7, 0.8), cbs=cbs)

epoch,train_loss,valid_loss,accuracy,perplexity,time
0,4.325104,4.293908,0.284503,73.252151,3:08:11
1,4.22155,4.173669,0.293306,64.953354,3:08:58
2,4.176488,4.060854,0.303038,58.023838,3:08:58
3,4.090224,3.967691,0.3119,52.862328,3:10:10
4,3.996021,3.879237,0.320767,48.387268,3:09:43
5,3.937507,3.783985,0.330628,43.991005,3:09:39
6,3.806522,3.67866,0.342809,39.593292,3:11:00
7,3.701015,3.577911,0.35489,35.798683,3:09:05
8,3.624425,3.507953,0.364043,33.379875,3:09:08
9,3.63446,3.488757,0.366848,32.745209,3:09:15


In [None]:
learn.to_fp32().save('mn_20_news_lm', with_opt=False)

Path('/notebooks/Language Model/models/mn_20_news_lm.pth')

In [None]:
with open('models/mn_20_news_vocab.pkl', 'wb') as f:
      pickle.dump(learn.dls.vocab, f)

In [None]:
learn.save_encoder('mn_20_news_lm_encoder')

## Test out the model

In [None]:
lm_fns = ['models/mn_20_news_lm', 'models/mn_20_news_vocab']

In [None]:
learn = language_model_learner(dls, AWD_LSTM, drop_mult=0.5, pretrained=True, 
                               pretrained_fnames=lm_fns, model_dir='', metrics=[accuracy, Perplexity()]).to_fp16()

In [None]:
TEXT = "Барилга угсралт их засварын ажил"

In [None]:
pred = learn.predict(TEXT, 50, temperature=0.75)

In [None]:
pred

'▁xxbos ▁барилга ▁угсралт ▁их ▁засварын ▁ажил ▁7 ▁дугаар ▁сарын ▁15- наас ▁эхэлнэ . ▁нийслэлийн ▁удирдах ▁ажилтнуудын ▁шуурхай ▁зөвлөлгөөнөөр ▁орон ▁сууц ▁нийтийн ▁аж ▁ахуйн ▁салбарын ▁удирдах ▁ажилтны ▁зөвлөгөөн ▁боллоо . ▁зөвлөгөөнд ▁нийслэлийн ▁мэргэжлийн ▁хяналтын ▁газрын ▁дарга ▁л . эрдэнэчулуун , ▁нийслэлийн ▁авто ▁замын ▁хөгжлийн ▁газрын ▁дарга ▁ж . тогтохбаяр , ▁нийслэлийн ▁замын ▁хөдөлгөөний ▁удирдлагын ▁газрын ▁дарга ▁с'

In [None]:
pred = '▁xxbos ▁барилга ▁угсралт ▁их ▁засварын ▁ажил ▁7 ▁дугаар ▁сарын ▁15- наас ▁эхэлнэ . ▁нийслэлийн ▁удирдах ▁ажилтнуудын ▁шуурхай ▁зөвлөлгөөнөөр ▁орон ▁сууц ▁нийтийн ▁аж ▁ахуйн ▁салбарын ▁удирдах ▁ажилтны ▁зөвлөгөөн ▁боллоо . ▁зөвлөгөөнд ▁нийслэлийн ▁мэргэжлийн ▁хяналтын ▁газрын ▁дарга ▁л . эрдэнэчулуун , ▁нийслэлийн ▁авто ▁замын ▁хөгжлийн ▁газрын ▁дарга ▁ж . тогтохбаяр , ▁нийслэлийн ▁замын ▁хөдөлгөөний ▁удирдлагын ▁газрын ▁дарга ▁с'

In [None]:
words = pred.split()

In [None]:
''.join(words).replace('▁', ' ')

' xxbos барилга угсралт их засварын ажил 7 дугаар сарын 15-наас эхэлнэ. нийслэлийн удирдах ажилтнуудын шуурхай зөвлөлгөөнөөр орон сууц нийтийн аж ахуйн салбарын удирдах ажилтны зөвлөгөөн боллоо. зөвлөгөөнд нийслэлийн мэргэжлийн хяналтын газрын дарга л.эрдэнэчулуун, нийслэлийн авто замын хөгжлийн газрын дарга ж.тогтохбаяр, нийслэлийн замын хөдөлгөөний удирдлагын газрын дарга с'