jegyzet | nyers adat | előkészített adat | model | |
---|---|---|---|---|
Wikipédia alapú LM | wiki model | wiki_hu.zip | vocab.pkl | wikimodel.pth |
port.hu dataset | port.hu dataset előállítása | porthu.csv | databunch.pkl | - |
port.hu komment classifier (pozitív - negatív) | port.hu classifier | ↑ | encoder.pth | classifier.pth |
Architektúra: AWD-LSTM
Dataset: 108k magyar wikioldal
Vocab: 60k
Architektúra: AWD-LSTM
Dataseet: 45k port.hu értékelés (IMDB datasethez hasonló, pozitív-negatív)
(ebből 91% training, 9% validáció)
Pontosság: 89%
Az alap nyelvi model 28%-os pontosságához képest
klasszikus irodalmon tanított modellel a legjobb elért eredmény 55%.
Ez inkább a dataset méretéből és tisztaságából adódik, aminek alapja 75 nyelvezetben igen hasonló könyv.
A könyvek a BME Hunglish Corpus projektjéből származnak:
http://mokk.bme.hu/resources/hunglishcorpus/
UTF-8 zip: link
Minden dataset és model: dropbox