Skip to content

pmamico/langos

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Lángos

A Lángos egy LSTM neurális hálón alapuló magyar nyelvi model.
jegyzet nyers adat előkészített adat model
Wikipédia alapú LM wiki model wiki_hu.zip vocab.pkl wikimodel.pth
port.hu dataset port.hu dataset előállítása porthu.csv databunch.pkl -
port.hu komment classifier (pozitív - negatív) port.hu classifier encoder.pth classifier.pth

Wikipédia alapú model

Architektúra: AWD-LSTM
Dataset: 108k magyar wikioldal

Vocab: 60k

ULMFiT classifier (port.hu értékelések kategorizálása)

Architektúra: AWD-LSTM
Dataseet: 45k port.hu értékelés (IMDB datasethez hasonló, pozitív-negatív) (ebből 91% training, 9% validáció)
Pontosság: 89%

Fine-tuned model (klasszikus irodalom)

Az alap nyelvi model 28%-os pontosságához képest
klasszikus irodalmon tanított modellel a legjobb elért eredmény 55%.
Ez inkább a dataset méretéből és tisztaságából adódik, aminek alapja 75 nyelvezetben igen hasonló könyv.
A könyvek a BME Hunglish Corpus projektjéből származnak:
http://mokk.bme.hu/resources/hunglishcorpus/
UTF-8 zip: link

Minden dataset és model: dropbox

About

a neural-network project (hu)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published