Skip to content

UCREL/welsh-summarization-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

60 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Set ddata’r Adnodd Creu Crynodebau

Welsh Summarization Dataset

Mae'r ystorfa hon yn cynnwys set ddata’r Adnodd Crynhoi Crynodebau a sgriptiau arddangos a llyfrau nodiadau Python. Mae'n cael ei diweddaru ar hyn o bryd, felly cofiwch gael golwg arni’n gyson.

Set Ddata (Dataset)

Dyma gasgliad o 513 o destunau Cymraeg (erthyglau Wicipedia) a'u crynodebau. Tynnwyd pob erthygl – sydd yn cynnwys o leiaf 500 tocyn o ran hyd – ynghyd â'i grynodeb Wicipedia gan ddefnyddio WikipediaAPI. Mae'r ffeiliau crai – sy'n cynnwys yr erthyglau a’r chrynodebau a dynnwyd o Wikipedia fel ag y maent yn ymddangos yno – ar gael ar ffurf data.zip mewn fformatau html a thestun plaen ac maent wedi'u trwyddedu o dan Drwydded Ryngwladol Creative Commons Attribution 4.0. Gellir gweld y sgriptiau Python ar gyfer cyrchu'r ffeiliau a dynnwyd ac a broseswyd, a'u defnyddio gyda'r ffeil ar y cyd hon a gellir gweld hefyd y cyfarwyddiadau ar sut i’w defnyddio, fel y maent wedi’u disgrifio isod.

This is a collection of 513 Welsh texts (Wikipedia articles) and their summaries. Each of the articles - containing at least 500 tokens in length - was extracted along with its Wikipedia summary using the WikipediaAPI. The raw files - containing the Wikipedia extracted articles and summaries as-is - are available in data.zip in html and plain text formats and licensed under a Creative Commons Attribution 4.0 International License. The Python scripts for accessing the extracted and processed files can be viewed and used with this colab file with the usage instruction described below.

Defnydd (Usage)

Ar gyfer sampl o’r defnydd a wnaed o’r set ddata, gallwch agor y llyfr nodiadau yn Google Colab, a thrwy glicio [] cyn mynd ati i ddilyn y cyfarwyddiadau canlynol.

  • Yn gyntaf, cloniwch yr ystorfa (First clone the repository)
!git clone https://github.com/UCREL/welsh-summarisation-dataset.git
  • Yna mewngludwch pickle a newid y cyfeiriadur i'r ffolder sydd wedi'i glonio (Then import pickle and change directory to the cloned folder)
import os
import pickle as pkl
os.chdir('/content/welsh-summarisation-dataset')
  • Yna llwythwch y ffeil set ddata i'r cof (Then load the dataset file into memory)
with open('./data/dataset.pkl', "rb") as dataset_file:
  dataset = pkl.load(dataset_file)
  • Nodwch bum rhes gyntaf eich set ddata gyda .head() (Check the first five rows of your dataset with .head())
dataset.head()

Dataset Screenshot

Arddangosiad (Demo)

Papurau (Papers):

  • Ezeani, I., El- Haj, M.A., Morris, J. a Knight, D. (2022). Cyflwyno Adnodd Crynhoi Setiau Data Cymraeg, a Systemau Sylfaenol (Introducing the Welsh Summarisation Dataset and Baseline Systems). Trafodaethau o Gynhadledd Gwerthuso Adnoddau Iaith (LREC) 2022, Mehefin 2022, Marseille, Ffrainc. [Proceedings of the LREC (Language Resources Evaluation) 2022 Conference, June 2022, Marseille, France.]

  • Morris, Jonathan, Ignatius Ezeani, Ianto Gruffydd, Katharine Young, Lynne Davies, Mahmoud El-Haj a Dawn Knight. 2022. Creu crynodebau awtomatig o destunau Cymraeg (Welsh Automatic Text Summarisation). Symposiwm Academaidd Technolegau Iaith Cymru 2022. Prifysgol Bangor, 28 Ionawr 2022. [Wales Academic Symposium on Language Technologies 2022, Bangor University, 28 January 2022.]

  • Morris, Jonathan, Ignatius Ezeani, Ianto Gruffydd, Katharine Young, Lynne Davies, Mahmoud El-Haj a Dawn Knight. Forth. Creu crynodebau awtomatig o destunau Cymraeg (Welsh Automatic Text Summarisation). Yn dod. Iaith a Thechnoleg yng Nghymru: Cyfrol II, gol. D. Prys. Bangor: Canolfan Bedwyr. [Language and Technology in Wales: Volume II, ed. D. Prys. Bangor: Canolfan Bedwyr.]

  • El-Haj, M., Ezeani, I., Morris, J. a Knight, D. (2022). Trafodion Gweithdy Technolegau’r Ieithoedd Celtaidd (Welsh Summaries Correlation between ROUGE and Human Evaluation), Cynhadledd LREC (Language Resources Evaluation) 2022 , Mehefin 2022, Marseille, Ffrainc. [Proceedings of the Celtic Language Technology Workshop, LREC (Language Resources Evaluation) 2022 Conference, June 2022, Marseille, France.]

Cysylltiadau (Contacts)

Creative Commons Licence

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published