Skip to content

Releases: antcorpus/antcorpus.data

Second Release (v1.1) (10 161 articles)

11 Jun 17:29
016c5d3
Compare
Choose a tag to compare

Version details

Current version: v1.1

Version Articles number Words number Number of categories Source
v1.1 (current) 10 161 > 1 474 000 9 JawharaFM
v1.0 6 005 > 865 500 9 JawharaFM

Categories

Category (en) Category (ar) JawharaFM # of articles (v1.0) # of articles (v1.1)
culture ثقافة [x] 70 124
diverse متفرقات [x] 194 475
economy اقتصاد [x] 174 326
internationalNews دولية [x] 561 1 260
localNews وطنية [x] 3 090 4 832
politic سياسة [x] 281 514
society مجتمع [x] 673 1 087
sport رياضة [x] 906 1 460
technology تكنولوجيا [x] 56 83

Files format

ANT Corpus files are formatted in XML using similar tags to the TREC and CLEF standard test collections.

This a sample of an article from JawharaFM as a news web source in the "economy" (اقتصاد) category:

<DOC>
  <DOCNO>JA-economy-32-20170125</DOCNO>
  <URL>http://www.jawharafm.net/ar/article/ارتفاع-صادرات-تونس-من-التمور-/93/76664</URL>
  <SRC>Jawhara FM</SRC>
  <CAT>economy</CAT>
  <TITLE>ارتفاع صادرات تونس من التمور</TITLE>
  <TIME>2017-01-25T14:36:00+01:00</TIME>
  <AUTHOR></AUTHOR>
  <ABSTRACT>
قال المدير الجهوي للمجمع المهني المشترك للغلال، 
 إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
 منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
  </ABSTRACT>
  <TEXT>
قال المدير الجهوي للمجمع المهني المشترك للغلال، 
 إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
 منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
وأضاف في تصريح لوكالة الأنباء الرسمية "وات" أن هذه الكميات شهدت ارتفاعا
 بالمقارنة مع نفس الفترة من الموسم المنقضي بنسبة 24 بالمائة، حيث سجّل
 تصدير 122 ألف طن. جهويا، حقق صادرات التمور التونسية حققت أرقاما قياسية
 للموسم الحالي (2016-2017) حيث تمّ إلى غاية يوم أمس الثلاثاء على مستوى جهة
 توزر تصدير 7350 طنا بقيمة مالية بلغت 38 مليون دينار، بحسب ما أفاد به
 المدير الجهوي للمجمع المهني المشترك للغلال. وأضاف أن الصادرات الجهوية
 خلال الفترة ذاتها من الموسم الماضي لم تتجاوز 6 آلاف طن بقيمة 27 مليون دينار،
 مشيرا الى أنّ الكميات المصدّرة من الجهة حققت خلال الموسم الحالي تطورا بـ20 بالمائة.
  </TEXT>
</DOC>

About tags

  • <DOCNO> sourceAcronym - category - incremental_id - pubDate </DOCNO>
  • <AUTHOR> and <ABSTRACT> may don't have content in some articles.
  • <DOCNO>, <URL>, <SRC>, <CAT>, <TITLE>, <TIME>, <TEXT> are mandatory.

Citation Licence

The files of ANT Corpus are subject to the following citation license:
By downloading ANT Corpus, you agree to cite at least one of our papers describing ANT Corpus and/or refer the project's main page in any kind of material you produce where ANT Corpus was used to conduct search or experimentation, whether be it a research paper, dissertation, article, poster, presentation, or documentation.
By using this data, you have agreed to the citation licence.

Publications

📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. ANT Corpus : An Arabic News Text Collection for Textual Classification. In proceedings of the 14th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA 2017), pp. 135-142, Hammamet, Tunisia, October 30 - November 3, 2017.

📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. A TF-IDF and Co-occurrence Based Approach for Events Extraction from Arabic News Corpus. In proceedings of the 23rd International Conference on Natural Language & Information Systems (NLDB 2018), pp. 272-280, Paris, France, 13-15 June 2018.

First official release (v1.0)

12 Aug 20:18
Compare
Choose a tag to compare

Version details

Current version: v1.0

Version Articles number Words number Number of categories Source
v1.0 (current) 6 005 > 865 500 9 JawharaFM

Categories

Category (en) Category (ar) JawharaFM # of articles (v1.0)
culture ثقافة [x] 70
diverse متفرقات [x] 194
economy اقتصاد [x] 174
internationalNews دولية [x] 561
localNews وطنية [x] 3090
politic سياسة [x] 281
society مجتمع [x] 673
sport رياضة [x] 906
technology تكنولوجيا [x] 56

Files format

ANT Corpus files are formatted in XML using similar tags to the TREC and CLEF standard test collections.

This a sample of an article from JawharaFM as a news web source in the "economy" (اقتصاد) category:

<DOC>
  <DOCNO>JA-economy-32-20170125</DOCNO>
  <URL>http://www.jawharafm.net/ar/article/ارتفاع-صادرات-تونس-من-التمور-/93/76664</URL>
  <SRC>Jawhara FM</SRC>
  <CAT>economy</CAT>
  <TITLE>ارتفاع صادرات تونس من التمور</TITLE>
  <TIME>2017-01-25T14:36:00+01:00</TIME>
  <AUTHOR></AUTHOR>
  <ABSTRACT>
قال المدير الجهوي للمجمع المهني المشترك للغلال، 
 إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
 منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
  </ABSTRACT>
  <TEXT>
قال المدير الجهوي للمجمع المهني المشترك للغلال، 
 إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
 منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
وأضاف في تصريح لوكالة الأنباء الرسمية "وات" أن هذه الكميات شهدت ارتفاعا
 بالمقارنة مع نفس الفترة من الموسم المنقضي بنسبة 24 بالمائة، حيث سجّل
 تصدير 122 ألف طن. جهويا، حقق صادرات التمور التونسية حققت أرقاما قياسية
 للموسم الحالي (2016-2017) حيث تمّ إلى غاية يوم أمس الثلاثاء على مستوى جهة
 توزر تصدير 7350 طنا بقيمة مالية بلغت 38 مليون دينار، بحسب ما أفاد به
 المدير الجهوي للمجمع المهني المشترك للغلال. وأضاف أن الصادرات الجهوية
 خلال الفترة ذاتها من الموسم الماضي لم تتجاوز 6 آلاف طن بقيمة 27 مليون دينار،
 مشيرا الى أنّ الكميات المصدّرة من الجهة حققت خلال الموسم الحالي تطورا بـ20 بالمائة.
  </TEXT>
</DOC>

About tags

  • <DOCNO> sourceAcronym - category - incremental_id - pubDate </DOCNO>
  • <AUTHOR> and <ABSTRACT> may don't have content in some articles.
  • <DOCNO>, <URL>, <SRC>, <CAT>, <TITLE>, <TIME>, <TEXT> are mandatory.

Citation Licence

The files of ANT Corpus are subject to the following citation license:
By downloading ANT Corpus, you agree to cite at least one of our papers describing ANT Corpus and/or refer the project's main page in any kind of material you produce where ANT Corpus was used to conduct search or experimentation, whether be it a research paper, dissertation, article, poster, presentation, or documentation.
By using this data, you have agreed to the citation licence.

Publications

📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. ANT Corpus : An Arabic News Text Collection for Textual Classification. In proceedings of the 14th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA 2017), Hammamet, Tunisia, October 30 - November 3, 2017.