Releases: antcorpus/antcorpus.data
Second Release (v1.1) (10 161 articles)
Version details
Current version: v1.1
Version | Articles number | Words number | Number of categories | Source |
---|---|---|---|---|
v1.1 (current) | 10 161 | > 1 474 000 | 9 | JawharaFM |
v1.0 | 6 005 | > 865 500 | 9 | JawharaFM |
Categories
Category (en) | Category (ar) | JawharaFM | # of articles (v1.0) | # of articles (v1.1) |
---|---|---|---|---|
culture | ثقافة | [x] | 70 | 124 |
diverse | متفرقات | [x] | 194 | 475 |
economy | اقتصاد | [x] | 174 | 326 |
internationalNews | دولية | [x] | 561 | 1 260 |
localNews | وطنية | [x] | 3 090 | 4 832 |
politic | سياسة | [x] | 281 | 514 |
society | مجتمع | [x] | 673 | 1 087 |
sport | رياضة | [x] | 906 | 1 460 |
technology | تكنولوجيا | [x] | 56 | 83 |
Files format
ANT Corpus files are formatted in XML using similar tags to the TREC and CLEF standard test collections.
This a sample of an article from JawharaFM as a news web source in the "economy" (اقتصاد) category:
<DOC>
<DOCNO>JA-economy-32-20170125</DOCNO>
<URL>http://www.jawharafm.net/ar/article/ارتفاع-صادرات-تونس-من-التمور-/93/76664</URL>
<SRC>Jawhara FM</SRC>
<CAT>economy</CAT>
<TITLE>ارتفاع صادرات تونس من التمور</TITLE>
<TIME>2017-01-25T14:36:00+01:00</TIME>
<AUTHOR></AUTHOR>
<ABSTRACT>
قال المدير الجهوي للمجمع المهني المشترك للغلال،
إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
</ABSTRACT>
<TEXT>
قال المدير الجهوي للمجمع المهني المشترك للغلال،
إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
وأضاف في تصريح لوكالة الأنباء الرسمية "وات" أن هذه الكميات شهدت ارتفاعا
بالمقارنة مع نفس الفترة من الموسم المنقضي بنسبة 24 بالمائة، حيث سجّل
تصدير 122 ألف طن. جهويا، حقق صادرات التمور التونسية حققت أرقاما قياسية
للموسم الحالي (2016-2017) حيث تمّ إلى غاية يوم أمس الثلاثاء على مستوى جهة
توزر تصدير 7350 طنا بقيمة مالية بلغت 38 مليون دينار، بحسب ما أفاد به
المدير الجهوي للمجمع المهني المشترك للغلال. وأضاف أن الصادرات الجهوية
خلال الفترة ذاتها من الموسم الماضي لم تتجاوز 6 آلاف طن بقيمة 27 مليون دينار،
مشيرا الى أنّ الكميات المصدّرة من الجهة حققت خلال الموسم الحالي تطورا بـ20 بالمائة.
</TEXT>
</DOC>
About tags
<DOCNO>
sourceAcronym-
category-
incremental_id-
pubDate</DOCNO>
<AUTHOR>
and<ABSTRACT>
may don't have content in some articles.<DOCNO>
,<URL>
,<SRC>
,<CAT>
,<TITLE>
,<TIME>
,<TEXT>
are mandatory.
Citation Licence
The files of ANT Corpus are subject to the following citation license:
By downloading ANT Corpus, you agree to cite at least one of our papers describing ANT Corpus and/or refer the project's main page in any kind of material you produce where ANT Corpus was used to conduct search or experimentation, whether be it a research paper, dissertation, article, poster, presentation, or documentation.
By using this data, you have agreed to the citation licence.
Publications
📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. ANT Corpus : An Arabic News Text Collection for Textual Classification. In proceedings of the 14th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA 2017), pp. 135-142, Hammamet, Tunisia, October 30 - November 3, 2017.
📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. A TF-IDF and Co-occurrence Based Approach for Events Extraction from Arabic News Corpus. In proceedings of the 23rd International Conference on Natural Language & Information Systems (NLDB 2018), pp. 272-280, Paris, France, 13-15 June 2018.
First official release (v1.0)
Version details
Current version: v1.0
Version | Articles number | Words number | Number of categories | Source |
---|---|---|---|---|
v1.0 (current) | 6 005 | > 865 500 | 9 | JawharaFM |
Categories
Category (en) | Category (ar) | JawharaFM | # of articles (v1.0) |
---|---|---|---|
culture | ثقافة | [x] | 70 |
diverse | متفرقات | [x] | 194 |
economy | اقتصاد | [x] | 174 |
internationalNews | دولية | [x] | 561 |
localNews | وطنية | [x] | 3090 |
politic | سياسة | [x] | 281 |
society | مجتمع | [x] | 673 |
sport | رياضة | [x] | 906 |
technology | تكنولوجيا | [x] | 56 |
Files format
ANT Corpus files are formatted in XML using similar tags to the TREC and CLEF standard test collections.
This a sample of an article from JawharaFM as a news web source in the "economy" (اقتصاد) category:
<DOC>
<DOCNO>JA-economy-32-20170125</DOCNO>
<URL>http://www.jawharafm.net/ar/article/ارتفاع-صادرات-تونس-من-التمور-/93/76664</URL>
<SRC>Jawhara FM</SRC>
<CAT>economy</CAT>
<TITLE>ارتفاع صادرات تونس من التمور</TITLE>
<TIME>2017-01-25T14:36:00+01:00</TIME>
<AUTHOR></AUTHOR>
<ABSTRACT>
قال المدير الجهوي للمجمع المهني المشترك للغلال،
إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
</ABSTRACT>
<TEXT>
قال المدير الجهوي للمجمع المهني المشترك للغلال،
إنه تم تصدير 36 ألف طن من التمور بعائدات مالية قدرها 180 مليون دينار،
منذ بداية الموسم وإلى غاية 24 جانفي الحالي.
وأضاف في تصريح لوكالة الأنباء الرسمية "وات" أن هذه الكميات شهدت ارتفاعا
بالمقارنة مع نفس الفترة من الموسم المنقضي بنسبة 24 بالمائة، حيث سجّل
تصدير 122 ألف طن. جهويا، حقق صادرات التمور التونسية حققت أرقاما قياسية
للموسم الحالي (2016-2017) حيث تمّ إلى غاية يوم أمس الثلاثاء على مستوى جهة
توزر تصدير 7350 طنا بقيمة مالية بلغت 38 مليون دينار، بحسب ما أفاد به
المدير الجهوي للمجمع المهني المشترك للغلال. وأضاف أن الصادرات الجهوية
خلال الفترة ذاتها من الموسم الماضي لم تتجاوز 6 آلاف طن بقيمة 27 مليون دينار،
مشيرا الى أنّ الكميات المصدّرة من الجهة حققت خلال الموسم الحالي تطورا بـ20 بالمائة.
</TEXT>
</DOC>
About tags
<DOCNO>
sourceAcronym-
category-
incremental_id-
pubDate</DOCNO>
<AUTHOR>
and<ABSTRACT>
may don't have content in some articles.<DOCNO>
,<URL>
,<SRC>
,<CAT>
,<TITLE>
,<TIME>
,<TEXT>
are mandatory.
Citation Licence
The files of ANT Corpus are subject to the following citation license:
By downloading ANT Corpus, you agree to cite at least one of our papers describing ANT Corpus and/or refer the project's main page in any kind of material you produce where ANT Corpus was used to conduct search or experimentation, whether be it a research paper, dissertation, article, poster, presentation, or documentation.
By using this data, you have agreed to the citation licence.
Publications
📄 A. Chouigui, O. Ben Khiroun, and B. Elayeb. ANT Corpus : An Arabic News Text Collection for Textual Classification. In proceedings of the 14th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA 2017), Hammamet, Tunisia, October 30 - November 3, 2017.