FENEC (FrEnch Named-entity Evaluation Corpus) est un corpus à échantillons équilibrés contenant six genres, annoté en entités nommées selon le schéma fin Quæro.
# | Document | Source | Période | Genre | Nb. phrases (Nb. tokens) | Licence |
---|---|---|---|---|---|---|
1 | prose01-Voltaire | Traité sur la Tolérance, Voltaire (id : 42131-0) | XVIIIe | prose | 40 (1 020) | Project Gutenberg |
2 | prose02-Zola | Le Ventre de Paris, Émile Zola (id : pg6470) | XIXe | prose | 51 (1 002) | Project Gutenberg |
3 | prose03-Giono | L'Homme qui plantait des arbres, Jean Giono | XXe | prose | 53 (1 013) | Public Domain |
4 | poetry01-Baudelaire | Les Fleurs du Mal, Baudelaire (id : pg6099) | XIXe | poésie | 30 (1 014) | Project Gutenberg |
5 | poetry02-Rimbaud | OEuvres d'Arthur Rimbaud - Vers et proses (id : 56708-0) | XIXe | poésie | 52 (1 027) | Project Gutenberg |
6 | multi01-UDFrenchGSD | UD French GSD | XXIe | multisources | 35 (1 021) | CC BY-SA 4.0 |
7 | multi02-Sequoia | Sequoia | XXIe | multisources | 44 (1 002) | Licence LGPL-LR |
8 | multi03-FQB | French Question Bank | XXIe | multisources | 102 (1 006) | Licence LGPL-LR |
9 | information01-APIL | APIL (office du tourisme Othe-Armance) | XXIe | informations | 29 (1 002) | Licence LGPL-LR |
10 | information02-Wikinews | Wikinews | XXIe | informations | 46 (1 024) | CC BY 2.5 |
11 | information03-LEstRepublicain | L'Est Républicain | XXIe | informations | 40 (1,000) | CC BY-SA 2.0 |
12 | encyclopedia01-WikiNER | WikiNER français | XXIe | encyclopédie | 36 (1 003) | CC BY 4.0 |
13 | spoken01-Rhapsodie | Spoken (Rhapsodie) | XXIe | parole | 70 (1 028) | CC BY-SA 4.0 |
14 | spoken02-Rhapsodie | Spoken (Rhapsodie) | XXIe | parole | 78 (1 014) | CC BY-SA 4.0 |
15 | spoken03-Rhapsodie | Spoken (Rhapsodie) | XXIe | parole | 65 (1 019) | CC BY-SA 4.0 |
Alice Millour, Yoann Dupont, Alexane Jouglar, and Karën Fort. 2022. FENEC : un corpus équilibré pour l’évaluation des entités nommées en français (FENEC : a balanced sample corpus for French named entity recognition ). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 82–94, Avignon, France. ATALA.