corpora

Here are 157 public repositories matching this topic...

juand-r / entity-recognition-datasets

A collection of corpora for named entity recognition (NER) and entity recognition tasks. These annotated datasets cover a variety of languages, domains and entity types.

nlp natural-language-processing annotations named-entity-recognition corpora datasets ner nlp-resources entity-extraction entity-recognition

Updated Jun 25, 2024
Python

nltk / nltk_data

Star

NLTK Data

nlp natural-language-processing linguistics nltk corpora

Updated Jul 29, 2024
Python

piskvorky / gensim-data

Sponsor

Star

Data repository for pretrained NLP models and NLP corpora.

dataset gensim corpora pretrained-models word2vec-model lda-model lsi-model glove-model

Updated Mar 16, 2018
Python

nonamestreet / weixin_public_corpus

Star

微信公众号语料库

nlp natural-language-processing corpus linguistics weixin chinese-nlp corpora weixin-data wei-xin yu-liao yu-liao-ku

Updated Jan 7, 2019

AI4Bharat / indicnlp_catalog

Star

A collaborative catalog of NLP resources for Indic languages

libraries models awesome-list corpora indian-languages

Updated Mar 14, 2024

natasha / corus

Star

Links to Russian corpora + Python functions for loading and parsing

python nlp russian corpora datasets

Updated Jul 24, 2023
Jupyter Notebook

PlanTL-GOB-ES / lm-spanish

Star

Official source for spanish Language Models and resources made @ BSC-TEMU within the "Plan de las Tecnologías del Lenguaje" (Plan-TL).

nlp transformers embeddings benchmarks corpora language-model

Updated Jul 27, 2023
Python

OpenCorpora / opencorpora

Star

A web-based engine for creating and annotating textual corpora

russian-specific linguistics corpora corpus-linguistics

Updated Aug 26, 2023
PHP

ko-nlp / Open-korean-corpora

Star

Open Korean NLP Dataset Curation for the Users All Around the Globe

nlp open-source dataset korean corpora curation

Updated Nov 18, 2023

zliucr / CrossNER

Star

CrossNER: Evaluating Cross-Domain Named Entity Recognition (AAAI-2021)

dataset named-entity-recognition corpora multi-domain ner cross-domain sequence-labeling domain-adaptation low-resource multi-domain-adaptation

Updated Jan 5, 2021
Python

jfainberg / self_dialogue_corpus

Star

The Self-dialogue Corpus - a collection of self-dialogues across music, movies and sports

nlp dialogue corpora

Updated Mar 19, 2024
Python

josecannete / spanish-corpora

Star

Unannotated Spanish 3 Billion Words Corpora

nlp natural-language-processing linguistics spanish corpora spanish-language

Updated Oct 20, 2022
Python

saidziani / Arabic-News-Article-Classification

Star

Automatic categorization of documents, consists in assigning a category to a text based on the information it contains. We'll follow different approach of Supervised Machine Learning.

nlp machine-learning python3 nltk corpora arabic-nlp arabic-language text-categorization