Skip to content

Contexto

Amanda Vieira Pires edited this page Apr 17, 2018 · 1 revision

Reuters Corpora (RCV1, RCV2)

Reuters

Reuters é uma agência de notícias britânica, a maior agência internacional de notícias do mundo, com sede em Londres.

Em 2000, Reuters disponibilizou uma grande coleção de reportagens para uso em pesquisa e desenvolvimento de processamento de linguagem natural, recuperação de informações e sistemas de aprendizado de máquina. Essa coleção, conhecida como Reuters Corpus Volume 1 (RCV1) é muito utilizada pela comunidade de classificação de textos.

RCV1

É distribuída via download web e possui cera de 810 mil reportagens em inglês. Essa coleção foi criada entre 20 de agosto de 1996 e 19 de agosto de 1997 e sua primeira versão foi disponibilizada em 2000.

RCV2

Essa coleção, conhecida como Reuters Corpus Volume 2 (RCV2), foi criada no mesmo período da RCV1. É uma coleção escrita em 13 idiomas (Dutch, French, German, Chinese, Japanese, Russian, Portuguese, Spanish, Latin American Spanish, Italian, Danish, Norwegian, and Swedish) e possui mais de 487 mil reportagens.

Referências

Clone this wiki locally