-
Notifications
You must be signed in to change notification settings - Fork 3
Especificação do Problema
Algumas amostras dos textos da RCV1 ou RCV2 foram coletadas para análise e classificação. São amostras em Inglês, Francês, Espanhol, Italiano ou Alemão.
Os dados usados estão no diretório rcv1rcv2aminigoutte e esse possui outros 5 subdiretórios, que são EN, FR, GR, IT e SP. Cada subdiretório possui 5 arquivos, cada um contendo índices de documentos escritos ou traduzidos em algum idioma.
O diretório EN contém os seguintes arquivos:
- Index_EN-EN: Documento original em inglês.
- Index_FR-EN: Documento em francês traduzido para o inglês.
- Index_GR-EN: Documento em alemão traduzido para o inglês.
- Index_IT-EN: Documento em italiano traduzido para o inglês.
- Index_SP-EN: Documento em espanhol traduzido para o inglês.
Assim é aplicado aos demais diretórios.
Cada arquivo possui as características de um documento por linha. Está no formato similiar ao SVM LIGHT.
Cada linha do documento possui a categoria do texto, label, e várias features indexadas de forma ascendente. As features são números obtidos através da estatística TF-IDF.
Os textos podem pertencer a 6 categorias diferentes:
| Categoria | Descrição |
|---|---|
| C15 | PERFOMANCE |
| CCAT | CORPORATE/INDUSTRIAL |
| E21 | GOVERNMENT FINANCE |
| ECAT | ECONOMICS |
| GCAT | GOVERNMENT/SOCIAL |
| M11 | EQUITY MARKETS |
<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float>
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>