Especificação do Problema

Machine Learning

O Problema

Algumas amostras dos textos da RCV1 ou RCV2 foram coletadas para análise e classificação. São amostras em Inglês, Francês, Espanhol, Italiano ou Alemão.

Os dados usados estão no diretório rcv1rcv2aminigoutte e esse possui outros 5 subdiretórios, que são EN, FR, GR, IT e SP. Cada subdiretório possui 5 arquivos, cada um contendo índices de documentos escritos ou traduzidos em algum idioma.

Exemplo

O diretório EN contém os seguintes arquivos:

Index_EN-EN: Documento original em inglês.
Index_FR-EN: Documento em francês traduzido para o inglês.
Index_GR-EN: Documento em alemão traduzido para o inglês.
Index_IT-EN: Documento em italiano traduzido para o inglês.
Index_SP-EN: Documento em espanhol traduzido para o inglês.

Assim é aplicado aos demais diretórios.

Formato do arquvivo

Cada arquivo possui as características de um documento por linha. Está no formato similiar ao SVM LIGHT.

Cada linha do documento possui a categoria do texto, label, e várias features indexadas de forma ascendente. As features são números obtidos através da estatística TF-IDF.

Os textos podem pertencer a 6 categorias diferentes:

Categoria	Descrição
C15	PERFOMANCE
CCAT	CORPORATE/INDUSTRIAL
E21	GOVERNMENT FINANCE
ECAT	ECONOMICS
GCAT	GOVERNMENT/SOCIAL
M11	EQUITY MARKETS

SVM LIGHT

       <line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
       <target> .=. +1 | -1 | 0 | <float> 
       <feature> .=. <integer> | "qid"
       <value> .=. <float>
       <info> .=. <string>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Especificação do Problema

Machine Learning

O Problema

Exemplo

Formato do arquvivo

SVM LIGHT

Referências

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally