Skip to content

Especificação do Problema

Amanda Vieira Pires edited this page Apr 17, 2018 · 3 revisions

Machine Learning

O Problema

Algumas amostras dos textos da RCV1 ou RCV2 foram coletadas para análise e classificação. São amostras em Inglês, Francês, Espanhol, Italiano ou Alemão.

Os dados usados estão no diretório rcv1rcv2aminigoutte e esse possui outros 5 subdiretórios, que são EN, FR, GR, IT e SP. Cada subdiretório possui 5 arquivos, cada um contendo índices de documentos escritos ou traduzidos em algum idioma.

Exemplo

O diretório EN contém os seguintes arquivos:

  • Index_EN-EN: Documento original em inglês.
  • Index_FR-EN: Documento em francês traduzido para o inglês.
  • Index_GR-EN: Documento em alemão traduzido para o inglês.
  • Index_IT-EN: Documento em italiano traduzido para o inglês.
  • Index_SP-EN: Documento em espanhol traduzido para o inglês.

Assim é aplicado aos demais diretórios.

Formato do arquvivo

Cada arquivo possui as características de um documento por linha. Está no formato similiar ao SVM LIGHT.

Cada linha do documento possui a categoria do texto, label, e várias features indexadas de forma ascendente. As features são números obtidos através da estatística TF-IDF.

Os textos podem pertencer a 6 categorias diferentes:

Categoria Descrição
C15 PERFOMANCE
CCAT CORPORATE/INDUSTRIAL
E21 GOVERNMENT FINANCE
ECAT ECONOMICS
GCAT GOVERNMENT/SOCIAL
M11 EQUITY MARKETS

SVM LIGHT

       <line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
       <target> .=. +1 | -1 | 0 | <float> 
       <feature> .=. <integer> | "qid"
       <value> .=. <float>
       <info> .=. <string>

Referências

Clone this wiki locally