Skip to content
Ricardo Cruz edited this page Jun 16, 2016 · 19 revisions

TO DO

Features

Gerais

  • categorias inclusivé pais [pode fazer mais sentido criar modelos em separado]
  • diferença entre vários atributos como preço

Texto

  • binária e diferença na contagem de caracteres como ',', '.', '!', etc [fazia sentido reduzir número de símbolos]
  • coseno de brands, em que brands são palavras que não usa círilico excepto cores
  • diferença entre tópicos e distância [são demasiadas variáveis irrelevantes, provavelmente estão a prejudicar o modelo]
  • distância entre frequência de stopwords
  • binária a indicar se caracter de enumeração é o mesmo
  • binária para indicar vendedores que usam separados como --------------------, ou se agrupam artigos com linhas em branco
  • binária a indicar se ambas têm erros ortográficos para palavras círilicas [talvez algo melhor que binária para o modelo puder discriminar quando uma têm e a outra não...]
  • Se o mesmo erro ortográfico estiver presente nos dois artigos é um forte indicio de ser duplicado.
  • Uso de acentuação nas palavras (não sei se isto se aplica a Russo, mas em Português há muitas pessoas que não poem acentuação nas palavras quando esvrevem textos informais)
  • binária se números nos attrJSON for diferente

Imagem

  • binária e diferença no número de imagens [não sei se faz sentido]
  • diferença mínima entre dhashes
  • diferença entre 2º e 3º mínimo entre hashes
  • combinação do uso de dhash e phash
  • modelo com e sem imagens

Gramática

É preciso ver se conseguimos usar por exemplo o WordNet russo.

  • distância entre palavras no mesmo tempo verbal
  • distância entre frequência de palavras num género ou no outro

Dependem da categoria

  • usar nomes próprios no caso de ser um anuncio que envolva recursos humanos (advogados p.ex.)
  • na categoria pai "BENS IMÓVEIS" poderia ser util obter e comparar moradas ou localidades
  • na categoria pai "BENS IMÓVEIS" poderia ser util comparar as Áreas

Notas

Jaccard index https://en.wikipedia.org/wiki/Jaccard_index

Clone this wiki locally