Home
Ricardo Cruz edited this page Jun 16, 2016
·
19 revisions
- categorias inclusivé pais [pode fazer mais sentido criar modelos em separado]
- diferença entre vários atributos como preço
- binária e diferença na contagem de caracteres como ',', '.', '!', etc [fazia sentido reduzir número de símbolos]
- coseno de brands, em que brands são palavras que não usa círilico excepto cores
- diferença entre tópicos e distância [são demasiadas variáveis irrelevantes, provavelmente estão a prejudicar o modelo]
- distância entre frequência de stopwords
- binária a indicar se caracter de enumeração é o mesmo
- binária para indicar vendedores que usam separados como --------------------, ou se agrupam artigos com linhas em branco
- binária a indicar se ambas têm erros ortográficos para palavras círilicas [talvez algo melhor que binária para o modelo puder discriminar quando uma têm e a outra não...]
- Se o mesmo erro ortográfico estiver presente nos dois artigos é um forte indicio de ser duplicado.
- Uso de acentuação nas palavras (não sei se isto se aplica a Russo, mas em Português há muitas pessoas que não poem acentuação nas palavras quando esvrevem textos informais)
- binária se números nos attrJSON for diferente
- binária e diferença no número de imagens [não sei se faz sentido]
- diferença mínima entre dhashes
- diferença entre 2º e 3º mínimo entre hashes
- combinação do uso de dhash e phash
- modelo com e sem imagens
É preciso ver se conseguimos usar por exemplo o WordNet russo.
- distância entre palavras no mesmo tempo verbal
- distância entre frequência de palavras num género ou no outro
- usar nomes próprios no caso de ser um anuncio que envolva recursos humanos (advogados p.ex.)
- na categoria pai "BENS IMÓVEIS" poderia ser util obter e comparar moradas ou localidades
- na categoria pai "BENS IMÓVEIS" poderia ser util comparar as Áreas
Jaccard index https://en.wikipedia.org/wiki/Jaccard_index