deduplicator ne deduplicate pas #36

jfriviere · 2022-11-03T17:33:58Z

J'utilise le middlware deduplicator (pour OpenEditon) mais je n'arrive pas à le faire fonctionner (ou il y a un bug).

Ci dessous un exemple :

le fichier de log : test-duplicates.log
- 5 lignes de logs
- la ligne 3 est identique à la ligne 2, sauf datetime : ligne 3 + 1 sec. par rapport à ligne 2
- les lignes 4 et 5 sont identiques
le résultat EZPaarse : 6256b350_2022-11-03_17h27.job-ecs.csv
- je m'attends à trouver 3 EC dans le résultat (duplicate ligne 2/3 et 4/5) mais il y en a 5.
Les conf utilisées
- 01-fr-open-edition-02.json.txt
- config.local.dev.json.txt

Il y a peut-être quelque chose d'évident que je ne vois pas.‌..
Merci
Jean-François

nojhamster · 2022-11-14T12:52:50Z

Bonjour !

Désolé pour la réponse tardive. Je n'ai pas relevé de problèmes du côté du paramétrage, en revanche je remarque que le parseur ne retourne pas de champ rtype, ce qui doit expliquer l'absence de dédoublonnage.

Pour fonctionner correctement, le dédoublonneur a besoin d'un identifiant d'utilisateur (champ session, login ou host selon ce qui est présent), d'un identifiant de ressource (champ unitid) et d'un type de ressource (champ rtype). C'est sur la base de ces 3 informations que les ECs sont comparés pour savoir s'il s'agit de bien de la même consultation.

Si le type de la ressource est connu, le plus simple est d'ajouter le champ rtype en sortie du parseur. Si le type ne peut être déterminé via l'URL, il peut être ajouté par un middleware, tant que l'enrichissement se fait avant le dédoublonnage.

Si l'ajout du rtype pose problème, nous pouvons également envisager de rendre sa présence optionnelle via un header.

jfriviere · 2022-11-25T12:26:59Z

Bonjour,

A mon tour désolé pour le temps de réponse.
Donc ce n'est pas un bug mais un problème d'utilisation du middleware.

Nous n'avons en fait aucun des champs nécessaires !

pas de session, login ou host mais un champ session_id
pas de unitid, mais un champ doc_id
pas de rtype mais un champ type

Est-ce qu'il serait envisageable de passer en paramètre les noms des champs à utiliser comme session, unitid, rtype ?

Sinon, ce n'est pas grave. Je me pencherai sur la question de notre côté pour ajouter ces champs.

Et en attendant, les calculs que nous produisons en sortie gèrent de toute façon les duplicates sur la base d'un champ log_id (hash de la ligne de log).

Merci

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

deduplicator ne deduplicate pas #36

deduplicator ne deduplicate pas #36

jfriviere commented Nov 3, 2022

nojhamster commented Nov 14, 2022

jfriviere commented Nov 25, 2022

deduplicator ne deduplicate pas #36

deduplicator ne deduplicate pas #36

Comments

jfriviere commented Nov 3, 2022

nojhamster commented Nov 14, 2022

jfriviere commented Nov 25, 2022